計算語言學(xué)(漢文部分)——藏語文智能信息化專題

發(fā)布時間:2023-05-23 16:26:33 | 來源:中國藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

(四)藏語文智能信息化專題

1.信息的提取

信息的提取,不僅是自然語言處理的重要環(huán)節(jié),同時信息提取也為構(gòu)建知識圖譜、問答系統(tǒng)等應(yīng)用提供重要支撐。相關(guān)研究有:夏天賜、孫媛《基于聯(lián)合模型的藏文實體關(guān)系抽取方法研究》(《中文信息學(xué)報》第12期)一文,采用端到端的BiLSTM框架,提出了基于聯(lián)合模型抽取藏文實體關(guān)系的方法,實驗結(jié)果表明,該方法較傳統(tǒng)的基于藏文處理方式,如SVM算法和LR算法,準(zhǔn)確率提高了30%~40%。

成晨、于洪志、徐濤等《基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實體關(guān)系抽取模型研究》(《中國新通信》第19期)一文,采用基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實體關(guān)系抽取方法,在原始詞向量的基礎(chǔ)上,通過關(guān)鍵詞算法獲得類別關(guān)鍵詞特征,采用分段最大池化策略,減少傳統(tǒng)最大池化策略的信息丟失。實驗表明,該方法有利于提升藏文實體關(guān)系抽取結(jié)果。朱利娟、云中華、邊巴旺堆等的《基于極坐標(biāo)變換的脫機手寫藏文字符特征提取方法》(《計算機應(yīng)用與軟件》第3期)一文,基于向量特征,將脫機手寫藏文字符圖像進(jìn)行預(yù)處理,求出二值圖像中所有值為1的點對應(yīng)的極坐標(biāo)后將其進(jìn)行投影變換得到投影向量。使用KNN分類器對30000個脫機手寫藏文字進(jìn)行實驗,其中80%的樣本作為訓(xùn)練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù),識別率達(dá)到了96.32%。結(jié)果表明該方法的有效性,計算簡單并達(dá)到了較好的識別效果。

指代消解是文本理解和信息抽取的一項重要任務(wù)。夏吾吉、華卻才讓《基于混合策略的藏文人稱代詞指代消解研究》(《計算機工程與應(yīng)用》第7期)一文,通過對藏文人名、人稱代詞的形態(tài)特征和構(gòu)詞規(guī)律的研究,采用基于規(guī)則、最大熵模型以及規(guī)則與最大熵模型相結(jié)合的三種方法實現(xiàn)了藏文人稱代詞的指代消解系統(tǒng)。在包含2306個待消解對的藏文句子集上,經(jīng)測試分別獲得76.02%、86.21%和88.16%的F值。

2.情感標(biāo)注

情感因素對于自然語言的標(biāo)注與處理很重要。相關(guān)研究有:閆曉東、黃濤《基于情感詞典的藏語文本句子情感分類》(《中文信息學(xué)報》第2期)一文提出了一種基于極性詞典的藏語文本句子情感分析方法。實驗結(jié)果表明,利用該文構(gòu)建的詞典進(jìn)行的傾向性分析效果良好。孫本旺、田芳《藏文情感詞典的構(gòu)建及微博情感計算研究》(《計算機技術(shù)與發(fā)展》第11期)一文,針對國內(nèi)尚缺乏系統(tǒng)的藏文情感詞典,提出借助中文情感詞典資源自動構(gòu)建藏文情感詞典的方法,并基于構(gòu)建的藏文情感詞典對藏文微博進(jìn)行情感分析研究。實驗自動構(gòu)建了藏文情感詞典,包含基礎(chǔ)情感詞、程度詞、否定詞、轉(zhuǎn)折詞、雙重否定詞、藏文停用詞?;趯嶒灅?gòu)建的藏文情感詞典,與其他藏文情感詞典相比,有效地提高了藏文微博情感傾向分類的準(zhǔn)確率。實驗結(jié)果表明,該詞典達(dá)到了良好的實用性。張瑞《藏文在線評論情感分析研究綜述》(《智庫時代》第35期)一文,從藏文情感詞典的構(gòu)建、藏文句子情感分析和藏文篇章情感分析三個層面對藏文情感分析進(jìn)行研究,發(fā)現(xiàn)基于機器學(xué)習(xí)的方法是藏文情感分析研究的主流方法,今后應(yīng)加強藏文語料和情感詞典建設(shè)等基礎(chǔ)性工作。

3.算法與文本的分類與識別

運用不同的算法對藏語文進(jìn)行分類與識別,是藏語文信息處理的重要步驟。相關(guān)研究有:群諾、賈宏云《基于Logistic回歸模型的藏文文本分類研究與實現(xiàn)》(《信息與電腦》理論版第5期)一文,基于Logistic回歸模型分類器對藏文文本進(jìn)行分類,并且對Logistic算法和Gaussian NB算法進(jìn)行分類性能進(jìn)行了比較,結(jié)果顯示Logistic算法具有較好的分類效果。賈宏云、群諾等《基于SVM藏文文本分類的研究與實現(xiàn)》(《電子技術(shù)與軟件工程》第9期)一文,利用SVM(支持向量機)技術(shù)藏文文本進(jìn)行分類,包括文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進(jìn)行同等條件下的實驗對比,驗證了支持向量機模型在藏文文本分類中具有良好的分類效果。才藏太、索南才讓、才讓加《面向語言信息處理的藏語短語及其分類方法研究》(《中文信息學(xué)報》第9期)一文,根據(jù)藏語信息處理的特點和要求,在藏語短語與句子界線研究的基礎(chǔ)上,按照語法功能和便于計算機自動分析和處理的原則對短語進(jìn)行分類,并規(guī)定了信息處理中藏語短語類別單位的標(biāo)記代碼。

拉毛措《基于正則表達(dá)式的藏文屬格的識別及其檢錯算法研究》(《電子技術(shù)與軟件工程》第9期)一文,結(jié)合傳統(tǒng)的格助詞添接規(guī)則和正則表達(dá)式對屬格助詞進(jìn)行了識別和檢錯的算法研究,提出了藏文屬格助詞的識別算法,在此基礎(chǔ)上提出了基于正則表達(dá)式和消歧知識庫的屬格助詞自動檢錯算法。周雁、西繞多吉《面向藏語聲紋識別的語料庫建設(shè)》(《計算機工程與科學(xué)》第11期)一文結(jié)合藏語特點設(shè)計了一個面向藏語聲紋識別的語料庫。語料庫的文本語料來自新聞報刊、文學(xué)類、教育類、科技類、佛學(xué)類、歷史類和傳統(tǒng)文化五明類等文獻(xiàn)資料,該研究為藏語的聲紋識別研究奠定了一定的基礎(chǔ)。王德欣、卓嘎、張瑞《基于LBG的藏語字母識別算法研究》(《電子技術(shù)與軟件工程》第20期)一文,使用MATLABR2014a進(jìn)行算法的仿真,采用VQ的技術(shù)中LBG來實現(xiàn)對藏文字母的識別。此算法對藏語30個字母的語音進(jìn)行了語音預(yù)處理和端點檢測,并提取了MFCC特征參數(shù),該研究為今后藏語語音的識別有一定的借鑒作用。

文獻(xiàn)的圖像處理是近年來藏語文信息化的一個節(jié)點。相關(guān)研究有:劉芳、張云洋等《基于像素鄰域點信息的藏文圖像細(xì)化算法研究》(《計算機技術(shù)與發(fā)展》第4期)一文,根據(jù)首先對藏文數(shù)字圖像利用局部自適應(yīng)方法進(jìn)行二值化處理,再采用濾波處理噪聲方法進(jìn)行去噪處理,通過對某個像素點的八個鄰域點的連接情況,在對照矩陣中查找對應(yīng)矩陣項的值判斷該點是否能刪除,該算法在藏文字符數(shù)字圖像細(xì)化實驗中效果良好,正確率高,實用性強。張西群、馬龍龍等《基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法》(《中文信息學(xué)報》第7期)一文,利用卷積降噪自編碼器提取超像素塊的特征;使用SVM分類器對藏文歷史文獻(xiàn)的超像素塊進(jìn)行分類預(yù)測,提取出藏文歷史文獻(xiàn)版面的各個部分。實驗表明,該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離。

珠杰、仁青諾布等《論元角色的藏語語義角色標(biāo)注研究》(《高原科學(xué)研究》第3期)一文探討了藏語語義角色標(biāo)注問題,一是按照PropBank標(biāo)注規(guī)范對藏語簡單句進(jìn)行了語義角色標(biāo)注;二是依據(jù)藏語動詞的語義類別,研究了藏文語義角色框架文件建設(shè)的可行性;三是結(jié)合藏語動詞分析理論和格語法理論,在PropBank標(biāo)記基礎(chǔ)上研究了藏語特殊語義角色標(biāo)記規(guī)范和標(biāo)記方式。頭旦才讓、尼瑪扎西、完么扎西《藏語依存樹庫的構(gòu)建技術(shù)研究》(《高原科學(xué)研究》第3期)一文,建立了規(guī)模為1萬句、詞語總數(shù)為119510個、平均句長為12個詞的藏語依存樹庫,并對建立的藏語依存樹庫進(jìn)行了詞類分布統(tǒng)計,該研究為藏語依存樹庫的構(gòu)建提供了思路。

洛松求培、安見才讓《藏文網(wǎng)頁主題爬蟲系統(tǒng)的實現(xiàn)》(《電子技術(shù)與軟件工程》第10期)一文,將貝葉斯分類算法用于網(wǎng)頁文檔分類,通過樣本集本訓(xùn)練出教育、政治、宗教三類主題分類器,再與爬蟲技術(shù)結(jié)合從互聯(lián)網(wǎng)上采集與主題相似的網(wǎng)頁集合,從而滿足了用戶的個性化需求,提升了信息檢索的效率。

4.藏語文信息化建設(shè)及文獻(xiàn)回溯

藏語文信息化研究以及發(fā)展歷程梳理,對于藏語文信息化建設(shè)具有指導(dǎo)意義。相關(guān)研究有:頭旦才讓、尼瑪扎西《改革開放以來西藏藏文信息化發(fā)展綜述》(《西藏研究》第5期)一文,回顧了西藏藏文信息化發(fā)展的歷程和取得的重要成就,指出并預(yù)測今后西藏藏文信息化的發(fā)展策略與路徑。高定國《藏文信息處理研究進(jìn)展》(《廣西科學(xué)院學(xué)報》第1期)一文,簡要回顧了藏文信息處理中字、詞、句、段、篇的特點、處理方法及取得的典型成果,藏語資源建設(shè)和應(yīng)用研究取得的成果,并對藏文信息處理未來的發(fā)展方向進(jìn)行展望。李玖一、于洪志、徐濤《藏文文本聚類及其相關(guān)技術(shù)綜述》(《廣西科學(xué)院學(xué)報》第1期)一文,介紹了藏文文本聚類的應(yīng)用背景和相關(guān)概念、藏文文本特點和藏文文本聚類的相關(guān)技術(shù),討論了藏文文本建模和聚類算法,并對藏文聚類發(fā)展和應(yīng)用進(jìn)行了總結(jié)和展望。尕瑪草《論新時代藏文信息技術(shù)的應(yīng)用與發(fā)展》(《電腦迷》第9期)一文,主要對目前國內(nèi)藏文信息技術(shù)的應(yīng)用與發(fā)展?fàn)顩r進(jìn)行了介紹和評價,并在此基礎(chǔ)上探討加強藏文信息技術(shù)的應(yīng)用,進(jìn)而有效推動藏文信息技術(shù)的發(fā)展,并對進(jìn)一步加速制定藏文信息標(biāo)準(zhǔn)化提出了自己的見解。

此外,扎西當(dāng)知、多拉等《從六百余篇藏文學(xué)術(shù)論文看藏學(xué)研究40年——以詞匯計量為視角》(《中國藏學(xué)》第4期)一文,梳理了國內(nèi)25種藏文學(xué)術(shù)期刊的642篇藏文學(xué)術(shù)論文,建立語料庫,進(jìn)行分詞、詞性標(biāo)記,并通過統(tǒng)計文獻(xiàn)信息、音節(jié)、詞匯等方法,對藏文學(xué)術(shù)文章的外部信息和詞匯、音節(jié)等內(nèi)容信息進(jìn)行計量研究,從而觀察40年來國內(nèi)藏文學(xué)術(shù)研究的發(fā)展脈絡(luò)、主要研究領(lǐng)域及其發(fā)展趨勢。肖維霖《基于文獻(xiàn)計量的藏語自然語言處理研究分析》(《青藏高原論壇》第1期)一文,以中國知網(wǎng)為數(shù)據(jù)源,分析了所有與藏語自然語言處理相關(guān)的文章,用文獻(xiàn)計量學(xué)的方法從論文數(shù)量規(guī)律、機構(gòu)發(fā)展、主題研等,介紹了我國在藏語自然語言處理方面的研究發(fā)展情況。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號