計算語言學(漢文部分)——分詞、標注與識別

發(fā)布時間:2023-05-23 16:22:27 | 來源:中國藏學研究中心 | 作者: | 責任編輯:

二、計算語言學

計算語言學是涉及語言學、計算機科學和自然語言處理、語言信息化建設等多門學科的綜合性交叉學科,藏語計算語言學主要涉及藏語計算處理理論,詞法、句法和語義階段重要的分析算法及語料庫的設計與實踐,運用不同算法對語料進行標注,分詞是計算語言學關注的重點,也是藏文信息化建設的關鍵。本文根據(jù)研究的不同側(cè)重將相關研究成果作一簡單分類,鑒于研究內(nèi)容有很多屬交集,若有分類不合適的還望專家多提寶貴意見。

(一)分詞、標注與識別

藏文分詞、標注和識別是進行各類藏文自然語言處理的基礎,藏文分詞的結(jié)果直接影響其他自然語言處理任務的性能。桑杰端珠、才讓加《神經(jīng)網(wǎng)絡藏文分詞方法研究》(《青??萍肌返?期)一文,通過對CNN、BiLSTM、和CRF三種網(wǎng)絡的有效組合,提出一種藏文分詞的神經(jīng)網(wǎng)絡構(gòu)架,使分詞模型在測試數(shù)據(jù)集上的準確率、召回率和F1值分別達到了93.4%、94.2%和94.1%,超越了各類基準模型的表現(xiàn)。道吉仁青、安見才讓《藏文終結(jié)詞與離合詞的識別算法研究》(《信息通信》第4期)一文,用正則表達式識別藏語終結(jié)詞與離合詞,提出了一種計算機識別藏文終結(jié)詞與離合詞的算法,并用18232個句子(包含241272個藏文字)進行了實驗,通過實驗得出藏文終結(jié)詞識別準確率達99.89%,離合詞識別準確率達90.18%。色差甲、貢保才讓、才讓加《基于最大和HMM的藏文新詞識別對比研究》(《青海師范大學學報》自然科學版第1期)一文,首先使用序列標注方法來識別藏文新詞,對多種題材共15萬藏文句子進行統(tǒng)計建模,最后對3087句(其中包含12348個新詞)開放語料進行測試,實驗結(jié)果表明將規(guī)則嵌入到最大熵模型比嵌入到HMM模型中的正確率、召回率都高。張日培、姜占才《基于特征的藏文音節(jié)識別算法》(《電子設計工程》第20期)一文,以音節(jié)為基元,選擇并提取音節(jié)中由字符列投影變換組成的特征向量,以此建立音節(jié)特征庫;通過查表算法對藏文音節(jié)進行識別。通過理論分析和算法測試實驗證明:提取的特征向量與藏文音節(jié)一一對應,藏文音節(jié)識別率達到100%,且特征的提取過程簡便易行。該算法已經(jīng)成功應用于藏文的文語轉(zhuǎn)換系統(tǒng)。

扎西拉旦、安見才讓《藏文字結(jié)構(gòu)自動識別與形式化描述研究》(《中國信息化》第3期),一文通過研究藏文的構(gòu)件規(guī)則,結(jié)構(gòu)特征,提出了藏文組合規(guī)則和藏文字語法分析相結(jié)合的藏文字自動分解算法,進而對藏文字的字母組合進行分段處理,簡化藏文字構(gòu)件復雜度,研究出各分段部分的藏文字的構(gòu)件規(guī)則,并且按照規(guī)則進行藏文字數(shù)的統(tǒng)計。實驗表明,系統(tǒng)能有效地自動識別現(xiàn)代藏文。

洛桑嘎登、仁增多杰《基于知識反饋的藏文詞性標注研究》(《計算機時代》第7期)一文指出,提出的基于知識反饋的藏文詞性標注方法可以顯著提高詞性標注效果,準確率達到98.75%,該研究已基本滿足日常實際使用。夏吾吉、華卻才讓《基于有限狀態(tài)自動機阿拉伯數(shù)字與藏文數(shù)詞自動翻譯》(《計算機工程與科學》第3期)一文,分析并規(guī)定了阿拉伯數(shù)字和藏文數(shù)詞的結(jié)構(gòu)成分,分析藏文數(shù)詞的構(gòu)詞規(guī)律,采用最大匹配的原則實現(xiàn)了翻譯復雜數(shù)詞自動翻譯系統(tǒng)。實驗F值達到了98.02%。

版權(quán)所有 中國藏學研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號