計(jì)算語(yǔ)言學(xué)（漢文部分）

發(fā)布時(shí)間：2021-12-09 10:56:24 | 來(lái)源：中國(guó)藏學(xué)研究中心 | 作者： | 責(zé)任編輯：

四、計(jì)算語(yǔ)言學(xué)

（一）算法和知識(shí)庫(kù)研究

算法研究在計(jì)算語(yǔ)言學(xué)領(lǐng)域一直是熱點(diǎn)。相關(guān)的研究成果主要有：向令、扎西加、馬偉珍、盧超等的《基于貝葉斯算法的藏語(yǔ)拼寫(xiě)檢查的研究與實(shí)現(xiàn)》（《科技創(chuàng)業(yè)月刊》第 11期），拉巴頓珠、歐珠的《現(xiàn)代藏文基字識(shí)別的算法設(shè)計(jì)》（《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第 1期），拉金措、安見(jiàn)才讓的《藏文機(jī)構(gòu)名的識(shí)別算法研究》（《電子技術(shù)與軟件工程》第 14期），劉昕、安見(jiàn)才讓的《藏文 WEB文檔分類(lèi)算法》（《微型電腦應(yīng)用》第 8期），陳碩、趙棟材、周歡歡的《基于匹配算法的藏文自動(dòng)分詞》（《電子技術(shù)與軟件工程》第 1期）等。

向令、扎西加、馬偉珍、盧超等的《基于貝葉斯算法的藏語(yǔ)拼寫(xiě)檢查的研究與實(shí)現(xiàn)》一文，首先讀取待要檢查的詞匯到三叉樹(shù) TST.java，根據(jù)貝葉斯轉(zhuǎn)換之后在三叉樹(shù)中進(jìn)行前綴查詢(xún)，查到以這個(gè)詞開(kāi)頭的搜索詞匯，并對(duì)詞匯頻率進(jìn)行了排序，采用的 Java中 list，最后根據(jù)該序列給出拼寫(xiě)檢查的建議。拉巴頓珠、歐珠的《現(xiàn)代藏文基字識(shí)別的算法設(shè)計(jì)》一文，依據(jù)藏文文法，嚴(yán)格遵循現(xiàn)代藏文音節(jié)字的結(jié)構(gòu)特征，設(shè)計(jì)了現(xiàn)代藏文音節(jié)字的基字識(shí)別算法，并對(duì)不符合現(xiàn)代藏文構(gòu)字規(guī)則的高頻字進(jìn)行了特殊處理，設(shè)計(jì)實(shí)現(xiàn)了現(xiàn)代藏文音節(jié)字的基字識(shí)別軟件。該軟件對(duì) 18785個(gè)現(xiàn)代藏文音節(jié)字進(jìn)行測(cè)試，識(shí)別率達(dá)到 100%。拉金措、安見(jiàn)才讓的《藏文機(jī)構(gòu)名的識(shí)別算法研究》一文，對(duì)未登錄詞中藏文機(jī)構(gòu)名的結(jié)構(gòu)及其在文本中的出現(xiàn)進(jìn)行了深入的研究，建立了藏文機(jī)構(gòu)名特征詞庫(kù)與前部詞構(gòu)造規(guī)則庫(kù)，在此基礎(chǔ)上提出了藏文機(jī)構(gòu)名的識(shí)別算法。劉昕、安見(jiàn)才讓的《藏文 WEB文檔分類(lèi)算法》一文，針對(duì)藏文 WEB文檔分類(lèi)中 KNN算法計(jì)算復(fù)雜度高的缺點(diǎn)，提出了一種基于 Java Bean模式的并行算法，其關(guān)鍵部分的時(shí)間計(jì)算復(fù)雜度從O（n2）降為O（log（n）），該算法與經(jīng)典的串行算法相比，能顯著地提高分類(lèi)速度。陳碩、趙棟材、周歡歡的《基于匹配算法的藏文自動(dòng)分詞》一文，采用了正向最大匹配和逆向最大匹配算法相結(jié)合的方式進(jìn)行藏文分詞，通過(guò)分別計(jì)算兩種分詞結(jié)果的頻率，然后選擇頻率較大的一個(gè)。最終，通過(guò)對(duì) 26個(gè)不同大小的文本對(duì)該系統(tǒng)進(jìn)行測(cè)試和分析，得出了分詞準(zhǔn)確率在 92%以上的結(jié)論。才讓叁智、趙棟材的《基于 DIV標(biāo)簽分段的藏文網(wǎng)頁(yè)正文提取研究》（《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第 1期）一文，針對(duì)藏文電子文獻(xiàn)資源匱乏、文本資源不規(guī)整、收集困難等問(wèn)題，提出了基于 DIV標(biāo)簽分段的藏文網(wǎng)頁(yè)正文提取算法，該算法將原始網(wǎng)頁(yè)信息分割為頁(yè)面信息中與 DIV元素等量的信息段，再對(duì)段中標(biāo)簽等非正文信息進(jìn)行刪除，最終形成該頁(yè)正文。實(shí)驗(yàn)表明，正文提取結(jié)果準(zhǔn)確、通用性強(qiáng)，適用于互聯(lián)網(wǎng)上不同模型的藏文網(wǎng)頁(yè)。

涉及知識(shí)庫(kù)方面的研究有丁海蘭、祁坤鈺的《基于依存句法的藏文屬格結(jié)構(gòu)統(tǒng)計(jì)研究》（《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第 2期）一文。文章從句法功能的角度對(duì)屬格助詞在藏文名詞短語(yǔ)中的結(jié)構(gòu)及功能進(jìn)行分析研究，從句法結(jié)構(gòu)上總結(jié)和歸納了其結(jié)構(gòu)特征，為多語(yǔ)言句法結(jié)構(gòu)樹(shù)庫(kù)和框架語(yǔ)義構(gòu)建提供最基本的語(yǔ)法信息。

關(guān)于標(biāo)準(zhǔn)的討論。龍從軍、劉匯丹、安波、才華、吳健等的《藏文編碼字符集標(biāo)準(zhǔn)應(yīng)用中的問(wèn)題及對(duì)策》（《信息技術(shù)與標(biāo)準(zhǔn)化》第 1期）一文，通過(guò)大規(guī)模文本統(tǒng)計(jì)，找出了 90組同形異碼實(shí)例；分析發(fā)現(xiàn)，藏文文本中同形異碼現(xiàn)象是國(guó)際編碼集中同時(shí)存在單字符編碼和組合字符編碼導(dǎo)致的。描述了各種可能產(chǎn)生同形異碼的字符，從改進(jìn)國(guó)際編碼字符集和改進(jìn)輸入法等方面提出了一些建議。

（二）實(shí)用技術(shù)平臺(tái)及軟件開(kāi)發(fā)研究

相關(guān)的研究成果有：李苗苗、高定國(guó)、普次仁、扎西倉(cāng)覺(jué)等人的《藏文字頻統(tǒng)計(jì)軟件的設(shè)計(jì)與實(shí)現(xiàn)》（《電腦知識(shí)與技術(shù)》第 4期），普次仁、李苗苗的《藏文音節(jié)字的頻次統(tǒng)計(jì)》（《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第 1期），陳小瑩、艾

金勇的《基于小字符集藏文拉丁轉(zhuǎn)寫(xiě)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》（《中文信息學(xué)報(bào)》第29期），巴桑卓瑪、高定國(guó)的《藏文電子詞典的設(shè)計(jì)與實(shí)現(xiàn)》（《信息與電腦》理論版第 12期），袁斌、江濤、西熱卓嘎、德吉巴宗、魏興海、雪靈、高定國(guó)等人的《基于 Android平臺(tái)的藏文活字帖的開(kāi)發(fā)》（《信息與電腦》理論版第 1期）、尕桑才讓、安見(jiàn)才讓的《基于 Android平臺(tái)實(shí)現(xiàn)本地化技術(shù)和加載藏文字體》（《電腦知識(shí)與技術(shù)》第 6期），童英華、耿生玲的《基于 ARM的嵌入式藏文電子閱讀器的設(shè)計(jì)與實(shí)現(xiàn)》（《電子設(shè)計(jì)工程》第 1期），才智杰、才讓卓瑪?shù)摹恫匚淖址南蛄磕Ｐ图皹?gòu)件特征分析》（《中文信息學(xué)報(bào)》第 2期）等。

李苗苗、高定國(guó)、普次仁、扎西倉(cāng)覺(jué)等人的《藏文字頻統(tǒng)計(jì)軟件的設(shè)計(jì)與實(shí)現(xiàn)》一文，根據(jù)藏文音節(jié)的特性，結(jié)合 Unicode藏文基本集的編碼特征，提出了計(jì)算機(jī)統(tǒng)計(jì)藏文字頻的方法，設(shè)計(jì)實(shí)現(xiàn)了藏文字頻統(tǒng)計(jì)軟件。普次仁、李苗苗的《藏文音節(jié)字的頻次統(tǒng)計(jì)》一文，以 1.5億藏文字符的藏文平衡語(yǔ)料庫(kù)——大型藏文基礎(chǔ)語(yǔ)料庫(kù)為統(tǒng)計(jì)源，提出了非藏文字符和 93個(gè)特殊藏文字符作為音節(jié)分隔符來(lái)識(shí)別藏文音節(jié)字的方法，設(shè)計(jì)實(shí)現(xiàn)了藏文音節(jié)字頻次統(tǒng)計(jì)。陳小瑩、艾金勇的《基于小字符集藏文拉丁轉(zhuǎn)寫(xiě)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》一文，在前人有關(guān)藏文拉丁轉(zhuǎn)寫(xiě)研究的基礎(chǔ)上，設(shè)計(jì)并實(shí)現(xiàn)了基于小字符集方案的藏文拉丁轉(zhuǎn)寫(xiě)系統(tǒng)。文章通過(guò)對(duì)小字符集編碼方案的特征分析，提出了基于小字符集編碼的藏文拉丁轉(zhuǎn)寫(xiě)算法，并對(duì)具體算法策略進(jìn)行了分析和說(shuō)明，最后在Windows平臺(tái)進(jìn)行了程序的實(shí)現(xiàn)。巴桑卓瑪、高定國(guó)的《藏文電子詞典的設(shè)計(jì)與實(shí)現(xiàn)》一文，根據(jù)藏文傳統(tǒng)卡片式詞典中存在的一些問(wèn)題，設(shè)計(jì)出一款藏文電子詞典。該系統(tǒng)不僅克服了藏文傳統(tǒng)卡片式詞典中存在的問(wèn)題，而且實(shí)現(xiàn)了藏文電子詞典中的各個(gè)功能。最后通過(guò)系統(tǒng)的整體測(cè)試取得較好的成果，并已達(dá)到了高效的應(yīng)用程度。袁斌、江濤、西熱卓嘎、德吉巴宗、魏興海、雪靈、高定國(guó)等人的《基于 Android平臺(tái)的藏文活字帖的開(kāi)發(fā)》一文，在研究藏文書(shū)法的特點(diǎn)的基礎(chǔ)上，選擇了最常用的三種藏文字體，在 Android平臺(tái)上實(shí)現(xiàn)了藏文活字帖，實(shí)現(xiàn)了藏文書(shū)寫(xiě)筆順演示、字帖臨摹練習(xí)和軟件有關(guān)設(shè)置三種功能。尕桑才讓、安見(jiàn)才讓的《基于 Android平臺(tái)實(shí)現(xiàn)本地化技術(shù)和加載藏文字體》一文，認(rèn)為藏語(yǔ)文適應(yīng)現(xiàn)代化的發(fā)展，首要的問(wèn)題就是實(shí)現(xiàn)藏文的信息輸入，如何快速準(zhǔn)確地利用手機(jī)輸入藏文信息，對(duì)藏族人或研究藏文化的人而言非常重要。童英華、耿生玲的《基于 ARM的嵌入式藏文電子閱讀器的設(shè)計(jì)與實(shí)現(xiàn)》一文，利用 ARM9嵌入式開(kāi)發(fā)平臺(tái)，通過(guò)擴(kuò)展 SDRAM模塊、USB模塊、以太網(wǎng)控制模塊和觸摸屏模塊，結(jié)合 QT技術(shù)，設(shè)計(jì)了一款嵌入式藏文電子閱讀器。論文給出了系統(tǒng)的總體架構(gòu)，硬件實(shí)現(xiàn)原理框圖及軟件設(shè)計(jì)流程。實(shí)驗(yàn)結(jié)果表明，該系統(tǒng)成功實(shí)現(xiàn)了全藏化的閱讀器應(yīng)用程序界面，并可以支持 TXT、HTML、PDF、DOC格式的藏文電子書(shū)的正常顯示、閱讀和編輯，同時(shí)可進(jìn)行BMP、JPEG、PNG等格式的圖片文件的瀏覽，系統(tǒng)運(yùn)行穩(wěn)定、安全可靠，使用便捷靈活。才智杰、才讓卓瑪?shù)摹恫匚淖址南蛄磕Ｐ图皹?gòu)件特征分析》一文，分別建立了藏文字及藏文字符串的向量模型 VMTT、VMTS和藏文字符串的稀疏域模型 SLM，并在向量模型和稀疏域模型上研究了藏文字符的構(gòu)件特征。

此外涉及藏語(yǔ)文信息處理方面的研究成果有：鮑永慶、袁建、達(dá)娃卓瑪、格桑央吉等人的《藏文搜索引擎關(guān)鍵技術(shù)分析》（《西藏科技》第 2期）一文，針對(duì)當(dāng)前主流藏文搜索引擎的情況進(jìn)行了介紹。劉文香的《基于國(guó)際標(biāo)準(zhǔn)編碼的藏文前加字校對(duì)模型研究》（《甘肅高師學(xué)報(bào)》第 1期）一文，介紹了藏文前加字的音勢(shì)搭配規(guī)則，提出了藏文前加字與基字的搭配規(guī)則模型，運(yùn)用前加字與基字的搭配規(guī)則模型對(duì)藏文文本中出現(xiàn)的錯(cuò)別字進(jìn)行校對(duì)，為藏文音節(jié)規(guī)則校對(duì)模型打下基礎(chǔ)，為完成藏文自動(dòng)校對(duì)提供基礎(chǔ)性研究資料。李廷鵑的《青海省藏語(yǔ)信息化主動(dòng)推送服務(wù)平臺(tái)應(yīng)用與實(shí)踐》（《農(nóng)業(yè)科技與信息》第 23期）一文，闡述了青海省藏語(yǔ)信息化服務(wù)平臺(tái)的應(yīng)用情況以及對(duì)藏區(qū)同胞生產(chǎn)生活產(chǎn)生的積極作用，分析了藏語(yǔ)信息化主動(dòng)推送服務(wù)存在的問(wèn)題。何東琴、屈兵的《基于開(kāi)源 Word Press構(gòu)建藏文網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)》（《福建電腦》第 5期）一文認(rèn)為，Word Press是一款個(gè)人博客系統(tǒng)，它使用 PHP語(yǔ)言和 My SQL數(shù)據(jù)庫(kù)?；?Word Press構(gòu)建藏文網(wǎng)站，首先可以解決字符編碼，其次可以節(jié)約時(shí)間和打破空間的限制，再者可以使網(wǎng)頁(yè)內(nèi)容和功能更加豐富。才讓草的《淺析甘南州藏文科技文獻(xiàn)資源共享平臺(tái)建設(shè)》（《科技經(jīng)濟(jì)導(dǎo)刊》第 13期）一文淺析甘南州藏文科技文獻(xiàn)資源共享平臺(tái)建設(shè)存在的問(wèn)題，采用國(guó)內(nèi)文獻(xiàn)資源共享平臺(tái)架設(shè)與運(yùn)營(yíng)的成功經(jīng)驗(yàn)，提出建立甘南州藏文科技文獻(xiàn)信息資源共享服務(wù)平臺(tái)的建議和設(shè)想。劉芳、關(guān)白的《現(xiàn)代藏文中詞的自動(dòng)校對(duì)方法研究》（《電腦知識(shí)與技術(shù)》第 19期）一文，根據(jù)藏文詞錯(cuò)誤的類(lèi)型，分別提出了對(duì)應(yīng)的校對(duì)方法。郭曉軍、何磊、王亮、黃操的《藏文 Web網(wǎng)頁(yè)的信息隱藏研究》（《實(shí)驗(yàn)室研究與探索》第 8期）一文，針對(duì)藏文 Web頁(yè)面信息隱藏技術(shù)隱蔽性差、隱藏容量小、抗干擾性弱問(wèn)題，提出了一種具有同步機(jī)制的藏文 Web頁(yè)面信息隱藏方法。該方法先對(duì)秘密消息的二進(jìn)制序列進(jìn)行置亂處理，添加具有同步性的巴克爾碼以形成新消息序列，并通過(guò)改變 HTML標(biāo)簽屬性名稱(chēng)的大小寫(xiě)狀態(tài)來(lái)表示該序列中的 0或 1，實(shí)現(xiàn)秘密消息在藏文 Web頁(yè)面內(nèi)的隱藏。實(shí)驗(yàn)結(jié)果表明該方法在保證隱蔽性的情況下，能有效提高隱藏容量，在隨機(jī)擾亂程度較大時(shí)具有更好的魯棒性。

涉及自然語(yǔ)言處理的有：袁斌、江濤、于洪志的《基于語(yǔ)義空間的藏文微博情感分析方法》（《計(jì)算機(jī)應(yīng)用研究》第 3期），扎西本、安見(jiàn)才讓的《藏文句子的情感傾向研究》（《電腦知識(shí)與技術(shù)》第 6期），才智杰、才讓卓瑪?shù)摹恫匚?/span>字形結(jié)構(gòu)分布研究》（《中文信息學(xué)報(bào)》第 4期），馬偉珍、陳碩、趙棟材的《基于 HMM的藏文詞性標(biāo)注的研究與實(shí)現(xiàn)》（《信息安全與技術(shù)》第 2期），冷毛措、張有誼的《小學(xué)藏文教材中詞性的分布情況研究》（《電腦知識(shí)與技術(shù)》第 6期），多杰卓瑪?shù)摹恫匚拿~短語(yǔ)的語(yǔ)義研究》（《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第 3期）等。

袁斌、江濤、于洪志的《基于語(yǔ)義空間的藏文微博情感分析方法》一文，結(jié)合藏文句法結(jié)構(gòu)和語(yǔ)義特征向量構(gòu)建語(yǔ)義特征空間，提出了一種基于語(yǔ)義空間的藏文微博情感分析方法。首先使用句法樹(shù)生成句法結(jié)構(gòu)并結(jié)合語(yǔ)義特征向量構(gòu)建特征空間，運(yùn)用 K-means方法聚類(lèi)形成語(yǔ)義簇質(zhì)心，將基于簇的 TF-IDF值作為最終的微博情感特征值。實(shí)驗(yàn)結(jié)果表明，該方法的情感分類(lèi)效果均優(yōu)于SVM+TF-IDF和 naive Bayes+最大熵的方法。扎西本、安見(jiàn)才讓的《藏文句子的情感傾向研究》（《電腦知識(shí)與技術(shù)》第 6期）一文，從句子的結(jié)構(gòu)研究了情感詞的提取及句子情感傾向。才智杰、才讓卓瑪?shù)摹恫匚淖中谓Y(jié)構(gòu)分布研究》一文，通過(guò)分析藏文字形結(jié)構(gòu)的特征，將藏文字的字形結(jié)構(gòu)分成獨(dú)體字和合體字，合體字按其構(gòu)件的結(jié)構(gòu)位和所含構(gòu)件數(shù)進(jìn)行分類(lèi)。設(shè)計(jì)了藏文字形結(jié)構(gòu)統(tǒng)計(jì)系統(tǒng)模型和算法，從約含 8500萬(wàn)藏文字的 450M語(yǔ)料中對(duì)藏文字形結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)，建立了藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)表，并對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行了分析。馬偉珍、陳碩、趙棟材的《基于 HMM的藏文詞性標(biāo)注的研究與實(shí)現(xiàn)》一文，采用基于隱馬爾科夫模型的 Viterbi算法進(jìn)行詞性標(biāo)注，詞性標(biāo)記規(guī)范參考了北大計(jì)算機(jī)研究所的詞性標(biāo)注規(guī)范的標(biāo)記集。對(duì)于未登錄的藏文詞語(yǔ)，采用了基于統(tǒng)計(jì)和規(guī)則的二元語(yǔ)法統(tǒng)計(jì)模型進(jìn)行處理。通過(guò)對(duì)該系統(tǒng)進(jìn)行自動(dòng)標(biāo)注的文本與人工手動(dòng)完成藏文詞性標(biāo)注的文本進(jìn)行測(cè)試和對(duì)比，得出了該系統(tǒng)詞性標(biāo)注正確率在 89%以上。冷毛措、張有誼的《小學(xué)藏文教材中詞性的分布情況研究》（《電腦知識(shí)與技術(shù)》第 6期）一文以小學(xué)藏語(yǔ)文教材為語(yǔ)料，利用計(jì)算機(jī)對(duì)教材中藏語(yǔ)詞的頻次、數(shù)量等信息做出統(tǒng)計(jì)，進(jìn)而摸索出目前藏語(yǔ)文教材編輯中藏語(yǔ)詞性的分布規(guī)律，目的在于給藏語(yǔ)詞的安排、重要程度等是否科學(xué)合理，即是否符合各個(gè)年齡段藏族學(xué)生對(duì)知識(shí)的接受狀況，提供參考。多杰卓瑪?shù)摹恫匚?/span>名詞短語(yǔ)的語(yǔ)義研究》一文，在藏文網(wǎng)絡(luò)語(yǔ)料的基礎(chǔ)上，就“N1+N2”結(jié)構(gòu)的名詞短語(yǔ)進(jìn)行舉例分析，包括它的結(jié)構(gòu)類(lèi)型、組成成分、句法及語(yǔ)義功能的分析，給出了名詞短語(yǔ)的線(xiàn)性結(jié)構(gòu)組合形式和詞性結(jié)構(gòu)擴(kuò)展模式，細(xì)化了它的主要組成成分，從句法和語(yǔ)義的層面出發(fā)，挖掘了該結(jié)構(gòu)所蘊(yùn)涵的句法關(guān)系和語(yǔ)義特征。

相關(guān)的研究還有：普布次仁的《詞庫(kù)開(kāi)放型藏文詞典軟件的實(shí)現(xiàn)——以Goldendict詞典為例》（《西藏科技》第 1期）一文，以詞庫(kù)開(kāi)放型 Goldendict詞典為例，著重探討了如何打造多平臺(tái)下的藏文詞典軟件。于詩(shī)畫(huà)、趙小兵的《藏文自動(dòng)分詞技術(shù)研究綜述》（《科技視界》第 6期）一文，主要從藏文自動(dòng)分詞的意義、國(guó)內(nèi)研究現(xiàn)狀、分詞方法，以及目前所面臨的主要問(wèn)題等方面來(lái)簡(jiǎn)單闡述藏文自動(dòng)分詞技術(shù)的相關(guān)內(nèi)容。張?jiān)蒲蟮摹陡咝D書(shū)館藏文圖書(shū)編目與流通工作探討——以西藏大學(xué)圖書(shū)館為例》（《農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊》第 2期）一文，認(rèn)為藏文圖書(shū)的編目與流通是藏區(qū)高校圖書(shū)館的重要工作，但目前各文獻(xiàn)收藏單位對(duì)藏文文獻(xiàn)的著錄處于各自為政的狀態(tài)，為了實(shí)現(xiàn)館藏文獻(xiàn)的統(tǒng)一管理和MARC數(shù)據(jù)共享，建議對(duì)藏文圖書(shū)使用中圖法進(jìn)行分類(lèi)，使用漢文和藏文兩種文字進(jìn)行著錄。

龍從軍、劉匯丹所著《藏文自動(dòng)分詞的理論與方法研究》（知識(shí)產(chǎn)權(quán)出版社）一書(shū)，是作者十多年研究藏文分詞的經(jīng)驗(yàn)總結(jié)，書(shū)中介紹了藏語(yǔ)分詞的問(wèn)題及處理策略，并配套了語(yǔ)料庫(kù)和分詞軟件，實(shí)現(xiàn)了基礎(chǔ)研究和應(yīng)用研究相結(jié)合的研究突破。該書(shū)有以下幾個(gè)方面的貢獻(xiàn)：（1）手工切分百萬(wàn)級(jí)分詞語(yǔ)料，為藏語(yǔ)分詞采用統(tǒng)計(jì)模型奠定了基礎(chǔ)，解決了藏語(yǔ)分詞資源“無(wú)米之炊”的薄弱狀況；（2）從手工切分中詳細(xì)總結(jié)和描述了藏語(yǔ)分詞單位切分的基本原則，該原則已經(jīng)由教育部語(yǔ)信司作為國(guó)家標(biāo)準(zhǔn)草案正式出版；（3）經(jīng)過(guò)多次實(shí)驗(yàn)，提出的疑似黏寫(xiě)切分方法是所有黏寫(xiě)切分方法中效果最好的方法；（4）以數(shù)字為切分單位，解決了藏語(yǔ)中數(shù)詞和阿拉伯?dāng)?shù)詞的切分處理，有效避免了未登錄數(shù)詞的切分錯(cuò)誤；（5）提出的基于字性標(biāo)注的分詞和詞性預(yù)測(cè)方法進(jìn)一步改善了未登錄的切分效果；（6）基于配套語(yǔ)料庫(kù)和一系列的切分理論開(kāi)發(fā)的藏語(yǔ)分詞軟件，切分正確率達(dá)到 95%。已經(jīng)在網(wǎng)絡(luò)上公布試用。