實驗語音學與計算語言學(漢文部分)

發(fā)布時間:2021-11-19 17:53:49 | 來源: | 作者: | 責任編輯:

二、實驗語音學與計算語言學

2010年藏語實驗語音學的成果在整個藏語文研究成果中占據很大比例,具不完全統(tǒng)計有近30篇相關論文。鑒于藏語實驗語音學與計算語言學在研究方法和研究對象上各有偏重,在實踐過程中又互有交叉,本文將這兩個學科的研究成果放在一起進行梳理。代表性的研究成果有:楊陽蕊、周一心、于洪志《藏語音素音位系統(tǒng)的功能負擔計算》(《蘭州學刊》第1期),楊陽蕊、于洪志、李永宏《基于呼吸信號的藏語詩歌韻律研究》(《微計算機信息》第28期),王雙成、陳忠敏的《安多藏語送氣擦音的實驗研究》(《民族語文》第2期),李亮、于洪志、楊陽蕊、李永宏等的《現代藏語聲調研究現狀及方法》(《西北民族大學學報》自然科學版第1期),陳小瑩、陳晨、胡妍茹、李永宏、華侃的《基于EGG信號的安多藏語元音嗓音特征研究》(《西北民族大學學報》自然科學版第1期),陳晨、陳琪、李永宏、于洪志的《藏語語音合成語料庫的韻律標注規(guī)則設計》(《西北民族大學學報》自然科學版第1期),李永宏、于洪志、孔江平的《藏語連續(xù)語音語料庫設計與實現》(《計算機工程與應用》第13期),達哇彭措的《基于優(yōu)化Apriori算法的藏語音韻律規(guī)則研究》(《微計算機信息》第18期),李永宏、張金爽、王姝文、于洪志的《藏語新聞朗讀的呼吸信號聲學分析》(《西北民族大學學報》自然科學版第2期),高璐、陳琪、李永宏、于洪志的《藏語語音合成中文本分析的若干問題研究》(《西北民族大學學報》自然科學版第2期),韓清華、于洪志的《基于HMM的安多藏語非特定人孤立詞語音識別研究》(《軟件導刊》第7期),多杰卓瑪的《現代藏語詞語信息庫構建研究》(《電腦開發(fā)與應用》第7期),才讓卓瑪、才智杰的《基于語料庫的藏語TTS技術研究》(《青海師范大學學報》自然科學版第2期),陳小瑩、華侃、于洪志的《藏語拉薩話元音單音節(jié)嗓音聲學參數分析》(《語文學刊》第15期),廖艷莎、安亞彬、楊陽蕊、何向真的《藏語單音節(jié)聲學參數數據庫結構設計》(《隴東學院學報》第4期),劉澤國、張會慶、張環(huán)、張兆基的《結合語音學知識的藏語語音端點檢測方法研究》(《福建電腦》第8期),扎西加、頓珠次仁的《自然語言處理用藏語格助詞的語法信息研究》(《中文信息學報》第5期)等。上述成果中,對于藏語語音相關參數的實驗研究、分析和藏語聲學數據庫的建設是藏語實驗語音學界關注的重點。楊陽蕊、周一心、于洪志的《藏語音素音位系統(tǒng)的功能負擔計算》一文,以藏語的音素音位系統(tǒng)為研究對象,對拉薩話和夏河話的元音、輔音及聲調的音位功能負擔進行了量化研究,該項研究的意義在于為歷史語言中關于方言分化和聲調產生理論提供了參考基礎。韓清華、于洪志的《基于HMM的安多藏語非特定人孤立詞語音識別研究》以VC++6.0為開發(fā)平臺,實現一個基于隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)非特定人的安多藏語孤立詞語音識別系統(tǒng)。對有聲段語音進行MFCC參數的提取,對提取后的MFCC參數進行矢量量化后訓練HMM模型,形成特征模板庫,最后進行識別。根據安多藏語的特點,改進端點檢測的方法,提高了孤立詞語音信號檢測的準確性,并進一步提高了識別率。

端點檢測是語音識別中的一項關鍵技術,端點檢測的準確性對語音識別的性能有很大影響。劉澤國、張會慶、張環(huán)、張兆基的《結合語音學知識的藏語語音端點檢測方法研究》一文,將藏語語音學知識融入端點檢測過程中,同時綜合時域頻域特征,根據短時能頻值和語音能量集中區(qū)的頻域譜幅采取自適應門限方法,改進端點檢測的方法。實驗表明該方法提高了端點檢測的識別率,對于藏語語音識別起到了很好的輔助作用。

韻律是語音的一個重要特征。對韻律規(guī)則進行研究和韻律標注是藏語語音合成語料庫建設的重要環(huán)節(jié)。楊陽蕊、于洪志、李永宏等的《基于呼吸信號的藏語詩歌韻律研究》、達哇彭措的《基于優(yōu)化Apriori算法的藏語音韻律規(guī)則研究》和陳晨、陳琪、李永宏、于洪志等的《藏語語音合成語料庫的韻律標注規(guī)則設計》就是這方面的研究成果。上述研究成果為建立藏語語音合成語料庫提供了直觀的、科學的方法。

運用實驗設備和手段對藏語具體語音現象進行研究是實驗語音學的重要特征之一。相關的成果有王雙成、陳忠敏的《安多藏語送氣擦音的實驗研究》,陳小瑩、陳晨、胡妍茹、李永宏、華侃的《基于EGG信號的安多藏語元音嗓音特征研究》和陳小瑩、華侃、于洪志的《藏語拉薩話元音單音節(jié)嗓音聲學參數分析》?!栋捕嗖卣Z送氣擦音的實驗研究》一文的作者根據送氣擦音的發(fā)音機制,對安多藏語許多土語有清擦音送氣和不送氣的對立進行研究,提出在安多方言里可以用三個聲學特征來區(qū)別一般清擦音和送氣清擦音?!痘贓GG信號的安多藏語元音嗓音特征研究》和《藏語拉薩話元音單音節(jié)嗓音聲學參數分析》二文,就是通過提取元音的參數基頻,就元音之間、元音與輔音之間的組合對嗓音參數的影響進行研究,得出基頻、開商和速度商之間有很強的關聯性,各種組合方式下前置輔音對嗓音參數的影響不及輔音韻尾的影響程度、各元音由于組合方式變化對于參數影響的趨勢基本一致。

聲調研究是現代藏語語音研究的一個基礎部分,同時也為漢藏語系其他語言的研究奠定了基礎。李亮、于洪志、楊陽蕊、李永宏等的《現代藏語聲調研究現狀及方法》一文,分別從起源時間和形成條件兩方面說明藏語聲調的產生和發(fā)展,縱向闡述了藏語聲調研究及研究結果,并從聲學角度分析、論述了藏語聲調的現代語音學研究方法。

計算語言學為藏語文的信息化處理提供技術思路和技術支持保障。藏漢雙語語料庫建設對計算語言學的發(fā)展具有重要意義。語料庫的建設涉及對語料的描述、標記,數據庫的總體結構、設計與實現等多個方面。多杰卓瑪的《現代藏語詞語信息庫構建研究》一文,以語言學的理論和方法為主導,在藏文信息處理中引入了藏語詞語的信息化和形式化,并對構建的信息庫進行了結構上的總體設計,從而制定了信息處理用藏語詞語信息庫的構建原則及收詞規(guī)則,即一形一項、一時(式)一項、一義一項。為此構建了以藏文詞匯為主的音、形、義等的信息庫。

才讓卓瑪、才智杰的《基于語料庫的藏語TTS技術研究》通過比較分析國內外TTS技術的發(fā)展,提出基于語料庫的藏語TTS技術的可行性,研究了藏語TTS的文本分析模塊、語音合成模塊及語音數據庫的關鍵技術,并設計了一個完整的基于語料庫的藏語TTS系統(tǒng)。廖艷莎、安亞彬、楊陽蕊、何向真的《藏語單音節(jié)聲學參數數據庫結構設計》一文,在分析藏語三大方言音節(jié)結構基礎上設計了藏語單音節(jié)聲學參數數據庫,其中包括39項聲學參數。這些聲學參數在表征語音現象的同時,最終服務于工程語音學。李永宏、于洪志、孔江平等在《藏語連續(xù)語音語料庫設計與實現》一文中,以藏語夏河話為研究對象,建立了基于三音子的藏語連續(xù)語音語料庫,實現了語料自動選取。李永宏、張金爽、王姝文、于洪志的《藏語新聞朗讀的呼吸信號聲學分析》一文從言語生理的角度研究藏語新聞朗讀時的呼吸生理特性。主要利用統(tǒng)計學的方法研究新聞語料的男女發(fā)音人的呼吸信號的聲學表現,包括:1.選取20篇250字左右的新聞語料,進行呼吸信號的錄制;2.利用已建好的呼吸信號處理平臺,進行呼吸重置的標注,提取新聞呼吸信號的重置時長和幅度參數;3.統(tǒng)計分析新聞朗讀的三級呼吸特性,并對男女呼吸特征進行對比分析,得出呼吸重置時長和重置幅度的正相關和呼吸節(jié)奏特點。

文本分析是文語轉換系統(tǒng)的前端,是制約語音合成自然度的一個重要因素。高璐、陳琪、李永宏、于洪志的《藏語語音合成中文本分析的若干問題研究》一文在考察漢語文本分析方案的基礎上,分析藏語的特點,提出了一套適合于藏語語音合成的文本分析模塊的實現方案。文中采用最大匹配法和分詞詞庫相結合的方法實現文本的自動分詞,建立一套層次化的規(guī)則體系對文本進行規(guī)范化處理,字音轉換則通過SAMPA-ST的藏語機讀音標系統(tǒng)來實現。本研究的完成為藏語的語音合成打下了良好的基礎。扎西加、頓珠次仁的《自然語言處理用藏語格助詞的語法信息研究》一文主要探討了藏語格助詞的語法信息、語義信息、功能結構等內容,從而為建立藏語格助詞的語法屬性庫提供翔實的參數。這對句子進行分析與描述,觀察句子歧義都有著重要的意義。

版權所有 中國藏學研究中心。 保留所有權利。 京ICP備06045333號-1

京公網安備 11010502035580號