语音辨识技术於蓝芽通讯环境之应用研究

hongwenbe
2 ℃
2019-02-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1語音辨識技術於藍芽通訊環境之應用研究ApplicationsofSpeechRecognitiontoBluetoothWirelessCommunications譚旦旭王新富何元傑王冠驊汪千綺高逸竹國立台北科技大學電機工程系Email:thtan@ntut.edu.tw摘要本論文探討語音辨識技術應用於藍芽通訊環境的可行性。首先，我們應用藍芽系統於多種距離下錄製2男3女的測試語料，並利用HTK模組所訓練的語音參考模型進行模擬實驗。接著我們實作了一套語音控制系統，此系統由藍芽模組、語音辨識模組、控制模組及機械狗組成。模擬與實作系統的測試結果顯示整合藍芽與語音辨識技術的家庭自動化之應用是可行的一個方向。關鍵詞：藍芽、語音辨識、家庭自動化一、簡介經過三十多年來的發展，語音辨識技術已臻成熟的地步[1]，目前已有許多語音辨識系統被開發出來，並成功地應用在人類日常生活中，例如我們可以使用語音輸入取代按鍵輸入[2]、以聲控方式撥打手機[3]、及以手機進行語音下單[4]等。由手機、個人電腦、消費性電子以及娛樂性產品等，處處可見語音辨識的應用，語音辨識技術不但使正常人的生活更便利，也可大幅提昇殘障人士的生活品質。家庭自動化是人類一直追求的目標，也陸續有各式各樣的系統被開發出來。但多數仍存在有線的束縛，且控制方式仍多採手動按鍵等缺點，為改善上述情況，本研究擬結合藍芽（Bluetooth）無線通訊及語音辨識(SpeechRecognition)技術以擺脫有線環境的束縛，進一步提昇家庭自動化的品質。目前整合藍芽及語音辨識之研究尚未見文獻探討，故其應用仍屬萌芽期。由於藍芽需要的功率很低且適用於短距離傳輸，因此符合一般家庭環境之需求，若能輔以語音辨識之便利性，將更具應用價值，可為人類在家庭自動化之應用提供更好的解決方案。本論文第二節將介紹藍芽無線技術。第三節將敘述語音辨識技術。為了驗證語音辨識於藍芽通訊環境之可行性，第四節將以電腦軟體評估語音辨識率並分析其效能。第五節實作一套無線藍芽語音辨識系統，以語音控制機械狗。第六節為結論。二、藍芽藍芽[5]是一種適用於短距離傳輸（10~100公尺）的低功率無線通訊技術，其使用的2.4GHz(2.402~2.480GHz)頻道為全世界通用的免費ISM(Industrial,ScientificandMedical)頻帶。為解決公用頻道的干擾問題，藍芽使用跳頻(FrequencyHopping)技術，其工作的2.402~2.480GHz頻帶被切割成79個各為1MHz的通道(channel)，並以隨機方式選擇通道進行通訊，一般傳輸狀況下跳頻次數為1,600次/秒，每個時槽(timeslot)佔625μs。藍芽採用分時雙工（Time-Division-Duplex；TDD）及GFSK(GaussianFrequencyShiftKeying)調變技術。藍芽以SCO(SynchronousConnection-Oriented)通道傳送語音，SCO連線屬電路交換的同步傳輸型態，每一條SCO支援64Kbit/s的語音通話，一旦建立SCO通道，Master和Slave即可直接發送SCO封包，進行單點對單點的對稱連線服務。藍芽的興起對目前廣被採用的紅外線傳輸技術影響甚鉅，雖然紅外線擁有低成本的優勢，但紅外線傳輸受到須在視線範圍內連線的限制，藍芽則無此限制，且藍芽價格已逐年下降至趨近合理範圍，因此漸有取代紅外線的趨勢。表1比較藍芽與紅外線技術之差異[5-8]。三、語音辨識技術語音辨識技術主要包括訓練及測試兩大部分，在訓練部分主要是由語音中所萃取出之特徵參數建立相關之語音參考模型，測試部分則是根據訓練所得之模型對測試語料進行辨識。2本論文中，語音特徵參數的擷取方法是採用描述人耳聽覺特性的梅爾頻率倒頻譜係數(Mel-FrequencyCepstrumCoefficients)，其特徵參數的相關變數設定為32ms的音框長度、10ms的音框位移長度、Filter-Bank的階數為26階、Cepstrum階數為13階（包含語音能量參數），且採用HammingWindows[1]。而語音模型則是採用隱藏式馬可夫模型(HiddenMarkovModel,HMM)，每一模型所代表的是一特定音節(Syllable)之語音。而測試階段則是根據最大相似度法則(Maximum-Likelihood)，利用維特比演算法(ViterbiAlgorithm)進行辨識。本論文中語音模型的訓練是採用微軟公司所免費分享之HTK(HiddenMarkovModelToolkit)[9]軟體。HTK是一套用來建立和操作隱藏式馬可夫模型（HMM）的軟體，已廣泛應用於語音相關研究之模型訓練。表1藍芽與紅外線（IrDA）之比較通訊技術BluetoothIrDA使用頻段2.4GHz850~900nm調變技術GFSK無展頻技術FHSS無傳輸距離(公尺)1~10(1mW)100(100mW)1(16Mbps）5以上（75Kbps）最快傳輸速率1Mbps(10公尺以內)16Mbps(1公尺以內)資料傳輸有有輸出功率class1:100mWclass2:2.5mWclass3:1mW數mW語音傳輸有無穿透力有無接收角度無限制120成本$5~$20$1模組體積大小四、藍芽通訊環境下語音辨認之模擬實驗與效能分析圖1為藍芽通訊環境下的語音辨識模擬系統架構。語者的測試語料先由麥克風輸入藍芽模組，再以SCO通道傳至接收端，最後由PC端完成辨識之工作。圖1語音辨識模擬系統架構圖4.1測試語料之建立我們針對受控端(機械狗)的無線語音控制，規劃了九種控制指令，它們分別是：鞠躬、坐下、撒尿、點頭、搖尾巴、站好、暫停、停止、離開。我們共建立了五位語者(2男3女)的測試語料資料庫（SpeechDatabase），它們分別在5、10、20、30、40、45、46、47、48、49及50公尺之距離錄製（於實驗室外之走道），所有指令於每個距離均由每位語者唸20次。4.2語音參考模型之建立我們採用HTK軟體建立語者無關(SpeakerIndependent)之語音參考模型，訓練的語料為中華民國計算語言學學會發行之國語語音資料庫MAT-160[10]，資料庫中所有語者均以單聲道、8kHz取樣，解析度為16bits。4.3實驗結果表2為各指令於5、10、20、30、35、40及45公尺距離下測得之平均辨識率。其中最高為「停止」指令的99%，最低為「撒尿」指令的94%，平均為97.2%。表2各指令之辨識率指令鞠躬坐下暫停停止點頭撒尿站好離開搖尾巴辨識率(%)97.097.098.099.097.094.098.098.097.0平均97.2%表3顯示辨識率與無線傳送距離的關係，此結果顯示在30公尺以內的辨識率可達100%，45公尺以內仍可達90%以上，45公尺以後則開始明顯下降。表3辨識率與無線傳送距離之關係距離(m)510203040454647484950辨識率(%)10010010010097.091.086.077.072.070.032.03表4為五位測試者之平均辨識率，其測試條件同表2。此結果顯示個別辨識率均達97%以上。表4測試者之個別辨識率測試者M1M2F1F2F3辨識率(%)97.097.097.097.098.0(註：M代表男生，F代表女生)五、應用系統實作5.1系統架構本系統由四個單元組成如圖2所示，第一個單元為藍芽語音傳輸單元：由美商CSR公司生產的Casira[11]藍芽開發模組結合個人電腦組成；第二個單元為語音辨識模組，採用美商Sensory公司生產的VoiceExtremeTMToolkit[12-14]；第三個單元為控制電路（含開關電路及機械狗控制器），它提供語音辨識後之控制信號轉換；第四個單元為受控裝置，以美商TigerElectronics公司出產的i-Cybie[15]機械狗模擬多功能家電，圖3為應用系統實體圖。圖2系統架構圖藍芽語音傳輸單元CSR公司藍芽開發模組Casira（如圖4）之BlueChat應用程式，提供用戶在兩個藍芽設備間建立ACL連線以傳送資料或建立SCO連線以傳送語音資料，本系統選擇AudioType建立SCO連線。語音辨識模組本系統使用的語音辨識模組是美商Sensory公司出產的VoiceExtremeTMToolkit，如圖5所示。圖3應用系統實體圖HeadsetSocketRS232PortUSBPortPowerLEDPowerSocket圖4CSRCasira開發模組圖5VoiceExtremeTMToolkit架構圖我們在電腦上利用VoiceExtremeTM之VE–CLanguage撰寫機械狗之控制程式，並利用RS-232連4接埠將程式下載至VoiceExtremeTMToolKit之核心模組。另將Casira之語音控制端（HeadsetSocket）與語音辨識模組的外部麥克風輸入孔（ExternalMicrophoneJack）及外部喇叭輸出孔（ExternalSpeakerJack）作連接，讓使用者依據程式的提示語進行訓練及辨識。我們應用語音辨識模組中的SpeakerDependent（SD）模式進行語音辨識。此晶片辨識工作包括訓練及辨識兩部分，至多可以辨識64個語音指令，訓練的語料儲存於flashmemory中。控制電路機械狗的原始設計是以紅外線接收控制訊號，因無法改裝，所以在設計控制電路時，必須將機械狗的遙控器電路保留，遙控器上有十四顆按鍵，可以搖控機械狗的各種動作。我們從機械狗遙控器的電路板上，找出八個接點，並重新編碼以取代原先十四個按鍵的功能。VoiceExtremeTMToolKit提供的I/OPins分為I/O0（以P0.x表示）及I/O1（以P1.x表示），各有八隻I/OPin，但是扣除原先已經定義使用的RS232（P0.0、P0.1及P1.7）、按鍵（P1.0、P1.1及P1.2）、內部快閃記憶體更新（P0.5及P0.6），正好剩八個腳分別是P0.2、P0.3、P0.4、P0.7和P1.3、P1.4、P1.5、P1.6可供使用，如表5所示。表5VoiceExtremeTMToolkitI/OPins當使用者按下SwitchB鍵時，VoiceExtremeTMToolKit語音辨識模組會發出語音提示：「請下命令」，等待使用者說出「鞠躬」、「點頭」、「坐下」…等語音指令，若正確完成辨識程序，則會回應「完成辨識」，否則發出「無法辨識」等待使用者重新下令；當辨識完成時，VEToolKit上的八隻I/OPIN腳會送出對應的控制訊號到TTLIC74LS244（三態緩衝閘），74LS244是用來確保從VEToolKit送來的高電位能在下一級CMOSIC4016（對稱傳輸開關）提供穩定的高電位，以設定兩個接點能夠導通，俾達成原來遙控器按下按鍵的功能，以送出控制訊號給機械狗做出正確動作。機械狗i-Cybie（機械狗）由TigerElectronics公司所生產，其構造大致如圖6所示：內部骨骼電池箱頭部按鈕微型處理器電線控制編碼器圖6i-Cybie結構圖5.2系統效能測試為了驗證本系統的效能，我們進行與第四節相同的測試項目。測試環境：利用實驗室外的走道進行(1)12種傳輸距離於5、10、20、30、40、45、46、47、48、49、50公尺等11種距離實測系統的辨識效能。(2)測試者：本次試驗的測試者同樣為2男3女。語音模組的辨識程式被設計成SD模式，因此在測試語音之前必須先經過訓練的動作，所以藍芽在接收語音後，語音辨識模組配合程式的設計將輸入的語音指令，分別進行訓練或辨識。接下來我們要透過語音辨識模組對機械狗下指令，當語音辨識模組在接收到指令並經過辨識之後，機械狗就會在語音辨識模組的控制下產生指定的動作。圖7及圖8是訓練和辨識的流程圖：5測試流程(1)按下語音辨識模組上的SwitchA鍵，進入訓練模式。(2)依照語音提示依序對每個語音指令，個別訓練語音參考模型，以供辨識之用。(3)訓練完成之後，即可按下語音辨識模組上的