目前分類:Speech Recognition (10)
- Oct 05 Sat 2013 11:47
HTK example: Digital voice recognition -畫面展示 2
- Oct 05 Sat 2013 11:20
HTK example: Digital voice recognition -step 4
第四步我們要產生單音 (monophone) 隱藏馬可夫模型 (Hidden Markov model, HMM) 基礎模型 (template)。
首先我們新增 Models 和 Models\hmm0 資料夾,接著執行下列指令,產生基礎模型。這個基礎模型基本上是利用 <Plainhs DiagC 均切><3 個 state><1 個 Mixture><39 維>去設定這個基礎模型,並產生 template.hmm 檔案。
- Oct 05 Sat 2013 10:30
HTK example: Digital voice recognition -step 3
第三步中,我們首先要設定 Train.scp, Number_PhoneList, Number_word.mlf, Number_phone.mlf 檔案。
Train.scp 檔案紀錄語音特徵檔案路徑,我們可以透過下列指令產生 train.scp 檔案,執行之後,會在 List 資料夾 (要新增 List 資料夾在 HTK 資料夾中) 中產生該檔案。
- Oct 05 Sat 2013 10:26
HTK example: Digital voice recognition -畫面展示
- Oct 05 Sat 2013 09:45
HTK example: Digital voice recognition -step 2
數字辨識範例的第二步驟為產生 「梅爾倒頻譜係數」(Mel-scale Frequency Cepstral Coefficients,MFCC)。此參數考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。
首先我們先新增三個資料夾,分別為 Wav、Fea 和 Config。Wav 資料夾中,存放我們所需要用到的語音資料。Fea 資料夾中,存放 HTK 根據 Config 檔案所抽取出來的語音特徵。
- Oct 05 Sat 2013 09:18
HTK example: Digital voice recognition -step 1
在這邊我們用數字辨識來說明HTK的操作過程。透過這個範例,可以容易理解HTK的操作。
第一步為定義字典(dictionary)檔案,字典檔案中應該包含字詞 (word, syllable) 和音素 (phone, sub-syllable)。在這邊我們只需要定義數字(0~9)的字典資訊就可以了。字典資訊主要是讓HTK可以透過字典,將我們所要辨識的數字(0~9)轉換成對應的音素(phones)。例如下圖中,我們可以把 one 對應到 yi 這個音素。
- Sep 21 Sat 2013 08:54
HTK - the basic parameter kind codes
- Sep 20 Fri 2013 17:04
HTK Config file Setting
#Coding parameters
# 來源檔案格式
- Sep 04 Wed 2013 16:56
音檔所對應的標準答案
- Aug 30 Fri 2013 14:44
The Hidden Markov Model Toolkit (HTK) introduction