MingHsiangSu的部落格

第四步我們要產生單音 (monophone) 隱藏馬可夫模型 (Hidden Markov model, HMM) 基礎模型 (template)。
首先我們新增 Models 和 Models\hmm0 資料夾，接著執行下列指令，產生基礎模型。這個基礎模型基本上是利用 <Plainhs DiagC 均切><3 個 state><1 個 Mixture><39 維>去設定這個基礎模型，並產生 template.hmm 檔案。
OutMacro Plainhs DiagC 3 "1" MFCC_Z_E_D_A "39" > .\Models\template.hmm

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(135)

個人分類：Speech Recognition

▲top

10月 05 週六 201310:30
HTK example: Digital voice recognition -step 3

第三步中，我們首先要設定 Train.scp, Number_PhoneList, Number_word.mlf, Number_phone.mlf 檔案。
Train.scp 檔案紀錄語音特徵檔案路徑，我們可以透過下列指令產生 train.scp 檔案，執行之後，會在 List 資料夾 (要新增 List 資料夾在 HTK 資料夾中) 中產生該檔案。
dir /s/b Fea\ > .\List\Train.scp

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(101)

個人分類：Speech Recognition

▲top

10月 05 週六 201310:26
HTK example: Digital voice recognition -畫面展示

完成 HTK - 數字辨識的前兩個步驟，我們開發了一個系統，並將畫面予以呈現。

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(78)

個人分類：Speech Recognition

▲top

10月 05 週六 201309:45
HTK example: Digital voice recognition -step 2

數字辨識範例的第二步驟為產生「梅爾倒頻譜係數」（Mel-scale Frequency Cepstral Coefficients，MFCC）。此參數考慮到人耳對不同頻率的感受程度，因此特別適合用在語音辨識。
首先我們先新增三個資料夾，分別為 Wav、Fea 和 Config。Wav 資料夾中，存放我們所需要用到的語音資料。Fea 資料夾中，存放 HTK 根據 Config 檔案所抽取出來的語音特徵。
接著我們設定 Config 檔案，設定相關的參數值。Configuration 檔案主要是設定要擷取那些語音特徵。各個參數值設定，可以參考 HTK 操作手冊說明 (ch5 speech input/output)。

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(1) 人氣(177)

個人分類：Speech Recognition

▲top

10月 05 週六 201309:18
HTK example: Digital voice recognition -step 1

在這邊我們用數字辨識來說明HTK的操作過程。透過這個範例，可以容易理解HTK的操作。
第一步為定義字典(dictionary)檔案，字典檔案中應該包含字詞 (word, syllable) 和音素 (phone, sub-syllable)。在這邊我們只需要定義數字(0~9)的字典資訊就可以了。字典資訊主要是讓HTK可以透過字典，將我們所要辨識的數字(0~9)轉換成對應的音素(phones)。例如下圖中，我們可以把 one 對應到 yi 這個音素。
音素的設定，並沒有特殊限制，主要還是使用者自訂。其中靜音預設為 "sil"，而停頓音設定為 "sp"。
在此範例中，我們在HTK資料夾中新增 "Dic" 資料夾，並且產生字典檔案 "Number_phone.dic"。

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(212)

個人分類：Speech Recognition

▲top

9月 21 週六 201308:54
HTK - the basic parameter kind codes

針對MFCC，產生參數型式 MFCC 39維
TARGETKIND=MFCC_Z_E_D_A

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(73)

個人分類：Speech Recognition

▲top

9月 20 週五 201317:04
HTK Config file Setting

#Coding parameters
# 來源檔案格式
SOURCEFORMAT=WAV
#1/SampleRate * 10000000，625就表示16k的取樣率
SOURCERATE=625
# 產生參數型式 MFCC 39維
# energy (E)
# delta (D)
# delta-delta (A)
# Cepstral Mean Normalisation (Z)
TARGETKIND=MFCC_Z_E_D_A
# 音框位移量，10 ms
TARGETRATE=100000.0
#frameshift 10ms
# HTK可以壓縮產生出來的參數檔
SAVECOMPRESSED=F
# HTK可以在產生的參數檔後頭加上CRC檢查碼，一般設為False
SAVEWITHCRC=F
# 音框大小，32 ms
WINDOWSIZE=320000.0
# framesize = 32ms
# Use a Hamming window
USEHAMMING=T
# Set pre-emphasis coefficient，預強調係數設定
PREEMCOEF=0.97
# Number of filterbank channels，在Mel刻度下等分成26個頻帶
NUMCHANS=26
# Cepstral liftering coefficient，進行 Cepstral liftering
CEPLIFTER=22
# Number of cepstral parameters，MFCC 參數維度
NUMCEPS=12
# Normalise log energy，音框能量作正規化
ENORMALIZE=T
# Enable natural read order for HTK files
# NATURALREADORDER=TRUE
# Enable natural write order for HTK files
# NATURALWRITEORDER=TRUE

(繼續閱讀...)

MingHsiangSu 發表在痞客邦留言(0) 人氣(208)

個人分類：Speech Recognition

▲top

MingHsiangSu的部落格

歡迎光臨 Ming-Hsiang Su在痞客邦的小天地

C# 刪除文字檔中第n行

轉換檔名

HTK example: Digital voice recognition -畫面展示 2

HTK example: Digital voice recognition -step 4

HTK example: Digital voice recognition -step 3

HTK example: Digital voice recognition -畫面展示

HTK example: Digital voice recognition -step 2

HTK example: Digital voice recognition -step 1

HTK - the basic parameter kind codes

HTK Config file Setting

人數統計

溫度計

個人資訊

熱門文章

文章分類

技術 (6)

最新文章

文章精選

文章搜尋

參觀人氣