C# 刪除文字檔中第n行
string searchPattern = "*.txt";
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(996)
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(21)

完成 HTK - 數字辨識的三與四步驟,將畫面予以呈現。
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(73)

第四步我們要產生單音 (monophone) 隱藏馬可夫模型 (Hidden Markov model, HMM) 基礎模型 (template)。
首先我們新增 Models 和 Models\hmm0 資料夾,接著執行下列指令,產生基礎模型。這個基礎模型基本上是利用 <Plainhs DiagC 均切><3 個 state><1 個 Mixture><39 維>去設定這個基礎模型,並產生 template.hmm 檔案。
OutMacro Plainhs DiagC 3 "1" MFCC_Z_E_D_A "39" > .\Models\template.hmm
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(135)

第三步中,我們首先要設定 Train.scp, Number_PhoneList, Number_word.mlf, Number_phone.mlf 檔案。
Train.scp 檔案紀錄語音特徵檔案路徑,我們可以透過下列指令產生 train.scp 檔案,執行之後,會在 List 資料夾 (要新增 List 資料夾在 HTK 資料夾中) 中產生該檔案。
dir /s/b Fea\ > .\List\Train.scp
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(101)

完成 HTK - 數字辨識的前兩個步驟,我們開發了一個系統,並將畫面予以呈現。
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(78)

數字辨識範例的第二步驟為產生
「梅爾倒頻譜係數」(Mel-scale Frequency Cepstral Coefficients,MFCC)。此參數考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。
首先我們先新增三個資料夾,分別為 Wav、Fea 和 Config。Wav 資料夾中,存放我們所需要用到的語音資料。Fea 資料夾中,存放 HTK 根據 Config 檔案所抽取出來的語音特徵。
接著我們設定 Config 檔案,設定相關的參數值。Configuration 檔案主要是設定要擷取那些語音特徵。各個參數值設定,可以參考 HTK 操作手冊說明 (ch5 speech input/output)。
MingHsiangSu 發表在 痞客邦 留言(1) 人氣(177)

在這邊我們用數字辨識來說明HTK的操作過程。透過這個範例,可以容易理解HTK的操作。
第一步為定義字典(dictionary)檔案,字典檔案中應該包含字詞 (word, syllable) 和音素 (phone, sub-syllable)。在這邊我們只需要定義數字(0~9)的字典資訊就可以了。字典資訊主要是讓HTK可以透過字典,將我們所要辨識的數字(0~9)轉換成對應的音素(phones)。例如下圖中,我們可以把 one 對應到 yi 這個音素。
音素的設定,並沒有特殊限制,主要還是使用者自訂。其中靜音預設為 "sil",而停頓音設定為 "sp"。
在此範例中,我們在HTK資料夾中新增 "Dic" 資料夾,並且產生字典檔案 "Number_phone.dic"。
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(212)
針對MFCC,產生參數型式 MFCC 39維
TARGETKIND=MFCC_Z_E_D_A
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(73)
#Coding parameters
# 來源檔案格式
SOURCEFORMAT=WAV
#1/SampleRate * 10000000,625就表示16k的取樣率
SOURCERATE=625
# 產生參數型式 MFCC 39維
# energy (E)
# delta (D)
# delta-delta (A)
# Cepstral Mean Normalisation (Z)
TARGETKIND=MFCC_Z_E_D_A
# 音框位移量,10 ms
TARGETRATE=100000.0
#frameshift 10ms
# HTK可以壓縮產生出來的參數檔
SAVECOMPRESSED=F
# HTK可以在產生的參數檔後頭加上CRC檢查碼,一般設為False
SAVEWITHCRC=F
# 音框大小,32 ms
WINDOWSIZE=320000.0
# framesize = 32ms
# Use a Hamming window
USEHAMMING=T
# Set pre-emphasis coefficient,預強調係數設定
PREEMCOEF=0.97
# Number of filterbank channels,在Mel刻度下等分成26個頻帶
NUMCHANS=26
# Cepstral liftering coefficient,進行 Cepstral liftering
CEPLIFTER=22
# Number of cepstral parameters,MFCC 參數維度
NUMCEPS=12
# Normalise log energy,音框能量作正規化
ENORMALIZE=T
# Enable natural read order for HTK files
# NATURALREADORDER=TRUE
# Enable natural write order for HTK files
# NATURALWRITEORDER=TRUE
MingHsiangSu 發表在 痞客邦 留言(0) 人氣(208)