close
數字辨識範例的第二步驟為產生 「梅爾倒頻譜係數」(Mel-scale Frequency Cepstral Coefficients,MFCC)。此參數考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。
首先我們先新增三個資料夾,分別為 Wav、Fea 和 Config。Wav 資料夾中,存放我們所需要用到的語音資料。Fea 資料夾中,存放 HTK 根據 Config 檔案所抽取出來的語音特徵。
接著我們設定 Config 檔案,設定相關的參數值。Configuration 檔案主要是設定要擷取那些語音特徵。各個參數值設定,可以參考 HTK 操作手冊說明 (ch5 speech input/output)。
最後我們執行下列 DOS command line 指令,擷取所需之語音特徵。
goHCopyDir .\Wav .\Fea .\Config\HCopyps.fig
全站熱搜