Speech Recognition- Lec1

08 Apr 2018

ASR / KTH / NTU

隨著變成菸酒生的日子逐漸逼近，最近開始重追尤達大師數位語音的連載，希望在進 Speech Lab 之前，將這些知識掌握地更加純熟，這個系列主要會雜揉以前在台大所修的數位語音處理概論以及在 KTH 所修的 Speech and Speaker Recognition 之相關內容。

Introduction

語音辨識，顧名思義，是想把一段在物理世界中存在的，有資訊的聲音訊號，儘量在不喪失太多資訊下，轉成文字 (symbol sequence)。這裡不說成是單單 speech to text 是因為人類在溝通的時候，除了說話的內容外，語調的變化，肢體動作，面部表情等等，無一不是在傳達資訊，但這些並不是 ASR 所要處理的部份。從早年 1950 Bell Lab 所做的僅有 10 digits, 1 speaker 的辨識到現在的語音助理們所具備的辨識功能(雖然語意理解上有障礙，但辨識效果我是覺得真的挺好的)，中間的關鍵及發展有哪些呢？就讓我們繼續看下去～

基本架構

(From KTH DT2119)

之後的幾講會圍繞著這張架構圖展開。

Introduction

Introduction

分類

of vocab: 牽涉到 unit model 的選擇 (word vs phoneme)

基本架構