Stay hungry. Stay foolish

Speech Recognition- Lec6

21 Apr 2018

ASR / KTH / NTU

ASR 做的其實就是以下這件事，

$$ \Pr(\text{words|sounds}) = \frac{\Pr(\text{sounds|words})}{\Pr(\text{sounds})} $$

當中我們視 $\Pr(\text{sounds})$ 為 uniform distribution ，不管它。 \
$\Pr(\text{words})$ 由 Language Model 負責，評估產生的 transcription 之合理性 (e.g 電腦聽聲音 vs 點老天呻吟)\
$\Pr(\text{sounds|words})$ 則是 Acoustic Model，也就是前一講中用 Viterbi 所算的 Likelihood 。

Speech Recognition- Lec5

19 Apr 2018

Speech Processing

ASR / KTH / NTU

我覺得自己之前做的投影片真的蠻好的XD (自己講)，因此這一講中，只會偏重在原本寫的比較簡略的 Learning Problem ， Evaluation 及 Decoding Problem 僅會附上程式碼及做定義。

Speech Recognition- Lec4

17 Apr 2018

Speech Processing

ASR / KTH / NTU

在能夠將聲音訊號轉為數值向量給 machine 處理後，我們要怎麼判斷這串 vector 是 mapping 到哪一段文字呢？ \
在進入 continuous ASR 前，讓我們先來想一想怎麼辨識一個 word ？想法是針對這個 word 建一個 model ，給定一段聲音訊號， output 該訊號 map 到此 word 的機率為多少。

NTU Machine Learning - Lec12

15 Apr 2018

Machine Learning Foundation

Machine Learning / NTU

在此之前，針對 linear separable 的 data ，我們利用找可以切分這些數據點的 hyper-plane 來做 classification (或 regression )。但這個強大的假設並不適用於每筆真實世界中的 data ，所以我們勢必得處理 non-linear 的問題。換句話說，我們希望 hypothesis set 中可以包含更多的候選人（可以 match nonlinear 特性的那些 function ），同時去驗證在這樣的情況下，學習依然是可行的。

NTU Machine Learning - Lec11

14 Apr 2018

Machine Learning Foundation

Machine Learning / NTU

總結目前學到的 3 個 linear model。

NTU Machine Learning - Lec10

13 Apr 2018

Machine Learning Foundation

Machine Learning / NTU

Linear Model 的核心在於 feature 分量的 weighted sum $\mathbf{w}^T \mathbf{x}$，在 binary classification ，我們用 step function 將其二分 ($\mathcal{Y} = \lbrace , -1,1,\rbrace$)，而在 linear regression 中，我們將其直接作為輸出。而這一講要介紹的則是將 $\mathbf{w}^T \mathbf{x}$ 通過一個 nonlinear function mapping 到[$0,1$]，賦予他機率的意義 ($\Pr[y = +1 | \mathbf{x}]$)。

NTU Machine Learning - Lec9

12 Apr 2018

Machine Learning Foundation

Machine Learning / NTU

在前幾講的討論中，我們討論了 binary classification 的問題，及這個問題在機器學習上的可行性。但很多時候，我們不希望機器只會說是或不是，亦即不希望它的 output space $\mathcal{Y}$ 只是單純的 {$1, -1$}。舉例來說，給定一些資料，請你預測明天的股價，除了想預測會漲或會跌之外，到底漲多少或跌多少也是我們有興趣知道的事情，而這也是接下來兩講想解決的事情 - Regression。

Speech Recognition- Lec3

11 Apr 2018

Speech Processing

ASR / KTH / NTU

上一回介紹了 LPC ，來做為我們抽取 feature 的一個方法，今天要來談談目前最常被使用的 feature - MFCC 。

Speech Recognition- Lec2

09 Apr 2018

Speech Processing

ASR / KTH / NTU

語音辨識的基本架構中，第一步便是要把聲音訊號轉成可被紀錄的數位形式以供 machine 處理。科學家們從人類究竟是如何發出特定聲音作為出發點，去找出訊號當中哪些是屬於那個聲音 unique 的 feature，並移除那些無關的資訊 (e.g noise) ，並利用這些 extract 出來的 feature 來作為辨識的基本元素。

Speech Recognition- Lec1

08 Apr 2018

Speech Processing

ASR / KTH / NTU

隨著變成菸酒生的日子逐漸逼近，最近開始重追尤達大師數位語音的連載，希望在進 Speech Lab 之前，將這些知識掌握地更加純熟，這個系列主要會雜揉以前在台大所修的數位語音處理概論以及在 KTH 所修的 Speech and Speaker Recognition 之相關內容。

Stay hungry. Stay foolish

Algorithm / Programming / Machine Learning