Information Retrieval · Stay hungry. Stay foolish

Information Retrieval - Lec3

31 Jan 2018

IR / NLP / KTH

前面提過 Boolearn Search 的其中一個問題在於， machine 是無腦地回傳文本，其回傳的順序並沒有任何意義 (可以試想一下使用 Google 搜尋時，一次動輒 $10^6$ 數量級以上的文本量，如果無序的話，你想要檢閱查找相關文件是一件多痛苦的事，那麼這個 IR system 有跟沒有是差不多的😅)。因此，我們引進 ranked retrieval 的概念，目標是讓文本能以其跟搜尋 query 的關聯性大小來做排序。

Information Retrieval - Lec2

22 Jan 2018

Information Retrieval

IR / NLP / KTH

在做 Indexing 之前，我們需要將文本從各方來源中抽取出來，這些來源的格式相當多元(像是 html, md 等等 markup 或是與圖片相雜的 data ，可能還需要處理 encoding 的問題)，反正就是挺亂的，需要做一些 processing 後，才可以用強大的 NLP tool 來統一處理。

Information Retrieval - Lec1

16 Jan 2018

Information Retrieval

IR / NLP / KTH

這個系列主要會紀錄自己在 KTH 修習 Information Retrieval System 的一些筆記，備忘用，不會像之前的 Post 那麼詳細，但還是會加點自己的 remark 這樣。