IR

Information Retrieval - Lec3

前面提過 Boolearn Search 的其中一個問題在於, machine 是無腦地回傳文本,其回傳的順序並沒有任何意義 (可以試想一下使用 Google 搜尋時,一次動輒 $10^6$ 數量級以上的文本量,如果無序的話,你想要檢閱查找相關文件是一件多痛苦的事,那麼這個 IR system 有跟沒有是差不多的😅)。因此,我們引進 ranked retrieval 的概念,目標是讓文本能以其跟搜尋 query 的關聯性大小來做排序。

Information Retrieval - Lec2

在做 Indexing 之前,我們需要將文本從各方來源中抽取出來,這些來源的 格式 相當多元(像是 html, md 等等 markup 或是與圖片相雜的 data ,可能還需要處理 encoding 的問題),反正就是挺亂的,需要做一些 processing 後,才可以用強大的 NLP tool 來統一處理。