搜索引擎背後的原理和中文日誌檢索

03-12

摘要： 日誌服務支持的兩種搜索方式通過設置分詞字元(通常是標點符號)，把一段文本劃分成不同的單詞。分詞字元只能是單位元組ascii字元這種方式適合於切分英文單詞。這種方式對於中文日誌，必須要搜索中文語句整體。

原文：http://click.aliyun.com/m/42996/

搜索引擎背後的原理和日誌檢索

當我們在搜索引擎搜索一個詞的時候，背後是上千台機器在為我們工作。那麼搜索引擎是如何從數萬億的網頁中瞬間查找到我們想要的詞的呢？這裡要介紹一個概念叫倒排索引。

倒排索引指的是，把文檔拆分成一個個單詞，每個單詞指向包含該單詞的文檔ID。在查詢時，根據關鍵字，找到包含該關鍵字的文檔ID列表。再根據ID讀取具體的數據。

以英文為例，下面是要被索引的文本：

T0 = "it is what it is"

T1 = "what is it"

T2 = "it is a banana"

我們就能得到下面的反向文件索引：

查詢what這個詞時，我們找到了0,1這兩個ID，然後知道了T0和T1這兩個文檔包含what這個詞。

由上文的介紹可知，創建倒排索引的關鍵在於分詞。對於英文和中文，分詞方式又有區別。

英文語句，每個單詞之間有標點符號分割，因此我們把標點符號設置為分詞字元，標點符號之間的字元串即為一個單詞。

例如語句

如果分詞字元是空格和. ? ! 那麼能夠得到的單詞依次是it,is,what,it,is,what,is,it,it,is,a,banana
如果分詞字元是空格和.? 不包含! 那麼能夠得到的單詞依次是it,is,what,it,is,what,is,it,it,is,a,banana! 我們得到banana!這樣一個特殊的詞，在查詢時如果查詢banana是無結果的，比如查詢banana!才行