搜索引擎原理(九) |
| 發(fā)布時(shí)間: 2012/9/3 11:02:23 |
|
倒排文件就是用詞來作為索引的一個(gè)數(shù)據(jù)結(jié)構(gòu),顯然,q中的詞必須是包含在倒排 文件詞表中才有意義。有了這樣的q,它的每一個(gè)元素都對(duì)應(yīng)倒排文件中的一個(gè)倒 排表(文檔編號(hào)的集合),記作L(t) ,它們的交集即為對(duì)應(yīng)查詢的結(jié)果文檔集合, i 從而實(shí)現(xiàn)了查詢和文檔的匹配。上述過程的基本假設(shè)是:用戶是希望網(wǎng)頁包含所 輸入查詢文字的。 2. 結(jié)果排序 上面,我們了解了得到和用戶查詢相關(guān)的文檔集合的過程。這個(gè)集合的元素 需要以一定的形式通過計(jì)算機(jī)顯示屏呈現(xiàn)給用戶。就目前的技術(shù)情況看,列表是 最常見的形式(但人們也在探求新的形式,如Vivisimo 引擎將結(jié)果頁面以類別的 形式呈現(xiàn))。給定一個(gè)查詢結(jié)果集合,R={r , r , …, r },所謂列表,就是按照某種 1 2 n 評(píng)價(jià)方式,確定出R中元素的一個(gè)順序,讓這些元素以這種順序呈現(xiàn)出來;\統(tǒng) 地講,ri和q的相關(guān)性(relevance )是形成這種順序的基本因素。但是,有效地定 義相關(guān)性本身是很困難的,從原理上講它不僅和查詢?cè)~有關(guān),而且還和用戶的背 景,以及用戶的查詢歷史有關(guān)。不同需求的用戶可能輸入同一個(gè)查詢,同一個(gè)用 戶在不同的時(shí)間輸入的相同的查詢可能是針對(duì)不同的信息需求。為了形成一個(gè)合 適的順序,在搜索引擎出現(xiàn)的早期人們采用了傳統(tǒng)信息檢索領(lǐng)域很成熟的基于詞 匯出現(xiàn)頻度的方法。大致上講就是一篇文檔中包含的查詢(q)中的那些詞越多, 則該文檔就應(yīng)該排在越前面;再精細(xì)一些的考慮則是若一個(gè)詞在越多的文檔中有 出現(xiàn),則該詞用于區(qū)分文檔相關(guān)性的作用就越小。這樣一種思路不僅有一定直覺 上的道理,而且在倒排文件數(shù)據(jù)結(jié)構(gòu)上很容易實(shí)現(xiàn)。因?yàn),?dāng)我們通過前述關(guān)鍵 詞的提取過程,形成一篇文檔的關(guān)鍵詞集合,p = {t , t , …, t }的時(shí)候,很容易同 1 2 n 時(shí)得到每一個(gè)ti在該文檔中出現(xiàn)的次數(shù),即詞頻,而倒排文件中每個(gè)倒排表的長(zhǎng)度 則對(duì)應(yīng)著一個(gè)詞所涉及的文檔的篇數(shù),即文檔頻率。然而,由于網(wǎng)頁編寫的自發(fā) 性、隨意性較強(qiáng),僅僅針對(duì)詞的出現(xiàn)來決定文檔的順序,在Web上做信息檢索表 現(xiàn)出明顯的缺點(diǎn),需要有其他技術(shù)的補(bǔ)充。這方面最重要的成果就是前面提到過 的PageRank。通過在預(yù)處理階段為每篇網(wǎng)頁形成一個(gè)獨(dú)立于查詢?cè)~(也就和網(wǎng)頁 內(nèi)容無關(guān))的重要性指標(biāo),將它和查詢過程中形成的相關(guān)性指標(biāo)結(jié)合形成一個(gè)最 終的排序,是目前搜索引擎給出查詢結(jié)果排序的主要方法。 本文出自:億恩科技【www.ruiliheng.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |
京公網(wǎng)安備41019702002023號(hào)