文章內(nèi)容

搜索引擎原理(六)

發(fā)布時間: 2012/9/3 11:01:43

搜索引擎是不可能將Web上的網(wǎng)頁搜集完全的，通常都是在其他條件的限制下決定搜集過程的結(jié)束（例如磁盤滿，或者搜集時間已經(jīng)太長了）。因此就有一個盡量使搜到的網(wǎng)頁比較重要的問題，這對于那些并不追求很大的數(shù)量覆蓋率的搜索引擎特別重要。研究表明[Najork and Wiener,2001]，按照先寬搜索方式得到的網(wǎng)頁集合要比先深搜索得到的集合重要（這里當(dāng)然有一個重要性的指標(biāo)問題）。這種方式的一個困難是要從每一篇網(wǎng)頁中提取出所含的URL 。由于HTML的靈活性，其中出現(xiàn)URL的方式各種各樣，將這個環(huán)節(jié)做得徹底不容易（例如我們現(xiàn)在還沒有很好的簡單辦法從JavaScript腳本中提取URL ）。同時，由于Web的“蝴蝶結(jié)”形狀 [Broder, et al.,2000]，這種方式搜集到的網(wǎng)頁不大會超過所有目標(biāo)網(wǎng)頁數(shù)量2 的2/3。另外一種可能的方式是在第一次全面網(wǎng)頁搜集后，系統(tǒng)維護(hù)相應(yīng)的 URL 集合 S，往后的搜集直接基于這個集合。每搜到一個網(wǎng)頁，如果它發(fā)生變化并含有新的URL，則將它們對應(yīng)的網(wǎng)頁也抓回來，并將這些新URL 也放到集合S 中；如果 S 中某個url 對應(yīng)的網(wǎng)頁不存在了，則將它從 S 中刪除。這種方式也可以看成是一種極端的先寬搜索，即第一層是一個很大的集合，往下最多只延伸一層。還有一種方法是讓網(wǎng)站擁有者主動向搜索引擎提交它們的網(wǎng)址（為了宣傳自己，通常會有這種積極性），系統(tǒng)在一定時間內(nèi)（2 天到數(shù)月不等）定向向那些網(wǎng) 站派出“蜘蛛”程序，掃描該網(wǎng)站的所有網(wǎng)頁并將有關(guān)信息存入數(shù)據(jù)庫中。大型商業(yè)搜索引擎一般都提供這種功能。第三節(jié) 預(yù)處理得到海量的原始網(wǎng)頁集合，距離面向網(wǎng)絡(luò)用戶的檢索服務(wù)之間還有相當(dāng)?shù)木?離。宏觀地看，服務(wù)子系統(tǒng)是一個程序。采用Wirth 關(guān)于“程序 = 算法+數(shù)據(jù)結(jié) 構(gòu)”的觀點(diǎn)來考察這個程序，一個合適的數(shù)據(jù)結(jié)構(gòu)是查詢子系統(tǒng)工作的核心和關(guān) 鍵。這里只是指出：現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)是“倒排文件”（inverted file）；倒排文件是用文檔中所含關(guān)鍵詞作為索引，文檔作為索引目標(biāo)的一種結(jié)構(gòu)（類似于普通書籍中，索引是關(guān)鍵詞，書的頁面是索引目標(biāo)）。我們在第八章中有進(jìn)一步分析。下面討論從網(wǎng)頁集合形成這樣的倒排文件過程中的幾個主要問題，即我們所說的 “預(yù)處理”。主要包括四個方面，關(guān)鍵詞的提取，“鏡像網(wǎng)頁”（網(wǎng)頁的內(nèi)容完全相同，未加任何修改）或“轉(zhuǎn)載網(wǎng)頁”（near-replicas，主題內(nèi)容基本相同但可能有一些額外的編輯信息等，轉(zhuǎn)載網(wǎng)頁也稱為“近似鏡像網(wǎng)頁”）的消除，鏈接分析和網(wǎng)頁重要程度的計算。 1.關(guān)鍵詞的提取 2 所謂“目標(biāo)網(wǎng)頁”指的是搜索引擎設(shè)計覆蓋的網(wǎng)頁范圍。例如Google是全球，天網(wǎng)是全中國。
本文出自：億恩科技【www.ruiliheng.com】

服務(wù)器租用/服務(wù)器托管中國五強(qiáng)！虛擬主機(jī)域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]