
總體來(lái)說(shuō),搜索引擎主要會(huì )面對以下幾方面的挑戰
1.頁(yè)面抓取需要快而全面
互聯(lián)網(wǎng)是一個(gè)動(dòng)態(tài)的內容網(wǎng)絡(luò ),每天有無(wú)數頁(yè)面被更新、創(chuàng )建,無(wú)數用戶(hù)在網(wǎng)站上發(fā)布內容、溝通聯(lián)系,要返回最有用的內容,搜索引擎就要抓取最新的頁(yè)面,但是由于頁(yè)面數量巨大,搜索引擎蜘蛛更新一次數據庫中的頁(yè)面要花很長(cháng)時(shí)間,搜索引擎剛誕生時(shí),這個(gè)抓取周期往往以幾個(gè)月計算,這也就是Google在 2003 年以前每個(gè)月有一次大更新的原因所在。
現在主流搜索引擎都已經(jīng)能在幾天之內更新重要頁(yè)面,權重高的網(wǎng)站上的新文件幾小時(shí)甚至幾分鐘之內就會(huì )被收錄,不過(guò),這種快速收錄和更新也只能局限于高權重網(wǎng)站,很多頁(yè)面幾個(gè)月不被重新抓取和更新,也是非常常見(jiàn)的。
要返回最好的結果,搜索引擎也必須抓取盡量全面的頁(yè)面,這就需要解決很多技術(shù)問(wèn)題。一些網(wǎng)站并不利于搜索引擎蜘蛛爬行和抓取,諸如網(wǎng)站鏈接結構的缺陷、大量使用Flash,JavaScript 腳本,或者把內容放在用戶(hù)必須登錄以后才能訪(fǎng)問(wèn)的部分,都增大了搜索引擎抓取內容的難度。
2.海量數據存儲
一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬(wàn)千萬(wàn)個(gè)頁(yè)面,可以想象網(wǎng)上所有網(wǎng)站的頁(yè)面加起來(lái)是一個(gè)什么數據量。搜索引擎蜘蛛抓取頁(yè)面后,還必須有效存儲這些數據,數據結構必須合理,具備極高的擴展性,寫(xiě)入及訪(fǎng)問(wèn)速度要求也很高。
除了頁(yè)面數據,搜索引擎還需要存儲頁(yè)面之間的鏈接關(guān)系及大量歷史數據,這樣的數據量是用戶(hù)無(wú)法想象的,據說(shuō) Google 有幾十個(gè)數據中心,上百萬(wàn)臺服務(wù)器,這樣大規模的數據存儲和訪(fǎng)問(wèn)必然存在很多技術(shù)挑戰 。
我們經(jīng)常在搜索結果中看到,排名會(huì )沒(méi)有明顯原因地上下波動(dòng),甚至可能刷新一下頁(yè)面,就看到不同的排名,有的時(shí)候網(wǎng)站數據也可能丟失。這些都可能與大規模數據存儲的技術(shù)難題有關(guān)。
3.索引處理快速有效,具可擴展性
搜索引擎將頁(yè)面數據抓取和存儲后,還要進(jìn)行索引處理,包括鏈接關(guān)系的計算、正向索引、倒排索引等。由于數據庫中頁(yè)面數量大,進(jìn)行PR 之類(lèi)的迭代計算也是耗時(shí)費力的要想及時(shí)提供相關(guān)又及時(shí)的搜索結果,僅僅抓取沒(méi)有用,還必須進(jìn)行大量索引計算。由于隨時(shí)都有新數據、新頁(yè)面加入,因此索引處理也要具備很好的擴展性。
4.查詢(xún)處理快速準確
查詢(xún)是普通用戶(hù)唯一能看到的搜索引擎工作步驟。用戶(hù)在搜索框輸入關(guān)鍵詞,單擊“搜索”按鈕后,通常不到一秒鐘就會(huì )看到搜索結果。表面最簡(jiǎn)單的過(guò)程,實(shí)際上涉及非常復雜的后臺處理。在最后的查詢(xún)階段,最重要的難題是怎樣在不到一秒鐘的時(shí)間內,快速從幾十萬(wàn)、幾百萬(wàn),甚至幾千萬(wàn)包含搜索詞的頁(yè)面中,找到最合理、最相關(guān)的 1000個(gè)頁(yè)面并且按照相關(guān)性、權威性排列。
5.判斷用戶(hù)意圖及人工智能
應該說(shuō)前4個(gè)挑戰現在的搜索引擎都已經(jīng)能夠比較好地解決,但判斷用戶(hù)意圖還處在初級階段,不同用戶(hù)搜索相同的關(guān)鍵詞,很可能是在尋找不同的東西。比如搜索“蘋(píng)果”,用戶(hù)到底是想了解蘋(píng)果這個(gè)水果,還是蘋(píng)果電腦? 還是電影《蘋(píng)果》的信息? 沒(méi)有上下文,沒(méi)有對用戶(hù)個(gè)人搜索習慣的了解,就完全無(wú)從判斷。
搜索引擎目前正在致力于基于用戶(hù)搜索習慣及歷史數據的了解上,判斷搜索意圖,返回更相關(guān)的結果。蕪湖網(wǎng)站建設今后搜索引擎是否能達到人工智能水平,真正了解用戶(hù)搜索詞的意義和目的,讓我們拭目以待。
本文地址:http://havencoinwallet.com//article/2718.html