
蜘蛛爬行:搜索引擎派出“蜘蛛”(網(wǎng)頁(yè)抓取程序)進(jìn)行網(wǎng)頁(yè)抓取,爬取網(wǎng)頁(yè)時(shí)一般采用深度優(yōu)先、寬度優(yōu)先或最佳優(yōu)先策略;抓取建庫:將蜘蛛抓取到的網(wǎng)頁(yè)放到原始數據庫中,并丟棄掉不符合抓取規則的網(wǎng)頁(yè);網(wǎng)頁(yè)處理:對符合規則的網(wǎng)頁(yè)進(jìn)行預處理,主要包括網(wǎng)頁(yè)結構化、分詞、降噪、建立索引等;檢索服務(wù):根據用戶(hù)提交的關(guān)鍵詞從數據庫中將符合匹配規則的網(wǎng)頁(yè)調取,并根據權重排序規則對其進(jìn)行排序;結果展示:將排序好的網(wǎng)頁(yè)按不同的方式呈現給用戶(hù)。

本文地址:http://havencoinwallet.com//article/27632.html