優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利

公司網(wǎng)站制作爬蟲(chóng)“黑洞”

日期 : 2020-10-21 18:38:35
       爬蟲(chóng)“黑洞”。爬蟲(chóng)在搜集藏文網(wǎng)頁(yè)的過(guò)程中, 必須考慮可能出現的“黑洞”情況。

       爬蟲(chóng)黑洞是指, 在抓取一張網(wǎng)頁(yè)的鏈接時(shí), 鏈接本身是一個(gè)無(wú)限循環(huán), 導致爬蟲(chóng)抓取時(shí)跟著(zhù)循環(huán), 浪費資源。有時(shí)一些URL看起來(lái)不同, 但實(shí)際指向同一張網(wǎng)頁(yè), 也會(huì )使爬蟲(chóng)陷入重復抓取的境地。

       為了避免爬蟲(chóng)誤入黑洞, 一般采取兩種策略。一是爬蟲(chóng)回避動(dòng)態(tài)網(wǎng)頁(yè), 因為動(dòng)態(tài)網(wǎng)頁(yè)常常會(huì )把爬蟲(chóng)帶入黑洞。識別動(dòng)態(tài)網(wǎng)頁(yè)時(shí), 只需要判斷URL中是否出現問(wèn)題, 含問(wèn)號的就是動(dòng)態(tài)網(wǎng)頁(yè)。二是使用Visited表記錄已經(jīng)訪(fǎng)問(wèn)過(guò)的URL, 凡是遇到新的URL存在于Visited表, 就放棄對該URL的繼續處理。例如:當遇到a→b→c→d→c→e這樣的環(huán)路鏈接, 爬蟲(chóng)就會(huì )掉進(jìn)去, 反復抓取c、d對應的頁(yè)面。使用Visited表, 就能避免這個(gè)問(wèn)題。

相關(guān)文章
国产免费丝袜调教视频爱剪辑|国产小受18asian|国产福利91精品一区二区三区|久久久青草大香|欧美丰满熟妇xxxx性