
完整型采集是對特定網(wǎng)域的全域進(jìn)行自動(dòng)化采集,采集范圍廣、內容多。美國的IA宗旨是保存互聯(lián)網(wǎng)的全面記錄,對全球公開(kāi)的網(wǎng)站進(jìn)行定期采集。每?jì)蓚€(gè)月,網(wǎng)站頁(yè)面快照都會(huì )被互聯(lián)網(wǎng)存檔,自IA項目啟動(dòng)以來(lái),互聯(lián)網(wǎng)存檔已經(jīng)存儲了2730億個(gè)網(wǎng)頁(yè)。

選擇型采集是有針對性地捕獲特定的網(wǎng)站,通常是根據事件、主題進(jìn)行選擇采集,采集范圍小,需要借助人力。例如,澳大利亞的PANDORA項目只采集與澳大利亞相關(guān),且具有文化意義的網(wǎng)站;美國國會(huì )圖書(shū)館的Library of Congress Web Archives(以下簡(jiǎn)稱(chēng)LCWA)項目,重點(diǎn)采集與國家利益主題相關(guān)的網(wǎng)頁(yè)資源,包括美國選舉、伊拉克戰爭和911事件;蘇格蘭的NRS網(wǎng)頁(yè)檔案項目,事先制定指南,根據指南采集其范圍內組織創(chuàng )建和擁有的網(wǎng)站,包括蘇格蘭政府、蘇格蘭議會(huì )、蘇格蘭法院等。
混合型采集是將兩種策略相結合,先大范圍地對網(wǎng)站進(jìn)行完整采集,再有重點(diǎn)地針對某些特定的網(wǎng)站進(jìn)行深度、頻繁的選擇性采集。英國的UKWA項目,首先爬網(wǎng)內容是在英國發(fā)布的網(wǎng)站,如那些在英國頂級域名上的網(wǎng)站.uk、.cymru和.scot,以及可以手動(dòng)識別出在英國發(fā)布的網(wǎng)站,再由工作人員定期關(guān)注、收集有關(guān)特定事件、主題或興趣領(lǐng)域的網(wǎng)站。
本文地址:http://havencoinwallet.com//article/21662.html