
◆網(wǎng)址規范化問(wèn)題會(huì )產(chǎn)生復制內容;
◆代理商和零售商從產(chǎn)品生產(chǎn)商那里轉載產(chǎn)品信息,這倒沒(méi)什么不對,一般生產(chǎn)商也都同意,沒(méi)有版權問(wèn)題,但是絕大部升代理商、零售商、批發(fā)商都是直接copy而不做任何改動(dòng),大家用的都是一模一樣的產(chǎn)品說(shuō)明,所以這些電子商務(wù)網(wǎng)站上充斥著(zhù)大量復制內容;
◆打印版本,很多網(wǎng)站除了正常供瀏覽的頁(yè)面外,還提供更適于打印的頁(yè)面版本;
◆如果沒(méi)有用適當方式禁止抓取,這些打印版本網(wǎng)頁(yè)就會(huì )變成復制內容 ;
◆網(wǎng)站結構造成的各種頁(yè)面版本。如產(chǎn)品列表按價(jià)格、評論、上架時(shí)間等排序頁(yè)面博客的分類(lèi)存檔、時(shí)間存檔等;
◆網(wǎng)頁(yè)內容由RSS生成。有很多網(wǎng)站,尤其是新聞類(lèi)網(wǎng)站,用其他網(wǎng)站的 RSS feed生成網(wǎng)站內容,這些內容在原始出處和很多其他類(lèi)似網(wǎng)站上都已經(jīng)出現過(guò)很多次了;
◆使用Session ID,搜索引擎蜘蛛在不同時(shí)間訪(fǎng)問(wèn)網(wǎng)頁(yè)的時(shí)候,被給予了不同的SessionID,實(shí)際上網(wǎng)頁(yè)內容是一樣的。由于Session ID參數不同,就被當成了不同的網(wǎng)頁(yè)實(shí)質(zhì)內容太少。每個(gè)網(wǎng)頁(yè)上都不可避免地有通用部分,比如導航條、版權聲明、廣告等。如果網(wǎng)頁(yè)的正文部分太短,內容數量還抵不上通用部分,就有可能被認為是復制內容頁(yè)面;
◆轉載及抄表。有時(shí)是其他人抄襲了你的網(wǎng)站內容,有時(shí)是善藯的轉載,有時(shí)是作者自己在不同網(wǎng)站發(fā)布文章,這些都會(huì )造成復制內容
◆鏡象網(wǎng)站,鏡象網(wǎng)站曾經(jīng)很流行,當一個(gè)網(wǎng)站太忙太慢的時(shí)候,用戶(hù)可以通過(guò)替代鏡象來(lái)看內容或下載,這也有造成復制內容的風(fēng)險;
◆產(chǎn)品或服務(wù)類(lèi)型之間的區別比較小,比如有的網(wǎng)站把自己的服務(wù)按地區進(jìn)行分類(lèi),但實(shí)際上提供給每個(gè)地區的產(chǎn)品或服務(wù)都是一樣的。這些按地區分類(lèi)的頁(yè)面只是把地名改了改,其他服務(wù)內容說(shuō)明完全一樣;
◆URL任意加字符還是返回200狀態(tài)碼。有的網(wǎng)站由于技術(shù)原因,用戶(hù)在URL后加上任意字符或參數,服務(wù)器還能正常返回200狀態(tài)碼,并返回沒(méi)加上任意字符時(shí)樣的重復內容頁(yè)面;
檢查頁(yè)面是否有復制版本相對簡(jiǎn)單。合肥網(wǎng)站設計拿出頁(yè)面正文中的一句話(huà),加上雙引號,在搜索引擎中搜索一下,從結果中就能看到是否有多個(gè)頁(yè)面包含這句話(huà)。一般來(lái)說(shuō),隨機挑選的一個(gè)句子,完整出現在另一篇無(wú)關(guān)文章中的可能性很低 。
本文地址:http://havencoinwallet.com//article/2777.html