
1、搜索引擎蜘蛛能不能找到網(wǎng)頁(yè)
要讓搜索引擎發(fā)現網(wǎng)站首頁(yè),就必須要有外部鏈接連到首頁(yè),找到首頁(yè)后,蜘蛛沿著(zhù)內部鏈接找到更深的內容頁(yè),所以要求網(wǎng)站要有良好的結構,符合邏輯,并且所有頁(yè)面可以通過(guò)可爬行的普通HTML鏈接達到a JavaScript鏈接、Flash 中的鏈接等搜索引擎蜘蛛般不能跟蹤爬行,就會(huì )造成收錄問(wèn)題。
網(wǎng)站所有頁(yè)面離 首頁(yè)點(diǎn)擊距離不能太遠,最好在四五次點(diǎn)擊之內.要被搜索引擎收錄.頁(yè)而需要有最基本的權重,良好的網(wǎng)站鏈接結構可以適當傳遞權重,使盡量多的頁(yè)面達到收錄門(mén)檻。
2、找到網(wǎng)頁(yè)后能不能抓取頁(yè)面內容
被發(fā)現的URL必須是可以被抓取的。數據庫動(dòng)態(tài)生成、帶有過(guò)多參數的 URL、SessionID、整個(gè)頁(yè)面是 Flash,框架結構(frame),兩疑的轉向、大量復制內容等都可能使搜索引擎敬而遠之。
某些文件站長(cháng)可能不希望被收錄,除了不鏈接到這些文件,更保險的方法是使用robots文件或meta robots標簽禁止收錄。
3、抓取頁(yè)面后怎樣提煉有用信息
關(guān)鍵詞在頁(yè)面重要位置的合理分布、重要標簽的撰寫(xiě)、HTML代碼精簡(jiǎn),起碼的兼容性等 以幫助搜索引擎理解頁(yè)而內容,提取有用信息。
只有搜索引擎能順利找到所有頁(yè)面,抓取這些頁(yè)面并提取出其中真正有相關(guān)性的內容,網(wǎng)站才可以被視為是搜索引擎友好的。
北京網(wǎng)站設計網(wǎng)上搜索引擎不友好的網(wǎng)站比比皆是,尤其是一些中小企業(yè)網(wǎng)站。不過(guò)這樣的網(wǎng)站不太好舉例,沒(méi)得到網(wǎng)站主人的許可就當做負面案例討論非常不恰當,在zaccode.com 網(wǎng)站看到一個(gè)會(huì )員詢(xún)問(wèn)搜索引擎不收錄他們的內頁(yè)是怎么回事.筆者點(diǎn)擊過(guò)去看了一下,不由得驚呼,這個(gè)網(wǎng)站簡(jiǎn)直是集搜索引擎不友好之大成,是個(gè)相當不錯的反面教材。
本文地址:http://havencoinwallet.com//article/2766.html