52AV手機A片王|52AV.one

 找回密碼
 立即註冊
查看: 2004|回復: 0

[站長加油站] 限制搜尋引擎的蜘蛛抓取內容 – robots.txt[含1張圖]

[複製鏈接]
發表於 2014-10-8 11:56:02 | 顯示全部樓層 |閱讀模式
tid=12& 本帖最後由 IT_man 於 2014-10-8 12:43 編輯
4 x0 v4 O$ s% O8 E. A) Z8 O8 }6 T0 E
       並非網站所有的url都須被搜尋引擎收錄,如後台管理這個部分就需要透過設置告訴搜尋引擎不要去訪問那些內容。這樣做有幾個好處
(1) 避免搜尋引擎訪問過多沒必要的內容,浪費頻寬以及增加網站服務器的負載
(2) 對搜尋引擎比較友好,因為你已經告訴他這些不需要去爬取
(3) 對網站的 SEO 也有好處,雖然沒有直接的好處,但對搜尋引擎爬取內容友好的網站相對的也能獲得搜尋引擎比較好的重視

( v# W+ s. g% Q8 i# [1 c  F; U. L. N
        Robots.txt怎麼寫?首先是User-agent,指出Robots.txt語句所涉及到的搜索引擎。其次是Disallow/Allow,指出對於User- agent中所涉及的搜索引擎,需要禁止或允許收錄的URL,可以是絕對路徑,也可以是相對路徑。User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/除此之外,透過Meta Robots對單獨每個網頁進行設置,也可以達到禁止搜索引擎的效果,詳細操作Meta Robots相關文件有教。
        當您的網站草創時期,內容仍在加強時,暫時不希望蜘蛛抓取所有url,可寫成 :

/ l: r1 o0 e. t: T. Z. q
  1. <font size="3">#User-agent: *    此行註解
    2 U" o0 q0 K4 q- x& g3 g
  2. Disallow: *       所有url皆不允許</font>  b$ t! F. _: z
複製代碼

2 ?; p& |4 s0 \0 S7 \
        透過分析Google的robots.txt變化来預測Google將要推出何種服務。有興趣的讀者可以看一下Google的robots.txt文件,注意到前幾行就有"Disallow: /search",而結尾新加上了"Disallow: /base/s2"。現在來做個測試,按照規則它所隱藏的地址是http://www.Google.com/base/s2,打開之後發現Google給出了一個錯誤提示,如下圖:
! o$ a5 i$ x# U
1.png
% M; t; P. e1 x5 R# `
回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則



中文酷站排行榜

本區塊內容依據『電腦網路內容分級處理辦法』為限制級網站,限定年滿18歲以上或達當地國家法定年齡人士方可進入,且願接受本站各項條款,未滿18歲 謝絕進入瀏覽。為防範未滿18歲之未成年網友瀏覽網路上限制級內容的圖文資訊,建議您可進行網路內容分級組織ICRA分級服務的安裝與設定。 (為還給愛護 本站的網友一個純淨的論壇環境,本站設有管理員)

QQ|小黑屋|手機板| 52AV手機A片王

GMT+8, 2025-12-6 18:27 , Processed in 0.051811 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表