一本无码av中文字幕|91久久久久人妻白浆|国产婬乱视频免费看视频|亚洲欧洲精品成人久久曰|精品国产免费一区二区三区|日本精品中文字幕在线不卡|日韩欧美亚洲一中文字暮精品|2021久久精品99精品久久

蘇州天匯信息技術(shù)有限公司

服務(wù)電話:
0512-67593133   客服QQ:QQ咨詢

建站幫助TIANHUI

天匯用心服務(wù)每一位顧客

讓搜索引擎快速收錄網(wǎng)站頁面解決辦法

[建站幫助]   發(fā)布時間 [2010-5-17 8:48:03]   蘇州天匯公司
  讓搜索引擎快速收錄網(wǎng)站頁面解決辦法 robots.txt,是用來聲明網(wǎng)站中不希望被搜索引擎收錄的內(nèi)容或用來指定搜索引擎收錄內(nèi)容的規(guī)則文件。
 

  我們知道,現(xiàn)代搜索引擎收錄網(wǎng)站頁面是通過網(wǎng)絡(luò)爬蟲(英文名稱有很多:bots,spider,Crawler,collector,walker,Slurp等等)進(jìn)行頁面采集,即由網(wǎng)絡(luò)爬蟲進(jìn)入網(wǎng)站,將網(wǎng)站頁面以及頁面下的連接頁面進(jìn)行下載,然后通過內(nèi)容分析器來分析頁面內(nèi)容。而在這個過程中,robots.txt的作用就在于告訴網(wǎng)絡(luò)爬蟲,那些頁面不能采集,那些頁面能采集。一般來說,主流搜索引擎的網(wǎng)絡(luò)爬蟲都是遵守robots.txt規(guī)范的。具體的robots規(guī)范可參見以下網(wǎng)站:www.robotstxt.orgwww.w3.org

  robots.txt要求保存為小寫,存放在網(wǎng)站根目錄下,并保證可以通過www.yourdomain.com/robots.txt進(jìn)行訪問的。

  我們填寫robots.txt一般只需要注意兩個語法規(guī)則就可以了:User-agent和Disallow。User-agent是規(guī)定允許采集本站頁面的搜索引擎;Disallow規(guī)定不允許采集的頁面路徑。
 
例一、
  User-agent: *
  Disallow:
  上面規(guī)則表示允許所有搜索引擎的爬蟲收錄本站頁面,并且允許采集所有頁面。本例還有一個簡便的方式,就是創(chuàng)建一個命名為robots.txt的空文檔,放入網(wǎng)站個目錄就好了!
  
例二、
  User-agent: *
  Disallow: /admin/
  上面規(guī)則表示允許所有搜索引擎爬蟲收錄本站頁面,但不允許收錄/damin/目錄下的所有頁面。我們知道,admin目錄下的頁面,往往存放著后臺管理頁面,為了安全起見,我們不允許搜索引擎把/admin/目錄下頁面收錄。
  
例三、
  User-agent: Baiduspider
  Disallow:
  上面規(guī)表示只允許Baidu爬蟲收錄本站頁面,并且允許收錄所有頁面。
  
例四、
  User-agent: *
  Disallow: /
  上面規(guī)則表示任何搜索引擎爬蟲都不得收錄本站所有頁面。對于一些不希望公開站點的網(wǎng)站來說,的確是比較有用的!
  
  知道以上規(guī)則,我們就可以巧妙利用robots.txt。
  

  國內(nèi)常見的搜索引擎爬蟲有:
Baiduspider、Googlebot、Slurp、MSNBOT、iaskspider、sogou+spider、Zhuaxia.com+1+Subscribers、Feedsky+crawler

本文地址:http://www.ym2501.com/Article/ArticleView_25.html