Robots文件

Robots文件

rude 暂无评论
SEO名词解释

Robots文件,又称Robots协议、爬虫规则、机器人协议,即为Robots.txt。用来告知搜索引擎哪些信息可以抓取,哪些信息不能够被抓取。Robots协议是一种国际网站互联网界默认的道德规范,不具备强制性的约束力。自然,也会有病毒或者没有道德底线的爬虫会不遵守。

 

Robots协议的功能

  • 节省宽带,提升蜘蛛爬行效率
  • 保护网站隐私,避免机密性文件被抓取
  • 将网站地图写进Robots,便于蜘蛛对于网站的抓取

 

Robots文件书写规范

Robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

Robots.txt文件的格式
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
Sitemap: 定义网站地图(html或者xml格式)

常见的搜索引擎类型(区分大小写)
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot

Robots.txt文件的写法
User-agent: * *通配所有的搜索引擎爬虫(蜘蛛)
Disallow: /dede/ 禁止爬取dede目录下的内容
Disallow: /dede/*.htm 禁止访问/dede/目录下的所有以”.htm”为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /.png$ 禁止抓取网页所有的.png格式的图片
Disallow:/a/b.html 禁止爬取a文件夹下的b.html文件
Allow: /dede/ 这里定义是允许爬寻dede目录下面的目录

Robots文件使用细节

1、Robots.txt文件必须放在根目录下;
2、文件中字母全部小写;
3、禁止抓取a目录中的内容但允许抓取a;
Disallow: /a/
4、禁止抓取a目录及a目录中的文件;
Disallow: /a
5、想要彻底禁止页面被搜索引擎索引,需建设Meta Robots。
文军二维码

发表评论

今日说说

    问:做什么事情会让你成就感爆棚?

    答:做让你感觉心理畏惧的事情,做完之后你会发现,去TMD,不过如此。

站内搜索