SEO必修课程——怎样使用robots.txt

 安静的听歌   2010-11-25 16:34     SEO必修课程——怎样使用robots.txt已关闭评论
摘要:

  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。掌握robots的基本用法,也是一个SEO首先要学习的。





  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。掌握robots的基本用法,也是一个SEO首先要学习的。

  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

  大家都知道搜索引擎是使用机器人程序自动访问互联网上的网页并获取网页信息

  那么搜索引擎访问网站的第一步就是检查网站的robots.txt文件,通过robots.txt来指定机器人在网站上的抓取范围(就是不想被搜索引擎抓取的和要收录的内容)。所以在学习SEO中学会robots使用是非常有必要的.

  第一,robots.txt应该要放在网站的根目录上而且文件名必须全部小写,机器人访问网站首先会检测http://域名/robots.txt,来确定访问权限的那范围.由于机器人第一步访问的文件是robots所以不管你是否需要屏蔽机器人抓去,都要添加一个robots.txt.

  第二,一般robots要屏蔽的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等.禁止抓取这些文件可以大大减少机器人的工作压力,提高机器人对网站的友好度.所以呢.蜘蛛要靠养的,你对他好.他自己也会对你好

  第三,关于robots书写的内容

  robots里的基本函数:User-agent和 Disallow。文件里面至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。

  以下是常见的搜索引擎spider程序

  google蜘蛛:googlebot

  百度蜘蛛:baiduspider

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  msn蜘蛛:msnbot

  altavista蜘蛛:scooter

  lycos蜘蛛:lycos_spider_(t-rex)

  alltheweb蜘蛛:fast-webcrawler

  inktomi蜘蛛:slurp

  如果要禁止所有搜索引擎抓取网站所有内容则在robots里写

  User-agent: *

  Disallow: /

  如果要禁止所有搜索引擎抓取网站内的某些部分内容则在robots写上

  User-agent: *

  Disallow: /123/

  Disallow: /abc/

  如果是单禁止某个搜索引擎的访问则在robots写

  User-agent: googlebot

  Disallow: /

  同理如果你要只允许某个搜索引擎访问禁止其他搜索引擎的话则在robots里写

  User-agent: googlebot

  Disallow:

  User-agent: *

  Disallow: /

  一般网站所要禁止抓取的内容如下: [仅供参考]

  Disallow: /admin/       后台管理文件

  Disallow: /require/     程序文件

  Disallow: /attachment/  附件

  Disallow: /images/      图片

  Disallow: /data/        数据库文件

  Disallow: /template/    模板文件

  Disallow: /css/         样式表文件

  Disallow: /lang/        编码文件

  Disallow: /script/      脚本文件

  robots.txt使用误区

  误区一:我网站上所有的文件都需要被蜘蛛抓取,那我就没必要添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以你应该在网站中添加一个robots.txt。

  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。

  网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除,在robots.txt使用技巧一文中有详细介绍。

  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。

  如果这样的话,会导致整个网站不能被搜索引擎收录。

  其他说明

  Disallow:  .jpg$

  屏蔽网站带JPG的图片文件,也可以防止搜索引擎抓起后被盗链

  屏蔽admin目录防止出现不必要的死链,并且可以有效的保护网站安全,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标

  在robots.txt里还可以添加上sitemap网站地图提供给搜索引擎直接访问的内容让搜索引擎更快到找到目标提高收录

  Sitemap: http://域名/sitemap.xml

  在英语中robot是机器人的意思,robots就很容易了解到他的作用.所以学会robots对seo的帮助还是非常大的.

本文地址:http://www.chenyseo.com/archives/116
版权声明:本文为原创文章,版权归 安静的听歌 所有,欢迎分享本文,转载请保留出处!

评论已关闭!