2009/04/12

被搜索引擎更好的收录 网站robots.txt简介

china mold,mold maker,mold manufacturer,injection mould,plastic molding,mold making,priecision mould,plastic mould toolmaking,tooling,extrusion die,metal die,die casting die,overmould,duplicate mould,cap mould,auto mould,rubber mould,OA mould,double injection,multicavity mould,mold deisigh,engineer mould,prototype mould,mold assembley,mold show,mold construction, mold machine,power tool mold,garden mould,industrial mould,pipe fitting mould,connector mold,electronic mold,big mold,small mold, soft mold,hard mold,family mold


有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以 穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫 “蜘蛛(Spider)” , “网上流浪汉(Web Wanderer)”,”网络蠕虫(web worms)”或Web crawler。常见的搜索引擎有google,yahoo,msn,百度,soso,sogou等等。

现在所有网站都考虑seo,所谓seo就是优化网站对这些搜索引擎的友好度,让自己的网站更容易通过搜索引擎被访问到。然而,Robot程序抓你的网站页面时,有时会因为频率太高而影响你的服务器,所以,合理的设置robots.txt(注意,是robots)很重要。

若要控制爬网你的网站的时间和方式,请在网站的顶层(根)目录创建 robots.txt 文件。在 robots.txt 中,可以指定允许或阻止哪些爬网软件。大部分爬虫程序都遵循robots.txt的规范。

robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

下面是一些robots.txt基本的用法:

l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file

l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

l 所有的搜索引擎抓取间隔设置(20意味着20秒):

User-agent:*

Disallow:

Crawl-delay:20

3、 常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

发现一个生成robots.txt的工具网站,与各位朋友分享。

http://www.mcanerin.com/EN/search-engine/robots-txt.asp