网站首页 文章专栏 robots.txt语法规范
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。
文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符).在该文件中可以使用#进行注解。
该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。
常用的User-agent:
* *
(代表所有爬虫)
* Baiduspider
*
User-agent: * Disallow:
User-agent: * Disallow: /
User-agent: * Disallow: /01/ Disallow: /02/ Disallow: /03/
参考: http://www.cnblogs.com/yuzhongwusan/archive/2008/12/06/1348969.html https://jingyan.baidu.com/article/eb9f7b6dab75ca869364e8d2.html