什么是robots.txt

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt，在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

robots.txt语法规范

文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符).在该文件中可以使用#进行注解。

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行。

字段描述

User-agent 该项的值用于描述搜索引擎robot的名字
Disallow 该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀
Allow: 该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，

常用的User-agent： * * (代表所有爬虫) * Baiduspider *

示例

允许所有爬虫

User-agent: *
Disallow:

禁止爬虫

User-agent: *
Disallow: /

禁止几个部分（下例中的01、02、03目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

参考： http://www.cnblogs.com/yuzhongwusan/archive/2008/12/06/1348969.html https://jingyan.baidu.com/article/eb9f7b6dab75ca869364e8d2.html