网站首页 文章专栏 robots.txt语法规范
robots.txt语法规范
创建于:2019-06-18 06:28:45 更新于:2024-04-29 16:24:43 羽瀚尘 675
网站 网站

什么是robots.txt

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

robots.txt语法规范

文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符).在该文件中可以使用#进行注解。

该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。

字段描述

  • User-agent 该项的值用于描述搜索引擎robot的名字
  • Disallow 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀
  • Allow: 该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,

常用的User-agent: * * (代表所有爬虫) * Baiduspider *

示例

允许所有爬虫

User-agent: *
Disallow:

禁止爬虫

User-agent: *
Disallow: /

禁止几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

参考: http://www.cnblogs.com/yuzhongwusan/archive/2008/12/06/1348969.html https://jingyan.baidu.com/article/eb9f7b6dab75ca869364e8d2.html