爬虫 robots.txt – Famous blog

robots.txt 文件位于网站的根目录下，用于表明你不希望搜索引擎抓取工具访问你网站上的哪些内容。此文件使用的是漫游器排除标准，该标准是一种内含一小组命令的协议，可依照网站各部分和特定的网页抓取工具类型（例如移动版抓取工具与桌面版抓取工具），表明可访问的网站内容。

！！！如果你不想让自己的网页显示在搜索引擎搜索结果中，请不要将 robots.txt 用作隐藏网页的方法。这是因为其他网页可能会指向你的网页，导致你的网页被编入索引，而让 robots.txt 文件失去效用

Robots.txt 命令仅仅只是指令，对于访问你网站的抓取工具来说，这些命令仅作为指令。正规的网页抓取工具都会遵循 robots.txt 文件中的命令，但其他抓取工具未必也会如此。因此，如果你想确保自己网站上的特定信息不会被网页抓取工具抓取，建议你采用其他屏蔽方法（如为您服务器上的隐私文件提供密码保护）。

编写规则
那就是：先写 Disallow 再写 Allow
模版：https://www.google.com/robots.txt

noindex
要阻止某个网页出现在搜索结果中，您可以将 noindex 元标记加入该网页的 HTML 代码中，或在 HTTP 请求中返回“noindex”标头。当爬虫下次抓取该网页并看到相应的标记或标头时，就会完全阻止该网页出现在搜索结果中

!!! 要想让 noindex 指令生效，就不得使用 robots.txt 文件屏蔽相应网页。如果该网页被 robots.txt 文件屏蔽了，抓取工具将永远无法看到 noindex 指令，因此该网页可能仍会显示在搜索结果中（例如，如果有其他网页链接到该网页的话）
[cc lang=”html”]

[/cc]

HTTP 响应标头实施
下面的 HTTP 响应示例便含有一个可指示抓取工具不要将某一网页编入索引的 X-Robots-Tag：
[cc]HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)[/cc]

Tag: 爬虫 robots.txt

网络爬虫屏蔽 robots 和noindex