网络 爬虫屏蔽 robots 和noindex

robots.txt 文件位于网站的根目录下,用于表明你不希望搜索引擎抓取工具访问你网站上的哪些内容。此文件使用的是漫游器排除标准,该标准是一种内含一小组命令的协议,可依照网站各部分和特定的网页抓取工具类型(例如移动版抓取工具与桌面版抓取工具),表明可访问的网站内容。

!!! 如果你不想让自己的网页显示在搜索引擎搜索结果中,请不要将 robots.txt 用作隐藏网页的方法。 这是因为其他网页可能会指向你的网页,导致你的网页被编入索引,而让 robots.txt 文件失去效用

Robots.txt 命令仅仅只是指令,对于访问你网站的抓取工具来说,这些命令仅作为指令。正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必也会如此。因此,如果你想确保自己网站上的特定信息不会被网页抓取工具抓取,建议你采用其他屏蔽方法(如为您服务器上的隐私文件提供密码保护)。

编写规则
那就是:先写 Disallow 再写 Allow
模版 :https://www.google.com/robots.txt

noindex
要阻止某个网页出现在搜索结果中,您可以将 noindex 元标记加入该网页的 HTML 代码中,或在 HTTP 请求中返回“noindex”标头。当爬虫下次抓取该网页并看到相应的标记或标头时,就会完全阻止该网页出现在搜索结果中

!!! 要想让 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相应网页。如果该网页被 robots.txt 文件屏蔽了,抓取工具将永远无法看到 noindex 指令,因此该网页可能仍会显示在搜索结果中(例如,如果有其他网页链接到该网页的话)
[cc lang=”html”]

[/cc]

HTTP 响应标头 实施
下面的 HTTP 响应示例便含有一个可指示抓取工具不要将某一网页编入索引的 X-Robots-Tag:
[cc]HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)[/cc]