禁止搜索引擎抓取指定文章（页面）

本文章适用于所有搜索引擎，包括主流的 Google 搜索引擎

关于 robots.txt

使用入门

robots.txt 文件应位于您网站的根目录下。也就是说，如果您的网站是 www.example.com，则 robots.txt 文件的路径应为 www.example.com/robots.txt。
robots.txt 是一种遵照漫游器排除标准创建的纯文本文件，由一条或多条规则组成。每条规则可禁止（或允许）特定抓取工具抓取相应网站中的指定文件路径。

下面是一个包含两条规则的简单 robots.txt 文件，具体解析请见下文：

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

解析：

名为“Googlebot”抓取工具的用户代理不应抓取 http://example.com/nogooglebot/ 文件夹或任何子目录。
所有其他用户代理均可访问整个网站。（不指定这条规则也无妨，结果是一样的，因为完全访问权限是系统默认的前提。）
网站的站点地图文件位于 http://www.example.com/sitemap.xml。

例如 WordPress 网站如果按照了 SEO 插件，会自动在你的根目录生成 robots.txt 文件，具体内容如下：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

解析：

所有抓取工具都不应该抓取 http://example.com/wp-admin/ 目录下的所有文件，允许抓取 http://example.com/wp-admin/admin-ajax.php

基本的 robots.txt 准则

以下是与 robots.txt 文件有关的基本准则。我们建议您阅读 robots.txt 文件的完整语法，因为 robots.txt 语法中有一些您需要了解的细微行为。

还有一种方法是适用 “noindex” 阻止搜索引擎抓取您的网页，实现方法如下：

要想阻止大部分搜索引擎网页抓取工具将您网站中的网页编入索引，请将以下元标记放入相应网页的 <head> 部分中：

<meta name="robots" content="noindex">

要仅阻止 Google 网页抓取工具将网页编入索引，请放入以下元标记：

<meta name="googlebot" content="noindex">

具体信息可查看以下文档：

https://support.google.com/webmasters/answer/93710

资料来源：

https://support.google.com/webmasters/answer/6062596

https://support.google.com/webmasters/answer/6062598?hl=zh-Hans&ref_topic=6061961

https://support.google.com/webmasters/answer/93710