本文章适用于 所有搜索引擎,包括主流的 Google 搜索引擎

关于 robots.txt

使用入门

robots.txt 文件应位于您网站的根目录下。也就是说,如果您的网站是 www.example.com,则 robots.txt 文件的路径应为 www.example.com/robots.txt。
robots.txt 是一种遵照漫游器排除标准创建的纯文本文件,由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。

下面是一个包含两条规则的简单 robots.txt 文件,具体解析请见下文:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

解析:

  1. 名为“Googlebot”抓取工具的用户代理不应抓取 http://example.com/nogooglebot/ 文件夹或任何子目录。
  2. 所有其他用户代理均可访问整个网站。(不指定这条规则也无妨,结果是一样的,因为完全访问权限是系统默认的前提。)
  3. 网站的站点地图文件位于 http://www.example.com/sitemap.xml。

例如 WordPress 网站如果按照了 SEO 插件,会自动在你的根目录生成 robots.txt 文件,具体内容如下:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

解析:

所有抓取工具都不应该抓取 http://example.com/wp-admin/ 目录下的所有文件,允许抓取 http://example.com/wp-admin/admin-ajax.php

基本的 robots.txt 准则

以下是与 robots.txt 文件有关的基本准则。我们建议您阅读 robots.txt 文件的完整语法,因为 robots.txt 语法中有一些您需要了解的细微行为。


还有一种方法是适用 “noindex” 阻止搜索引擎抓取您的网页,实现方法如下:

要想阻止大部分搜索引擎网页抓取工具将您网站中的网页编入索引,请将以下元标记放入相应网页的 <head> 部分中:

<meta name="robots" content="noindex">

要仅阻止 Google 网页抓取工具将网页编入索引,请放入以下元标记:

<meta name="googlebot" content="noindex">

具体信息可查看以下文档:

https://support.google.com/webmasters/answer/93710

资料来源:

https://support.google.com/webmasters/answer/6062596

https://support.google.com/webmasters/answer/6062598?hl=zh-Hans&ref_topic=6061961

https://support.google.com/webmasters/answer/93710