Robots.txt 是一个位于网站根目录的纯文本文件，用于告诉搜索引擎爬虫（如Googlebot、Baiduspider）哪些页面可以抓取，哪些页面不允许抓取。它是**爬虫协议（Robots Exclusion Protocol, REP）**的一部分，帮助网站管理员控制搜索引擎对网站的访问权限。

Robot.txt文件对SEO的重要性

(1) 提高爬取效率，优化抓取预算 (Crawl Budget)

搜索引擎每天对网站的抓取资源是有限的，如果浪费在不重要的页面上（如后台、日志文件、重复页面），可能会导致重要页面得不到及时抓取。而且，现在随着AI的出现，页面内容呈现爆炸式增长，谷歌数据库其实早已不堪重负！如果你不能很好地引导Google Bot在你网站进行抓取收录，那么很有可能你页面迟迟不被收录，尤其是对于新站点而言！

(2) 防止搜索引擎抓取重复或低质量内容

网站可能会生成大量重复页面或低质量内容，如果这些被索引，可能会影响网站的 SEO 评分。举个例子，tag标签，尽管有部分认为tag标签是一个可以单独优化的内容，当目前对于大部分外贸跨境网站的SEO实操来说，其实根本没有必要去设置tag标签，其唯一的作用也就是导航了，但是由于tag标签和catagories存在许多类似性，因此会重复，假如出于用户友好性，你的网站确实想要保留Tag标签，又不想其被收录，那么最好的方法就是在Robot.txt中写明让google bot 不收录tag标签页面。

(3) 保护敏感数据，防止隐私泄露

网站的后台管理、用户信息、数据库、插件数据等，不应该被搜索引擎爬取。这些是非常重要的，举个例子，以我自己的亲身经历，曾经就出现因为插件漏洞被黑帽SEO劫持快照，导致网站被收录了大量黑帽SEO植入的垃圾页面，对网站的影响不可为不小！而这一切的原因是什么呢？我所安装的某些网站优化插件有隐私泄露的bug，正好被搜索引擎抓取到了，然后黑帽SEO通过搜索引擎抓取全网寻找BUG，一抓一个准，于是乎我的网站就被黑了！

(4) 引导爬虫优先抓取核心内容

有些页面对于 SEO 非常重要，如产品页面、博客文章、服务页面, XML 网站地图等。通过 robots.txt，可以确保爬虫优先抓取重要页面，提高排名机会。

如何一步步设置你的Robot.txt文件？

因为目前建站B2B主要是Wordpress，而B2C主要是Shopify，因此我将分两个平台来逐一介绍一下Robot.txt在各自平台如何去设置构建。

WordPress 站点 Robots.txt 设置流程

WordPress 默认会生成一个虚拟的 robots.txt 文件，但你可以手动编辑它，优化搜索引擎抓取。

方法 1：使用 Yoast SEO 插件（推荐）

安装 Yoast SEO 插件
- 在 WordPress 后台插件 > 安装插件，搜索 Yoast SEO 并安装。
- 启用插件。
进入 Yoast SEO 设置
- 在 WordPress 后台，进入 Yoast SEO > 工具。
- 选择 文件编辑（如果没有这个选项，可能是服务器权限问题）。
修改 robots.txt
- 进入 robots.txt 编辑器，添加或修改内容。
保存更改

方法 2：手动上传 Robots.txt

1、创建 robots.txt 文件

使用 记事本（Windows） 或 TextEdit（Mac） 创建一个新文件，命名为 robots.txt。
添加你的规则，例如：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml

2、上传至 WordPress 根目录

通过 FTP 工具（如 FileZilla） 或 cPanel 登录你的 WordPress 服务器。
找到 public_html/ 或 www/ 目录。
将 robots.txt 上传到该目录。

3、测试 robots.txt 是否生效

Shopify 站点 Robots.txt 设置流程

Shopify 默认自动生成 robots.txt，但你可以通过 Shopify 的代码编辑器手动修改它。

1、进入 Shopify 后台

登录 Shopify 管理面板。
点击 在线商店 > 主题。

2、编辑 robots.txt 文件

在当前主题的 “编辑代码” 页面，找到 robots.txt.liquid（Shopify 允许编辑这个文件）。

修改或添加规则（如允许爬取某些页面或屏蔽无价值页面）。例如，如果你不希望搜索引擎索引 collection 过滤页面：

User-agent: *
Disallow: /collections/*?*

3、保存并发布

Robot.txt的通用格式

这里我分为三种格式，一种是B2B和B2C通用，另一个专门针对B2B的wordpress网站，最后一个专门针对B2C的shopify网站.

B2B和B2C通用

# 通用设置
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /order/
Disallow: /my-account/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /cgi-bin/

# 允许访问 WordPress 必需的资源
Allow: /wp-admin/admin-ajax.php

# 允许搜索引擎访问 Shopify 产品和目录页面
Allow: /collections/
Allow: /products/

# 对 WordPress 网站设置特定的 Disallow 规则
Disallow: /author/
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /search/

# 允许访问 Shopify 主题和资源文件
Allow: /assets/
Allow: /files/

# 通用对 Sitemap 的指示
Sitemap: https://www.yoursite.com/sitemap.xml

WordPress的Robot.txt

# 通用设置
User-agent: *
Disallow: /wp-admin/                # 禁止抓取WordPress后台管理界面
Disallow: /wp-login.php             # 禁止抓取WordPress登录页面
Disallow: /wp-content/              # 禁止抓取WordPress内容文件夹（避免抓取插件和主题代码）
Disallow: /wp-includes/            # 禁止抓取WordPress核心文件
Disallow: /cgi-bin/                # 禁止抓取CGI脚本文件夹
Disallow: /trackback/              # 禁止抓取Trackback链接
Disallow: /tag/                    # 禁止抓取标签页面，防止关键词滥用
Disallow: /search/                 # 禁止抓取搜索结果页面，避免重复内容被索引
Disallow: /comments/               # 禁止抓取评论页面
Disallow: /xmlrpc.php              # 禁止抓取XML-RPC接口，避免滥用

# 保护隐私，避免抓取用户信息
Disallow: /my-account/             # 禁止抓取用户账户页面
Disallow: /cart/                   # 禁止抓取购物车页面
Disallow: /checkout/               # 禁止抓取结账页面
Disallow: /order/                  # 禁止抓取订单页面

# 允许抓取需要索引的内容
Allow: /wp-admin/admin-ajax.php    # 允许抓取WordPress后台的AJAX处理文件，用于正常前端交互

# 防止黑帽SEO滥用搜索功能
Disallow: /?s=                     # 禁止抓取带有搜索参数的页面，避免搜索页面被滥用

# 禁止抓取特定内容，如临时或重复页面
Disallow: /?page_id=               # 禁止抓取带有page_id参数的页面，避免重复内容被抓取
Disallow: /?replytocom=             # 禁止抓取评论回复页面，避免重复内容

# 允许抓取有用的内容
Allow: /wp-content/uploads/        # 允许抓取上传的媒体文件夹，确保图片、视频和PDF等内容能被搜索引擎抓取
Allow: /wp-content/themes/         # 允许抓取主题文件夹（只限于已启用的主题，避免抓取不必要的文件）

# 站点地图设置，帮助搜索引擎更好地抓取站点
Sitemap: https://www.yoursite.com/sitemap.xml

Shopify的Robot.txt

# 允许所有用户代理抓取站点
User-agent: *
Disallow: /admin/                  # 禁止抓取Shopify后台管理页面
Disallow: /cart/                   # 禁止抓取购物车页面
Disallow: /checkout/               # 禁止抓取结账页面
Disallow: /orders/                 # 禁止抓取订单页面
Disallow: /account/                # 禁止抓取账户页面（保护用户信息）
Disallow: /collections/*/filters   # 禁止抓取带有过滤参数的集合页面，避免重复内容和无用抓取
Disallow: /search/                 # 禁止抓取搜索结果页面，避免低质量内容和重复页面
Disallow: /blogs/*/comments        # 禁止抓取评论页面，避免评论内容被抓取
Disallow: /thank_you/              # 禁止抓取订单完成后的感谢页面
Disallow: /gift_cards/             # 禁止抓取礼品卡页面
Disallow: /tracking/               # 禁止抓取快递追踪页面

# 防止黑帽SEO滥用和恶意抓取
Disallow: /?sort=                  # 禁止抓取带有排序参数的页面，防止排序被滥用
Disallow: /?filter=                # 禁止抓取带有筛选参数的页面，防止筛选被滥用
Disallow: /?page=                  # 禁止抓取分页参数，避免分页页面被滥用

# 允许抓取重要内容
Allow: /assets/                   # 允许抓取Shopify站点中的静态资源（如图片、CSS、JS文件）
Allow: /sitemap.xml               # 允许抓取站点地图文件，帮助搜索引擎更好地理解站点结构
Allow: /product/                  # 允许抓取商品页面，确保商品能够被索引
Allow: /collections/              # 允许抓取集合页面，帮助商品分类被索引

# 保护隐私和防止敏感信息泄露
Disallow: /password/               # 禁止抓取密码保护页面
Disallow: /secure/                 # 禁止抓取敏感页面，确保支付和交易安全

# 站点地图设置
Sitemap: https://www.yoursite.com/sitemap.xml  # 添加站点地图URL，帮助搜索引擎更高效地抓取网站

如何检测Robot.txt设置是否成功？

方法 1：直接在浏览器检查

在浏览器地址栏输入：https://www.yourwebsite.com/robots.txt

方法 2：Google Search Console 测试

进入 Google Search Console（https://search.google.com/search-console）
选择你的网站，进入 抓取 > robots.txt 测试工具。
输入 URL 进行测试，Google 会告诉你是否正确。

其他建议

除了 robots.txt，还可以用 meta robots 标记：如果页面已经被 Google 收录，你还需要在 <head> 添加：

<meta name="robots" content="noindex, follow">

扫码添加梅洛

内容隐藏

Robot.txt文件是什么?