这个话题可以分为两个部分:如何使用 “noindex” 指令阻止谷歌等搜索引擎索引目标页面和如何解决 Google Search Console 覆盖率中“网址已提交,但返回了403错误”这一问题。前者是针对排除索引的一种解决办法,后者是覆盖率问题中一种错误,只有当网站运营人员不想出现403索引错误的页面被索引时,才使用排除索引的办法,否则应当采用修复页面的办法,来符合谷歌的索引规则。
一、什么是“网址已提交,但返回了403错误”?
一般意义上的403错误是指服务器上文件或目录拒绝访问。这里的“网址已提交,但返回了403错误”是指服务器已经识别到 Google蜘蛛的登录,但拒绝 Google 访问页面的内容。这一问题在谷歌站长管理工具 Google Search Console 中表现为覆盖率错误。一般出现该错误时,谷歌会发邮件提醒。
如果网站运营者想要该页面编入索引,就应当向匿名访问者授予权限,否则,应当排除该页面编入索引。前者例如:需要账号密码登录的页面;后者例如:做了301重定向跳转到站外的页面。这两者一般情况下都是需要排除索引的。
二、如何在 WordPress 中排除谷歌索引?
1. 使用 robots.txt 文件在 WordPress 中对页面进行排除索引
要通过 robots.txt 文件向搜索引擎隐藏页面,请将以下代码行添加到文件中:
User-agent: *
Disallow: /目标页面URL字段/
第一行 User-agent: 代码是指你可能希望定位到特定的搜索引擎,如果要包括所有搜索引擎,使用通配符*,指代任意长度的字符串。
第二行 Disallow: 代码中插入要隐藏的目标页面的 URL,URL排除网站的域名字段,例如需要排除索引的URL是:http://elandseo.com/category/uncategorized/feed/
代码应该写成:
User-agent: *
Disallow: /category/uncategorized/feed/
要创建或访问 robots.txt 文件,可以通过FTP连接服务器操作,也可以使用cPanel中的文件管理器。
另一种访问 robots.txt 文件的方法是通过 Yoast SEO 插件。操作步骤是:Yoast SEO > Tools > File Editor > 点击 Create robots.txt file 按钮。
不过使用 robots.txt 文件有一定的风险,除了对初学者不太友好之外,并非所有搜索引擎都遵循该文件的请求,恶意的内容抓取工具和机器人也会忽略该文件,此外 robots.txt 文件是可以被公开访问的,所以如果使用该文件排除索引,意味着任何人都可以轻松发现你的想要隐藏页面的意图。
2. 使用 “noindex” 指令在 WordPress 中对页面进行排除谷歌索引
“noindex”指令有两种实现方式:元标签和HTTP响应标头。它们的效果相同。
元标签
为排除大多数搜索引擎爬虫对目标页面的索引,请将以下元标签放入页面的< head >部分:
如果仅阻止 Google机器人将页面编入索引,则使用:
HTTP 响应标头
除了元标签,还可以在HTTP响应中添加X-Robots-Tag: noindex,来排除搜索引擎把页面编入索引。下面是一个 HTTP 响应示例,其中X-Robots-Tag指示爬虫不要索引页面:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
以上这些方法对于初学者来说都颇为复杂,下面来讲一个更简单的办法。
3. 使用 Yoast SEO 插件在 WordPress 中对页面进行排除谷歌索引
无论你对WordPress的熟悉程度如何,实际上,使用Yoast SEO插件来排除搜索引擎对页面的索引,应该是最方便快捷的方法。Yoast SEO插件 可以设置所有Post文章排除索引,也可以对单个页面设置“noindex”排除索引。
具体的步骤为:在编辑页面的下方,Yoast SEO 选项卡中找到 Advanced 选项,打开第一个 Allow search engines to show this post in search results 的下拉菜单,选择 No。程序会自动在这个页面上添加 meta标签 “noindex”,以排除搜索引擎对该页面的索引。
如果Allow search engines to show this post in search results 和 Should search engines follow links on this post 都选了 No, 查看页面源代码可以发现以下 Meta标签代码。即排除搜索引擎对页面的索引,同时阻止搜索引擎跟踪页面上的所有链接。
设置好后,注意保存。然后就可以在 Googles Search Console 中提交验证,Google 需要几天的时间来完成此验证。网站运营人员可以随时关注并查看验证进度。当显示“已通过”时,说明“网址已提交,但返回了 403 错误”已被解决。
5天之后,收到邮件,验证已通过。
此外,需要注意的是,添加了 “noindex” 并不会百分之百地排除所有搜索引擎的索引。某些搜索引擎网络爬虫可能会对 “noindex” 以不同的方式解释指令。你的页面可能仍会出现在其他搜索引擎的搜索结果中。