如何在WordPress中阻止谷歌索引页面 – 解决覆盖率问题中的403错误

  这个话题可以分为两个部分:如何使用 “noindex” 指令阻止谷歌等搜索引擎索引目标页面和如何解决 Google Search Console 覆盖率中“网址已提交,但返回了403错误”这一问题。前者是针对排除索引的一种解决办法,后者是覆盖率问题中一种错误,只有当网站运营人员不想出现403索引错误的页面被索引时,才使用排除索引的办法,否则应当采用修复页面的办法,来符合谷歌的索引规则。

一、什么是“网址已提交,但返回了403错误”?

  一般意义上的403错误是指服务器上文件或目录拒绝访问。这里的“网址已提交,但返回了403错误”是指服务器已经识别到 Google蜘蛛的登录,但拒绝 Google 访问页面的内容。这一问题在谷歌站长管理工具 Google Search Console 中表现为覆盖率错误。一般出现该错误时,谷歌会发邮件提醒。

邮件提醒 403 错误
谷歌站内信 截图
解决 403 错误 覆盖率问题
谷歌覆盖率问题 截图

  如果网站运营者想要该页面编入索引,就应当向匿名访问者授予权限,否则,应当排除该页面编入索引。前者例如:需要账号密码登录的页面;后者例如:做了301重定向跳转到站外的页面。这两者一般情况下都是需要排除索引的。

二、如何在 WordPress 中排除谷歌索引?

1. 使用 robots.txt 文件在 WordPress 中对页面进行排除索引

  要通过 robots.txt 文件向搜索引擎隐藏页面,请将以下代码行添加到文件中:

				
					User-agent: *
Disallow: /目标页面URL字段/
				
			

  第一行 User-agent: 代码是指你可能希望定位到特定的搜索引擎,如果要包括所有搜索引擎,使用通配符*,指代任意长度的字符串。
第二行 Disallow: 代码中插入要隐藏的目标页面的 URL,URL排除网站的域名字段,例如需要排除索引的URL是:http://elandseo.com/category/uncategorized/feed/

  代码应该写成:

				
					User-agent: *
Disallow: /category/uncategorized/feed/
				
			

  要创建或访问 robots.txt 文件,可以通过FTP连接服务器操作,也可以使用cPanel中的文件管理器。

  另一种访问 robots.txt 文件的方法是通过 Yoast SEO 插件。操作步骤是:Yoast SEO > Tools > File Editor > 点击 Create robots.txt file 按钮。

来自 Yoast SEO 截图

  不过使用 robots.txt 文件有一定的风险,除了对初学者不太友好之外,并非所有搜索引擎都遵循该文件的请求,恶意的内容抓取工具和机器人也会忽略该文件,此外 robots.txt 文件是可以被公开访问的,所以如果使用该文件排除索引,意味着任何人都可以轻松发现你的想要隐藏页面的意图。

2. 使用 “noindex” 指令在 WordPress 中对页面进行排除谷歌索引

  “noindex”指令有两种实现方式:元标签和HTTP响应标头。它们的效果相同。

元标签

  为排除大多数搜索引擎爬虫对目标页面的索引,请将以下元标签放入页面的< head >部分:

				
					<meta name="robots" content="noindex">
				
			

  如果仅阻止 Google机器人将页面编入索引,则使用:

				
					<meta name="googlebot" content="noindex">
				
			

HTTP 响应标头

  除了元标签,还可以在HTTP响应中添加X-Robots-Tag: noindex,来排除搜索引擎把页面编入索引。下面是一个 HTTP 响应示例,其中X-Robots-Tag指示爬虫不要索引页面:

				
					HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
				
			

  以上这些方法对于初学者来说都颇为复杂,下面来讲一个更简单的办法。

3. 使用 Yoast SEO 插件在 WordPress 中对页面进行排除谷歌索引

  无论你对WordPress的熟悉程度如何,实际上,使用Yoast SEO插件来排除搜索引擎对页面的索引,应该是最方便快捷的方法。Yoast SEO插件 可以设置所有Post文章排除索引,也可以对单个页面设置“noindex”排除索引。

  具体的步骤为:在编辑页面的下方,Yoast SEO 选项卡中找到 Advanced 选项,打开第一个 Allow search engines to show this post in search results 的下拉菜单,选择 No。程序会自动在这个页面上添加 meta标签 “noindex”,以排除搜索引擎对该页面的索引。

meta-robots-show-post-in-search-results
Yoast SEO 截图

  如果Allow search engines to show this post in search results 和 Should search engines follow links on this post 都选了 No, 查看页面源代码可以发现以下 Meta标签代码。即排除搜索引擎对页面的索引,同时阻止搜索引擎跟踪页面上的所有链接。

				
					<meta name='robots' content='noindex, nofollow' />
				
			

  设置好后,注意保存。然后就可以在 Googles Search Console 中提交验证,Google 需要几天的时间来完成此验证。网站运营人员可以随时关注并查看验证进度。当显示“已通过”时,说明“网址已提交,但返回了 403 错误”已被解决。

验证403错误
Google覆盖率问题 截图

  5天之后,收到邮件,验证已通过。

403错误验证通过
403错误验证已通过 截图

  此外,需要注意的是,添加了 “noindex” 并不会百分之百地排除所有搜索引擎的索引。某些搜索引擎网络爬虫可能会对 “noindex” 以不同的方式解释指令。你的页面可能仍会出现在其他搜索引擎的搜索结果中。

留下评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注