404 和软 404 是不同类型的问题,需要不同的方法来诊断和修复它们。
谁发明了 Phrase Soft 404?
软 404 的概念可能起源于 2004 年的一篇题为“了解 Web 的衰变” (PDF) 的研究论文。
被不当替换的缺失页面会给试图索引真实页面的搜索引擎带来问题。
以下是研究论文如何构建软 404:
“根据 HTTP 协议,当向服务器请求一个不再可用的页面时,服务器应该返回一个错误代码……
…事实上,许多服务器,包括最有信誉的服务器,都不会返回 404 代码,而是返回替代页面和 OK 代码 (200)。
…我们的研究表明,这些类型的替换,称为“soft-404”,占死链接的 15% 以上。”
由于编码错误导致的软 404
在某些情况下页面没有丢失,但特定问题(如编码错误)已触发 Google 将其归类为丢失页面。
软 404 对调查至关重要,因为它们可能表示代码损坏。
典型的编码问题:
- 缺少文件或包含应该用内容填充网页的文件。
- 数据库错误。
- 缺少 JavaScript。
- 空的搜索结果页面。
404错误有两个主要原因
- 链接中的错误会将用户引导至不存在的页面。
- 指向曾经存在但突然消失的页面的链接。
链接错误
如果 404 的原因是链接错误,则必须修复链接。
此任务的棘手部分是查找站点上所有损坏的链接。抓取具有数千或数百万页面的大型复杂网站可能更具挑战性。
在这种情况下,爬虫工具就派上用场了。
您有很多网站爬虫软件可供选择:免费的 Xenu 和 Greenflare;或付费软件,如 Screaming Frog、DeepCrawl、Botify、Sitebulb 和 OnCrawl,其中有几个有免费试用版或免费但功能有限的版本。
不再存在的页面
当页面不再存在时,您有两种选择:
- 如果删除是意外的,请恢复页面。
- 如果删除是故意的, 301 会将其重定向到最近的相关页面。
首先,您必须找到网站上的所有链接错误。与查找大型网站链接中的所有错误类似,您可以使用爬虫工具。
但是,爬网工具可能找不到孤立页面:未从导航链接中的任何位置或任何页面链接的页面。
如果孤立页面曾经是网站的一部分,那么它们可能会存在,然后,在网站重新设计后,指向这个旧页面的链接会消失,但来自其他网站的外部链接可能仍然链接到它们。
要仔细检查您的网站上是否存在此类页面,您可以使用各种工具。
如何识别 404 响应页面
谷歌搜索控制台报告
覆盖率报告列出了网站上的 404 错误 URL。
Search Console将报告 404 个页面,因为 Google 会爬取它可以找到的所有页面。这可能包括从其他网站到您网站上曾经存在的页面的链接。
谷歌分析
默认情况下,您不会在Google Analytics(分析)中找到缺失页面报告。但是,您可以通过不同的方式跟踪它们。
一方面,您可以创建自定义报告并分割页面,其中页面标题提及Error 404 – Page Not Found。
在 Google Analytics 中查找孤立页面的另一种方法是创建自定义内容分组并将所有 404 页面分配给一个内容组。
站点:操作员搜索命令
无法使用 site: search 命令查找 404 错误,因为 Google 不会索引 404 网页或软 404 网页。
Google 的网站:搜索运算符可用于在网站上查找网页内容中包含特定关键字词组的网页。
Google 的 Search Console 是识别软 404 和常规 404 列表的最佳来源。
网站流量错误日志是识别 404 错误响应的有用来源。
其他反向链接研究工具
Majestic、Ahrefs、Moz Open Site Explorer、Sistrix、Semrush、LinkResearchTools 和 CognitiveSEO 等反向链接研究工具也可以提供帮助。
这些工具中的大多数将导出链接到您的域的反向链接列表。从那里,您可以检查所有链接页面并查找 404 错误。
如何修复软 404 错误
抓取工具不会检测到软 404,因为它不是 404 错误。但是你可以使用抓取工具来捕捉其他东西。
这里有一些东西可以找到:
- 精简内容: 一些抓取工具会报告具有精简内容和可排序字数的页面。从字数最少的页面开始,评估页面内容是否稀少。
- 重复内容:一些爬虫工具足够复杂,可以辨别页面中模板内容的百分比。还有专门用于查找内部重复内容的工具,例如 SiteLiner。如果主要内容与许多其他页面几乎相同,您应该查看这些页面并确定您网站上存在重复内容的原因。
除了抓取工具外,您还可以使用 Google Search Console 并检查抓取错误以查找软 404 下列出的页面。
爬取整个站点以查找导致软 404 的问题可让您在 Google 检测到问题之前找到并纠正问题。
检测到这些软 404 问题后,您需要更正它们。
大多数时候,解决方案似乎是常识。这可以包括一些简单的事情,例如用稀薄的内容扩展页面或用新的和独特的内容替换重复的内容。
在整个过程中,需要考虑以下几点:
合并页面
有时,内容稀少是由于页面主题过于具体而导致您无话可说。
如果主题相关,将几个薄页合并为一页可能更合适。这不仅可以解决内容稀少的问题,还可以解决重复的内容问题。
例如,销售不同颜色和尺码鞋子的电子商务网站可能针对每种尺码和颜色组合使用不同的 URL。这会留下大量内容薄且相对相同的页面。
更有效的方法是将所有这些都放在一个页面上,并列举可用的选项。
查找导致重复内容的技术问题
即使使用像 Xenu 这样最简单的网络爬虫工具(它不查看内容,只查看 URL、响应代码和标题标签),您仍然可以通过查看 URL 来发现重复内容问题。
这包括 www 与非 www URL、HTTP 和 HTTPS、带有和不带有 index.html、带有和不带有跟踪参数等。
404 错误和软 404 错误
关于 404 错误,要记住的最重要的一点是,如果页面确实丢失了,那么就没有什么可修复的了。对不存在的页面的请求显示 404 响应是可以的。
但是,如果页面存在但在不同的 URL 上,则可以通过将损坏的链接重定向到实际 URL、恢复丢失的页面或将旧 URL 重定向到替换它的新页面来解决此问题。
软 404 始终是必须诊断和修复的问题的结果。
了解 404 之间的区别对于保持网站以最佳性能运行至关重要。