想知道为什么您失去了流量?以下是5个最常见的问题,这些问题会阻止Google按网站大小对您的网页编制索引。
Google公开了它不会为可以找到的所有页面编制索引的事实。使用Google Search Console,您可以查看网站上未编入索引的页面。
Google Search Console还为您提供了有关导致页面无法编制索引的特定问题的有用信息。
这些问题包括服务器错误,404,以及页面可能具有稀少或重复内容的提示。
但是我们永远都看不到任何数据显示出整个网络中最常见的问题。
所以……我决定自己收集数据并编辑统计信息!
在本文中,我们将探讨最流行的索引编制问题,这些问题将阻止您的页面显示在Google搜索中。
索引101
索引就像建立图书馆,而不是书籍,Google会处理网站。
如果您希望页面显示在搜索中,则必须对其进行正确索引。用外行的话来说,Google必须找到并保存它们。
然后,Google可以分析其内容,以确定它们可能与哪些查询相关。
获得索引是从Google获得自然流量的先决条件。并且,随着您网站上的更多页面被编入索引,您更有可能出现在搜索结果中。
这就是为什么让您知道Google是否可以为您的内容编制索引这一点非常重要。
这是我发现索引问题的方法
我的日常任务包括从技术SEO角度优化网站,以使其在Google中更加可见,因此,我可以访问Google Search Console中的数十个网站。
我决定使用此功能,以希望使流行的索引编制问题……好吧,不那么受欢迎。
为了透明起见,我分解了使我得出一些有趣结论的方法。
方法
我首先创建页面样本,将来自两个来源的数据进行组合:
- 我使用了我的客户提供的数据。
- 我要求其他SEO专业人员与我共享匿名数据,方法是发布Twitter调查并直接与某些SEO联系。
两者都证明了丰富的信息资源。
排除不可索引的页面
您不希望将某些页面编入索引是您的利益。这些包括旧的URL,不再相关的文章,电子商务中的过滤器参数等等。
网站管理员可以确保Google以多种方式忽略它们,包括robots.txt文件和noindex标记。
考虑到此类页面会对搜索结果的质量产生负面影响,因此我从样本中删除了符合以下任何条件的页面:
- 被robots.txt阻止。
- 标记为noindex。
- 已重定向。
- 返回HTTP 404状态代码。
排除无价页面
为了进一步提高样本质量,我只考虑了站点地图中包含的那些页面。
根据我的经验,站点地图最清晰地表示了给定网站中有价值的URL。
当然,有很多网站的站点地图中都有垃圾。有些甚至在其站点地图和robots.txt文件中包含相同的URL 。
但是我在上一步中已经解决了这一问题。
资料分类
我发现流行的索引编制问题取决于网站的大小。
这是我拆分数据的方式:
- 小型网站(最多1万页)。
- 中型网站(从1万到10万页)。
- 大型网站(多达一百万页)。
- 庞大的网站(超过一百万页)。
由于样本中网站的大小存在差异,因此我不得不找到一种使数据标准化的方法。
一个在某个特定问题上苦苦挣扎的超大型网站可能会胜过其他较小的网站可能遇到的问题。
因此,我分别查看了每个网站,以对它们所遇到的索引问题进行排序。然后,我根据给定网站上受给定问题影响的页面数为索引问题分配了点数。
判决是……
这是我在各种规模的网站上发现的前五个问题。
- 已抓取-当前未编入索引(质量问题)。
- 内容重复。
- 已发现-当前未编入索引(预算/质量问题)。
- 软404。
- 抓取问题。
让我们分解这些。
质量
质量问题包括您的页面内容薄,误导或过于偏见。
如果您的网页没有提供Google想要向用户显示的独特,有价值的内容,那么您将很难为其建立索引(也不要感到惊讶)。
内容重复
Google可能会将您的某些页面识别为重复内容,即使您并非故意做到这一点。
一个常见的问题是指向不同页面的规范标签。结果是原始页面没有被索引。
如果确实有重复的内容,请使用规范标签属性或301重定向。
这将帮助您确保您网站上的相同页面不会在视图,点击和链接方面相互竞争。
搜寻预算
什么是抓取预算?基于多种因素,Googlebot只会在每个网站上抓取一定数量的URL。
这意味着优化至关重要。不要让它浪费时间在您不关心的页面上。
软404
404错误表示您提交了已删除或不存在的页面以进行索引。软404会显示“未找到”信息,但不会将HTTP 404状态代码返回给服务器。
将已删除的页面重定向到不相关的其他页面是一个常见错误。
多个重定向也可能显示为软404错误。力求尽可能缩短您的重定向链。
抓取问题
抓取问题很多,但重要的一个是robots.txt的问题。如果Googlebot为您的网站找到了robots.txt,但无法访问它,则它将根本不会抓取该网站。
最后,让我们看一下不同网站大小的结果。
小型网站
样本数量:44个站点
- 已抓取,当前未编入索引(质量或抓取预算问题)。
- 内容重复。
- 搜寻预算问题。
- 软404。
- 抓取问题。
中型网站
样本数量:8个站点
- 内容重复。
- 已发现,目前未编入索引(抓取预算/质量问题)。
- 爬行,目前未编入索引(质量问题)。
- 软404(质量问题)。
- 抓取问题。
大型网站
样本数量:9个地点
- 爬行,目前未编入索引(质量问题)。
- 已发现,目前未编入索引(抓取预算/质量问题)。
- 内容重复。
- 软404。
- 抓取问题。
庞大的网站
样本数量:9个地点
- 爬行,目前未编入索引(质量问题)。
- 已发现,目前未编入索引(抓取预算/质量问题)。
- 重复的内容(重复的,提交的URL未选择为规范)。
- 软404。
- 抓取问题。
常见索引问题的关键要点
有趣的是,根据这些发现,两个大小的网站都遇到了相同的问题。这表明在大型网站的情况下,保持质量有多么困难。
- 大于100k,但小于100万。
- 大于一百万。
但是,要点是:
- 由于爬网预算不足,即使是相对较小的网站(超过10k)也可能无法完全索引。
- 网站越大,搜寻预算/质量问题就越紧迫。
- 重复内容的问题很严重,但是其性质取决于网站。
PS关于Google未知URL的说明
在研究过程中,我意识到还有一个更常见的问题会阻止页面被索引。
它可能没有在上面的排名中赢得它的位置,但是仍然很重要,我很惊讶地看到它仍然如此受欢迎。
我说的是孤立页面。
您网站上的某些页面可能没有指向它们的内部链接。
如果Googlebot无法通过您的网站找到页面,那么它可能根本找不到。
有什么解决方案?从相关页面添加链接。
您也可以通过将孤立页面添加到站点地图中来手动解决此问题。不幸的是,许多网站管理员仍然没有这样做。