Google使用一种预测性方法来根据URL模式检测重复内容,这可能会导致页面被错误地识别为重复内容。
为了防止不必要的爬网和索引编制,Google会尝试根据其网址来预测页面何时可能包含相似或重复的内容。
当Google抓取具有相似URL模式的页面并发现它们包含相同的内容时,它随后可以确定具有该URL模式的所有其他页面也具有相同的内容。
对于网站所有者而言,不幸的是,这可能意味着具有独特内容的页面被作为重复项注销,因为它们与实际重复的页面具有相同的URL模式。这些页面将被排除在Google的索引之外。
在3月5日录制的Google Search Central SEO环聊中讨论了此主题。网站所有者Ruchit Patel向Mueller询问了其活动网站,其中数千个URL的索引均未正确。
Mueller关于发生这种情况的原因的一种理论是因为用于检测重复内容的预测方法。
在下面的部分中阅读Mueller的回复。
Google的John Mueller预测重复内容
Google有多个级别来确定网页何时包含重复内容。
一种是直接查看页面内容,另一种是根据其URL预测页面何时重复。
“在我们这方面,发生的事情往往是我们试图从多个层面来了解网站上何时存在重复的内容。一种是当我们直接查看页面的内容时,我们会看到,该页面具有该内容,该页面具有不同的内容,我们应该将它们视为单独的页面。
另一件事是一种更广泛的预测方法,我们使用的是网站的URL结构,过去,当我们查看如下所示的URL时,就会看到它们与此类网址具有相同的内容。然后,我们将从本质上学习该模式,并说,看起来像这样的URL与看起来像这样的URL相同。”
Mueller继续解释了Google这样做的原因是为了节省爬网和索引编制的资源。
当Google认为某个页面是另一个页面的重复版本,因为它具有相似的URL时,它甚至不会抓取该页面来查看内容的真实外观。
“即使不查看个别的URL,我们有时也可以说,很好,我们将节省一些爬网和索引编制,仅关注这些假定的或非常可能的重复情况。我已经看到这种情况发生在城市之类的事情上。
我已经看到这种情况的发生,例如,我不知道,汽车是我们看到的另一种情况,从本质上说,我们的系统识别出您指定为城市名称的名称与实际URL不太相关。通常,当站点提供很多相同的内容并带有备用名称时,我们就会学习这种模式。”
穆勒谈到Google检测重复内容的预测方法如何影响事件网站:
“因此,对于活动站点,我不知道您的网站是否适用,对于活动站点,可能会发生以下情况:您占据了一个城市,而您所走的城市可能只有一公里,并且事件页面您显示的内容完全相同,因为相同的事件与这两个地方都相关。
然后,您乘坐了一个可能在五公里外的城市,并且您再次显示了完全相同的事件。从我们的角度来看,这很容易出现在以下情况:我们检查了10个事件URL,而看起来像城市名称的此参数实际上是不相关的,因为我们检查了10个事件URL,并且显示了相同的内容。
这就是我们的系统可以说的,嗯,也许整个城市名称是无关紧要的,我们可以忽略它。”
网站所有者可以采取什么措施来纠正此问题?
作为解决此问题的一种潜在方法,Mueller建议寻找存在重复内容真实情况的情况,并尽可能地加以限制。
“因此,在这种情况下,我会尝试做的是查看您是否遇到这种情况,即您的内容有很强的重叠部分,并尝试找到尽可能地限制这种情况的方法。
那可能是通过在页面上使用诸如rel规范之类的东西,然后说,好吧,这个大城市外面的小城市,我将规范设置为大城市,因为它显示的内容完全相同。
因此,实际上,我们在您的网站上进行爬网的每个URL和索引,我们都可以看到,该URL及其内容是唯一的,对我们而言,对所有这些URL进行索引非常重要。
或者,我们看到明确的信息,即您知道的该URL应该与另一个URL相同,您可能已经设置了重定向,或者在那里设置了相关的规范,我们可以只关注那些主要URL并仍然了解那里的城市对您的个人页面至关重要。”
Mueller并未解决问题的这一方面,但值得注意的是,与重复内容无关,没有任何惩罚或负面排名信号。
Google最多不会索引重复的内容,但不会对网站整体造成负面影响。