发现最常见的 robots.txt 问题、它们可能对您的网站和搜索结果产生的影响,以及如何解决这些问题。
Robots.txt 是一个有用且相对强大的工具,可以指导搜索引擎爬虫了解您希望他们如何爬取您的网站。
它不是万能的(用Google 自己的话来说,“它不是一种将网页排除在 Google 之外的机制”),但它可以帮助防止您的网站或服务器因爬虫请求而过载。
如果您在网站上设置了此爬网块,则需要确保它被正确使用。
如果您使用动态 URL 或其他生成理论上无限数量的页面的方法,这一点尤其重要。
在本指南中,我们将介绍 robots.txt 文件的一些最常见问题,它们可能对您的网站和您的搜索存在的影响,以及如果您认为这些问题已经发生,如何解决这些问题。
但首先,让我们快速浏览一下 robots.txt 及其替代品。
什么是 Robots.txt?
Robots.txt 使用纯文本文件格式,位于您网站的根目录中。
它必须在您网站的最顶层目录中;如果您将其放在子目录中,搜索引擎将直接忽略它。
尽管 robots.txt 功能强大,但它通常是一个相对简单的文档,使用记事本等编辑器可以在几秒钟内创建一个基本的 robots.txt 文件。
还有其他方法可以实现 robots.txt 通常用于的某些相同目标。
单个页面可以在页面代码本身中包含漫游器元标记。
您还可以使用X-Robots-Tag HTTP 标头来影响内容在搜索结果中的显示方式(以及是否显示)。
Robots.txt 能做什么?
Robots.txt 可以在一系列不同的内容类型中实现各种结果:
可以阻止网页被抓取。
它们可能仍会出现在搜索结果中,但不会有文字说明。页面上的非 HTML 内容也不会被抓取。
可以阻止媒体文件出现在 Google 搜索结果中。
这包括图像、视频和音频文件。
如果文件是公开的,它仍然会在线“存在”并且可以被查看和链接,但这种私人内容不会显示在 Google 搜索中。
可以阻止诸如不重要的外部脚本之类的资源文件。
但这意味着,如果 Google 抓取需要加载该资源的页面,Googlebot 机器人将“看到”该页面的某个版本,就好像该资源不存在一样,这可能会影响索引编制。
您不能使用 robots.txt 完全阻止网页出现在 Google 的搜索结果中。
为此,您必须使用另一种方法,例如在页面头部添加一个 noindex元标记。
Robots.txt 错误有多危险?
robots.txt 中的错误可能会产生意想不到的后果,但这通常不是世界末日。
好消息是,通过修复 robots.txt 文件,您可以快速(通常)从任何错误中恢复。