6 个常见的 Robots.txt 问题以及如何解决它们 _ 厦门创意互动网络科技有限公司

6 个常见的 Robots.txt 问题以及如何解决它们

发现最常见的 robots.txt 问题、它们可能对您的网站和搜索结果产生的影响，以及如何解决这些问题。

Robots.txt 是一个有用且相对强大的工具，可以指导搜索引擎爬虫了解您希望他们如何爬取您的网站。

它不是万能的（用Google 自己的话来说，“它不是一种将网页排除在 Google 之外的机制”），但它可以帮助防止您的网站或服务器因爬虫请求而过载。

如果您在网站上设置了此爬网块，则需要确保它被正确使用。

如果您使用动态 URL 或其他生成理论上无限数量的页面的方法，这一点尤其重要。

在本指南中，我们将介绍 robots.txt 文件的一些最常见问题，它们可能对您的网站和您的搜索存在的影响，以及如果您认为这些问题已经发生，如何解决这些问题。

但首先，让我们快速浏览一下 robots.txt 及其替代品。

什么是 Robots.txt？

Robots.txt 使用纯文本文件格式，位于您网站的根目录中。

它必须在您网站的最顶层目录中；如果您将其放在子目录中，搜索引擎将直接忽略它。

尽管 robots.txt 功能强大，但它通常是一个相对简单的文档，使用记事本等编辑器可以在几秒钟内创建一个基本的 robots.txt 文件。

还有其他方法可以实现 robots.txt 通常用于的某些相同目标。

单个页面可以在页面代码本身中包含漫游器元标记。

您还可以使用X-Robots-Tag HTTP 标头来影响内容在搜索结果中的显示方式（以及是否显示）。

Robots.txt 可以在一系列不同的内容类型中实现各种结果：

可以阻止网页被抓取。

它们可能仍会出现在搜索结果中，但不会有文字说明。页面上的非 HTML 内容也不会被抓取。

可以阻止媒体文件出现在 Google 搜索结果中。

这包括图像、视频和音频文件。

如果文件是公开的，它仍然会在线“存在”并且可以被查看和链接，但这种私人内容不会显示在 Google 搜索中。

可以阻止诸如不重要的外部脚本之类的资源文件。

但这意味着，如果 Google 抓取需要加载该资源的页面，Googlebot 机器人将“看到”该页面的某个版本，就好像该资源不存在一样，这可能会影响索引编制。

您不能使用 robots.txt 完全阻止网页出现在 Google 的搜索结果中。

为此，您必须使用另一种方法，例如在页面头部添加一个 noindex元标记。

robots.txt 中的错误可能会产生意想不到的后果，但这通常不是世界末日。

好消息是，通过修复 robots.txt 文件，您可以快速（通常）从任何错误中恢复。