长沙网站制作：管理站点的搜索引擎可访问性_极简慕枫

时间：2019-08-01

编辑:网站制作公司

971

长沙网站制作如果搜索引擎无法将您的网站编入索引，那么您的网站就无用了。如果您希望它显示在搜索结果中，您需要确保搜索引擎可以访问它。但是，有时您可能希望限制对网站某些部分的访问，也许您希望隐藏不相关的网页或私人文档。在本文中，您将学习如何通过robots.txt文件或漫游器元标记管理网站对搜索引擎的辅助功能。

机器人文件和标签的好处

长沙网站制作在深入了解如何创建robots.txt文件或漫游器元标记的详细信息之前，我们应该先了解它们的好处。在某些情况下，它们的实现可能会派上用场，例如：

防止索引重复内容（例如页面的可打印版本）。
对于不完整的页面。
限制搜索引擎索引机密页面或文件。

由于搜索引擎很难确定哪个版本与用户的搜索查询最相关，因此重复内容会削弱您的SEO工作量。通过机器人文件或标记阻止重复页面可以防止此问题。还有另一种管理重复内容的方法，但我们稍后会讨论。

如果您在线有新的但不完整的页面，最好将它们从抓取工具中阻止，以防止它们被编入索引。例如，这可能对新产品页面很有用 - 如果您想在启动前保密，请添加机器人文件或标记。

某些网站的机密页面或文件未被登录表单阻止。从搜索引擎隐藏这些内容的简单方法是通过robots.txt文件或元标记。

现在我们知道为什么我们要管理的某些页面的可访问性，它的时间来学习如何我们可以做到这一点。

robots.txt文件

爬行者是工作狂。他们想要尽可能多地索引，除非你另有说明。

当抓取工具访问您的网站时，它会搜索robots.txt文件。该文件给出了关于应该索引哪些页面以及应该忽略哪些页面的说明。通过创建robots.txt文件，您可以阻止抓取工具访问您网站的某些部分。

robots.txt文件必须放在网站的顶级目录中 - 例如：www.domain.com/robots.txt。此文件名也区分大小写。

警告：如果您将robots.txt文件添加到您的网站，请仔细检查错误。您不希望无意中阻止抓取工具索引重要页面。

创建robots.txt文件

robots.txt是一个包含多条记录的简单文本文件。每条记录都有两个元素：user-agent和disallow。

user-agent元素告诉哪些爬虫应该使用disallow信息。Disallow告诉抓取工具无法编制索引的哪个部分。

记录看起来像这样：

1 2	User-agent: * Disallow:

上面的记录使搜索引擎可以访问所有页面。我们使用星号（*）来定位所有抓取工具，因为我们没有指定disallow页面，所以它们可以索引所有页面。

但是，通过向disallow字段添加正斜杠，我们可以阻止所有抓取工具从我们的网站索引任何内容：

1 2	User-agent: * Disallow: /

我们还可以选择定位单个爬虫。看看下面的例子：

1 2	User-agent: Googlebot Disallow: /private-directory/

此记录告诉Google不要索引私人目录; Google使用Googlebot进行网络搜索。有关所有爬网程序的完整列表，请访问Web机器人数据库。

将一个禁止与一个用户代理耦合将是一项耗时的工作。幸运的是，我们可以在同一条记录中添加多个禁令。

User-agent: Bingbot

Disallow: /sample-directory/

Disallow: /an-uninteresting-page.html

Disallow: /pictures/logo.jpg

这将阻止Bing索引样本目录，不感兴趣的页面和徽标。

通配符

由于我们在这里依赖正则表达式，我们还可以在robots.txt文件中使用通配符。

例如，很多人使用Wordpress作为CMS。访问者可以使用内置搜索功能查找有关特定主题的帖子，搜索查询的网址具有以下结构：http：//domain.com/？s = searchquery。

如果我想阻止搜索结果被索引，我可以使用通配符。robots.txt记录如下所示：

1 2	User-agent: * Disallow: /?s=

您还可以使用通配符来防止索引文件类型。以下代码将阻止所有.png图像：

1 2	User-agent: * Disallow: /*.png$

不要忘记在最后添加美元符号。它告诉搜索引擎它是URL字符串的结尾。

测试您的robots.txt文件

测试你的robots.txt文件以确定你是否犯过任何错误总是一个好主意。您可以使用Google网站站长工具。

在“运行状况”下，您会找到“已阻止的网址”页面。在这里，您可以找到有关您文件的所有信息。您还可以在上传之前测试更改。

机器人元标记

robots元标记用于管理抓取工具对单个页面的可访问性。它告诉搜索引擎是否可以对页面进行爬网，存档或是否可以遵循页面上的链接。

这就是robots meta标签的样子：

五

<head>

</head>

此元标记可防止抓取工具对网页编制索引。除了“noindex”之外，还有其他一些可能有用的属性：

index：此页面可以编入索引。
noindex：此页面无法显示在搜索结果中。
按照：可以遵循此页面上的链接。
nofollow：无法遵循此页面上的链接。
archive：允许此页面的缓存副本。
noarchive：不允许此页面的缓存副本。

可以在单个漫游器元标记中使用多个属性，例如：

五

<head>

</head>

此标记可防止抓取工具对网页编制索引并跟踪其链接。

如果您碰巧使用了冲突标记，Google将使用最受限制的选项。假设你在同一个标签中使用'“index”和“noindex”，页面将不会被索引（最严格的选项，只是为了安全）。

我使用robots.txt或Meta标签吗？

正如我们所讨论的，有两种方法可以管理网页的可访问性：robots.txt文件和元标记。

robots.txt文件非常适合阻止完整目录或某些文件类型。使用单行文本，您可以完成大量工作（并且可能会造成很多损害！）但是如果您想要阻止单个页面，最好使用漫游器元标记。

有时，通过robots.txt文件阻止的网址仍会显示在搜索结果中。如果有很多指向该网页的链接，并且Google认为搜索查询的唯一相关搜索结果，它仍会显示。如果您绝对不希望显示该页面，则应添加noindex元标记。这可能听起来很复杂，但Matt Cutts 在YouTube上的搜索结果中的未抓取网址中详细解释了所有内容。