时间:2019-08-01
编辑:网站制作公司
910
0
长沙网站制作如果搜索引擎无法将您的网站编入索引,那么您的网站就无用了。如果您希望它显示在搜索结果中,您需要确保搜索引擎可以访问它。但是,有时您可能希望限制对网站某些部分的访问,也许您希望隐藏不相关的网页或私人文档。在本文中,您将学习如何通过robots.txt文件或漫游器元标记管理网站对搜索引擎的辅助功能。
长沙网站制作在深入了解如何创建robots.txt文件或漫游器元标记的详细信息之前,我们应该先了解它们的好处。在某些情况下,它们的实现可能会派上用场,例如:
防止索引重复内容(例如页面的可打印版本)。
对于不完整的页面。
限制搜索引擎索引机密页面或文件。
由于搜索引擎很难确定哪个版本与用户的搜索查询最相关,因此重复内容会削弱您的SEO工作量。通过机器人文件或标记阻止重复页面可以防止此问题。还有另一种管理重复内容的方法,但我们稍后会讨论。
如果您在线有新的但不完整的页面,最好将它们从抓取工具中阻止,以防止它们被编入索引。例如,这可能对新产品页面很有用 - 如果您想在启动前保密,请添加机器人文件或标记。
某些网站的机密页面或文件未被登录表单阻止。从搜索引擎隐藏这些内容的简单方法是通过robots.txt文件或元标记。
现在我们知道为什么我们要管理的某些页面的可访问性,它的时间来学习如何我们可以做到这一点。
爬行者是工作狂。他们想要尽可能多地索引,除非你另有说明。
当抓取工具访问您的网站时,它会搜索robots.txt文件。该文件给出了关于应该索引哪些页面以及应该忽略哪些页面的说明。通过创建robots.txt文件,您可以阻止抓取工具访问您网站的某些部分。
robots.txt文件必须放在网站的顶级目录中 - 例如:www.domain.com/robots.txt。此文件名也区分大小写。
警告:如果您将robots.txt文件添加到您的网站,请仔细检查错误。您不希望无意中阻止抓取工具索引重要页面。
robots.txt是一个包含多条记录的简单文本文件。每条记录都有两个元素:user-agent和disallow。
user-agent元素告诉哪些爬虫应该使用disallow信息。Disallow告诉抓取工具无法编制索引的哪个部分。
记录看起来像这样:
1 2 | User-agent: * Disallow: |
上面的记录使搜索引擎可以访问所有页面。我们使用星号(*)来定位所有抓取工具,因为我们没有指定disallow页面,所以它们可以索引所有页面。
但是,通过向disallow字段添加正斜杠,我们可以阻止所有抓取工具从我们的网站索引任何内容:
1 2 | User-agent: * Disallow: / |
我们还可以选择定位单个爬虫。看看下面的例子:
1 2 | User-agent: Googlebot Disallow: /private-directory/ |
此记录告诉Google不要索引私人目录; Google使用Googlebot进行网络搜索。有关所有爬网程序的完整列表,请访问Web机器人数据库。
将一个禁止与一个用户代理耦合将是一项耗时的工作。幸运的是,我们可以在同一条记录中添加多个禁令。
1 2 3 4 | User-agent: Bingbot Disallow: /sample-directory/ Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg |
这将阻止Bing索引样本目录,不感兴趣的页面和徽标。
由于我们在这里依赖正则表达式,我们还可以在robots.txt文件中使用通配符。
例如,很多人使用Wordpress作为CMS。访问者可以使用内置搜索功能查找有关特定主题的帖子,搜索查询的网址具有以下结构:http://domain.com/?s = searchquery。
如果我想阻止搜索结果被索引,我可以使用通配符。robots.txt记录如下所示:
1 2 | User-agent: * Disallow: /?s= |
您还可以使用通配符来防止索引文件类型。以下代码将阻止所有.png图像:
1 2 | User-agent: * Disallow: /*.png$ |
不要忘记在最后添加美元符号。它告诉搜索引擎它是URL字符串的结尾。
测试你的robots.txt文件以确定你是否犯过任何错误总是一个好主意。您可以使用Google网站站长工具。
在“运行状况”下,您会找到“已阻止的网址”页面。在这里,您可以找到有关您文件的所有信息。您还可以在上传之前测试更改。
robots元标记用于管理抓取工具对单个页面的可访问性。它告诉搜索引擎是否可以对页面进行爬网,存档或是否可以遵循页面上的链接。
这就是robots meta标签的样子:
1 2 3 4 五 | <head> <meta name=”robots” content=”noindex” /> </head> |
此元标记可防止抓取工具对网页编制索引。除了“noindex”之外,还有其他一些可能有用的属性:
index:此页面可以编入索引。
noindex:此页面无法显示在搜索结果中。
按照:可以遵循此页面上的链接。
nofollow:无法遵循此页面上的链接。
archive:允许此页面的缓存副本。
noarchive:不允许此页面的缓存副本。
可以在单个漫游器元标记中使用多个属性,例如:
1 2 3 4 五 | <head> <meta name=”robots” content=”noindex, nofollow” /> </head> |
此标记可防止抓取工具对网页编制索引并跟踪其链接。
如果您碰巧使用了冲突标记,Google将使用最受限制的选项。假设你在同一个标签中使用'“index”和“noindex”,页面将不会被索引(最严格的选项,只是为了安全)。
正如我们所讨论的,有两种方法可以管理网页的可访问性:robots.txt文件和元标记。
robots.txt文件非常适合阻止完整目录或某些文件类型。使用单行文本,您可以完成大量工作(并且可能会造成很多损害!)但是如果您想要阻止单个页面,最好使用漫游器元标记。
有时,通过robots.txt文件阻止的网址仍会显示在搜索结果中。如果有很多指向该网页的链接,并且Google认为搜索查询的唯一相关搜索结果,它仍会显示。如果您绝对不希望显示该页面,则应添加noindex元标记。这可能听起来很复杂,但Matt Cutts 在YouTube上的搜索结果中的未抓取网址中详细解释了所有内容。
使用robots.txt文件和漫游器元标记,您可以轻松管理网站对搜索引擎的可访问性。
长沙网站制作不要忘记检查并仔细检查您的元标记和robots.txt文件,以防止无意中阻止抓取工具索引重要网页。
3
s后返回登录3
s后返回登录