避免蜘蛛爬行和索引错误的技巧:绕开冲突
作者:互联网
2011-09-06
正如你所知道的,你不能总是依赖蜘蛛引擎在访问或者索引你的网站时能够十分有效的运作。完全依靠他们自己的端口,蜘蛛会产生许多重复内容,把一些重要页面当成垃圾,索引本不应该展示给用户的链接入口,还会有其他的问题。有一些工具可以让我们能够充分控制蜘蛛在网站内部的活动,如meta robots标签,robots.txt、canonical标签等。
今天,我讲一下机器人控制技术使用的局限。为了让蜘蛛不抓取某一个页面,站长们有时会使用多个机器人控制技术, 来禁止搜索引擎访问某个网页。不幸的是,这些技术能有时互相抵触:从另一方面说这样的限制会把某些死链给隐藏掉了。
那么,当一个页面的robots文件中被禁止访问,或者被使用noindex tag 和 canonical tag时会发生什么?
快速复习
在我们进入主题之前,让我们看一下那些主流的robots的一些限制技巧吧:
元机器人标签
元机器人标签(Meta Robots Tag)为搜索引擎机器人建立页面等级说明。元机器人标签应放在HTML文件的头部。
规范标签(canonical tag)
规范标签(canonical tag)是一个位于网页HTML头部的页面等级的元标签。它告诉搜索引擎哪一个URL的显示是规范的。它的目的是不让搜索引擎抓取重复内容,同时将重复页面的权重集中在规范的那一个页面上。
代码是这样的:
相关推荐
