对于站点范围内的重复内容,这可能是最大的罪魁祸首。无论我们的内部路径错误还是吸引了指向错误URL的链接提及,我们都为URL的“www”版本和非www(根域名)版本建立了索引。在大多数情况下,301重定向是我们的最佳选择。这是一个常见的问题,对于这种情况,G
1、“www”与非www
对于站点范围内的重复内容,这可能是**的罪魁祸首。无论我们的内部路径错误还是吸引了指向错误URL的链接提及,我们都为URL的“www”版本和非www(根域名)版本建立了索引。在大多数情况下,301重定向是我们的**选择。这是一个常见的问题,对于这种情况,Google擅长执行重定向。我们可能还需要在Google网站站长工具中设置我们的**地址。在站点配置>设置下,我们应该看到一个名为“**域名”的部分(百度这边一般我们会通过根目录或则服务器来做好重定向进行提交)。我们需要为网站的“www”和非www版本创建GWT配置文件才能设置**域名。如果我们遇到主要的规范化问题,建议我们这样来操作。如果不是,那么我们可以任由其任,让Google确定**域名。
2、登陆服务器
尽管不如根域名重定向常见,但此问题通常也是由子域引起的。在典型情况下,我们正在设计新网站以进行重新启动,网站设计人员会为新网站设置了一个子域,而他们无意中将其开放给抓取工具。我们*终得到的是两组索引化的URLS。这样我们**的选择是通过使用Robots.txt阻止登陆站点来防止此问题发生。但是,如果我们发现登陆站点已建立索引,则可能需要对这些页面进行301重定向或对它们进行Meta Noindex。
3、尾部斜杠(“/”)
尽管这不是搜索引擎优化问题,但是它曾经是一个人们经常会质疑的问题。从技术上讲,在原始的HTTP协议中,带斜杠的URL和不带斜杠的URL是不同的URL。现在几乎所有浏览器都会在幕后自动添加斜线并以相同方式解析两个版本。
4、安全(https)页面
如果我们的站点具有安全页面由“https:”协议指定,则可能会发现安全版本和非安全版本都已建立索引。当来自安全页面的导航链接也由于*终路径相对安全而*终被保护时。理想情况下,这些问题可以由站点体系结构本身解决。在许多情况下,**使用Noindex安全页面在搜索索引中没有位置。不过,我们**的选择是301重定向,要谨慎对待所有站点范围的解决方案。如果我们将所有“https:”页面301重定向到其“http:”版本,则*终可能会完全取消安全性。
5、主页重复项
虽然问题前三种形式都可以创建主页重复项,但是主页有一些独特的问题。*典型的问题是根域和实际的首页文档名称都会被索引。尽管可以使用301重定向解决此问题,但通常**在首页上放置一个规范标签。主页受到重复的**影响,而主动的规范标签可以防止很多问题。当然,也要与我们的内部路径保持一致,这一点很重要。如果我们希望网址的根版本是规范的,但随后链接到导航中的“/index.htm”,则每次爬网程序访问时,我们都会向Google发送混合信号。
6、会话ID
一些网站尤其是电子商务平台使用跟踪参数标记每个新用户。有时,该参数*终出现在URL中并被索引,实际上,我们可以为每个建立索引的会话ID和页面组合添加一个副本。URL中的会话ID可以轻松将1000个重复的页面添加到索引中。如果可能,在我们的网站/平台上,**的选择是从URL中完全删除会话ID,并将其存储在Cookie中。创建这些URL的理由很少,也没有让机器人抓取它们的理由。如果这样做不可行,那么**在整个网站上实施规范代码。如果我们确实遇到问题,可以在Google网站管理员工具中阻止该参数。
7、复制路径
网站页面上有重复的路径是完全可以的,但是当重复的路径生成重复的URL时,就会出现问题。在这里,可以通过类别栏目和一个用户生成的标签来访问产品页面。用户生成的标签尤其成问题,因为它们在理论上可以产生页面的无限版本。我们则完全不应创建这些基于路径的URL。无论页面被导航到哪个页面,它仅应具有一个用于SEO的URL。或许有朋友会说,在URL中包含导航路径对于站点用户来说是一个积极的提示,但是即使是具有可用性背景的人,我们认为此处的缺点几乎总是比缺点更重要。如果我们已经为变体建立了索引,那么301重定向或规范标记可能是我们的**选择。在很多情况下,实现规范标签会更加容易,因为可能会有太多的变化而无法轻松重定向。从长远来看,我们需要重新评估我们的网站架构。
8、功能参数
功能参数是URL参数,它们会稍微改变页面,但没有搜索价值,实际上是重复的。我们**的选择是根本不使用Meta Noindex之类的索引,但也可以使用规范标记合并这些页面。
9、国际重复
当我们拥有共享同一语言的不同**/地区的内容时,这些重复项就会出现,所有内容都托管在同一根域名当然也可能是子文件夹或子域名中。这时候Google会很好地处理它,并在适当的**/地区对适当的内容进行排名。在其他情况下,即使采用适当的地理位置定位,他们也不会这样做。定位语言本身通常要比针对**/地区更好,但是出于合理的原因,可以将针对特定**/地区的内容分开。如果我们的国际内容确实被视为重复内容,则没有简单的答案。如果我们进行301重定向,则会丢失用户页面。如果我们使用规范标签,则Google只会对页面的一种版本进行排名。正确的解决方案可能是非常情况的,并且实际上取决于风险与收益的权衡。
10、搜索类别
到目前为止,我们例举的所有形式都是真实的存在于网络的网站案例。
石家庄网站建设想介绍一些接近重复的示例,因为该概念有点模糊。内部搜索引擎会弹出一些常见示例,这些示例往往会衍生出许多变体-可排序结果,过滤器和分页结果是*常见的问题。每当排序创建单独的URL时,都会弹出搜索排序重复项。尽管两个排序的结果在技术上是不同的页面,但它们不会为搜索索引增加任何附加值,并且包含相同的内容,只是顺序不同。在大多数情况下,**是完全阻止可排序的版本,通常是在有该参数的网页上选择性地添加Meta Noindex。紧急情况下,我们可以在Google Webmaster Tools中阻止sort参数。
11、搜索过滤器
搜索过滤器用于缩小内部搜索范围可以是价格,颜色,功能等。过滤器在销售各种产品的电子商务网站上非常普遍。在许多情况下,搜索过滤器网址看起来很像搜索排序,那么我们就不要索引过滤器。只要Google拥有明确的产品途径,索引每个变体通常会弊大于利。
12、搜索分页
页面分页是一个容易描述的问题,并且是一个难以解决的难题。每次将内部搜索结果分成单独的页面时,我们都具有分页内容。尽管结果本身有所不同,但页面的许多重要功能标题,元描述,标题,副本,模板等都是相同的。此外,Google并不是搜索内搜索的忠实拥护者。Google曾说过让他们对分页进行分类,可问题是他们做得还不够好。之后Google推出了Rel= Prev和Rel=Next,*初的数据表明这些标签有效,但是我们没有太多数据来证实它的有效性。