在搜索引擎中维护完善的索引, 尤其是谷歌, 谷歌的定期质量相关更新对生存(并从其中受益)至关重要. 这不是唯一的因素, but it’s important to ensure that Google deems your site to be “high quality” (assuming the rest of your content is quality; not duplicated with external websites, 没有明显的拼写和语法问题, 不缺乏深度或完整性, 不会过时的, 而不是低参与度). 此外, 清理索引膨胀通常比逐页方法更容易,而逐页方法需要改进其他低质量页面,您可能希望在谷歌和其他搜索引擎中保持索引. 出于这个原因,这是优化网站的一个很好的起点.
当我这样做的时候 内容审计 而且 技术审核,我总是寻找索引膨胀(在谷歌,特别是). 修正它可以为你未来的内容改进和添加新内容奠定基础. 想想看,一个花园需要肥沃的土壤和偶尔的修剪才能让未来的植被茁壮成长. 在新内容和现有内容的改进能够产生最大的有机搜索影响(并经受住算法更新的风暴)之前,您需要提高基础的质量。.
什么是指数膨胀?
索引膨胀是指搜索引擎索引的url比站点地图中包含的url要多得多, 假设你的站点地图是一个准确的质量列表, 站点上的可索引url. 换句话说,这是当你的网站有太多的url索引(这不应该).
索引膨胀的常见类型
- url过滤器/方面 -这种URL类型在电子商务网站上最常见. 例如,它们只是重新组织或过滤页面上显示的内容. In 足彩推荐软件app排名, 重要的是,这些url被排除在搜索引擎索引之外,因为它们不能为搜索引擎索引提供唯一的(内容)价值.
- 跟踪网址 -此URL类型通常包含附加到核心页面URL的参数,仅用于跟踪目的. 规范化是从搜索引擎索引中删除这些url的最佳方法, 因为它仍然允许url被抓取, 但是将链接权益应用到核心URL.
- 分页的url —该URL类型提供了一个通往一系列内容页面的路径,这些内容页面被划分为多个页面. 在电子商务类别和内容存档页面, 分页url对搜索引擎索引的价值很小. 此前,谷歌建议他们应该适当使用 rel =上一页/下一页编码 与自引用规范一起,以巩固搜索引擎的分页系列. 理想情况下,我们不希望它们被索引,但是 谷歌的约翰·穆勒在2017年宣布 谷歌可以处理noindex中的“follow”,一段时间后,将“meta 机器人”标签跟随为“nofollow”. 我们不想限制爬行或PageRank(链接权益)传递到分页url上的可索引页面. 此外,一些分页url为搜索引擎索引提供了价值,例如分页论坛线程. 这些类型的分页url通常应该被索引. 但是,它们不应该出现在XML站点地图中.
- 标签页 这个URL类型创建一个动态生成的页面(通常在WordPress站点上找到),它列出了所有带有相同post标签的文章的博客文章片段. 因为它们是动态生成的, 它们对搜索引擎提供的独特(内容)价值很小,通常应该设置为“noindex”,关注“via meta 机器人”标签. 另外, 标签页可以优化类似于类别页面,通过添加独特的内容在页面顶部的重要标签页,可能已经获得了大量的有机搜索流量).
- 内部搜索结果 -该URL类型不应该被搜索引擎抓取, 和索引, 所以通常建议不允许在机器人中爬行.TXT文件,并应用“noindex,follow”元机器人标签.
为什么指数膨胀很重要?
索引膨胀的问题尤其与谷歌有关,因为额外url的“膨胀”通常是低质量的内容,通常涉及动态生成的页面. 这些都不是搜索引擎应该索引的页面类型, 也没有包含在XML站点地图中(如果它们是, 删除), 在谷歌的眼中,他们会降低你网站的整体质量, 具体地说.
下面的截图显示了当谷歌发布与质量相关的算法更新时,客户网站的有机搜索流量得到了很好的提升. 我们已经修剪了相当数量的低质量索引膨胀的url.
如何识别指数膨胀
有几种方法可以识别索引膨胀. 理想情况下,下面解释的方法应该相互串联执行,以便完全理解问题.
在搜索控制台中比较索引状态和站点地图
谷歌搜索控制台提供了一个覆盖率报告,可用于识别索引膨胀. 以前,旧的搜索控制台提供索引状态和站点地图索引报告. 下面是一个站点的例子,它在谷歌中索引的url比在它的站点地图中列出的要多近500个.
指数状态
注意:您可以在谷歌中另外执行“site:”高级操作符, 然而, 它不如搜索控制台的覆盖率报告准确.
网站地图指数化
这相当于40%的指数膨胀,这是相当高的. 如果你只有一小部分额外的url索引比什么在你的站点地图, 说1 - 10%, 在谷歌质量相关的算法更新时,不太可能会经历负面影响(尽管它仍然应该被解决). 随着谷歌继续改进其索引(如果您有适当的非索引信号:canonical),这些额外url的索引也可能会随着时间的推移而减少, “noindex”元机器人标签, 机器人.TXT命令,或重定向).
自己爬网站
用工具爬行你自己的网站 尖叫的青蛙 or 深爬 可以帮助识别可能在搜索引擎中被索引的特定url(如果它们是可索引的). 目标是创建所有可索引url的列表,然后将它们与Excel电子表格或谷歌表中的XML站点地图进行比较.
以下是我如何识别这些url使用尖叫青蛙,必要时. 更新: 尖叫青蛙现在提供了“爬行分析”功能,可以检查网站地图中缺失的url. 但是,下面的方法仍然可以使用.
- 爬取站点(不包括外部站点)
- 将内部HTML报告导出到CSV文件, 然后以谷歌Sheet的形式上传到谷歌Drive.
- 过滤标题行,以识别和删除任何不可索引的url.
- 以列表模式抓取XML站点地图(不遵循重定向),并将内部HTML报告导出到CSV文件中,并将其上传到相同谷歌表的新选项卡.
- 注意1: 确保您删除了不可索引的url的任何行.
- 注意# 2:检查剩下的url,确保没有明显的低质量的页面类型应该从站点地图中删除(标记任何你发现的).
- 编写VLOOKUP公式(在主抓取选项卡中),以确定Sitemap选项卡中列出了哪些url.
- 请注意:这种方法的反面, 在Sitemap选项卡中编写VLOOKUP公式, 可以帮助识别在爬行过程中没有发现的孤立url吗.
- 筛选器只显示那些没有在Sitemap选项卡中列出的url. 检查它们,并在谷歌中搜索其中一些,以查看它们是否已被索引. 注意:使用高级操作符,如“site:”和“inurl:”,以了解特定URL结构中有多少URL被索引.
谷歌查询
在上面的最后一步上展开, 以下是如何在谷歌中使用高级操作符来识别索引膨胀的url.
- “site:”操作符 -如果我想在谷歌中获得我的索引的一般意义,查询如 网站:http://www.skystitapetai.net 将给我的搜索结果专用于我自己的网站的索引.
- “inurl:”操作符 -如果我想查看我的/services/子文件夹中的哪些页面被索引,我可以输入查询,例如 网站:http://www.skystitapetai.net inurl: / /服务.
- 扩展的“site:”操作符 —如果感兴趣的特定页面类型的URL结构接近根目录, 你可以把它附加到" site: "操作符的末尾,就像这样: 网站:http://www.skystitapetai.net/services/.
对于WordPress网站, 这在标记页面(动态生成)中很常见, 没有唯一内容)将在谷歌中被索引. 查询如下 网站:http://www.skystitapetai.net inurl: /标签/ 显示我的站点没有索引任何标记页.
然而,如果你看一个网站 TechCrunch,你会注意到他们有大致 86,000 /标签/页索引 写这篇文章的时候.
标签页似乎不在它们的 XML站点地图 (我承认我只是抽查了一下,因为它很大). 它们没有被设置为“noindex”,也没有在机器人中被禁止.txt文件. 这是一个巨大的指数膨胀, 我怀疑他们可能会驱动相当数量的流量,因为高索引量. 注意:请记住,来自谷歌的这个数字可能不完全准确,但仍然有用.
如何解决指数化膨胀
一旦你在你的网站上确定了被索引的url, 不要急于从搜索引擎索引中删除它们. 如果这些url驱动显著的有机搜索流量和/或转换, 突然从搜索引擎索引中删除它们可能会导致有机搜索流量和收入的潜在危险下降. 您可能需要创建以标记页面的关键字为目标的新页面, 驱动着交通, 目前在搜索引擎中的排名.
回顾谷歌Analytics中的有机指标
在将这些索引膨胀的url从搜索引擎索引中删除之前,必须检查它们的有机搜索流量和转换. 下面是一个客户站点的例子,他的WordPress标签页驱动了大量的有机搜索流量. 我们认为标签页不是排名的最佳页面,所以我们用博客文章取代了那些带来最多流量的页面,并放弃了其他页面(长尾)的有机搜索流量。, 我们能接受吗. 它是最小的. 请注意,该网站在短期内并没有损失太多的有机搜索流量(对比红框),并为我们未来的增长奠定了基础. 注:2016年5月- 12月,我没有与该客户合作过, 因此,如果我们没有在2017年1月之前暂停,有机搜索流量的增长就会更快.
(计划)标签页的有机流量下降
所有有机流量
确定部分移除(如果需要)
上面的例子表明,索引膨胀的url可以驱动有机搜索流量, 你需要注意哪一点. 他们的目标是低竞争关键字短语,所以我怀疑谷歌是出于必要的排名,以提供相关的搜索结果. 如果你遇到类似的情况, 您可以选择改善这些低质量页面的内容, 修剪它们(从搜索引擎索引中删除), 部分删除它们(只删除那些自然搜索流量低的内容), 或者替换掉它们(全部替换掉), 或部分),提供更高质量的页面.
在这些情况下,请确保您检查了为页面带来流量的关键字 谷歌搜索控制台的“搜索分析”报告),并使用它们在新的或现有的页面被重定向(这将取代臃肿的url). 这将有助于确保谷歌仍然看到关键字的相关性, 并有助于保持或提高排名.
然而, 有时问题太大,不能采取这种“手术刀”方法, 在进行尽职调查以确定有合适的替换页面可以取代被删除的页面之后,必须采取“短柄斧”方法.
下面是来自一个电子商务客户端的图表(我帮助过他) 流入 谁开过车 超过200万美元的会议 而且 收入超过300万美元 超过18个月的时间,从膨胀的url. 具体来说,它们是参数url. 在整个时间段内,有14种不同的参数类型推动了相当一致的有机搜索流量和收入, 去索引方法需要非常谨慎地实施.
有机搜索流量
有机搜索收入
如你所见, 试图过快地删除这个特定网站的索引膨胀(参数url)可能会导致有机搜索流量和收入的不必要下降. 在这种情况下, 我建议确定是否有更高质量的页面可以排在他们的位置上, 并删除(从谷歌的索引中)驱动有机搜索流量和收入较少的参数类型,作为衡量影响的样本测试. 在这种情况下, 它将包括从XML站点地图中删除参数url,并将它们规范化为其核心url.
确定从谷歌中删除的最佳方法 & 其他搜索引擎
有许多方法可以从谷歌的索引和其他搜索引擎中删除索引膨胀的url.
- Meta 机器人标签 -可以将页面设置为“noindex”,后跟" or " noindex,nofollow” with a meta 机器人 tag in the , 视情况而定. 通常, “noindex,“元机器人”标签应应用于页面类型,如内部搜索结果, 标签页, 以及其他您希望阻止搜索引擎索引该页面的页面类型, 但是,如果他们发现并抓取了页面上的链接(尽管可能不是永久的),就会将内部链接权益流到页面上的链接上, 至少谷歌是这样). “noindex,Nofollow”属性可以保留给开发站点上的所有页面, 赞助页面(软文),您将获得补偿, 以及其他希望将权益限制为页面上链接的页面类型, 并防止页面被索引.
- 机器人.禁止规则 你可以在你的机器人中使用“disallow”规则完全禁止搜索引擎抓取特定的页面或页面类型(通过使用通配符).txt文件. 记住, 然而, 如果你不允许它们在机器人中爬行,当前索引的url将保持索引.txt文件. 这将从本质上抑制他们在谷歌的搜索结果, 例如, 但它们仍然会保持索引. 通常最好是实现机器人.TXT禁止在页面完全从搜索引擎索引中删除后的规则,以防止它们在未来被抓取. 这可以帮助提高搜索机器人为你的网站抓取预算的效率.
- 规范化 -您可以规范化跟踪URL和其他URL类型(本质上是重复的), 例如过滤器/facet URL)到核心URL,以便向谷歌和其他搜索引擎提供一个“提示”,提示URL不应该被索引.
- 删除 & 重定向 -如果一个页面没有价值(低质量的内容, 低有机搜索指标), 然后你可以选择删除并将其重定向到与主题相关的URL.
在适用的情况下,整理一个时间表 & 做样本测试
如果你有任何类型的膨胀url驱动显著的有机搜索流量和/或转换, 您需要确保仔细测量上述潜在影响. 在你的网站上寻找其他的url,应该在他们的位置排名(目前没有排名), 以及它们是否有可能),并确定它们的内容质量和内部链接信号是否有可能影响搜索引擎,使其取代您希望删除的质量较低的url.
如果你担心对有机搜索指标的影响, 将一系列低影响的测试以及实施和测量的时间表放在一起. 有时候你得冒险, 然而, 你可以选择等待有机指标下降的迹象,让这些臃肿的url冒这样的风险. 每个情况都是不同的,这通常是一个判断的决定.
如果我可以帮助任何指数化膨胀的问题,你有,请 足彩推荐软件app排名我 或者在下方留言.