我们收集一个搜索结果。然后根据不同的指标(如链接数量)对结果排序。最后,我们将原始搜索结果的顺序与不同度量产生的顺序进行比较。它们越接近,两者之间的相关性就越高。
也就是说,相关性研究并不是完全没有结果的,因为它们不一定能揭示因果关系(即:实际的排名因素)。相关研究发现或证实的是相关的。
关联只是与自变量共享一些关系的度量(在本例中,是页面上搜索结果的顺序)。例如,我们知道反向链接计数与排名顺序相关。我们也知道社会份额与等级顺序相关。
相关研究也为我们提供了关系的方向。例如,冰淇淋销量与温度成正相关,而冬季夹克销量与温度成负相关——也就是说,当温度上升时,冰淇淋销量上升,而冬季夹克销量下降。
最后,相关性研究可以帮助我们排除提出的排名因素。这一点经常被忽视,但它是相关研究中非常重要的一部分。提供负面结果的研究通常与产生正面结果的研究一样有价值。我们已经能够排除许多类型的潜在因素——如关键词密度和meta keywords标签——使用相关研究。
不幸的是,相关研究的价值往往到此为止。特别是,我们仍然想知道一个相关因素是导致排名的原因还是虚假的。“假的”是“假的”或“假的”的一个听起来很花哨的词。虚假关系的一个很好的例子是,冰淇淋的销售导致溺水事件的增加。事实上,炎热的夏天不仅增加了冰淇淋的销量,也增加了游泳的人数。更多的游泳意味着更多的溺水。因此,虽然冰淇淋销售与溺水有关,但它是虚假的。它不会导致溺水。
我们该如何梳理因果关系和虚假关系之间的区别呢?我们知道的一件事是,一个原因发生在它的结果之前,这意味着一个因果变量应该预测未来的变化。这是我建立以下模型的基础。
相关研究的替代模型
我建议采用另一种方法进行相关性研究。我们可以度量一个因素与SERP随时间变化的相关性,而不是度量一个因素(如链接或股票)与SERP之间的相关性。
这个过程是这样的:
在第一天收集SERP
收集该SERP中每个url的链接计数
查找与链接有关的任何顺序错误的URL对;例如,如果位置2的链接数少于位置3
记录异常
14天后收集相同的SERP
记录异常是否已被纠正(即:位置3现在超过位置2)
在一万多个关键词上重复,并测试各种因素(反向链接、社交分享等)。
那么这种方法有什么好处呢?通过查看随时间变化的情况,我们可以看到排名因素(相关因素)是领先的还是落后的特性。一个滞后特征可以自动排除因果关系,因为它发生在排名改变之后。一个主导因素有可能成为一个因果因素,尽管由于其他原因它仍然可能是假的。
我们收集一个搜索结果。我们记录搜索结果与特定变量(如链接或社会共享)的预期预测的不同之处。然后,我们收集相同的搜索结果2周后,看看搜索引擎是否纠正了无序的结果。按照这种方法,我们测试了由排名因素研究产生的3种不同的常见关联:Facebook共享、根链接域的数量和页面权限。第一步涉及到从关键字资源管理器语料库中随机选择的关键字收集10,000个serp。然后,我们记录了每个URL的Facebook共享、根链接域和页面权限。我们注意到每个例子中,两个相邻的url(比如位置2和3或位置7和位置8)相对于相关因子预测的期望顺序进行翻转。例如,如果2号位置有30股,而3号位置有50股,我们注意到这一对。你会认为拥有更多股份的网页会比拥有较少股份的网页排名靠前。最后,在2周之后,我们捕获了相同的serp,并确定了谷歌重新排列url对以匹配预期相关性的时间百分比。我们还随机选择了一对url,以获得任何两个相邻url交换位置的基线概率百分比。结果如下…
结果
重要的是要注意到,在这样的分析中,期望一个主导因素强有力地出现是非常罕见的。虽然实验方法是合理的,但它并不像预测未来那样简单——它假设在某些情况下,我们会比谷歌更早知道一个因素。潜在的假设是,在某些情况下,我们已经看到了排名因素(如链接或社会份额的增加)之前的谷歌机器人,并在2周内,谷歌将赶上和纠正排序不正确的结果。正如您所预料的,这是一种罕见的情况,因为谷歌在web上的爬行速度比任何人都快。然而,通过足够多的观察,我们应该能够看到滞后和领先结果之间的统计上的显著差异。然而,该方法只检测当一个因素是领先的和Moz链接浏览器发现谷歌之前的相关因素。
因子百分比修正p值95% min 95% Max
控制18.93% 0
Facebook的股价控制在18.31% (0.00001 -0.6849 -0.5551)
根连接域20.58% 0.00001 0.016268 0.016732
页面权限20.98% 0.00001 0.026202 0.026398
控制:
为了创建一个控件,我们在第一个SERP集合中随机选择相邻的URL对,并确定在最后一个SERP集合中第二个URL对超过第一个的可能性。大约18.93%的情况下,排名较差的URL会超过排名较好的URL。通过设置这个控制,我们可以确定是否任何潜在的相关因素是主导因素——也就是说,它们是提高排名的潜在原因,因为它们比随机选择更能预测未来的变化。
Facebook的股票:
在三个测试变量中,Facebook的股票表现最差。Facebook的股票表现实际上比随机股票差(18.31%对18.93%),这意味着随机选择的股票对比那些股票比前者高的股票更有可能转换。这并不完全令人惊讶,因为业界普遍认为社交信号是滞后因素——也就是说,排名越高的流量推动的是更高的社交份额,而非社交份额推动的是更高的排名。随后,我们会先看到排名的变化,然后才会看到社会份额的增加。
行
原始根连接域计数的表现明显好于股票和控制在~20.5%。正如我之前指出的,这种类型的分析是非常微妙的,因为它只检测当一个因素是领先的和Moz Link Explorer发现谷歌之前的相关因素。然而,这个结果具有统计学意义,P值<0.0001,RLDs预测未来排名变化的95%置信区间比随机大1.5%左右。
页面权威
到目前为止,表现最好的因素是页面权威。PA对serp变化的预测正确率为21.5%,比随机预测好2.6%。这是一个强有力的主导因素,大大超过了社会份额和表现最好的预测原始指标,根连接域。这并不奇怪。建立页面权威是为了预测排名,因此我们应该期望它在识别排名何时可能发生变化方面会优于原始指标。现在,这并不是说谷歌使用页面权限来对站点进行排名,而是说页面权限是谷歌用来确定站点排名的链接指标的一个比较好的近似。最后的想法
我们可以使用许多不同的实验设计来帮助我们在整个行业范围内改进我们的研究,这只是帮助我们梳理出因果排序因素和滞后相关因素之间的差异的方法之一。实验设计不需要详细的统计数据来确定可靠性,也不需要前沿。虽然机器学习为改进我们的预测模型提供了很多希望,但在我们建立基本原理时,简单的统计就可以达到目的。
现在,走出去,做一些伟大的研究!
(转载:www.idcew.com)