春节长假后的第一篇文章讨论如何对网站流量进行分析及预测。我们采取自下而上的方法,通过对不同类别的流量进行单独的分析及预测,再进行汇总的方法来预测整个网站的流量变化趋势。
在开始之前首先需要了解网站流量的构成。在前面的文章中我曾详细介绍网站中不同的流量来源的分类及特征。了解这些分类及特征的目的是因为不同的流量背后的驱动因素是不一样的。这些背后的因素是造成了流量变化及趋势的主要原因。此外他们也分别代表了不同的用户群体以及访问网站的目的。因此,在对网站流量进行预测前,首先要对网站的流量组成进行分析,寻找不同流量的特征。
细分是进行网站流量分析及预测的第一步,按照通用的分类我们将网站的流量按来源渠道细分四大类别,分别是直接流量,引荐流量,搜索流量和广告流量。本篇文章我们主要以直接流量和广告流量中的SEM为例进行说明。完成流量细分之后,我们开始观察并分析不同流量渠道的趋势及特征。
首先是直接流量,下图是网站直接流量的变化趋势,通过观察流量的变化情况可以发现,直接流量整体趋势起伏变化,在进一步观察发现直接流量的变化有固定的规律并有周期性。 幅度较大的变化主要集中在周末两天,而工作日则较为平稳。
再来看下SEM的流量,由于SEM的流量是由SEM广告点击量驱动的,因此我们直接观察SEM点击量的变化趋势。通过下图可以发现,SEM点击量与直接流量的变化趋势截然不同,呈现较为复杂的剧烈波动,并且变化周期毫无规律。我们无法通过SEM点击量自身的变化发现规律。因此需要继续寻找SEM点击量变化背后的驱动因素。
直接流量在工作日和周末的变化有较明显的差异,因此,我们将工作日和周末分为两部分数据进行分析和预测。下图是直接流量在工作日的变化趋势,可以发现与整体的直接流量相比在去掉周末的数据后直接流量的变化幅度已经小了很多。
通过观察直方图可以发现,直接流量在工作日的访问频率近似正态分布。因此我们可以使用点估计或区间估计来预测直接流量在工作日的访问量。同样,我们也可以用同样的方法来估计直接流量在周末的访问量数量。
对于SEM点击量,前面我们单独观察点击量数据的变化趋势并没有发现规律,因此我们对SEM的点击量和消费进行了相关性分析,通过下图可以看到点击量和消费的相关度达到了0.967。两个指标之间高度正相关。
通过绘制点击量和消费数据的散点图可以清晰的看到两组数据之间的相关性。并且可以看到R方=0.93,说明93%的数据变化可以被解释。
以上对SEM点击和消费的相关分析只说明了两个数据间具有关联,但要获得SEM未来的点击量数据还需要进行因果分析才能进一步预测出SEM点击量的变化情况。下面我们估算模型的参数值。
首先估算直接流量的参数值,工作日的直接流量频率分布近似正态,因此我们使用使用点估计和区间估计来预测直接流量在工作日的访问量数据。点估计需要使用直接流量在工作日访问量的平均值,通过计算均值为657。而区间估计除了均值以外还需要标准差数据,通过计算标准差为132。
SEM点击量的参数值与直接流量相比要复杂一些,前面我们通过分析发现点击量与消费高度相关。因此我们需要建立两者的因果关系,并建立回归方程。
在获得了估计模型的参数值后就可以对直接流量和SEM点击量的数据进行预测了。首先我们来预测下直接流量在工作日的访问量情况。
根据前面获得的直接流量工作日访问量的均值可以预测直接流量在工作日带来的流量会比较接近657这个数值。但这样预测的误差会比较大。因此我们进一步使用区间估计来预测直接流量在工作日的流量范围。直接流量工作日的流量频率近似正态分布,因此我们直接粗略的使用正态分布中的概率来预测直接流量的区间值。
即在95%置信区间下,预测直接流量工作日带来的流量为397到917之间。
根据SEM点击量与消费间的回归方程预测,10000元消费可以带来约964个点击。进而我们可以根据SEM后续的每日消费预算预测出近似的点击量和网站访问量。
—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—