本节课我们对数据分析中常用的方法做下介绍。
# 1.数据分析方法
# 1.1 5W2H分析法
5W2H分析法又叫七问分析法,是二战中美国陆军兵器修理部首创。简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。
发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索,寻找发明思路,进行设计构思,从而搞出新的发明项目,这就叫做5W2H法。
WHAT————是什么?目的是什么?做什么工作? WHY————为什么要做?可不可以不做?有没有替代方案? WHO————谁?由谁来做? WHEN————何时?什么时间做?什么时机最适宜? WHERE————何处?在哪里做? HOW————怎么做?如何提高效率?如何实施?方法是什么? HOW MUCH————多少?做到什么程度?数量如何?质量水平如何?费用产出如何?
在这里举一个数据分析中最常见的指标波动问题的例子,如果知乎的人均阅读时长下降了,作为数据分析师该怎么分析这个问题?下面使用5W2H分析法对这个问题进行分析。
WHAT————人均阅读时长的含义是什么?是怎么计算出来的?分子和分母分别是什么? WHY————人均阅读时长为什么下降了?可能的原因有哪些? WHO————哪部分人群的阅读时长下降了?是所有用户的阅读时长都下降了,还是部分人群? WHEN————时长是在什么时候开始下降的?下降这个趋势发生多久了? WHERE————具体是知乎的哪个模块的阅读时长下降了?哪个话题下的阅读时长下降了? HOW————时长下降了,我们应该怎么应对? HOW MUCH————时长下降的程度是什么样的?是轻微的下降,还是大幅的下降?是突然的下降,还是逐渐的下降?
为了逻辑更加顺畅,将5W2H的顺序调整一下: WHAT(明确口径)————人均阅读时长的含义是什么?是怎么计算出来的?分子和分母分别是什么? WHEN(分析趋势)————时长是在什么时候开始下降的?下降这个趋势发生多久了? HOW MUCH(分析影响程度)————时长下降的程度是什么样的?是轻微的下降,还是大幅的下降?是突然的下降,还是逐渐的下降? WHO(人群拆解)————哪部分人群的阅读时长下降了?是所有用户的阅读时长都下降了,还是部分人群? WHERE(模块拆解)————知乎里具体是哪个模块的阅读时长下降了?哪个兴趣话题下的阅读时长下降了? WHY(原因推断)————通过趋势判断、人群拆解、模块拆解的发现进行推断,这部分人群或这部分模块下降的原因可能是什么? HOW(解决方案)————根据分析的发现和原因的推断,对业务提出建议,我们应该怎么解决时长下降的问题?
到这里我们便通过5W2H分析法建立了一个比较完整的数据分析思路。
# 1.2 逻辑树分析法
逻辑树分析方法是把复杂问题拆解成若干个简单的子问题,然后像树枝那样逐步展开。在常用的分析方法中,逻辑树分析法是最基础最常用的分析方法。逻辑树分析法的目的,就是把复杂问题变得简单。我们可以把问题看做树木的树干,通过不同的分枝,把问题拆解为一个个的子问题。通过解决单独的子问题,从而汇总得出问题的答案。下面用经典的费米问题来解释逻辑树分析法。费米问题命名来自美国科学家恩利克·费米,费米问题常常会用来检验一个人是否具备理科思维,或具有问题拆解的能力。芝加哥有多少调音师这样一个问题便是经典的费米问题。
有人曾经问科学家费米:“芝加哥有多少位钢琴调音师?为了保持钢琴音的准确性,需要定期由专业人员检查,调整不准确的音。从事这类工作的人被称为钢琴调音师。通过逻辑树方法进行问题的拆解,将问题拆解为2个子问题。 第一个子问题:全部钢琴调音师一年的总工作时长则取决于3个子问题:
- 芝加哥有多少架钢琴?
- 钢琴每年要调几次音?
- 调一次音需要多少时间? 其中,芝加哥有多少架钢琴又可拆解成2个问题:
- 芝加哥有多少人口。
- 有钢琴的人占多少比例。 芝加哥人口通过查询,可以得到大约有250万,由于钢琴不是普通家庭能够添置的物件,因此其人均拥有比例是较低的,再考量学校等机构拥有的钢琴数量,估算其为2%。那么钢琴每年要调几次音呢,我们估算其为一年一次。调一次音需要多少时间呢?我们估算其为2个小时。
则可以推算出第一个子问题:全部钢琴师一年的总工作时长 = 250万 x 2% x 2=10万小时
接下来回到第二个子问题:一位调音师每年的工作时间,每天工作时长为8小时,一年50个星期,一星期工作5天,每天8小时,得出每年工作2000小时 减去路程上损耗的20%的时间,一位调音师每年工作的实际时间是:1600小时。
最终,用 100000/1600 ~= 63(人),那么这个结果与实际差距有多大呢,后来费米找到了一份芝加哥的调音师表,上面记录了83名调音师,但是有不少名字是重复的。可见费米估计的人数是十分接近事实的。
# 1.3 多维度拆解分析方法
多维度拆解法就是把复杂问题按照维度拆解成简单问题,观察数据异动,发现问题的原因。我们举个例子,有以下数据: 原来:男生20人,点击1人,点击率5%;女生100人,点击99人,点击率99%;总体点击率83.3%。 现在:男生100人,点击6人,点击率6%;女生20人,点击20人,点击率100%;总体点击率21.7%。 首先问个问题:在男生及女生的点击率都增加的情况下,为啥总体的点击率是减少的?因为我们只看到了整体的数据而忽略了数据内部各个部分的差异,这些差异的忽略就有可能造成判断的偏差。在上面的数据中,之所以会出现在男生及女生点击率都增加的情况下,总体的点击率是下降的现象,是因为男女之间的点击率有较大的差异性,而低点击率群体占比的增大造成了这个结果。这就是多维度拆解分析方法。在进行拆解的时候,一般会从指标的构成和业务流程两个角度去拆解。下面我们来举个例子,有个APP 的日用户留存率下降了5%,该怎么分析呢?我们可以从指标构成和业务流程两个角度去拆解分析。首先,我们对用户进行细分,包括新老,渠道,活动,画像等多个维度,然后再分析每个维度下不同用户的次日留存率,通过这种方式来定位到导致留存率下降的用户群体是谁。通过指标分析到目标客户群体后,我们可以具体情况具体分析,通过参考内部-外部因素来进行分析。 内部元素:我们知道,无论是电商购买还是APP留存,都是一个漏斗模型,APP从业务分解来看,就是新用户->首页->留下来->离开这个漏斗模型。在这个期间,会有很多因素影响着: 获客渠道:获客渠道质量低,活动获取了非目标客户。 满足要求:首页推荐的内容不满足用户的需求,用户在下载该APP后没有找到自己满意的内容。 提活手段:签到等提活手段没有达到预期效果,产品使用周期率低导致大量用户在短时间内不再使用该APP。 外部因素:即为PEST分析模型。
# 1.4 对比分析方法
# 1.4.1 什么是对比分析法?
对比分析法也称比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。
对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。在对比分析中,选择合适的对比标准是十分关键的步骤,选择的合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。
# 1.4.2 对比分析法的形式
对比分析法根据分析的特殊需要又有以下两种形式:
- 绝对数比较 它是利用绝对数进行对比,从而寻找差异的一种方法。
- 相对数比较 它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种:
- 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构和质量。如居民食品支出额占消费支出总额比重、产品合格率等。
- 比例相对数:将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如人口性别比例、投资与消费比例等。
- 比较相对数:将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如不同地区商品价格对比,不同行业、不同企业间某项指标对比等。
- 强度相对数:将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如人均国内生产总值用元/人表示,人口密度用人/平方公里表示。
- 计划完成程度相对数:是某一时期实际完成数与计划数对比,用以说明计划完成程度。
- 动态相对数:将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如发展速度、增长速度等。
# 1.4.3 对比分析法的标准
对比标准存在以下几种选择:
- 时间标准:选择不同时间的指标数值作为对比标准,最常用的是与上年同期比较即“同比”,还可以与前一时期比较,此外还可以与达到历史最好水平的时期或历史上一些关键时期进行比较。
- 空间标准:选择不同空间指标数据进行比较。
- 经验或理论标准:通过对大量历史资料的归纳总结而得到的标准。如衡量生活质量的恩格尔系数。理论标准则是通过已知理论经过推理得到的依据。
- 计划标准:计划标准即与计划数、定额数、目标数对比。
# 1.5 分组分析法
分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组的目的是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合运用。
分组分析法的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。
采用组距分组需要经过以下几个步骤。
- 确定组数。这个可以由数据分析师决定,根据数据本身的特点来判断确定。由于分组的目的之一是为了观察数据分布的特征,因此确定的组数应适中。如果组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。
- 确定各组的组距。组距是一个组的最大值与最小值之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)/组数。
- 根据组距大小,对数据进行分组整理,划归至相应组内。 分好组后,我们就可以进行相应信息的分组汇总分析,从而对比各个组之间的差异以及与总体间的差异情况。
上面所介绍的分组属于等距分组,当然也可以进行不等距分组。采用等距分组还是不等距分组,取决于所分析研究对象的性质特点。在各单位数据变动比较均匀的情况下比较适合采用等距分组;在各单位数据变动很不均匀的情况下比较适合采用不等距分组,此时不等距分组或许更能体现现象的本质特征。
# 1.6 漏斗图分析法
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具。为什么要在分析业务流程的时候使用漏斗图?因为漏斗图是对业务流程最直观的一种表现形式,并且也最能说明问题的所在。通过漏斗图可以很快发现业务流程中存在问题的环节。
例如漏斗图用于网站中某些关键路径的转化率的分析,不仅能显示用户从进入网站到实现购买的最终转化率,同时还可以展示整个关键路径中每一步的转化率,如下图所示: 单一的漏斗图无法评价网站某个关键流程中各步骤转化率的好坏。我们可以利用之前介绍的对比分析方法,对同一环节优化前后的效果进行对比分析,或对同一环节不同细分用户群的转化率作比较,或对同行业类似产品的转化率进行对比,等等。
漏斗图不仅能告诉我们用户在业务中的转化率和流失率,还可以告诉我们各种业务在网站中的受欢迎程度和重要程度。通过对不同业务的漏斗图进行对比,可以找出何种业务在网站中更受用户的欢迎或更吸引用户。只要掌握了之前介绍的对比分析方法,就可以从不同业务角度发现隐藏在其中的业务问题。
# 2.总结
本节课就一些常见的数据分析方法做了介绍。在实际的分析中还要依据具体的情况选择合适的分析方法以达到分析的目的。