那些让你遍体鳞伤的数据陷阱

在数据背后都隐藏着各种陷阱,一不小心就会趟坑了


那些让你遍体鳞伤的数据陷阱

做产品,基本绕不开各种数据和统计分析。从需求调研,到上线迭代,工作汇报,宣传推广各环节都需要和数据打交道。在这些数据背后都隐藏着各种陷阱,一不小心就会趟坑了,当然如果有一双善于发现的眼睛可能会化险为夷,甚至化为己用。

有些数据陷阱是致命的存在,举个具体的例子来说明下。

1941 年,第二次世界大战中,空军是最重要的兵种之一,盟军的战机在多次空战中损失严重,无数次被纳粹炮火击落,盟军总部秘密邀请了一些物理学家、数学家以及统计学家组成了一个小组,专门研究 “如何减少空军被击落概率” 的问题

针对此问题 联盟高层和统计学家沃德给出2个截然不同的答案

当时军方的高层统计了所有返回的飞机的中弹情况——发现飞机的机翼部分中弹较为密集,而机身和机尾部分则中弹较为稀疏,于是当时的盟军高层的建议是:加强机翼部分的防护


沃德教授提出了完全相反的观点——加强机身和机尾部分的防护

那么这位统计学家是如何得出这一看似不够符合常识的结论的呢?沃德教授的基本出发点基于三个事实是:

统计的样本只是平安返回的战机。

被多次击中机翼的飞机,似乎还是能够安全返航。

而在机身机尾的位置,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的机率极小,即返回的飞机是幸存者,那些被忽视了的非幸存者才是关键,他们已经坠机了!

我记得第一次接触这个案例时那种敬仰之心,油然而起!


数据采集

1 幸存者偏差理论

就是典型的数据采集陷阱之一。比如在某一系列视频追踪分析,1-5集观看播放量一直比较稳定,当时当第6集时,用户量大幅下滑。这时候分析原因发现,不是第6集内容出现问题,而是第6集开始VIP会员限权观看了。大量的普通会员无法观看,导致播放量降低了。

2  沉默群体

那些你没注意就流失的客户

现在做数据采集时,很大程度中在增加做定性分析而减少定量分析,定性是指对群体中特征明显的少数经典个体做调研,反推群体的部分特性。这是有效一种方式,但是需要明确这种方式存在缺陷。 定量研究除非有大数据的基础,否则现在不太容易开展。尤其一些普世性的产品,用户群体都是亿量级别,做定量研究成本太高。

所以在做分析时一定要关注那些沉默群体。比如在研究商品下单支付转化率时,一定要关注哪些没有下单只浏览就流失用户群体,而不是只看下单用户和支付用户群体。否则以分析结果导向去调整产品,会导致无法预估的损失。

3 数据真实性

不论是第三方的平台还是自己的问卷调研,常常会为了个人虚荣(收入虚高)、道德、政治正确等原因得到不准确的反馈信息。这也是一个不太好避免的数据陷阱。尤其是在调研获取阶段,必须直面数据真实性问题,如果只是对现有产品做调优,那么数据是可靠的,只不过需要清洗而已。比较已经生成的数据是不会说谎的,比如头条中用户的阅读行为数据。

视觉图表

主要从图形界面上给人误导,尤其是趋势走势和数据统计2种。请仔细查看下面几张图对比。

折线图 操作纵坐标和横坐标的比例,让你打开眼界。 纵坐标,由10间隔改为100间隔。

这2张图带给人的视觉印象是有很大区别的,当你看到某些趋势图不可思议时请关注下纵坐标,有猫腻等你发现。

饼图 淡化部分数据,突出目标数据。如图

你会关注 47%

你会关注 24% 是什么内容

上面2种图示对比 是不是打开了一个思维上的潘多拉魔盒?!

描述误导

  • 比例描述

有2种陷阱形式,一种是全国平均工资形式,叫做被平均。一个100W薪资和99个5000元的薪资,平均薪资为14950。普罗大众的薪资直接被翻了3倍,开不开心?从地区统计汇报中就没有低收入人群。这就是汇报作弊神器啊,所以在查询国家统计数据资料时一定要谨慎,或者查找下数据计算方式,以便获取数据的内在内容。

还有一种比较神奇,那就是综合百分比和实际效果不一致。

如 A 商品 订单转化率 35%;B 商品 订单转化率 42%

表面上看B商品的转化率高于A。但是实际上A 投入转化成本为0,而B投入转化成本为大约2000万人民币,真实自然转化率基本在15%左右。这种撇开关键因素对比指标也是常见的数据误导。


  • 主体模糊

如百分比,他不会反应分子分母各是什么,这就导致可以在这里做手脚。例如“质量提高了100%”,质量是什么?相比什么提高了100%?解释权归我所有。也有“降价50%之后再减20%”,看起来减了70%,实际上减了60%。

还有一些统计字段如果不了解很容易被误导,比如电商里常用的GMV(商品交易总额),一看数据好几十亿元。再看具体含义(成交金额包括:付款金额和未付款),真实有效的支付订单额远远小于GMV的数据,数据好看而已。

还有一些用词上的陷阱,其实不能算是陷阱,个人认为只可以说是用词错误或者认知不对,比如翻N番,就表示2的N次方,谨慎使用。

一定要记住:相关不等于因果

相关只是两者在数理上有相关性,但是不能代表因果关系。二者有强烈相关性的东西的因果关系是复杂的,可能互为因果,也可能其中一方是因另一方是果。也就是说数据相关不能直接定性因果关系,一定需要新分析,再假设推定关系。

分享,关注,收藏是对我最大的支持,公众号“闲聊产品”

0条评论 添加新讨论

登录后参与讨论
Ctrl+Enter 发表