关闭

搞定数据分析输入的'三步走'方针

在信息化时代中,数据越来越多,使用的门槛越来越低,工作中强调的是用数据来说话,依赖数据来决策;你是否遇到数据被挑战,连带结论一起被质疑。
在信息化时代中,数据越来越多,使用的门槛越来越低,工作中强调的是用数据来说话,依赖数据来决策;你是否遇到数据被挑战,连带结论一起被质疑。

‘千里之堤,溃于蚁穴’。最基础的是确保自己分析的输入的数据是准确且合理的,这是分析成功的基础。

那么是如何实现输入数据的准确呢?笔者认为主要是3步走:数据口径,交叉验证,数据清洗;

需求场景:新冠肺炎疫情对服务行业尤其是旅游行业造成巨大冲击,某在线旅游平台X公司认为周边游是个可以尝试的国内市场恢复策略,想要先看下哪些常驻地目的地top20的是哪些,用来下一步看下常驻地用户喜好的周边城市是哪些;

01
数据口径要统一

数据口径是分析的基础,决定了我们研究的样本,所以一定要谨慎核对,确保输入的数据样本范围不会有问题。

定义数据口径(一般是时间/空间/对象,聚合方式)以及为什么是这样的口径(思考确认范围是否合理)。上面这个场景下的口径是如下所示:

时间:2019年03月01日-2019年06月30日(去年同期暑期前的时间段是作为参考时间段)

空间:国内,直销渠道(因为此渠道是可以追踪到真实的用户常驻地)

对象:以目的地城市维度来聚合

聚合:成交金额

02
交叉验证二次核对

在获得数据之后,并不知道其数值对不对,还需要做进一步的交叉验证。有两种方式:第一种是你根据平时的对于数据的敏感度,先预判汇总数据是否这个量级上的;第二种是用另外一个数据源来获取相同口径数据来验证这个汇总值是否一样。如果不一样,那么需要做的是:

-首先确保两者口径是一致的;

-然后去排查自己取数的流程中是否有问题,比如是否有口径限制错误;

-上面还有没有检查出来问题,那么确认数据源本身是否有问题,通过比对有差异的明细数据来看;

这里有两点小建议:一是当你的数据源是别人提供给你的数据时,风险性更高,更要慎重核对;二是一定要在源数据文件中记录下口径,方便后面好追溯或者更新数据;

03
合适的数据清洗

任何数据都是有噪声的,在使用之前都需要进行处理。用阿里巴巴前首席数据官车品觉老师的一句话:’假定数据就是脏的‘,用这种思维来对待任何来源的数据。那么获取数据之后,需要进行数据质量的检查并记录下来有哪些问题等待清洗的点。这里判断数据质量有4个原则。

-完整性:数据的行记录或者字段中的值有缺失;

通过聚合值来判断行记录是否有缺失,通过GMV数值与整盘GMV情况对比,判断明细记录是否缺,与口径核对验证相似;

字段值的缺失是通过字段的数量来判断,excel中通过数据透视表对字段进行值的统计发现是否有缺失。

-无效值:无效值NULL是缺失值的一种特殊形式;

首先第一个就是要明确为什么会有NULL值,是取数过程中有问题步骤产生的还是本身源数据中就有。如果是取数过程中产生,需要确认是否有错误的join使用;

对于缺失值和无效值相同的是,如果是数据源本身就有NULL值的话,那就是首先判断缺失无效值的比例,看对于大盘的影响,可以考虑使用平均值或者其它方式来替换,这里不具体展开,可以百度具体方式。

-准确性:数据中出现异常值(离群值),可以采用简单描述性统计或者箱型图来判断最大值与最小值;

如果明确已知原因可以判为异常值或者超出正常经验值的(比如一个人体重是600kg);当仅仅是怀疑某个值时,采用统计学方法,即可疑值与n个结果的平均值之差的绝对值大于或等于3倍的样本标准偏差时,判断可疑值为异常值。异常值的处理一般是删除。

还有一种可能是分析中存在的干扰数据也需要清理,比如说在看用户退订的时刻分布图中,发现在下午14:00中的退订订单量异常高,后来发现这部分订单量是系统自动退订的时间,需要将系统自动退订的订单清理掉;

-一致性:是否遵循了统一的规范,格式不统一;

比如字段中出现多种格式,北京市/北京,可以通过识别badcase,然后通过映射的方式来校正。

根据记录的需要清洗的点,采取清洗措施,最终输出符合分析要求的数据,有句话说的很好,数据分析项目中,80%的时间是在数据处理上,真正分析只需要20%的时间。

以上就是“搞定数据分析输入的'三步走'方针 ”的内容了,如果你还想了解其他相关内容,可以来产品壹佰官方网站。

0条评论 添加新讨论

登录后参与讨论
Ctrl+Enter 发表