爱奇艺如何治理数据和质量监控的?
点击“开发者技术前线”,选择“星标”
让一部分开发者看到未来
01

产品因素:如APP发版,引起Pingback的投递策略发生了变化;
运营和外部因素:如渠道的运营、内容导流、刷量和粉丝行为、合作方因素;
技术问题:如数据的缺失、计算逻辑问题,这些也会对数据造成很大影响。
Pingback层:Pingback是各个报表的源头,从源头出发,对Pingback的投递质量进行改善;
数据中间层:通过在数据中间层增加必要的监控,避免异常数据传导到下游;
业务报表层:面对用户和运营,是非常重要的一块,也是非常直观的,这部分数据面向的人员众多,且每个人关注点会有差异,需要做到的是尽量覆盖重要业务的监控,尤其是核心数据监控。
首先是发现异常,并及时处理;
其次是定位异常的原因,原因有的可能是合理的,比如运营的原因,合理因素只需要进行备注,错误的数据则需要进行开发处理,包括但不限于前端、后端、数据开发等;
最终目标是提高数据的质量,保证数据的流转和运营健康。
02


爱奇艺内部把Pingback的监控拆分成了以下三个维度:
业务维度:细分到具体的业务和端,如爱奇艺Android客户端、爱奇艺iPhone客户端等; 事件类型维度:针对用户的不同行为进行监控,如启动、播放、展现点击等; 时间维度:分成了三个等级:5分钟级、小时级、天级。
03

04

上图是爱奇艺数据质量监控异常检测模块涉及的检测方法,由前置的多个异常检测和后置的决策器一起作用。
每一种检测方法适用的场景也不同,需要根据数据情况进行匹配。下面会结合爱奇艺内部的一份真实数据对不同检测方法进行简单介绍,包括对方法的简单介绍、适用场景和优缺点。

05

相关性检测


06

智能检测,尽量不要让用户去配置,根据数据的历史趋势自动生产监控策略,但是相关性指标除外,由于是业务强关联,需要用户进行手动配置;
智能归因,发现异常后,对异常数据进行维度下钻,找出对异常数据影响最大的因素;

上图是智能归因模块的架构。
维度下钻管理:负责协调各个模块,制定下钻的逻辑;
数据图谱:爱奇艺数据中台的产品,管理表和字段的上下游关系,为智能归因提供血缘关系;
专家建议:沉淀异常原因历史经验,由于异常因素很多,通过历史经验,我们可以确定分析的核心方向,减少下钻的维度爆炸,提高计算效率;
归因引擎:负责具体的归因执行逻辑,包括发现下钻维度中异常因素最大的维度值;汇总不同维度的异常原因,输出可读的异常原因。
— 完 —
点这里👇关注我,记得标星呀~
前线推出学习交流一定要备注:研究/工作方向+地点+学校/公司+昵称(如JAVA+上海
扫码加小编微信,进群和大佬们零距离
后台回复“电子书” “资料” 领取一份干货,数百面试手册等
