业务板块定义原则:业务逻辑层⾯进⾏抽象、物理组织架构层⾯进⾏细分,可根据实际业务情况进⾏层级分拆细化,层级分级建议进⾏最多进⾏三级分拆,⼀级细分可公司层⾯统⼀规范确定,⼆级及后续拆分可根据业务线实际业务进⾏拆分。例如当一个公司经营多个不同领域的业务时,可以将这些业务划分为不同的业务板块。例如,一个公司既从事零售业务,又从事文娱业务,且这两个业务之间相对独立,那么可以将其划分为两个业务板块,即零售板块和文娱板块。
规范定义
规范定义主要是通过明确定义业务板块下的主题域以及指标体系中计算的基本框架,例如业务过程、纬度、度量、原子指标、派生指标和衍生指标,为后续的指标开发制定明确的规范。
主题域:指⾯向业务分析,将业务过程或者维度进⾏抽象的集合。其中,业务过程可以概括为⼀个个不拆分的⾏为事件,在业务过程之下,可以定义指标;
业务过程:指公司的业务活动事件,如,直播、线索、转化、⽀付都是业务过程。其中,业务过程不可拆分。
修饰类型:修饰词指的是统计维度以外指标的业务场景限定抽象,修饰词属于⼀种修类型,。修饰类型从属于某个业务域,如⽇志域的访问终端类型涵盖APP端、PC端等修饰词。
度量:基于某⼀业务事件⾏为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如⽀付⾦额。
维度:维度是度量的环境,⽤来反映业务的⼀类属性,这类属性的集合构成⼀个维度,也可以称为实体对象。维度属于⼀个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、⽉、周、⽇等级别内容)。
维度属性:维度属性⾪属于⼀个维度,如地理维度⾥⾯的国家名称、国家ID、省份名称等都属于维度属性。
原⼦指标:基于某⼀业务事件⾏为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如呼单量、交易⾦额.
派⽣指标:是1个原⼦指标+多个修饰词(可选)+时间周期,是原⼦指标业务统计范围的圈定。派⽣指标⼜分以下⼆种类型:
事务型指标:是指对业务过程进⾏衡量的指标。例如,订单数、订单⽀付⾦额,这类指标需要维护原⼦指标以及修饰词,在此基础上创建派⽣指标。
存量型指标:是指对实体对象(如司机、乘客)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原⼦指标以及修饰词,在此基础上创建派⽣指标,对应的时间周期⼀般为“历史截⽌当前某个时间”。
衍⽣指标:是在事务性指标和存量型指标的基础上复合成的。主要有⽐率型、⽐例型、统计型均值。
数据模型
根据以上的规范定义,将数据指标进行数据建模,明确数据计算的逻辑,从而进行后续的指标开发。数据仓库的指标建模主要采⽤维度建模⽅法进⾏构建,基础业务明细事实表主要存储维度属性集合和度量/原⼦指标;分析业务汇总事实表按照指标类别(去重指标、⾮去重指标)分类存储,⾮去重指标汇总事实表存储统计维度集合、原⼦指标或派⽣指标,去重指标汇总事实表只存储分析实体统计标签集合。
指标体系在数仓物理实现层⾯主要是结合数仓模型分层架构进⾏指导建设,的指标数据主要存储在DWM层,作为指标的核⼼管理层。
层次 |
指标层次 |
DM |
实体宽表,数据产品应用表 |
DWM |
衍生层(统计维度+衍生指标) 派生层(统计维度+原子指标) 原子层(统计维度+原子指标) |
DWD/DIM |
DWD 维度事实表(统计维度+度量)DWD 业务事实表(业务身体属性集)DIM基础维度(静态属性集合) |
ODS |
原始数据 |
ODS: 为从业务库同步过来的一比一的原始数据
DWD/DIM: 为了计算目标,将ODS层的数据按照业务需要,将需要统计的字段通过关键字段进行相互关联,并经过清洗去重,形成DWD数据以及DIM数据。
DWM层:根据统计需求,利用DWD和DIM 进行关联和聚合分析,统计出原子指标、派生指标、衍生指标
DM层:将DWM层的数据进行关联汇总,形成业务通过单表访问就可以查询聚合的数据表。
指标开发
目前指标开发一般在数据平台中已经用于可视化的指标开发平台,通过数据字典定义指标,纬度,度量等,通过可视化拖拽的方式,完成衍生指标和派生指标的开发。
另外一半指标开发平台都拥有指标管理功能,包括基础信息、技术信息和衍⽣信息,由不同⾓⾊进⾏维护管理。
a)基础信息对应指标的业务信息,由业务管理⼈员、数据产品或BI分析师维护,主要包括归属信息(业务板块、数据域、业务过程),基本信息(指标名称、指标英⽂名称、指标定义、统计算法说明、指标类型(去重、⾮去重)),业务场景信息(分析维度,场景描述);
b)技术信息对应指标的物理模型信息,由数据研发进⾏维护,主要包括对应物理表及字段信息;
c)衍⽣信息对应关联派⽣或衍⽣指标信息、关联数据应⽤和业务场景信息,便于⽤户查询指标被哪些其它指标和数据应⽤使⽤,提供指标⾎缘分析追查数据来源的能⼒。原⼦指标定义归属信息 + 基本信息 + 业务场景信息派⽣指标定义时间周期 + 修饰词集合 + 原⼦指标修饰类型主要包含类型说明、统计 算法说明、数据源(可选),数据研发进⾏维护。
发表评论