多维分析在网易云音乐社交创新业务的应用

发布一下 0 0

导读:本次分享题目为多维分析在云音乐社交创新业务的应用,分为以下5个章节进行阐述:

  • 业务背景介绍
  • 多维分析应用场景
  • 自助多维分析意义
  • 多维分析的数据底座
  • 未来构想

01

业务背景介绍

多维分析在网易云音乐社交创新业务的应用

无论做什么,背景都是很重要的,不同背景下使用合适的技术,不仅会有较大的效率提升也能发挥更多的价值。创新业务是云音乐重要的板块之一,主要是由多样化社交为主的创新app矩阵构成,包括陌生人社交的心遇app,主打声音互动的声波,海外社交应用HeatUp等,覆盖不同社交需求的群体。

虽然app很多,但它们都有一些共同点:

  • 商业化:解决不同用户群体社交需求的同时,为公司创造商业价值。
  • 创新:在大市场里不断尝试、创新。
  • 迭代快:app诞生速度快,需要提供快速的数据支撑,发挥更大的数据价值。

这些对数据工作的考验都非常大,人力是有限的,需求是无限的,必须借助工具,沉淀一些方法论,从而更高效地支撑业务,多维自助分析便是其中一个典型的例子。

--

02

多维分析应用场景

1. 发展历程

多维分析在网易云音乐社交创新业务的应用

创新业务数据发展的历程,简单归为以下4个阶段:

① 第一阶段:数仓雏形-体系搭建

因为是在云音乐主站基础上孵化出的创新业务,可以享受主站技术沉淀带来的红利,依托主站平台的架构、资源,快速高效地进行了数仓搭建。

② 第二阶段:人肉取数-Excel分析

在业务初期,数据需求非常旺盛,数据开发直面业务做数据支撑,这个阶段报表体系还没有成熟搭建,更多是靠数仓的人肉取数据去做支撑,业务根据取数结果做线下的Excel分析。

③ 第三阶段:报告体系-自助分析

在报告体系搭建完后,开放了基于SQL方式的自助分析入口,但由于业务方SQL能力不是很强,效果并不是很好,为解决这类问题,又引入了多维分析工具,做了一些数仓建模方法的沉淀。

④ 第四阶段:工具完善-多维分析

当前阶段,通过多维分析工具的完善,构建了一些多维分析模型,数据效率的提升明显。

2. 技术选型

多维分析在网易云音乐社交创新业务的应用

接下来讲一下对应不同阶段的技术选型。初期,基于Hadoop生态体系,使用Hive和Spark构建离线数仓。发展到一定阶段的时候,基于Kafka和Flink构建了实时数仓,目前还是Lambda架构,同时也在做批流一体的尝试。

图中右半部分是介绍的重点,基于多种组件,我们搭建了easyFetch多维分析平台,数仓会基于不同的数据量、使用场景以及保障程度选择合适组件构建多维分析模型,整个过程对使用端是透明的,总的来说就是兼容不同存储,通过平台能力达到使用方式的一致。其中用的较多的是Impala、Kylin、Clickhouse以及Greenplum。

Impala可以直接同步Hive元数据,直接使用数仓开发的ADS层Hive多维宽表,同时也可以读Kudu中的实时数据。

Kylin性能较好,主要当作MLOAP在用,做预计算、预汇总;缺点是后期维护比较困难,对资源消耗大。

Clickhouse主要用在巨大数据量场景以及一些实时场景。

Greenplum主要在需要重点保障且数据量不是非常大的场景下使用。

3. 应用场景

接下来介绍下多维分析平台的几种应用场景。

① 自助取数

多维分析在网易云音乐社交创新业务的应用

在业务发展的任何时期,看数都是一个比较高频的场景,业务需要通过看数了解自身发展情况。

以往的流程是需要业务方提报表需求,然后进行排期开发。如果报表上线后发现缺一些内容,又需要重走一遍需求流程,时间周期很长。

当前阶段,我们给每个APP都构建了多维分析模型。图中例子是关于用户的多维模型,包括用户相关的维度、指标。与一般报表不同的是,基于多维模型的看数比较灵活,业务可以根据自身需求去灵活的选择维度和指标,通过拖拽形式形成表格数据,从而满足不同场景的看数需求。

② 自助分析

多维分析在网易云音乐社交创新业务的应用

相对于看数而言,分析是更细致地了解数据,从而进一步了解业务状况。业务在看数时发现某个指标有异动情况,可以通过多维度或者下钻进行进一步的分析,直到找到根源原因。

可视化也是必不可缺的一部分,通过图表形式可以更清晰更直观地查看数据。

总的来说,看数是一个目的明确的需求,分析是一个不断探索的过程。如果没有自助多维分析,所有的分析探索将转换成一个个数据需求压在数仓身上,而且这个过程是反复的。有了自助分析,数仓要做的是完善多维模型,使一个模型可以解决多个问题,从而形成数据支持的良性循环。

③ 二次应用

多维分析在网易云音乐社交创新业务的应用

多维分析结果的二次应用主要有两点:

  • 分享及固化

业务可以将分析得出的数据结果分享给其他人,或者转成固定报表,从而进行长期的数据监控、决策支持等;也可以将拖拽的分析结果转换成sql,通过sql去做更复杂的分析,同时也方便数仓开发排查问题。

  • 能力对接

通过数据能力输送,对接到其他运营平台,从而解决多种业务问题,间接的使多维分析平台拥有了数据营销能力。业务通过分析,得出结论后会做出相应的业务行动,比如某业务方分析观察到部分用户群体在某个业务场景下可能有流失的情况,他可能会采取一些挽回动作,如策划一个活动来进行唤活,这个时候就可以直接将分析结果转换成人群包,一键对接到push或者短信平台进行定时的活动推送,当然还有很多其他场景。

--

03

自助多维分析的意义

多维分析的价值,包括数据层面的价值和数仓层面的价值。

1. 发挥数据价值

多维分析在网易云音乐社交创新业务的应用

多维分析在云音乐创新业务的价值场景,简单分为3类:

① 决策支持

第一个小类是功能策略层面的分析决策,比如在设计或更改某个业务策略之前,可以通过多维模型进行自助分析,从而多角度的去看策略的提升点及影响面。

第二个小类是基于AB实验的多维分析,一般AB实验只是看实验组和对照组的效果比对,然后根据比对结果决定实验范围是扩大或者直接线上生效,但很多场景是需要进行更多维度的比对,这个时候基于AB实验的多维模型就能发挥出价值。

② 营销活动

通过前面提到的对接push或者短信系统,我们可以直接将分析结果转换成用户包或内容包,做一些营销活动。

同时也应用于活动结算,这是营销活动后的一个场景,需要较复杂的计算逻辑去支持。

举个例子,比如某个活动的奖励发放,不是简单地基于一个指标去直接计算就可以得出的,这个时候我们的多维分析系统也会派上用场。多维分析平台既有丰富的维度,丰富的指标,也可以将离散的指标区间化成一个维度,运营后台提供结算规则,多维分析平台提供数据支持,从而形成一个可配置化的结算体系。

③ 效果评估

无论是决策或者是营销活动,都需要事后的数据评估,从而进行复盘,优化下一次业务动作,这些都可以基于多维分析平台去进行。

2. 提升数开人效

多维分析在网易云音乐社交创新业务的应用

PPT中的两个图分别是多维模型的查询情况和模型被二次应用的使用情况,想说明的是业务通过自助多维分析,很大程度上释放了数仓的人力,也解决了业务发展初期和中期最大的痛点,过度依赖数仓能力,也提升了数据的价值。

--

04

多维分析的数据底座

接下来介绍多维分析的数据底座,前面提到我们构建了很多多维模型,那我们到底是怎么去做的,是怎么去优化的?

多维分析在网易云音乐社交创新业务的应用

多维分析能高效支撑业务,至关重要的就是多维模型的主题和维度指标的丰富程度。在模型建设阶段,如果效率无法提升,就算多维分析功能再强大也无济于事。

在以往的数仓建设模型设计环节,我们会依据维度建模方法论,进行需求收集,构建模型总线矩阵,完全的是从0到1去设计具体的模型。这个过程一定程度上会依赖数仓开发的个人能力和经验,同时没有模型复用的能力,效率比较低下,尤其是在业务多变的情况下。

我们结合创新业务多个社交APP的特点,在主题域模型的基础上进行了细分,进行模块化的模型抽象总结。我们引入了电商的“人”-“货”-“场”概念,这是零售的本质,零售不变的是把商品给用户,进行价值的交换,场连接着人与货。我们创新业务虽然不卖货,但其实很类似。比如社交的私聊场景,在会话这个“场”里进行价值交换,消息就是“货”,只要将对应的场景抽象成“人”-“货”-“场”的概念,就可以去做规范化的模型设计。

在这个方法里,可以抽象出“人”维表,“货”维表、“场”维表,以及各个粒度的汇总表,如“人”粒度的汇总表,“人”+“场”粒度汇总表以及“场”的汇总表等。

这是一个抽象的方法,涉及到具体模块时,只要将对应的“场”和“货”实例化成具体的对象即可。优点是可以根据抽象方法将模型统一标准化,复用到其他APP,从而达到快速模型搭建的过程。

多维分析在网易云音乐社交创新业务的应用


另外还有一个比较重要的就是数据资产运营,简单来说就是像运营产品一样运营数据资产。

首先我们会书写并发布数据资产白皮书,图中左边便是白皮书的一个目录,白皮书是数据资产的指南,也是多维模型的补充解释。我们会以白皮书为指引进行数据资产的运营,包括使用培训、意见收集改进及资产的不断完善等。

同时我们计划进一步开放数据能力,借助资产的运营,为后续自助构建多维模型做准备。

--

05

未来构想

多维分析在网易云音乐社交创新业务的应用

总的来说,我们基于数据资产构建了多主题的多维模型;业务或者其他下游方,基于多维模型去做分析,当分析得出结果后,可以将结果进行二次应用;同时我们也会将数据二次应用的结果进行回收,反向完善到数据资产列表里,形成一个数据闭环过程。

但其实这是一个半自助的过程,因为在数据资产到多维模型这个阶段,目前还是完全依赖数仓人力去建设的。

在未来,我们希望能够开放自助构建多维模型的能力。

但一旦开放了模型自助构建的能力,势必会生成很多各种场景的多维模型。这时候模型的多样化管理、生命周期管理以及如何去评估模型的价值,都是极大的挑战。

所以我们计划会做一些配套设施,在自助构建模型的基础上,进行生命周期管理,也会根据二次应用的结果去评估多维模型的价值,从而形成良性的模型管理,达到全自助的过程。

今天的分享就到这里,谢谢大家。


分享嘉宾:怀谦 网易云音乐

编辑整理:落叶

出品平台:DataFunTalk


01/分享嘉宾

多维分析在网易云音乐社交创新业务的应用

怀谦|网易云音乐资深数据开发工程师


十年数据仓库相关工作经验,通信、环保、电商、医疗等业务领域的数据建设都有涉及。目前就职于网易云音乐,担任社交娱乐线数据负责人。


02/关于我们

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。

版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除

本文地址:http://0561fc.cn/159390.html