欢迎光临
我们一直在努力

不是数据分析师,如何打造优秀的数据分析案例?

news, news阅读(9)

今年求职是很难的一年,很多小伙伴在找工作的时候都需要更提现自己的「数据分析」能力以展现自己的价值,获得工作机会。

即使目前在岗的同学,也希望更通过一些项目来体现自己的工作能力,加强自己的数据分析思维。

那么,什么才是一个好的项目。对数据接触比较少的同学,又怎么在日常工作中积累数据分析的项目呢?

一、注意雷区不要踩!

很多同学,特别是刚毕业的同学,这几个案例是否似曾相识:

  • 拉勾网岗位分析
  • 链家网房价分析
  • 某母婴品牌的电商销量分析
  • 某电商平台的双十一活动分析

注意!!

这些案例已经工作的同学千!万!不!要!写!简!历!上!

为什么?

这些案例在没毕业的学生上还能用一用,起码可以体现出是懂一点技能的。

但是这些案例为了能拿出来做培训,都做过标准化,是跟具体的业务逻辑没有很大的关系。

而已经踏入职场的人,更需要提现的是自己的专业价值。所以,在有选择的情况下,千万不要把这些案例写在简历上,很容易被觉得是水货,没有真正的业务数据思维。

二、什么才叫做优秀的数据分析案例?

一个优秀的、可以通用化去讲的案例,至少需要包含以下四点:

  1. 分析的背景、确立分析目标
  2. 分析的思路、数据清洗的过程
  3. 分析的结果&建议、推动结果落地的过程
  4. 结果落地的效果回收以及迭代方案

举一个简单的例子:

老王最近希望在工作之余搞点副业,问我们怎么办,怎么整出个有效的方案?

那么接下来会有几个问题:

问题A:工作之余是什么呀?想要搞多少钱的副业呀?时间上形式上有什么资源没有呀?

问完后,发现老外所谓副业只是想下班后支个摊,卖点小烧烤。

这一步的询问,就是了解分析背景,确定分析目标

问题B:怎么样支小摊成功率才更高?

那么就有好几个维度:去哪卖、卖什么、啥时候开门卖到几点。

  • 去哪卖:做地点调研、人流变化调研;
  • 卖什么:看哪种烧烤卖的多、微信支付宝订单加起来有多少、给现金的有多少;
  • 啥时候开门卖到几点:分析人流情况、分析人流时段上的密度。

这三个维度的拆解,就是分析的方向和思路

接下来就要去做各个地方实地调研人流和品类,自己去观测,请大妈帮观测人群。

试摆摊的时候把每天卖的钱和卖的东西录入excel。这一步就叫做数据采集和数据清洗

问题C:分析的结果如何,怎么帮老王落地?

假设咱们根据数据分析得到的结果是:

高新A地铁口晚上人流量大且全是社畜,下班后经常要去来一杯释放压力。主要聚集在8-11点。羊肉串金额占比50%,买羊肉串的时候还会点啤酒和花生。

那么我们可以建议老王多备点羊肉串,并且整个打工人套餐,专卖啤酒羊肉串花生组合,7点开摊抢占位置,卖到11点。如果老王有疑问的话,还跟他一起出摊几天观察效果好快速迭代。

这就叫做效果建议和推动结果落地

问题D:效果好不好?好的话能不能去蹭蹭?不好的话老王会不会砍我?

这个问题很!重!要!

一个数据分析流程到了出报告、给建议绝不是结束。还必须要跟进这个结果的反馈。每天去跟老王聊聊卖了多少钱,套餐好不好卖。有没有达到老王的预期。如果没有的话,还可以往哪些方向迭代?如果有的话有没有可能搞多点套餐来卖?

保持对老王的持续关心,不仅可以对摆摊业务更了解,还可以明确老王预期,挖掘新的机会。

这就是结果落地的效果回收以及迭代方案。对结果负责,老王才会真心把你当自己人。

大家可以发现,这里面技术占比为啥这么少?为啥没有可视化技巧啊?!这不是很重要的吗?!

对,是的,技术很重要,但是主要在数据采集、数据清洗、探索性分析的阶段使用。所以并不是拥有了技术手段,就可以完成一份优秀的分析案例。

在一个分析的项目中,业务和技术在分析中的时间关系占比可以总结为:

懂技术和懂业务,都是为了提升分析的效率。

在一个问题的分析效率上来说,技术带来的数据处理效率和业务经验带来的业务沟通效率是同等重要的。

但业务经验更对结果负责,有业务经验方便制定探索方向,避免数据清洗和探索分析的时候因为走错路线而碰更多的壁。

而更重要的,作为一个非技术人员,业务知识才是我们的强项,为啥放弃自己的优势,去跟别人卷技术?

三、如何在自己工作中发掘总结分析案例

在我们的工作中,分析案例无处不在。按照以下逻辑去梳理,很容易发现项目:

  • 我每个月/季/年需要达成的目标是什么,我可以如何拆解?
  • 我的领导是如何给我制定这个目标的,需要解决什么问题?
  • 这个目标是我一个人就能完成的还是需要跟其他人协作完成的?
  • 结果如何?如果我新的知识做,会不会更顺利?

一个商品运营梳理的成功案例

小红是一个商品运营,负责童装品类的商品售卖支持及补货支持。用以上逻辑拆解可以得到:

从头处理下来,已经有了丰满的分析案例:

  • 项目的背景——销售额占比,负责解决什么问题;
  • 项目的执行——分析可调配资源,寻找突破点;
  • 项目的推动——用数据说话,找合作空间;
  • 项目的复盘——新技能、新思路,系统性的解决遗留问题。

这就是一个大部分人都想看到的,精彩的案例了。特别是学习技能的同学,可以按照自己的现状,选择性的学习,并且快速的应用到自己的工作当中,而不是盲目的去学习、练习网红项目。自己能马上用到的,就是最好的。

在日常工作中,多总结、多提炼、多复盘,并且学以致用,就可以拥有很多精彩的项目。

数据分析,如何助力用户增长?

news, news阅读(9)

由于「增长黑客」的影响,很多同学看到「用户增长」这几个字,马上就会想到这些场景:

  • 建立系统的增长模型,驱动增长的持续化和规模化
  • 构建用户转化漏斗,挖掘留存关键点,发现深层问题
  • 分析目标用户,建立用户画像,优化增长策略

好像自己都能干,但是又总觉得这好像也不对,那好像也不对。那么为什么会有这种感觉呢?在实际业务中,又该如何用数据分析解决用户增长的问题呢?今天通过几个例子来简单讲解一下。

一、用户增长的现状

首先我们需要清晰的是大部分的公司离建立系统性的画像和增长模型还有很长一段距离。

  • 做之前的想象:精准用户画像+AB test推送!病毒营销裂变!嘎嘎好!
  • 做之后的绝望:连个用户分层都还没有还画像!业务后台都没有咋做裂变!

在大部分公司里,是没有办法做到像google和facebook那样的数据化、体系化的增长的。

目前市面上的「用户增长」主要有三个类型:

  1. 投放流:这个流派中的「用户增长」,其实就是广告投放,优化广告投放策略,以达到更高的ROI。
  2. 裂变流:这个流派的人热衷基于微信生态搞各种转发、分销、提现等裂变活动,达到快速圈人头的目的。
  3. ABtest流:这个流派就比前两个更像正规军了,需要做各种策略设计,产品尝试去寻找更适合不同用户群的点子。这个就是只有大平台能做的事儿了。

但这三种流派并不是互斥的,反而是相辅相成,解决不同阶段的问题。三种流派的势力范围可参考下图:

投放流解决的问题是「渠道质量」和「用户质量」的问题,会看到新用户是否转化为活跃用户。

裂变流解决的问题是「活动质量」和「用户质量」的问题,一般使用活跃用户作为活动的基础,设计裂变规则和逻辑。

ABtest覆盖的界面很广,但一般不用来解决「渠道质量」问题,更多的是去解决「产品迭代」和「活动策略」的方案选择问题。

有了基础概念之后,我们可以根据数据表现来判断,当增长出现问题的时候,用什么办法解决更合适。

二、用户增长中常见的数据表现类型

1. 激活到注册断崖式下跌

这样的数据表现一般考虑以下几种因素:

  • 用户质量:是否假量过多
  • 渠道质量:是否买到积分墙用户、是否投放策略出现问题
  • 产品流程:是否打开到激活是否流畅、是否有bug

用户超早期流失一般都是投放人员需要关注的问题,且前期的用户质量是跟买量策略强相关的,所以渠道质量是前期最重要也最需要关注的。

在进行分析之前,我们先需要明确什么是假量、什么是积分墙用户。

  • 假量:通过代码脚本虚拟的下载打开量,非真实用户,可以通过ip集中度/设备账号数等维度来检测
  • 积分墙用户:某些APP会整合资源,通过发布app下载/打开等现金激励任务,引导客户去下载app,做流量的二道贩子,这些用户去做任务的用户即为积分墙用户,但这些用户几乎跟正常用户没什么差异,很难区分

如果产品是APP,很多投放人员在做应用商店投放计划的时候,会刻意的允许一些假量进来,帮助打榜,争夺应用市场排名。所以应对这种场景,有以下常见的分析点:

找到问题渠道或者计划后,就是投放型增长的发挥领域了。

2. 注册到新手流程大部分下滑

当用户走到注册这一步,前面说的假量过多的问题已经减少很大一部分了。而「积分墙用户」的行为习惯是跟「非精准用户」、「低价值用户」的行为是非常类似的,区分的难度和成本都特别高,而受益会比较低。

例如,有某个用户的行为序列是:

下载—注册—新手页面1—新手页面2—退出

其实从行为上是分辨不出来他是不喜欢我们的产品、还是就是来做个任务的。

所以这个阶段一般分析点都会聚焦到「产品流程」的迭代上。

常见的分析点有:

找到分歧点后,就是ABtest流增长的发挥时间了。当前在做实验之前,还有一系列的ABtest方法可以使用,这里就不过多赘述了。

3. 走完新手流程到留存再开始下滑

如果用户已经走完了新手流程,但没留下来,需要思考的点就是「用户与产品的匹配程度」。

这种情况的分析点就比较发散了,且需要跟业务深度结合。但是可以考虑这几个方向:

产品内是否有明显的区分用户的点,如果有的话,点击率/体验率如何?

例如一些小说/漫画app在注册之后会有一些美女或古装帅哥的展示,通过分析这些图片的点击率,就可以很直观的说明用户的属性和喜好。

业务形态上是否跟用户属性强相关?

一些垂直领域的业务如学科教育、运动等,例如我是想给孩子学数学,但是首页内容只有少部分数据,那么我的流失可能性就很大。

可用的提高产品/用户匹配度的方法有哪些?

这个方法常用的有两种:渠道去找精准量,或者产品迭代差异化分配逻辑。选择哪种方法取决于业务的大方向是什么。

如果业务阶段是做垂直,那么大概率是去找精准量。

如果业务是想要往全域发展,可能就是需要改内容展示逻辑。

常见的分析指标有:

完善以上分析可以按业务形态和发展方向选择性跟投放合作或者跟产品合作ABtest。

例如,可以将一些优质用户的高渗透率的功能点给到投放,投放可以选择按照对应的事件买量。(注:买量平台可以按照目标转化事件买量)

也可以根据内容转化率/停留时长的差异结果,跟产品探讨迭代的方向。

还可以重点观测一下「分享活动」和「分享按钮」的点击率,区分裂变的种子用户和非种子用户,辅助运营的同学寻找裂变优化的可能性。

但是!需要注意的是,用户增长的核心能力不止数据分析。

比如做投放增长的,还需要对各个买量平台的用户质量、用户画像、商务条款等都有了解。一些渠道配比、信息流广告等制作能力甚至还需要一些人脉资源。

做裂变的,需要设计裂变形式、测算奖励幅度的能力。

这些需要的都是运营能力。这个是很多数据人的一道坎,也是业务不接受数据指导的重要原因。

如果希望更好的辅助增长,除了懂数据指标之外,还需要花更多精力在运营知识的学习上。才能打造自己的核心竞争力。

GMV下降怎么办?电商平台GMV计算与分析思考

news, news阅读(6)

GMV计算和分析是电商经营分析/运营面试过程中有一个常见的问题,下面的分析框架是从一个咨询顾问的角度,来进行思考和复盘的。

大概也可以体现同一个问题,商业分析师的层次,但也是仅从咨询分析师角度分析,由于非行业从业人员,如有分析细节不符合行业现状,请纠正。

问题:电商平台的GMV下降怎么办?(商品交易总额简称GMV)

假设电商平台GMV下降怎么办,我们可以分析这个问题其实要回答两个问题,第一是GMV如何计算,第二是GMV下降的提升策略是什么。另外为了便于计算分析,我们假设场景是某月电商平台GMV较上月下降。

下面可以从三个层次来分析这个问题怎么回答和分析思路(以下订单默认减去了拒收、退货、取消订单)。

答案1.0版:仅从成交订单最终结果分析

计算公式:

GMV=月订单数*月订单均价

提升策略:

1.0版的答案非常不完善,仅从最终的订单角度进行分析,从业务运营的角度来看是无法制定精细化的改善策略的。

答案2.0版:从C端和B端思考

计算公式:

C端:GMV=用户数量*访购率*客单价

B端:GMV=店铺数量*动销率*店均GMV

提升策略:

C端针对用户数量从新客户和老客户视角进行分析,针对访购转化,根据漏斗模型进行拆解,并且结合RFM模型进行分析。

B端针对店铺数据分析新增/留存/流失数据,针对销量和单价,从平台补贴/活动/积分/激励相关维度进行分析。

答案3.0版:明确最小计算和统计单位

首先我们必须明确该计算公式下的最小的计算单位,这里通过分析和思考判定最小单位是每笔订单,包括每笔订单的数量和每笔订单的价格,有同学可能会有疑问,为什么一定要确定最小计算单位,因为最小计算单位是进拆解分析,以及后续的精细化运营的重要思考维度。

然后,我们可以分析最小计算单位有什么特点,什么因素会影响最小计算单位,最小计算单位订单怎么被归类统计。

1)可以是店铺维度,统计计算某一个店铺的在某月的订单数量和每笔订单的单价,然后汇总计算所有店铺数据,这里我们可以看到店铺是计算分析的一级指标。

计算公式:

GMV=店铺1[(订单数量A*订单单价A)+(订单数量B*订单单价B)…]+店铺2[(订单数量C*订单单价C)+(订单数量D*订单单价D)…]+….店铺N[(订单数E*订单单价E)+(订单数量F*订单单价F)…]=单店GMV求和

提升策略:

这里我们可以看出,店铺对应的其实是商家运营,影响店铺的因素包括数量维度的指标和质量维度的指标。

我们的核心目的是提升现有商家数量,提升商家活跃数量,并制定商家分层策略,对不同质量的商家提供不同的运营帮助。如果发现现有商家数量不尽如人意,我们可以进一步分析新注册商家数量/注销商家数据,从商家增长角度进行分析,新注册商家考虑的维度主要是增长漏斗模型,注销商家可以借鉴NPS模型,重点分析商家注销的原因。

如果是商家质量相关是数据,我们也可以进一步分析,商家质量主要和商家特征相关,例如按性质分可以分为旗舰店商家/经销商商家等,按营收看可以分为头部商家/中部/尾部商家,按地区分类等。

这里我们可以看到商家分层运营的核心其实是按照商家画像,对商家进行分类精细化运营。(这里品类其实也是商家的重要分类维度,但由于各类综合主播和综合店铺的因素,所以将品类单独拆分为一个分析因素)

2)可以是用户维度,统计计算某一个用户在某月的订单数量和每笔订单的单价,然后汇总计算所有的用户数据

计算公式:

GMV=用户1(订单数量A*订单单价A)+(订单数量B*订单单价B)…]+用户2[(订单数量C*订单单价C)+(订单数量D*订单单价D)…]+….用户N[(订单数E*订单单价E)+(订单数量F*订单单价F)…]=用户GMV汇总

提升策略:

这里我们可以看出,用户对应的其实是用户运营,影响用户的分析方法和商家运营有类似之处,可以从消费者旅程消费者画像角度分析思考,并将两个维度综合思考。

消费者旅程对应的分析方法应该是漏斗模型,即拉新(acquisition)、促活(activiation)、留存(retention)、变现(revenue)、传播(refer),分析模型中哪个环节是影响用户下单的重要节点,用户增长和流失的原因,并制定针对性的运营策略。消费者画像对应消费者的基本属性和消费行为属性,对不同消费者进行精准营销。

3)可以是商品维度,统计计算某一个商品在某月的订单数量和每笔订单的单价,然后汇总计算所有的商品数据

计算公式:

GMV=商品1(订单数量A*订单单价A)+(订单数量B*订单单价B)…]+商品2[(订单数量C*订单单价C)+(订单数量D*订单单价D)…]+….商品N[(订单数E*订单单价E)+(订单数量F*订单单价F)…]=商品GMV汇总

提升策略:

这里我们可以看出,商品对应的其实是商品运营,影响商品的分析方法和商家、用户有些区别,我们可以看出商品其实是一个被动的因素,而商家、用户是影响商品的主动因素。

另外,商品在数量级上也和商家、用户有较大的区别。所以,这里其实应该跳脱单个商品的分析概念,从品类/品牌运营的角度思考。

这里的分析思路可以从宏观视角分析,也可以从微观视角分析,宏观视角指的是该品类所属行业的视角,例如,服装品牌的市场份额较为分散,而笔记本电脑的市场份额较为集中,这里,我们可以试想,在一个市场份额集中的品类中,如果占据大量市场份额的品牌因为一些原因,出现大量销量下滑,那么就需要制定相关的策略,例如近期由于日本排放核污水,导致大量日系品牌销量大幅下降,而在某些垂直商品品类上,日系品牌占据了大量的市场份额。

从微观角度,品类的价格和消费频次,特定时间点和特色的使用场景,也是重要的思考方向,可以开展一些和品类相关的运营活动。

答案4.0版:综合考虑外部因素

2.0和3.0版的分析已经有一定的提升和完善了,也可以精准定位影响GMV的因素,并制定相应的运营策略了,但是该分析仅局限在平台内部的经营分析,未能综合考虑行业、竞品相关的因素。我们可以把2.0和3.0版的分析数据归纳为直接影响GMV的因素,4.0版本的分析在2.0和3.0版的基础上,加入行业和竞品因素的分析,这类因素属于间接因素。

由于2.0和3.0版的答案已经写过计算公式了,下面4.0版本不再赘述。

提升策略:综合商家/用户/品类运营数据,制定相应的运营策略。

商家:

  • 数量维度(直接因素):老商家NPS分析流失/留存原因+新商家增长漏斗分析新增因素
  • 数量维度(间接因素):竞品商家数量/行业市场商家规模sizing
  • 质量维度(直接因素):根据商家类型画像进行分析
  • 质量维度(间接因素):宏观环境/商家产业链(供货/货品价格/货品质量/替代品)

用户:

  • 消费者旅程(直接因素):漏斗模型,即拉新(acquisition)、促活(activiation)、留存(retention)、变现(revenue)、传播(refer)分析用户下单转换的影响因素,例如页面布局、引流渠道等
  • 消费者旅程(间接因素):外部流量/竞品/pc到移动端的技术变化
  • 消费者画像(直接因素):RFM模型等分析
  • 消费者画像(间接因素):宏观经济/外部消费者市场变化(可支配收入等)

商品:

  • 宏观(直接因素):商品/品牌市场份额集中度
  • 宏观(间接因素):供给端(技术壁垒、资金壁垒等因素)、需求端(消费端需求多样,众口难调,常见于餐饮、服装等品类)、产业链
  • 微观(直接因素):商品价格、商品消费场景、商品复购率等
  • 微观(间接因素):竞品(品类活动)、流量(消费场景渠道)、商品供给情况(商家侧:影响价格和缺货率)、用户购买因素(用户侧的购买行为分析)

商品分析较为特殊,如前文所述还是要从商家和用户侧,以及平台,行业多方视角分析,本来想把商品品类作为商家分析的上一级指标,但是考虑到大量直播电商/店铺不是并不是只垂直在某些品类,所以这里单列出来进行分析。

数据可视化设计在数据分析与数据预测分析中的应用

news, news阅读(7)

随着大数据时代的到来,数据分析与数据预测分析在各行各业的应用越来越广泛。在这篇文章中,我们将探讨大数据时代的到来,数据分析与数据预测分析在各行各业的应用越来越广泛。

一、数据可视化设计

数据可视化设计是一种将数据以图形或图像的形式呈现出来的技术,其目的是使数据更易于理解和分析。在进行数据可视化设计时,需要注意以下几点:

  1. 选择合适的图表类型:根据数据的类型和要表达的信息,选择合适的图表类型,例如折线图、柱状图、饼图、散点图等。
  2. 优化图表元素:图表中的元素包括标题、轴标签、图例、注释等,需要对其进行优化,以使图表更易于理解。
  3. 调整图表颜色与样式:根据数据的主题和风格,选择适当的颜色与样式,使图表更具吸引力。
  4. 数据预处理与转换:在进行数据可视化之前,需要对数据进行预处理和转换,以确保数据的准确性和一致性。

二、数据分析

数据分析是指利用统计学和计算机技术对数据进行处理和分析,以提取有用信息并解决实际问题。在进行数据分析时,需要注意以下几点:

  1. 明确分析目的:在开始分析之前,需要明确分析的目的和需求,以便选择合适的数据类型和方法。
  2. 收集合适的数据:根据分析目的,选择合适的数据来源,并收集相关数据。
  3. 数据预处理:对收集到的数据进行清洗、整理和归纳,以确保数据的准确性和一致性。
  4. 选择合适的分析方法:根据问题的特点和数据的类型,选择合适的数据分析方法,例如描述性统计、聚类分析、关联规则等。
  5. 结果解释与报告:将分析结果以易于理解的方式呈现出来,包括数据表格、图表和文字描述等,以便于决策者理解和应用。

三、数据预测分析

数据预测分析是指利用历史数据和预测模型来推测未来趋势和发展的一种方法。在进行数据预测分析时,需要注意以下几点:

  1. 选择合适的预测模型:根据数据的类型和特点,选择合适的预测模型,例如线性回归、时间序列分析、机器学习等。
  2. 数据预处理:对历史数据进行清洗、整理和归纳,以确保数据的准确性和一致性。
  3. 训练预测模型:利用历史数据训练预测模型,并对其进行调整和优化,以提高预测的准确性。
  4. 验证预测结果:对预测结果进行验证和评估,以检查其准确性和可靠性。
  5. 实际应用:将预测结果应用于实际场景中,例如市场预测、生产计划等,以提高决策的准确性和效率。

可以与实际值进行比较,判断实际销售目标是否达到标准。它还可用作 KPI 评估的基础。

四、结论

数据可视化设计在数据分析与数据预测分析中都具有重要的作用。

通过合理的数据可视化设计,可以更直观地展示数据信息,使数据分析与数据预测结果更易于理解。同时,良好的数据可视化设计可以提高数据分析与数据预测的准确性和效率。

未来,随着大数据技术的不断发展,数据可视化设计将在更多领域得到广泛应用,帮助人们更好地挖掘数据价值,推动社会的进步和发展。

大厂都要求的“数据分析闭环”,该如何实现?

news, news阅读(8)

经常有同学问:“总听说要实现数据分析闭环,看到数据分析结果”,可到底该咋实现?为什么自己平时工作中,经常是发了数据给业务就石沉大海,这样咋胜任大厂的要求?今天系统讲解一下。

一、什么是数据闭环

完整的数据闭环,应该是:用数据监控业务 → 发现业务中的问题 → 分析问题原因 → 选择解决方案 → 继续监控业务走势,这样一条完整的链路。如果能实现闭环,肯定是做到了真正的数据驱动,既能体现数据分析的价值,又能促成业务科学办事,避免拍脑袋决策,是最好的状态了。

可现实工作中,很多企业不存在这样的链路。常见的问题有以下四种(如下图):

那该怎么优化,实现数据闭环呢?如果企业数字化程度极低,缺少数据采集,连数据都没有,那真的就没办法了。因此,除了问题1受数据采集制约外,其他问题2、3、4都有对应的解决方案,我们一个个详细介绍。

二、要点一:提出业务假设

首先要清楚一点:指标跌了,不见得是问题。指标没有按照预期地下跌,才是真正的问题。因此不要念经一样的叨叨:同比环比涨了跌了。

而是先做好基础数据分析:

1、业务的淡季/旺季变更是什么节奏?

2、新业务本身成长周期有多久?

3、最近业务是否有做主动调整?

这样才能剔除正常波动,真正发现问题。其实很多时候,送出去的报告被业务部门批:“我早知道了”,就是因为缺少做上述工作,天天念经“同比环比”导致的,这种报告你看你也烦。

指标下跌只是问题的表象,人们真正想听的是:

1、这是内部的问题还是外部问题?

2、内部问题,是策略定得不好,还是执行没到位?

3、外部问题,来自竞争对手还是大环境不好,大家都不行?

这些统称为“业务假设”。只有当数据结合了业务假设,才能真正驱动业务去行动,去解决问题。要不然光说:客户少了,客单价降了,转化率跌了,到底业务假设是啥?太多原因可能影响到这个结果,业务是没法做判断和行动的。

因此,在发现问题这一步,一定要把业务假设提出来,常见的提法有2种

方法1:从数据上看,发现问题在XX地方更集中,因此假设……

方发2:业务自己有预判,先记录业务描述,再转化成数据问题

两种方法如下图所示,不管哪种,都能推动下一步工作。

三、要点二:建立分析逻辑

有可能同一个问题,有一堆业务假设待验证,这时候建立分析逻辑,确定先回答哪个,后回答哪个很重要。不然各种因素交织在一起,即没法确定主要原因,也没法推动落地。

现实工作中,经常因为数据采集有限,无法穷尽各种可能。因此排除法是个好办法,通过排除干扰项,能更快聚焦核心问题。这里推荐经典的排除法三原则:

原则一:外部原因优先排除

因为太多人喜欢拿“大环境不好”当甩锅理由了,不先堵死这个口子,就总有借口摆烂。其实如果真遇到大环境问题,一定是所有业务线均有影响。只要能找到足够多的标杆(如下图),既能堵住借口,又能为业务找到出路。

原则二:执行问题优先排除

执行不到位,即使策略很好也不能见效,因此但凡怀疑执行有问题,就得先检查过程。该发的宣传发了没?该做培训做了没?该备的货到位没有?该上线功能稳定在跑不?该拜访的客户去了没?执行到位了,不见效,这时候可以检讨:策略上有没有优化空间,还有哪些地方可以改改。

原则三:有后备方案的优先考虑

注意!企业不是科研院校,搞清原因远没有能挽回KPI指标重要。因此如果业务上还有后备方案,能用的就用。比如看到业绩不行,还有后备费用,那就优先测算投资是否能拉起来。比如看到传播不行,还有后备素材,那就优先分析哪些素材投出去可能见效。总之以解决问题为导向,而不是老学究般皓首穷经的问“分析清楚没有”。

这样经过筛选排序,针对具体业务问题,可以形成一套清晰的解决思路,甚至有可能针对不同城市,不同团队,不同用户,形成细化分析与解决方案,从而推动问题解决(如下图):

四、要点三:评估可行方案

很多同学一听到“可行的建议”就会发憷,不知道咋提,不知道要细到啥程度。其实,在短期内,业务能做的优化动作是非常少的,哪有那么多天花乱坠的想法。而且没有经过数据的想法,有很大概率是馊主意,改造越糟糕。

所以,想提出高质量、可落地的建议,最好的办法就是围绕业务问题,把过往评估的结果整理起来。比如要建议上一个促销活动,那么过去各类型促销效果,投产比数据就可以拿出来用,先看相同投入下哪个好,挑个大类。比如要建议优化宣传素材,那么过去宣传素材带货效果怎么样,先列清单,提供给业务选。

这样做,业务用起来也很爽。业务一有想法,立马能看到历史上类似动作的结果,自然自己心里也有判断。

唯一不能应对的场面,就是业务有个全新的想法。这时候没有历史数据做参考,可以做测试。数据分析师帮业务列清楚:本次测试目标、测试关键影响因素,本次测试要剔除的干扰因素(非常重要!不然结果不好解释),预估测试多久见效。这样也能提供有效落地的建议。

五、现实中的补救措施

当然,现实工作中,总会遇到公司领导不重视,业务不积极,数据太少等等问题。该怎么补救呢?你不能太指望遇到100%完美型的公司才干活,因此建议大家抱着:行有不得,反求诸己的精神,先把我们自己能干的工作干好。

包括但不限于:

1、不要当学究了,多了解业务

2、从业务角度思考问题,主动提业务假设

3、遇到问题纠缠不清,主动列分析逻辑树

4、不停步于“习惯是什么”,多问:“习惯背后的原因是啥”

5、做好评估记录,围绕业务把评估结果组织起来,留作弹药库

如何做一个优秀的数据分析项目?

news, news阅读(5)

首先大家要明白,并不是所有的项目,都需要找一个万人大会堂,拉着横幅,董事长总经理轮流上台鸣锣开道的。只要满足“在特定时间、特定条件下有具体产出的”都是项目。

因此,做项目的关键,不是图个名号,而是有具体的产出。有了具体产品的产出,KPI/OKR文档好交差;领导对你满意度提升;升职考评的时候有更多资本;跳槽也有更多可以写简历的东西。这才是我们要争取的。而所谓“优秀”的项目,指的是比“我跑个数据”更有说服力的产出。

那么,第一步该从哪里开始呢?

一、认识服务对象

做项目,最重要的当然是搞清楚目标;搞清楚目标,第一步当然是搞清楚为谁服务。这是数据分析新手与老鸟之间的最大差异。

往往没入行的小白,满脑子都是“模板、模型、公式”。以为只要对着模板copy一份就算是完成工作了。刚入行的菜鸟们喜欢笼统地说:业务。可业务并不是一个孤零零的、独立的个人。业务两个字背后,是非常具体的、复杂的含义(如下图所示)。

如何做一个优秀的数据分析项目?

具体问题具体分析,是数据分析的最基础要求,也是做好项目的第一步。因为这五大要素和它们的具体形态,决定了我们的数据分析可以做到什么程度,应该做成什么样子,做成什么样才能满足需求。具体的关系,如下图所示:

如何做一个优秀的数据分析项目?

理清具体问题非常重要。过去我们常说传统企业如何如何,互联网企业如何如何,在渠道融合发展的今天,实际上二者之间边界越来越模糊。如果不具体分析,往往会闹出很多笑话。

比如:

  • 曾是toC互联网企业,现在要发力toB,完全不知道怎么和客户打交道;
  • 名为互联网产品,可服务对象是实体老板,销售还在用最原始的电话外呼;
  • 名为互联网行业,可运作的仍是实体产品,进销存量收利一样都不差;
  • 名为新零售,可数据采集一塌糊涂,连传统连锁店都比不上;
  • 名为传统企业,可在做数字化转型,玩的是分销、裂变;

以上种种复杂场景,不是大喊一句“我是互联网AARRR思维”就能搞掂的。指望套模板结局就是死翘翘。况且经过这几年的历练,很多运营、产品经理、策划都学会了基础数据分析概念,这时候还抱着充满“SOWT、PEST、5w2h”一类空洞口号ppt模板,数据分析师就等着下岗吧。具体问题、具体分析,怎么强调都不为过。

并且,了解清楚状况,对于下一步把握战机非常重要。如果凡事都等着业务找上门来才干,那就跟叼飞盘的汪汪没啥区别了(业务提一个假设,数据验证一个假设,宛如一只叼飞盘的汪汪)。自己对形势有判断,才好主动发现机会。

二、找到发力时机

数据分析项目,最大的敌人是:日常工作。所以,并不是所有事情都适合立项目来做。时机非常重要。

往往我们要挑业务部门的以下时机入手:

  • 想做创新
  • 想改良现
  • 新工作两眼一抹黑
  • 遭遇问题不知所措
  • 三板斧砍完不见效

在这些战机时刻,抛出系统的解决方案,一鼓作气独立把问题解决掉(如下图所示):

如何做一个优秀的数据分析项目?

三、确认项目需求

找好发力时机以后,与具体业务方谈妥,准备动身开工。在开工前一定要确认好项目需求,具体来说就是项目铁三角:

如何做一个优秀的数据分析项目?

这里有三点要注意:

1、数字、模型、报告本身不是产出

业务从不了解情况到了解,从没有办法到有办法,从不知道怎么选到知道怎么选,从没有准备到一二三级预案,这才是产出。所以不要脱离问题就数论数。从数字里推出结论。

2、时间千万别忘了

时间紧,尽量快速出结论;时间宽,就要分步骤输出,企业不是学校留大半年给你慢慢憋论文。

3、有多大锅下多少米

如果数据质量差、人手不足、缺乏分析经验,就沉住气一步步做,不指望一次解决所有问题。

这三点对于项目成果至关重要,过往历史中有太多数据分析师沉迷于折腾“科学方法”,忽视了项目管理,忽视了时间-投入,结果画的饼大,煎的饼小,最后灰溜溜收场。

这里要还要注意工作方式。确认需求,不是让你直接问业务:“你们想分析点啥”。这种问法太被动,又回到叼飞盘老路上。而且往往业务会回答的你摸不着脑袋。

比如:

  • 你帮我想个办法呗(找你要执行方案)
  • 一定是对手/天气/运气……(企图甩锅)
  • 我想分析用户心智资源(压根没数据)
  • 只要有人工智能用户就会买单(方法不切实际)

所以,靠谱的做法,是一步步梳理需求,引导到数据分析可以解决的问题上,正本清源,客观解决问题(如下图)。具体引导方法有很多细节可以讲,稍后我们结合具体案例,详细地说。

如何做一个优秀的数据分析项目?

四、开展分析工作

做完需求,后续就是正式工作。具体内容和分析议题有关,这里不展开讲。如果前期梳理清楚,中间过程自然顺利。这里只强调一点:数据分析工作切记憋大招。憋得越久,人们对你期望值就越高,最后失望就越严重。

因此,只要项目工资超过1周,就得有周汇报,通知大家进度;时间超过1个月,一定要有月总结,拿中间过程和大家碰一下。

特别特别是用到算法的项目,往往一听到算法业务部门都以为是神兵下凡,所到之处必然望风披靡。所以,算法项目死于业务期望值过高的例子,特别特别多。过程中,具体的算法过程不用向业务汇报,但是遭遇的困难和期望输出的结论,要经常保持沟通,适当控制业务期望,避免最后一刻才发现货不对板,最后身败名裂。

五、工作汇报

这里不展开说了,陈老师更新过一个数据分析报告系列连载,大家可以关注公众号在菜单栏参阅。总之,汇报的时候,要考虑目标听众的身份、目的、结合项目目标做个性化汇报。这样才能取得好效果(如下图)。

如何做一个优秀的数据分析项目?

基于听众的思考,使得即使同样的数据,同样的结论,也能有不同的表达形式,最后抓住听众眼球,让大家感兴趣,给项目完美收工。

如何做一个优秀的数据分析项目?

六、小结

纵观整个过程,我们能看到,做好项目的过程,就是把数据方法应用于企业实践的过程。数据本身有统计学、数学、编程、数据库等专业知识,但其中相当部分(比如数仓、ETL)是为保障数据本身的正常运行;相当部分(比如语义判断、图像识别)是用于工业应用,不用考虑业务理解和配合;相当部分(比如统计学)适用于科学实验、农林牧鱼研究。

大量的业务不是科学问题,而是实操问题。O2O平台如何管理商户,新媒体平台如何发展本地客户,直播电商怎么选款等等问题,都得把数据知识和实际工作结合才能输出结论。

更不用说,大家混职场都夹杂了办公室政治,如何出人头地少背锅的诉求。因此才有了我们今天的讨论,才有了各种推动项目的方法。

200亿信贷项目日报如何设计?再说说AI日报可以怎么玩

news, news阅读(3)

今天重回原始安排——怎么设计互金项目的日报,顺便讲讲头部玩家的大模型日报是怎么玩的。本文共计2100字,预计需要阅读8分钟。

数据是运营的基础,越靠近业务核心,数据能力越重要,互金的运营,也不例外。而运营日常对数据的使用,主要是三个方面:数据监控、数据分析、数据结论输出策略。做好一份数据日报,是数据监控工作最基础的要求。

要做好数据监控,我们需要知道数据监控的目的是什么,然后才能对症下药。数据监控的目的很简单,是快速了解当前数据情况,并能基于数据发现浅层问题。其中,快速了解数据是主要目的,发现浅层问题是次要目的。那设计日报,就要以满足这两种需求为目标。

一、快速了解数据现状

那么,怎么设计日报,才能帮助我们快速了解数据呢?拆解是最好的办法。把数据拆解成结果数据和过程数据,拆解成核心数据和细分数据,拆解成属性、行为、业务数据,分别展示,就能让数据一目了然,主次分明。

以助贷业务的新用户部分为例,新户助贷的核心目标,是提升借款总额。那么结果数据就是UV、借款金额、借款人数、借款件均,而过程数据就是总转。那么这5个指标就是最重要的核心指标。

再往下拆解到业务一级节点,新户要经历从活跃到进件,到授信成功,再到申请借款,再到借款成功5个步骤。那么结果数据就要再加上这5个步骤的规模指标,就是UV、新户申请、授信成功、授信件均、授信总金额、借款申请、借款成功、借款件均、借款总金额。

过程数据就要把总转,拆解成这5个步骤的分别转化率,包括新户注册率、授信申请率、授信完成率、授信通过率、借款申请率、借款完成率、借款通过率、总转化率。有了这5个核心指标,12个一级节点指标,我们就能从业务结果数据和过程数据上,从核心目标和一级结构上,快速了解业务的整体情况。

日报如何设计和头部玩家的大模型日报怎么玩(200亿信贷项目如何做运营系列)

接下来,我们来拆解细分数据。细分数据,首先可以拆分成行为数据和业务数据,用户在活跃、注册、授信、借款等页面的行为情况,即行为数据;而在授信系统、借款系统里产生的数据,即为业务数据;而用户的渠道来源、授信资方等,即为属性数据。

行为数据按照这种交叉拆分,活跃UV就可以拆解成不同引流入口的数据。注册可以再按注册页访问、点击注册、注册成功、注册申请率、注册成功率,注册总转化率拆分步骤数据。登陆可按已登陆未进件用户活跃的版块拆分数据。进件则可以按用户在进件页面的浏览、进入下一步的用户数、每一步的申请率、通过率、授信整体流程的完成率等拆分。借款则类似进件,可以按不同资方和借款的页面完成拆分。

业务数据则可按进入业务系统的人数、通过率、件均、总金额、资方分别拆分。

日报如何设计和头部玩家的大模型日报怎么玩(200亿信贷项目如何做运营系列)

该表只是示例,不和文章内容完全一致,且需按实际业务调整

二、快速发现数据问题

快速了解数据的捷径在数据拆解,而快速发现问题的方法在对比。

对比有两种方向,一是纵向对比,也即时间维度的对比,比如日环比,周环比,周同比、月同比、年同比。二是横向对比,也即空间维度的对比,比如行业内对比、相似业务线对比、新老户对比、不同渠道、不同资方对比。

怎么在日报里添加对比项呢,因为是每日数据,重点数据一定要有日环比数据,也要有7日数据波动情况,也要有月同比数据。其中,日环比和月同比只需各一列的数据,所以重点数据和细分数据这两列必不可少。而7日波动数据更新成本高,可以只放重点数据。

日报如何设计和头部玩家的大模型日报怎么玩(200亿信贷项目如何做运营系列)

日环比、月同比、波动趋势右侧,即为原始数据,方便比对

另外,当我们按季度、按月度、按周度设定放贷目标时,为了基于目标完成情况,不断调整策略,可以在重点数据中,增加一项目前指标完成进度,以便掌控总指标完成情况。

这样下来,一张互金行业的日报就设计完成了,不同的业务,按照这种逻辑,根据业务节点进行调整即可。下面我们说下这些数据的获取和汇总方法。

三、数据的获取和整合

在数据获取上,主要按数据采集方法的不同进行区分,比如行为数据一般靠埋点采集,业务数据一般靠业务系统底表记录,而属性数据,则靠在埋点或系统底表中增加字段,除渠道数据外,很少需要单独的采集办法。

那要从不同的地方汇总数据,有两种不同的情况。一种是行为业务数据割裂的,需要直接在对应的系统里消费对应的数据,比如很多行为数据采集工具,都有附带的分析工具,像行业做的最好的神策,有一套神策分析的工具,可以直接使用做对应的行为分析。业务底表,则要在对应的取数平台,比如hive、spark等,sql取数。

另一种情况,则是将行为数据和业务数据做了打通。有直接通过采数工具进行打通,行为数据、业务数据、属性数据全部采集到一个系统内进行消费的;也有导入到自己的数仓,自己进行用户关联,前后端数据的打通的。

割裂的数据,需要分别在两个平台取数后,再在另一平台聚合,比如通过python脚本抓取行为数据,通过sql查询底表数据,最后手动聚合到Excel表内。而打通好的数据,则既可以导出到第三方比如Excel消费,也可以制成报表,自动更新。对比下来,自然是打通的数据效率使用更高。

四、大模型日报有未来么

讲完了日报的设计、数据的获取和汇总,再来聊一些先进的东西——大模型自动化分析。有些业内头部公司,开发了一套数据监控解析的AI工具,它可以基于设计好的报表和配置好的指标关系,从数量和比例两方面出发,实时对各部分数据的变动生成评价,找到影响最大的变动点。

这套东西的好处在于,它可以从库内所有维度分析数据,可以自动化生产并发送数据简报,可以根据数据波动情况,实时发送告警。

而它的不足之处,则在于它并不能完全了解业务渠道、策略、活动、产品等方面的调整,也没有资深运营人员的经验。它只能看到数据的变化点,并不能找到数据变动的业务原因,并产出策略。目前它还仅是简报生成工具,但是,在人工智能飞速发展的当下,假以时日,它取代运营人员进行监控分析决策,也不是不可能。

以上就是信贷行业头部玩家的运营方法和演变阶段的总结,下周我们还会继续基础实践篇的更新。

大致会有怎么建立业务增长模型,怎么设计业务预估模型和业务策略库、怎么设计策略执行表等基础实践篇,还会有怎么应用增长模型拆解指标快速发现增长点、怎么应用UJM模型做新户landing、怎么应用生命周期模型做老用户经营等方法应用篇,还会有怎么做触达AB实验、怎么对流量来源归因、怎么设计常规活动、怎么做智能决策模型设计等场景实践篇。

聊聊业务指标到技术指标的转化落地

news, news阅读(7)

最近有位业务的同事问了一个关于数据指标的问题:A分厂A车间年度产值完成率、A分厂A车间月度产值完成率、A分厂年度产值完成率,这是三个不同的指标吗?

要回答这个问题,首先要理清楚指标的概念。

一、指标的概念

指标是统计学范畴,用于数据的描述性统计,衡量目标总体特征的概念及其数值的综合。指标一般由指标名称和指标数值组成,指标名称体现了指标质和量的规定,指标数值反映了指标在具体时间、地点、条件下的数量表现。

在统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。从同事的问题中,可以看出“产值完成率”是表征总体特征的,可以定义为指标。同事说的三个指标,已经附加了业务语境(时间、地点、对象等),从量化精分来看,可以区分为3个不同的数据指标(复合指标)。

二、业务指标和技术指标的关系

同事又问,从业务视角来看,都是产值完成率,那应该算是一个考核指标啊?

这样考虑也没有错,总体来说是指标分级管理问题,高层级分类往往会站在一定高度上进行抽象汇总,例如上面的“产值完成率”指标,就是一个抽象汇总指标,在业务管理上有意义,它附加不同的分析维度、时间窗口、限定条件等不同,会衍生出许多细分数据指标。

数据指标是用来衡量目标的,从分析角度看,通过细分数据指标,可以获知分析的视角,数据的统计逻辑,数据的量度等,所以指标细化到具体的执行层,才有实际分析意义。例如“A分厂A车间年度产值完成率”在分析层有意义。

系统在做指标管理时,往往要做指标的分类管理,用于指标的分层,便于归类管理。另外,系统会从业务视角,增加业务指标的管理。业务指标往往是一些描述性文字,定义指标设置的目的、计算公式、统计周期,统计维度等,用于指导技术指标的建设。

此处提到了“技术指标”,所谓的技术指标,是从技术实现角度,抽象出的三类指标,即原子指标、衍生指标和复合指标

原子指标是多维模型中的最细数据粒度,定义了事实表中度量属性的聚合逻辑,仅含有唯一度量,是技术指标体系中原子粒度的计算口径描述。

衍生指标由原子指标通过添加时间限定、条件限定和维度卷积而成,限定、维度均来源于与原子指标关联的事实表。

复合指标由一个或多个衍生指标叠加计算而成,是依据业务需要对衍生指标的再加工,尤其可以实现对相同维度(组)的、不同事实表间的多个衍生指标进行组合计算,以达到对数据进行分析统计的需求。

通过上面的三个定义,可以了解到,技术指标依赖于事实表,是对事实表中的维度和度量进行依次加工转化,最终输出符合业务需要的指标数据 。

通过上面的描述,我们对业务指标和技术指标有了一定了解,可通过下图清晰的表达两者之间的关系:

三、业务指标如何转化落地

当听到业务人员说某个业务指标的时候,我们该如何落地实施呢?例如听到业务指标“高风险行业客户占比”时,需要明确业务指标如何拆解成原子指标、衍生指标和复合指标。笔者根据自己的工作经验做了如下总结:

第一步,明确指标维度和统计周期,从数据分析角度,确定数据计算口径。例如高风险行业客户占比”这个指标,明确后的指标为“截至当日各分行的高风险行业客户占比”。“截至当日”确定了数据统计的时间周期,“各分行”确定了维度,即数据统计group by的依据。

第二步,明确指标的计算公式:例如:高风险行业客户占比=高风险行业客户总数/客户总数。

第三步,确定原子指标。原子指标是不可再进行拆分的指标,是基于业务过程的度量值,确定事实表中度量属性的聚合逻辑。结合第二步中的计算公式,提炼出本案例原子指标为:客户总数。

第四步,确定衍生指标。衍生指标=时间限定(统计周期)+维度(统计粒度)+业务限定(筛选数据)+原子指标,本案例衍生指标拆解如下:

第五步,确定复合指标。复合指标是在一个或多个衍生指标基础上,通过各种逻辑运算符合成的,例如比率,比例等类型的指标。本案例复合指标“高风险行业客户占比”由两个衍生指标相除获得:截至当日各分行的高风险行业客户总数/截至当日各分行的客户总数。

指标拆解完毕后,落地到系统上还有很多工作要做,例如源数据的统一集成,数据的治理加工、数据建模、数据计算等,每一步都有很多工作要做,后续会发文逐一展开讨论,以上内容仅为业务指标到技术指标转化落地的总结,期望对大家有所帮助。

数仓构建案例:从需求分析到数仓构建全流程

news, news阅读(4)

一、背景

最近发文章,发现在文章中有插入广告功能,假设广告插入为新上线的新功能。

1. Web端链路

曝光环节:每次刷新,都会有不同的内容。如下图所示:

具体落地页,大家可以自己点击看看。

2. 业务需求

功能上线一个月后,老板想看看该功能带来了多少营收?

运营人员希望分析广告投放、广告曝光、落地页曝光、支付页、支付成功转化链路的转化情况?

本文以此为背景,从需求分析、可视化看板设计、数据采集、数仓规划、维度建模等几个阶段去描述数据需求到数仓构建的整体流程。

二、需求分析阶段

1. 目的

了解清楚业务问题和目标后,搞清楚数据怎么定义和描述这个问题?列出结果指标和过程指标,确定指标的展现形式。

2. 业务过程调研

需要整体分析各角色之间存在的各类要素流动关系。

3. 需求调研

根据业务调研及业务目标,使用不同的数据分析分析方法列出指标体系,最终大致遵循常用指标分类方式。

需求调研可以从以下角度出发:

1)根据与分析师、业务运营人员的沟通获知需求。

2)了解以前的报表,对现有报表系统中的报表进行研究分析,了解关键性指标。

4. 确定指标

5. 确定指标统计含义及口径

在筛选指标时,需要考虑指标的数据来源、数据质量、数据可靠性等因素。在此过程中,需要补充数据来源系统,来源表,来源字段,计算方式等。

三、可视化看板设计阶段

1. 根据指标需求设计可视化看板

2. 确定展示内容和筛选条件

1)卡片展示内容:指标名称、统计口径、指标值、指标单位、统计日期、同比值、环比值、更新时间。

筛选条件:日期、支持选择今日、昨日、本周、上周、本年、去年、最近7天、最近30天等等。不能选择今天及以后。

2)支付情况日变动趋势图

筛选条件:日期范围。支持选择今日、昨日、本周、上周、本年、去年、最近7天、最近30天等等。不能选择今天及以后,支持按日、按月、按年去对比。

3)下单转化漏斗

筛选条件:日期范围,支持选择今日、昨日、本周、上周、本年、去年、最近7天、最近30天等等。不能选择今天及以后。

可选统计方式:次数/人数

四、数据采集阶段

数据采集前需要考虑以下两点。

1)熟悉业务数据:明确业务过程与表之间的关系,表与表之间的关系,字段之间的关联关系。

2)调研数据源情况:是否具备采集条件,数据库类型,存储格式,通过什么方式采集。对缺失的用户行为数据进行埋点。

埋点时需根据不同埋点类型以及业务情况选择合适的埋点方案和前后端采集方案。

1. 埋点需求分析

2. 自定义埋点方案设计

标准埋点方案一般由 4 张表组成:

  • 埋点说明 – 埋点实施参考
  • 事件&属性 – 记录事及相关信息;
  • 用户属性 – 记录用户与相关信息
  • 默认采集事件属性 – 默认采集的事件属性说明

公共属性:

自定义事件&属性:

在设计埋点前,可做一些埋点文档和埋点评审的规范定义,方便文档的维护和工作的开展。

比如:事件命名由 4 部分组成:类型_流程_页面_功能。

  • 类型:点击、进入、停留、指标
  • 流程:事件所属的业务流程,填写规则是[流程名称 +“流程”]
  • 页面:事件所在的页面,填写规则是[页面名称 + “页面”]
  • 功能:可以是按钮或功能的名称

未了保障数据的准确性,需注意触发时机和规则定义:比如什么样的曝光是有效的?商品停留时间超过2s,卡片至少漏过50%。商品曝光重复:如果之前已经可见且上报了,那么不做二次上报等规则。

五、数仓规划阶段

在构建数仓前,需要对数仓进行整体规划,包括:

  • 技术架构设计:数据存储技术的选择、ETL工具选择、任务调度工具选择;
  • 分层架构:数仓分层规划;
  • 主题域规划:主题域确定;
  • 数据开发规范指定:命名规范、开发规范、各种流程规范;
  • 元数据管理方法等等。

1. 数仓分层规划

操作数据层:ODS(Operational Data Store):把操作系统数据几乎无处理地存放在数据仓库系统中。

事实明细层:DWD(Data Warehouse Detail):DWD 层是在ODS层基础上,根据业务过程建模出来的事实明细层。

公共汇总层:DWS(Data Warehouse Summary):一般根据维表数据和明细事实数据加工生成,作为通用的数据模型使用。

应用数据层:ADS(Application Data Store):存放数据产品个性化的统计指标,根据明细层、汇总层及维表数据加工生成。

想了解更多数仓分层可查阅上篇文章《带你轻松理解数仓为啥分层?》https://www.woshipm.com/share/5892372.html

2. 主题域规划

我们选择按照业务过程划分主题域:划分的前提,先理清业务过程,根据业务过程去抽象出主题,比如浏览,曝光,点击,都属于用户行为的业务过程,就可以划分成流量主题。

想了解更多主题域规划可查阅《如何理解主题域?》。

六、数仓设计阶段

1. 构建业务总线矩阵

在数据仓库领域中,业务总线矩阵是一种用于设计和组织数据仓库的业务模型的工具。它是基于业务需求和业务过程的分析,明确业务过程与维度的关系。它帮助将业务需求转化为数据模型,并指导数据仓库的建模和设计过程。

从该业务矩阵中,我们可以得知需要建设哪些DIM层维度表,DWD层的事实表。

2. 指标拆分

指标的拆分是运算过程的拆分,维度模型里的指标拆分是一种思路,是模型设计很重要的一环。想了解更多可看《原子指标、派生指标、复合指标》。

原子指标:不可再分的指标。

派生指标:派生指标是由原子指标、时间周期、修饰词构成,用于反映企业某一业务活动在指定时间周期及目标范围中的业务状况。

复合指标:由派生指标直接运算而来,通常是比率型指标。比如最近七天广告点击率,他的特点就是产生了新的原子指标。

3. 维度表设计

根据业务总线矩阵,可构建用户维度表、时间维度表、地理位置维度表等等。

日期维度表示例:

4. 事实表设计

此处拓展事实表构建流程。

事实表说明:

事实表包括:事务型事实表、周期快照事实表、累积快照事实表。

1)选择业务过程及确定事实表类型

业务过程定义:业务过程是从企业的经营收益、成本出发,价值链条上有影响力的用户需求事情或者事件。而且,这样的过程非常多,我们要分析当中的核心关键过程,不断细分。

核心内容:企业活动事件、不可拆分原则。

2)声明粒度:定义事实表的每一行所表示的业务含义,尽量选择最细级别的原子粒度,以确保事实表的应用具有最大的灵活性。

3)确定维度:选择能够描述清楚业务过程所处的环境的维度信息。

4)确定事实:事实有可加性、半可加性、非可加性三种类型 需要将不可加性事实分解为可加的组件。

5)冗余维度:考虑更多的是提高下游用户的使用效率,降低数据获取的复杂性,减少关联的表数量。

章阅读事实表:

页面浏览事实表:

下单累计快照事实表:

交易域每日支付汇总表:

流量域每日曝光汇总表:

根据需求,汇总表还需要统计每月、每年、近7天、近30天等数据汇总情况,此处不做过多表格展示。需要注意命名规范以及事实是否可加

最后:文中涉及很多概念大都一概而过,后续会慢慢分享相关内容。

AI教育中数据收集和分析的重要性

news, news阅读(13)

随着人工智能技术快速发展,在线教育领域也迎来了崭新的机遇和挑战。而数据收集和分析作为AI教育中不可或缺的环节,起到了至关重要的作用。通过有效地获取、整理和分析学生相关的定量和定性数据,可以为每位学生提供贴合其具体需求和潜力挖掘的优质教育服务。

本文将深入探讨AI教育中数据收集与处理以及机器学习算法在个性化学习中的应用,并分享一些成功案例和实施建议,希望能为推动AI教育发展提供启示与指导。

一、数据收集与处理

在AI教育方向中,数据收集与处理是非常关键的一步。通过收集学生相关的数据,可以更好地了解他们的学习情况和需求,以便针对性地提供个性化教育。

1.1 学生数据来源

学生数据来源广泛且多样化。其中包括课堂活动、在线交互和作业等各种渠道。例如,在线学习平台可以记录学生在视频课程中观看时间和完成进度等定量数据,同时还能获取学生对课程内容的评论和问题反馈等定性数据。

1.2 数据类型、数据清洗与预处理

这些收集到的数据又可分为两种类型:定量数据和定性数据。

1. 定量数据主要指一些具体数值表达式信息,如成绩、答题时间等;

2. 定性则更偏向基于人类经验或判断形成的描述,如学生反馈、行为模式。然而,在使用这些混合类型的数据之前,我们需要进行必要的清洗和预处理工作以确保其准确有效。

  • 去除异常值(outliers),避免干扰后续分析工作并引起错误结果。
  • 填补缺失值(missingvalues),确保完整性和准确性。

案例:D2L公司的个性化教育平台

实际上,一家名叫D2L的公司正专注于利用AI技术提升教育领域的效率和个性化程度。该公司开发了一套名为Brightspace(图一 Brightspace在线学习平台)的在线学习平台,它集成了先进的数据分析工具,能够收集并处理大量学生数据。通过对课堂活动、在线交互和作业等数据进行清洗与预处理,Brightspace能够帮助教育者更好地了解学生的学习情况和需求,并根据个人差异提供定制化的教育方案。

总之,在AI教育方向中,数据收集与处理是实现个性化教育目标的重要环节。通过有效地获取、整理和分析学生相关的定量和定性数据,可以为每位学生提供贴合其具体需求和潜力挖掘的优质教育服务。

二、机器学习算法在个性化学习中的应用[1]

借助机器学习算法,AI教育领域探索了许多个性化学习方法。这些方法通过分析和利用大量数据来确定适合每位学生的课程或资源,并进一步根据不同特征进行群体比较与差异分析。

2.1 基于监督学习的个性化推荐系统

基于监督学习的个性化推荐系统将考虑到学生成绩和兴趣等因素,根据已有数据和模型进行预测,从而为每位学生提供适合其需求和水平的课程或资源推荐。

实际案例:Coursera(优达)公司开发了名为“SkillBlue”的在线平台。该平台使用监督式机器学习算法分析学生的成绩数据、兴趣和相关指标,并针对他们的需求推荐最合符的学术或技能课程。这种个性化推荐系统提升了用户参加或完成教育内容的动力和准确性。

2.2 基于聚类分析的群体比较与差异分析

基于聚类分析的个性化学习方法将学生划分为不同群组,以发现他们在不同特征下受到哪些因素影响并可能获得更好效果。这种个性化学习方法充分考虑到学生的个人区别和特点,并根据不同群组的结果提供相应的教育措施和支持。

2.3 组合决策方法

利用深度强化算法等组合决策方法可实现对高质量配套资源的自主选择。这些决策模型通过考虑资源之间的序列关系,并根据预设目标来进行选择和推荐,从而进一步提升个性化学习体验。

强化深度算法

实际案例:EdTech公司开发了名为“EduSmart”的在线教育平台。该平台采用了深度强化算法来设计自主选项,帮助学生在完成课程时可以根据需要、进展和偏好进行定制路径规划,并灵活地选择符合他们当前状态和目标的高质量教育资源。

在AI教育方向中,机器学习算法在个性化学习中发挥了关键作用。通过基于监督学习的推荐系统、基于聚类分析的群体比较与差异分析以及组合决策方法,能够更好地定制教育方案和资源选择,提供个性化的学习体验和优质教育服务。这些技术应用不仅改进了在线教育平台的效果和用户满意度,还为每位学生创造了更加适应其需求和潜力开发的学习环境。

三、AI教育方向的科普文:面临挑战及解决方案

尽管AI在教育领域取得了显著进展,但也面临着一些挑战。这些挑战涉及到学生隐私保护、评估指标建立以及数据偏见问题等。针对这些挑战,相关领域提出了一些解决方案。

3.1 隐私问题与数据安全保护

当收集和处理学生数据时,确保学生隐私并维护数据安全是至关重要的。[2]

实际案例:Knewton公司开发了个性化在线学习平台。为了应对隐私问题,他们采用匿名化和加密技术来处理学生数据,并设计强大的防火墙和访问控制机制来确保敏感信息不会被滥用或泄露。

3.2 建立有效评估指标

为了衡量个性化学习中的进步,需要建立有效的评估指标。

实际案例:KhanAcademy(可汗学院)推出了反馈系统,在线课程期间跟踪记录每位学生完成情况,并根据其表现提供具体反馈以激励持续进步。同时还通过考试成绩、项目作品等方式进行定期评估,以便更全面地了解学生的学习成果和能力提升。

3.3 数据偏见问题

在学生数据分析过程中,可能存在样本不平衡和算法潜在偏见等问题。

实际案例:CarnegieLearning(卡内基学习)公司开发了名为“MATHia”的数学个性化学习系统。该系统致力于减少数据偏见,并通过多维度的评估来消除各种潜在因素对结果的影响。他们不仅对模型进行经常审查,还与教育专家合作确保其公正性和有效性。

3.4 大规模部署难题

将AI教育推广到大规模应用受到人力资源、技术要求和运营支持等方面的挑战。

实际案例:EdX是通过合作大学提供在线课程的平台之一,在面临大量注册用户时采取云计算技术扩容处理,并建立强大而稳定的服务器架构以适应高流量访问需求。

尽管AI教育方向面临一些挑战,但相关领域已经意识到并积极努力解决这些问题。通过采取匿名化和加密技术来保护隐私与数据安全、建立有效的评估指标以测量个性化学习成果、克服数据偏见问题,并应对大规模部署带来的挑战,AI教育可以获得更好的效果和可持续发展。关注这些解决方案并不断改进将推动个性化教育成功走向实现,为每位学生创造更有意义、贴合其需求和潜力开发的学习环境。

四、成功案例与实施建议

4.1 美国、中国等国家或地区的AI教育项目成功案例分享

在美国和中国等国家或地区,有许多令人瞩目的AI教育项目取得了巨大成功。以下是一些有关这些项目的案例。

(1)Coursera

Coursera是一个全球知名的在线教育平台,为学生提供各种主题的在线课程。[3]他们也推出了一系列与人工智能相关的课程,如机器学习、深度学习和计算机视觉等。这些课程由业界领先专家授课,并通过互动式实践来帮助学生深入理解AI技术。

(2)Goodera

Goodera是印度一家以社会责任为导向的企业,致力于通过技术促进可持续发展。他们开发了一个基于人工智能和数据分析的虚拟实验室平台,用于培养高中和大学生对科学、技术、工程和数学(STEM)领域的兴趣。该平台还提供个性化指导,并鼓励参与者积极参与社交活动。

(3)21世纪英才网

21世纪英才网是中国最具影响力的K12在线教育平台之一。他们通过人工智能技术解决了传统教育中的许多难题,如个性化教学、自适应评估和智能辅助答疑等。该平台还利用大数据分析来预测学生在不同科目上的表现,并根据这些情况提供相应的课程推荐。

4.2 实施建议:明确目标,逐步推进,持续改善

要成功实施AI教育项目,以下是一些建议:

  • 明确目标:确定您希望通过AI教育项目实现的具体目标,并将其与组织或机构整体战略保持一致。明确而具体的目标可以帮助您更好地规划和衡量项目进展。
  • 逐步推进:开始时选择一个小范围进行试点测试,以便观察结果并收集反馈。在验收成功后再逐渐扩大规模。这种渐进式方法能够降低风险,并让您有时间调整和优化方案。
  • 持续改善:不论项目规模大小,在实施过程中都要积极倾听用户反馈,并采取措施进行改善。定期评估项目效果,并根据结果进行调整和升级,以确保持续发展并与技术的最新进展同步。

通过以上成功案例和实施建议,我们可以看到AI教育在全球范围内正不断取得突破性的进展。无论是在线课程平台、虚拟实验室还是智能辅助教学系统,在这些项目中,人工智能技术为学生提供了更个性化、灵活且有效的学习体验。对于推动21世纪教育转型和培养具备未来竞争力的人才都起到了积极促进作用。

五、AI教育中数据收集和分析的发展趋势

5.1 AI教育中数据收集和分析

随着人工智能技术在教育领域的广泛应用,数据收集和分析将成为AI教育的关键。[4]以下是一些未来发展趋势:

  • 大规模数据采集:随着在线学习平台和虚拟实验室的普及,大量学生产生了海量的学习数据。通过使用机器学习算法,将这些数据进行分析可以揭示学生在不同主题和任务上的优点和缺陷。
  • 学习过程可视化:通过监控学生在教育软件中进行活动并记录其行为(如点击、停留时间等),可以提供有关其学习过程、困难点以及可能需要加强训练或支持的方向信息。基于这些信息设计个性化指导策略。
  • 自适应评估:利用自然语言处理技术对文本回答进行评价,并结合机器等级制定个性化反馈计划。同时,还可根据过去表现预测出后续走向,并针对特定问题设计解决方案。

5.2个性化学习是否为学生成长和学术成就带来了积极影响

个人化学习是AI教育的核心理念之一。通过根据学生的能力、兴趣和学习风格定制课程内容和进度,个性化学习为学生成长和学术成就带来了积极影响。以下是相关数据支持这一观点:

  • 独立研究机构Gartner预测,在2023年,全球90%以上的K-12教育将使用个性化教育技术。
  • 一项由美国在线科技公司Study.com进行的研究发现,采用个性化学习方法可以提高大约30%至80%之间不同类型的考试成绩。
  • 韩国首尔市政府在实施AITutor教育项目后宣布,《语文》科试卷平均分数从48以上跃升到75,可见个性化辅助对于提高考试表现具有重要作用。

综上所述,AI教育中数据收集和分析将呈现强势发展,并将促进更加精准、个性化的教育模式。同时,通过实验与研究得出结论表明,个性化学习为学生成长和其在各种考试中取得优异成绩提供了显著的积极影响。随着技术的不断推进和研究成果的逐渐落地,我们对AI教育达到更高水平和更广泛应用持有乐观态度。

参考文献:

[1]黄兵兵. 二值矩阵补全在个性化学习中的应用研究[D].华中师范大学,2018.

[2]陈强.美国高等教育数据系统中的信息安全和隐私(一)[J].中国教育网络,2016,(11):28-30.

[3]刘小平,唐敏,李燕.慕课(MOOC)的发展对传统大学英语课程设置和课堂教学的挑战[J].兴义民族师范学院学报,2015(01):72-74+117.

[4]李海东,王潇筱.“AI+教育”,加速传媒院校教育模式变革和生态重构[J].中国传媒科技,2019(07):79-82.DOI:10.19483/j.cnki.11-4653/n.2019.07.024.