《数据挖掘与数据化运营实战》(第3章)
3 数据化运营中常见的数据分析项目类型
3.1 用户特征分析及用户分层模型
不同于过去的粗放式运营,在精细化运营的要求下,可以通过数据分析挖掘不同用户细分群体的特点,针对不同群体提供精细化、个性化的运营或服务,提高用户满意度,最终提高产品变现能力。
这类以挖掘用户特征为目标的项目,可以统称为用户特征分析。项目的核心是用户分层,一般需要对用户分层,在分层时或分层后,分析细分群体的特征。
分层模型常用的技术既包括统计分析技术(比如相关性分析、主成分分析等),又可以含有预测(响应、分类)模型的技术(比如通过搭建预测模型发现最重要的输入变量及其排序情况,然后根据这些变量对分层进行大致的划分,并通过实际数据进行验证),这要视具体的分析目的、业务背景和数据结构而定,同时要强调的是,一个好的分层模型的搭建一定是需要业务方的参与和贡献的,而且其中的业务逻辑和业务思考远远胜过分析技术本身。
用户特征分析根据不同的侧重点,有几个典型的业务场景:
- 寻找目标用户,不同行为习惯的用户,定位高质量用户及其特征
- 寻找运营的抓手,帮助寻找运营方式,以提高或改善用户满意度
- 用户群体细分
- 新产品开发依据,即判断新产品要针对谁、满足什么需求,实现PMF(产品-市场匹配)
用户特征分析项目中有以下几种常见分析思路和方法:
- RFM模型(Recency、Frequency、Monetary),一种根据三个核心变量,对用户进行分组的方法
- 聚类算法,用户分层是聚类算法的重要应用,可以根据核心变量进行聚类,根据聚类结果对用户分层,再针对细分群体分析其余特征
- 监督模型的核心变量,一些算法模型可以帮助定位核心变量,如随机森林的特征重要性指标、决策树的划分规则等,根据模型定位到的核心变量,对核心变量进行大致划分得到分层结果
3.2 目标客户的预测(响应、分类)模型
预测(响应、分类)模型包括流失预警模型、付费预测模型、续费预测模型、运营活动响应模型等。它是数据挖掘中最常用的一种模型类型,几乎成了数据挖掘技术应用的一个主要代名词。响应模型的核心就是响应概率,响应概率又是数据化运营六要素里的核心要素—概率(Probability)。
预测(响应、分类)模型基于真实业务场景产生的数据而进行的预测(响应、分类)模型搭建,其中涉及的主要数据挖掘技术包括逻辑回归、决策树、神经网络、支持向量机等。有没有一个算法总是优先于其他算法呢?答案是否定的,没有哪个算法在任何场景下都总能最优胜任响应模型的搭建,所以通常在建模过程中,会尝试多种不同的算法,然后根据随后的验证效果以及具体业务项目的资源和价值进行权衡,并做出最终的选择。
根据建模数据中实际响应比例的大小进行分类,响应模型还可以细分为普通响应模型和稀有事件响应模型,一般来讲,如果响应比例低于1%,则应当作为稀有事件响应模型来进行处理,其中的核心就是抽样,通过抽样技术人为放大分析数据样本里响应事件的比例,增加响应事件的浓度,从而在建模过程中更好地捕捉、拟合其中自变量与因变量的关系。
预测(响应、分类)模型除了可以有效预测个体响应的概率之外,模型本身显示出的重要输入变量与目标变量的关系也有重要的业务价值,比如说可以转化成伴随(甚至导致)发生响应(生成事件)的关联因素、重要因素的提炼。
3.3 运营群体的活跃度定义
活跃度的定义没有统一的描述,一般都是根据特定的业务场景和运营需求来量身订做的。但是,其中最重要、最常见的两个基本点如下:
- 活跃度的组成指标应该是该业务场景中最核心的行为因素。
- 衡量活跃度的定义合适与否的重要判断依据是其能否有效回答业务需求的终极目标。
以活跃为例,举两个不同场景的例子——
为了产品的日常监控,需要定义用户活跃的口径,即如何判定用户是否活跃,用于统计DAU等指标。
除了核心行为的条件,该业务场景要求指标简单、容易理解,因此用户活跃应该只用到尽量少的指标,通常是1个,如是否登陆、观看视频数>1等。
为了提高产品付费率,需要定义用户的活跃度,使得满足一定活跃度分值的用户比较容易转化为付费用户。
该场景下,要求将多个核心行为转化为分值,涉及的主要技术有两种:
- 数据标准化/归一化,通过数据标准化/归一化,将不同的指标缩放至相同区间,不同指标才能平等比较,加权转化为一个综合分数
- 主成分分析,是一种降维算法,在这里将多个核心行为转化为一个或几个主成分,最终转化为一个综合分数
3.4 用户路径分析
用户路径分析主要是分析用户在网页上流转的规律和特点,发现频繁访问的路径模式,这些路径的发现可以有很多业务用途,包括提炼特定用户群体的主流路径、网页设计的优化和改版、用户可能浏览的下一个页面的预测、特定群体的浏览特征等。另外,路径分析所用的数据主要是Web服务器中的日志数据。
路径分析常用的分析技术有两类,一类是有算法支持的,另一类是严格按照步骤顺序遍历主要路径的。
在运营团队看来,路径分析的主要用途:
- 监控运营活动(或者目标客户)的典型路径,看是否与当初的运营设想一致。如果不一致,就继续深入分析原因,调整运营思路或页面布局,最终目的就是提升用户点击页面的效率;
- 提炼新的有价值的频繁路径模式,并且在以后的运营中对这些模式加以应用,提升运营的效率和特定效果。
3.5 交叉销售模型
交叉销售,其背后的理论依据是一旦客户购买了商品(或者成为付费用户),企业就会想方设法保留和延长这些客户在企业的生命周期和客户的利润贡献,一般有两种思路:
- 延缓用户流失,这种思路通常使用流失预警模型,对可能流失的用户指定关怀策略等
- 让用户消费更多商品或服务,找出用户感兴趣的商品或服务,挖掘用户的消费或使用需求,这种思路主要就涉及到交叉销售模型
交叉销售模型通过对用户历史消费数据的分析挖掘,找出有明显关联性质的商品组合,然后用不同的建模方法,去构建消费者购买这些关联商品组合的可能性模型,再用其中优秀的模型去预测新客户中购买特定商品组合的可能性。如捆绑销售、精准营销推广等。“啤酒与尿布”的案例就是比较经典的交叉销售模型应用。
主要思路:
- 一是按照关联技术(Association Analysis),也即通常所说的购物篮分析,发现那些有较大可能被一起采购的商品,将它们进行有针对性的促销和捆绑,这就是交叉销售;
- 二是借鉴响应模型的思路,为某几种重要商品分别建立预测模型,对潜在消费者通过这些特定预测模型进行过滤,然后针对最有可能的前5%的消费者进行精确的营销推广;
- 三是仍然借鉴预测响应模型的思路,让重要商品两两组合,找出那些最有可能消费的潜在客户;
- 四是通过决策树清晰的树状规则,发现基于具体数据资源的具体规则(有的多,有的少),很多营销方案的制订和执行实际上都是通过这种方式找到灵感和思路的。
相应的建模技术主要包括关联分析(Association Analysis)、序列分析(Sequence Analysis),即在关联分析的基础上,增加了先后顺序的考虑,以及预测(响应、分类)模型技术,诸如逻辑回归、决策树等。
3.6 信息质量模型
无论是B2C(如当当网、凡客网),还是C2C(如淘宝网),或者是B2B(如阿里巴巴),只要是以商业为目的,以交易为目的的,都需要采用有效手段去提升海量商业信息(商品目录、商品Offer、商品展示等)的质量和结构,从而促进交易。
构建信息质量模型所涉及的主要还是常规的数据挖掘技术,比如回归算法、决策树等。但是对于信息质量模型的需求,由于其目标变量具有一定的特殊性,因此它与目标客户预测(响应)模型在思路和方法上会有一些不同之处,具体内容如下。
任何模型的搭建都是用于响应特定的业务场景和业务需求的,有时候搭建信息质量模型的目标变量是该信息(如商品Offer)是否在特定的时间段产生了交易,此时,目标变量就是二元的,即是与否;更多时候,信息质量模型的目标变量与是否交易没有直接关系(这其实很容易理解,因为影响成交的因素太多),甚至有些时候信息质量本身是主观的判断,在这种情况下,没有明确的来自实际数据的目标变量。那如何定义目标变量呢?专家打分,模型拟合是一个比较合适的变通策略。
3.7 服务保障模型
服务保障模型主要是站在为客户服务的角度来说的,出发点是为了让客户(平台的卖家)更好地做生意,达成更多的交易,我们(平台)应该为他们提供哪些有价值的服务去支持、保障卖家生意的发展,这里的服务方向就可以有很多的空间去想象了。无论是产品武装,还是宣传帮助,都属于服务保障的范畴,都是服务保障模型可以并且应该出力的方向。
3.8 信用风险模型
信用风险模型主要是应对在产品中可能遇到的风险,并作相应的预警。如欺诈预警、高危用户判断、违禁信息过滤等。
信用风险模型本质上也是一个预测模型,与常规数据挖掘项目的算法和思路都是通用的,但由于其特殊的场景,通常有如下的特点:
- 分析结论或者欺诈识别模型的时效更短,需要优化(更新)的频率更高。网络上骗子的行骗手法经常会变化,导致分析预警行骗欺诈的模型也要因此持续更新。
- 行骗手段的变化很大程度上是随机性的,所以这对欺诈预警模型的及时性和准确性提出了严重的挑战。
- 对根据预测模型提炼出的核心因子进行简单的规则梳理和罗列,这样就可在风控管理的初期阶段有效锁定潜在的目标群体。
3.9 商品推荐模型
推荐系统在互联网产品有很多应用,如淘宝的商品推荐、知乎的问题推荐、微视的短视频推荐等等。
推荐系统的常用算法有:
- 基于关联分析进行推荐,如Apriori算法,从数据中找到商品(或其他推荐的对象)的关联规则,基于该关联规则进行推荐
- 协同过滤算法,有基于用户(User-based)的协同过滤和基于项目(Item-based)的协同过滤,核心思想是相似的用户会喜欢相似的东西
3.9.1 Apriori算法
Apriori算法主要包含两个步骤:首先找出数据集中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度;然后根据频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。
事实上,在关联规则中用于度量规则质量的两个主要指标即为支持度和置信度。
3.9.2 协同过滤算法
协同过滤是迄今为止最成功的推荐系统技术,被应用在很多成功的推荐系统中。协同过滤算法主要分为基于启发式和基于模型式两种。其中,基于启发式的协同过滤算法,又可以分为基于用户的协同过滤算法和基于项目的协同过滤算法。启发式协同过滤算法主要包含3个步骤:1)收集用户偏好信息;2)寻找相似的商品或者用户;3)产生推荐。
协同过滤的输入数据集主要是用户评论数据集或者行为数据集。这些数据集主要又分为显性数据和隐性数据两种类型。其中,显性数据主要是用户打分数据,譬如用户对商品的打分;而隐性数据主要是指用户点击行为、购买行为和搜索行为等,这些数据隐性地揭示了用户对商品的喜好。
3.10 数据产品
数据产品是指数据分析师为了响应数据化运营的号召,提高企业全员数据化运营的效率,以及提升企业全员使用数据、分析数据的能力而设计和开发的一系列有关数据分析应用的工具。数据产品如:银行账户交易明细,购物收藏等。
3.11 决策支持
数据分析挖掘所承担的决策支持主要是指通过数据分析结论、数据模型对管理层的管理、决策提供响应和支持,从而帮助决策层提高决策水平和质量。