某运营商数据挖掘项目汇报 新增用户维系
Post on 19-Jan-2015
850 Views
Preview:
DESCRIPTION
TRANSCRIPT
某运营商数据挖掘项目汇报 _ 新增用户维系
2010 年 3 月
-2-
新增用户维系基本流程
1 、采用生存分析法,对有流失倾向的用户进行提前预警,并可根据用户流失概率的高低划定预警级别
• 流失高危用户群• 在网异动用户群• 正常用户群
异动预警监控
1 、维系策略方案生成
• 渠道养卡监管措施• 重入网与反复用户
管控措施• 正常低网龄用户维
系措施2 、维系方案实施• 营销案实施流程• 维系渠道• 维系方式
维系策略及方案
1 、维系情况反馈2 、目标达成情况3 、维系效果评估:• 渠道养卡识别及监
管• 重入网与反复重入
网• 正常低网龄用户维
系
维系效果评估
1 、新增用户分群:• 渠道养卡• 重入网与反复重入网
用户• 正常低网龄用户细分
根据正常低网龄用户偏好进行细分
新增用户分群
建立新增用户维系闭环管理体系,准确分群,分级预警,制定针对性的维系策略和方案并实施,实现新增用户保有。
-3-
■ 渠道养卡识别与监控
□ 重入网与反复重入网管理
□ 正常低网龄用户维系
新增用户维系
-4-
柳州渠道养卡行为特征及监控思路建议
产品:渠道养卡一般选择无月租或最低月租的产品,以降低养卡的成本,研究发现柳州2 种类型产品均被渠道选择使用
ARPU :渠道养卡号码消费额一般较低,研究发现柳州养卡号码月均消费一般低于 15
元 主叫时长:渠道养卡号码主叫时长非常低,
研究发现柳州有 70% 以上无通话行为,有通话行为用户主叫时长主要集中在 3 分钟以内
用户状态:研究发现柳州渠道养卡新增号码停机流失高峰出现在入网后的第 1-3 个月
消费情况:同一个渠道发展的养卡号码中,出现多个号码消费行为一致的情况,如多个号码入网当月和次月消费完全一致
激活 IMEI :养卡号码在激活时,一般用同一个手机激活,因此养卡号码中大量号码的激活 IMEI 一致
柳州渠道养卡行为特征
制定疑似养卡渠道的判断规则:从渠道发展用户的产品、 ARPU 、用户状态进行判断,当用户数占比符合一定标准后,即判断为疑似养卡渠道;
制定疑似养卡号码的判断规则:
从用户消费情况、激活 IMEI 等进
行判断,符合一定标准的号码为
疑似养卡号码; 分析疑似养卡渠道的养卡号码量,
计算养卡号码占其当月新发展的比,并按各渠道此比例排序
养卡行为监控思路建议
通过研究发现柳州渠道养卡行为特征及监控思路建议如下:
-5-
以上判断标准,都以同一渠道发展的用户作为判断基础数据; 判断步骤是首先判断疑似养卡渠道,在判断其为疑似养卡渠道后,统计其疑似养卡号码数量 对养卡号码的判断模型是对渠道养卡违规行为进行分析的基础,需要在执行中进一步分析、调研完善优化判断规则,提升判断准确率。
疑似养卡渠道和养卡号码判断规则
疑似养卡渠道
产品:渠道新增用户中, 30% 以上的用户都为两广情零听计划或都市“零听”计划二,该渠道为疑似养卡渠道
主叫时长:渠道新增用户中, 50% 以上或 100 人以上的用户入网当月和次月主叫时长在 3 分钟内,该渠道为疑似养卡渠道用户状态:渠道新增用户中,入网后在第 3 个月, 30% 以上的用户状态为停机流失,该渠道为疑似养卡渠道
疑似养卡号码
消费情况 : a. 出现 5 个或以上号码号码入网
当月和次月主叫时长都在 3 分钟内;
b. 或出现 5 个或以上号码号码入网当月和次月消费在 5 元以内;
c. 或出现 2 个以上号码入网当月或次月应收费完全一致,
这些号码为疑似养卡号码
激活情况: a. 出现 5 个或以上号码号码激
活 IMEI 一致 ; b. 或 2 个或以上号码登记身份
证号一致这些号码为疑似养卡号码
ARPU :渠道新增用户中, 30%以上或 100 人以上的用户入网当月和次月 ARPU 低于 5 元,该渠道为疑似养卡渠道
-6-
□ 渠道养卡识别与监控
■ 重入网与反复重入网管理
□ 正常低网龄用户维系
新增用户维系
-7-
重入网与反复重入网(跳蚤)用户识别规则
N N+1N-6 N-4N-5 N-2N-3 N-1
新入网激活月
新入网激活后第 1
月新入网激活月前半年的存量用户历史 IMEI 库或身份证库
N 月在网用户,区分新增和存量用户
判断重入网用户判断重入网用户
判断新入网用户的有效 IMEI 或身份证号码
N 月新入网用户中的重入网和反复重入网用户名单
N 月新入网用户中的重入网和反复重入网用户名单
剔除无效IMEI 或身份证号码 生成、维护历史
有效 IMEI 库或身份证号库
重入网:新用户 IMEI 或身份证号与历史 IMEI 或身份证号码能够匹配( 6 个月以内)。如, 9 月新入网用户 IMEI 或身份证号与 3 月到 8 月用户 IMEI 或身份证号码库匹配后,得到 9 月新入网用户中重入网用户。
反复重入网(跳蚤用户):重入网用户在 6 个月以内重入网 2 次及 2 次以上的用户。
识别规则:通过对新入网用户使用手机的 IMEI 号(或身份证号码)与存量用户的 IMEI 号历史库(或身份证号码历史库)进行分析识别出重入网和反复重入网用户。
为了提高分析结果的准确率,每月定期对上月新入网的用户(上月入网并激活的用户)进行分析。分析示意如下:用户在 N月入网并激活(有话单产生),则在 N+1 月(计算月)对N月入网并激活的所有用户进行重入网分析。
-8-
用户重入网主要原因分析
产品产品 价格价格 促销促销 // 宣传宣传 渠道渠道
• 产品线过长,产品重叠较多,目标用户群存在较多交叉,不同品牌及资费存在内部竞争
•产品价格调整比较频繁,而且在价格调整过程中没有考虑产品体系间的平衡问题•预存费用低,
用户入网门槛不高,使其可以轻易弃卡
•新入网促销活动优惠力度过大•品牌及资费资
费套餐互转门槛过高,停机保号、套餐互转等宣传不足
•部分社会渠道迫于指标压力或利益驱动,诱导用户换卡•社会渠道虚假
激活,通过养卡恶意套取酬金
• 追求经济收益,受入网优惠的吸引• 换取吉祥号码• 欠费
• 竞争对手以低资费、大力度的优惠活动吸引用户,但整体质量未能让用户满意,从而使用户在短暂离(移动)网后重新入网
公司内部
竞争对手
用户
服务服务
•补卡成本高,手续复杂,补卡不如买新卡•欠费提醒不及
时,欠费后被停机,选择重入网
-9-
从产品、促销、渠道、传播、服务等多方面入手加强重入网与反复重入网管理,降低重入网比率
重入网与反复重入网管理措施
• 加强入网促销活动管理,减少促销活动对在网用户的干扰;
• 提高入网首次预存费用,增加在网时长;
• 用户忠诚度管理:网龄营销。
产品 /促销产品 /促销 传播传播渠道渠道 服务服务
• 加强(社会)渠道掌控,规范渠道行为,减少系统性离网行为。
• 采用户外广告、报纸等大众媒体及营业厅、 10086短信、网站、 WAP等自有媒体体开展网龄营销、优惠补卡及带号转品牌、套餐、停机保号等的传播。
• 加强欠费管理,减少无效欠费;
• 主卡付费 + 亲情网;
• 账户低余额时充值提示;
• 优惠或免费补卡;
• 推荐带号转品牌或带号转套餐。
-10-
□ 渠道养卡识别与监控
□ 重入网与反复重入网管理
■ 正常低网龄用户维系
新增用户维系
-11-
正常低网龄用户维系基本策略
剔除了渠道养卡用户和反复重入网用户后所获得的正常低网龄用户是新增用户流失控制的重点。运用数据挖掘方法,识别出不同流失预警级别的用户,针对高危用户和异动用户分别采取针对性的营销捆绑手段进行维系,同时结合网龄营销,延长用户生命周期。
正常低网龄用户分群
用户
• 重绑:针对高危用户在网黏性已很弱的特点,采取较大力度的营销捆绑策略,以返还周期短的财务捆绑和力度较大的业务捆绑为主,以服务捆绑为辅。
• 力保:针对异动用户尚处于流失犹豫期、还具有一定黏性的特点,维系策略将以强化用户的业务黏性为重点,以业务捆绑和较长返还周期的财务捆绑为主,以服务捆绑为辅。
• 全用户常规保有(不研究)。
细分用户群细分用户群 基本策略基本策略
流失高危流失高危用户用户
在网异动在网异动用户用户
相对稳定相对稳定用户用户
-12-
多级预警,多级维系
在模型挖掘的基础上,准确判别正常低网龄用户的流失倾向,根据用户流失概率的高低分别实施针对性的维系策略和措施,对可能流失的用户提前预防,多级维系,有效地防止用户流失。
流失异动用户流失异动用户
营销捆绑日常维系及
异动监控办理
未办理
模型匹配低网龄用户低网龄用户
流失高危用户流失高危用户是否流失
流失
未流失
1
12
一级匹配和维系; 二级匹配和维系。1 2
-13-
正常低网龄用户细分、预警及维系框架
精准营销模型
新增用户细分模型
用户价值 在网时长 渠道偏好 促销偏好用户号码 消费特征用户清单
话费余额
新增网用户流失模型商务高端用户群
长途话务突出群本地话务突出群
本地低端用户群
数据业务发烧群……
漫游突出用户群
数据业务兴趣群
本地话务偏好群 在网异动用户流失高危用户
长途话务突出群本地话务突出群
本地低端用户群
……
漫游突出用户群
数据业务突出群
本地话务偏好群
当月新增用户 其他新增用户
营销案
-14-
用户流失预警和细分建模过程
流失现状分析
流失原因分析
流失用户特征分析
流失预警建模目标沟通确定
流失细分模型目标沟通确定
根据建模要求和现有数据情况,构思、沟通和确定建模数据提取需求 提取 09 年 1-10 月新增用户在1-10 月的自然属性和消费行为数据 提取 09 年10 月新增用户在10 月的日消费行为数据 数据质量审核 数据探索 非正常用户的剔除。根据渠道养卡和跳蚤用户识别模型提取异常用户
数据抽样。确定建模用户集合 建模衍生变量计算。根据提取的基础数据宽表计算衍生变量 建模变量筛选• 特征建模分析• 卡方分析• 方差分析• 双变量分析• Pearson 相关分析 • wald 显著性检验• 量重要性分析 建模变量数据转换 • 对数变换• 标准化变换
确定建模用户集 确定建模用户数据集 采用 Two Step聚类算法,建立用户细分模型 月数据用户细分模型(高价值 用户和在网 2 月及 2月以上的新增用户细分 日数据用户细分模型(在网 1 月新增用户细分) 业务解释聚类结果,调整模型参数和建模变量,直到得到满意结果
确定建模用户集 确定建模用户数据集 采用逻辑回归和决策树算法建立流失预警模型 在网 2 月新增用户流失预警模型 在网 2 月以上新增用户流失预警模型 在网 1 月新增用户流失预警模型采用生存分析算法建立高价值用户流失预警模型
模型的评估
• 提升图、收益图
• 混淆矩阵。准确率和查全率 模型的优化• 建模训练集比例• 异常值处理• 建模变量• 建模方法• 模型参数– 显著性检验方法– 显著性检验变量剔除阈值– 树的深度和页节点记录个数– ……
-15-
数据提取 数据清洗 数据审核 数据集成
数据挖掘宽表构建
缺失数据处理 极值数据处理 错误数据处理 冗余数据处理
数据统计错误审核 数据源错误审核 数据统计口径审核
数据准备确保建模数据的完整性、可用性和完整性
提取建模所需数据
数据准备
-16-
筛选建模变量、根据模型要求进行数据变换
建模准备
经分数据挖掘宽表
变量转换变量筛选
健康度建模指标库
变量清洗
-17-
用户细分采用凝聚层次聚类算法
选择初始化初始化 更新 结束
•计算包含每对样本间距离(如欧氏距离)的相似矩阵,把每个样本作为一个簇
•使用相似矩阵查找最相似的两个簇
•将两个簇合并为一个簇,簇的个数通过合并被更新;同时更新相似矩阵,将两个簇的两行(两列)距离用 1行( 1 列)距离替换反映合并操作。
•当所有样本都合并成一个簇或满足指定的簇的数目时,整个过程结束。
层次聚类可以分为两种:凝聚的方式和分割的方式,凝聚是一种至底向上的方法,将每一条记录看作一个类,然后根据一些规则将他们聚合成越来越大的类,直到满足一些预先设定的条件。
1 2 3 4
执行 n-1次步骤 2 和步
骤 3
-18-
网龄 2月及以上新增用户细分模型
采用 SPSS 及 CLEMENTINE 作为数据分析与聚类建模工具 算法为 Two Step 聚类算法 使用细分矩阵,按照语音消费行为和数据业务消费行为两次聚类的方法分别聚类,多维聚类的方法较传统单维聚类方法,聚类后的用户细分特征更明显
聚类数据集为 2009 年 1-9 月新增用户入网后第二个月,且第二月状态正常的用户的基础数据和消费行为数据 数据在聚类前需进行标准化变换和极值处理
本地通话次数
长途通话次数
计费通话时长
漫游通话次数
ARPU
低端 中低端
长途突出
本地突出
漫游突出 商务
GPRS 流量新业务费
新业务使用种类数
彩信条数
短信条数
新业务费占比
使用少
占比高
兴趣 短信突出
上网突出 发烧友
-19-
细分群主要消费行为特征(网龄 >=2个月) -1
序号 细分群名称 细分群特征 规模占比
1商务高端用
户群
语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;ARPU 最高为 240 元 /户以上,交往圈最大,本长漫语音话务均高,且每次通话时长较长
2.4%
2漫游突出用
户群
语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;ARPU 为 85 元 /户左右,经常去外地,漫游话务突出,本地及长途话务较少,且漫游通话频次最高
3.9%
3长途话务突
出群
语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;ARPU 为 120 元 /户左右,交往圈中有大量外地号码,长途话务突出,漫游很少,且长途通话频次最高
7.6%
4本地话务突
出群
语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;ARPU 为 120 元 /户左右,交往圈主要集中在本地,本地话务突出,长途漫游较少,且本地通话频次最高
4.7%
5本地话务偏
好群
语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;ARPU 为 67 元 /户左右,交往圈主要集中在本地,通话时长相对较低,但本地话务相对突出,长途漫游很少
14.8%
6本地低端用
户群
语音和数据业务消费行为均较低,用消费户行为相对均衡; ARPU 较低为30 元 /户左右,很少去外地,漫游和长途时长比例最低 , 平均每次通话时长最短
33.5%
-20-
序号 细分群名称 细分群特征 规模占比
7短信突出用
户群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;ARPU 为 40 元 /户左右,数据业务消费占比高于 50% ,主要使用短信业务,且短信上行条数最高
8.0%
8GPRS突出
用户群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;ARPU 为 30 元 /户左右,数据业务消费占比高于 50% , GPRS 流量高,其他数据业务使用较少
8.1%
9数据业务兴趣群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;ARPU 为 20 元 /户左右,订购数据业务种类最多,但消费不高,数据业务费用占比高于 50%
13.3%
10数据业务发烧群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;ARPU 为 65 元 /户左右,订购数据业务种类最多,且数据业务消费最高, 占比高达 67%
3.9%
细分群主要消费行为特征(网龄 >=2个月) -2
-21-
网龄 1月新增用户细分模型 采用 SPSS 及 CLEMENTINE 作为数据分析与聚类建模工具 算法为 Two Step 聚类算法 使用细分矩阵,按照语音消费行为和数据业务消费行为两次聚类的方法分别聚类,多维聚类的方法较传统单维聚类
方法,聚类后的用户细分特征更明显 聚类数据集为 2009 年 10 月 1~25日入网, 11 月 1 日之前未流失的用户从入网当日至月底的日均消费行为数据 数据在聚类前需进行标准化变换和极值处理
低端 中低端
长途突出
本地突出 商务 占比占比
高使用少
兴趣 上网突出 发烧友
日均本地通话次数
日均长途通话次数
日均漫游通话次数
日均计费通话时长
日均 GPRS流量
日均彩信条数
日均短信条数
新业务使用 种类数
新业务费占比
-22-
序号 细分群名称 细分群特征 规模占比
1 漫游突出用户群语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 100 元 /户左右,经常去外地,漫游话务突出,本地及长途话务很少,且漫游通话频次最高
3.0%
2 长途话务突出群语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 100 元 /户左右,交往圈中有大量外地号码,长途话务突出,基本无漫游,且长途通话频次最高
4.5%
3 本地话务突出群语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 75 元 /户左右,交往圈主要集中在本地,本地话务突出,基本无漫游,长途很少,且本地通话频次最高
7.7%
4 本地话务偏好群语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 55 元 /户左右,交往圈主要集中在本地,通话时长相对较低,但本地话务相对突出,基本无漫游,长途很少
12.6%
5 本地低端用户群语音和数据业务消费均较低,且二者消费相对均衡;入网当月 ARPU
为 25 元 /户左右,主要在本地活动,本、长、漫通话时长均为最低,基本无数据业务使用量
36.7%
细分群主要消费行为特征(网龄 1个月) -1
-23-
序号 细分群名称 细分群特征 规模占比
6 数据业务突出群数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 30 元 /户左右,订购数据业务种类最多,且数据业务消费占比高, 高达 79%
21.3%
7GPRS 偏好用户
群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;入网当月 ARPU 为 54 元 /户左右, GPRS 消费最高,远高于其他群,且数据业务消费占比高, 高达 77%
9.2%
8短信突出用户群
数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;入当月 ARPU 为 80 元 /户左右,数据业务消费占比为 65%左右,日平均发送短信 10条左右,主要使用短彩信业务,且短信和彩信上行条数均为最高
4.9%
细分群主要消费行为特征(网龄 1个月) -2
-24-
新增用户中的流失用户超过四分之三的用户生命周期不超过四个月,不具有完整的生命周期特征
COX 生存分析模型,隐含了一条假设,即在时间越长,其离网的可能性就越大,这样一来,是否离网和在网时间应该是正相关的, COX 模型在拟合的时候,会在这个约束之下,所以其对数据的拟合没有 LOGIT 效果好
因此对新增用户离网预警,采用 LOGIT回归模型或决策模型
新增用户中的流失用户有 76% 在入网后的四个月内流失
流失用户的 76% 是在入网后的四个月内流失 分别有 22% 和 23%的流失用户在入网后的第一个月和第二月内流失
数据来源:•09 年 1 月 -10 月新增用户•流失用户定义:当月停机,且连续停机 60天以上用户 ,到 2009 年 11 月仍未开机用户•网龄举例: 3 月入网, 3 月流失的用户,网龄为 0 个月
流失用户的在网时长分布
-25-
决策树预测模型:决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
•逻辑回归预测模型:也称定性变量回归,类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。 Logistic回归建立一组方程,把输入属性值与输出字段每一类的概率联系起来。一旦生成模型,便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值。
• 逻辑回归算法具有训练集和测试集预测准确率的差异是最小的优点
• 能给出用户属于某类型概率,可精确控制用户群大小
• 对有缺失值的记录不能给出预测概率
• 模型自变量之间可能存在多重共线性干扰
• 业务可解释性较决策树差
优点
缺点
• 逻辑回归算法具有训练集和测试集预测准确率的差异是最小可以精确控制筛选用户群大小的 优点,同时我们采用缺失值处理、相关性分析可以规避算法的缺点,优先选用逻辑回归算法。•比较模型预测效果,选择预测效果较佳分类算法
模型 比较 结论
正常低网龄用户流失采用预警分类算法
-26-
在网 2月新增用户流失预警模型
采用 SPSS 和 CLEMENTINE作为数据分析和建模工具 分别采用逻辑回归算法和决策树算法建模,比较模型预测效果,确定使用逻辑回归算法
基本情况 语音通话情况 数据业务使用情况
品牌 ARPU余额 套餐名称 …
本地通话次数
长途通话次数
漫游通话次数 …
数据业务费用
数据业务消费占比
数据业务使用种类数 …
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10月
11月
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10月
11月
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10月
11月
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10月
11月
建模时间窗口
测试时间窗口
入网月份 取数月份
流失月份 流失观察月份
建模变量
-27-
建模结果
余额通话次数套餐名称本地被叫次数欠费金额本地主叫次数网内通话对端数网外通话对端数彩铃订购标志通话时长大于 5 分钟标志多次充值标志欠费标志ARPU大于 0 标志长途通话次数漫游通话次数新业务费通话标志包打套餐标志手机报费用本地主叫通话标志拨打 10086次数重入网标志
所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响 逻辑回归算法使用的方法是进入法,模型调整变量的依据是回归参数的 Wald 检验,模型拟合优度的评判标准时是 -2 对数似然值,值越小,拟合效果越好 模型的结果为对数流失风险比的线性拟合表达式,应用模型时输入为用户当前在建模变量上的值,输出为用户的流失概率 下图展示了建模变量的重要性(调整后的实际建模变量) 变量重要性
-28-
用户集: 09年 07月入网、08 月仍然正常的用户;模型筛选用户:通过模型筛选出的用户集中 20%的用户,其中, 包含了用户集中 52.2%
的 9 月流失用户;模型筛选用户 9 月、 10
月和 11 月的流失率(模型准确率)分别为16% 、 34% 和 48% ,比用户集中用户的流失率(不使用模型筛选的准确率)提升度分别为2.4 、 2.5 和 3.2倍。
52.2%
* 提升度 = 模型筛选用户流失率 /用户集中用户流失率
考察模型筛选用户三个月流失情况,模型准确率为 48%
-29-
在网 2月以上新增用户流失预警模型
分别采用逻辑回归算法和决策树算法建模,比较模型预测效果,确定使用逻辑回归算法
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月
建模时间窗口
测试时间窗口
建模变量 基本情况 语音通话情况 数据业务使用情况
品牌 ARPU
余额 套餐名称 …
月数据 时间段变化趋势数据 月数据 时间段变化趋势数据
本地通话次数
长途通话次数
漫游通话次数
…
本地通话次数波动率
长途通话次数波动率
漫游通话次数波动率
…数据业务费用
数据业务消费占比
数据业务使用种类数
…
数据业务费用波动率
…
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月
3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月
-30-
建模结果
余额本地被叫通话次数欠费金额本地被叫次数波动率通话标志通话时长大于5 分钟标志多次充值标志其他费用本地主叫次数波动率新业务费通话次数月租费ARPU彩铃订购标志长途通话次数漫游通话次数本地主叫次数
所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响 回归分析方法和参数设置同在在网 2 月新增用户流失预警模型 模型的结果为对数流失风险比的线性拟合表达式 用户余额、本地被叫通话次数、欠费金额、本地被叫次数波动率、通话标志、通话时长大于 5 分钟标志变量重要
变量重要性
-31-
模型预警 20%的正常用户,包含 61%的下月流失用户
用户集: 09年 06 月(包括06 月)以前入网、 08 月仍然正常的用户;模型筛选用户:通过模型筛选出的用户集中 20%的用户,其中, 包含了用户集中 61.4%
的 9 月流失用户; 模型筛选用户 9 月、 10
月和 11 月的流失率(模型准确率)分别为26.7% 、 36% 和 43% ,比用户集中用户的流失率(不使用模型筛选的准确率)提升度分别为3.4 、 2.7 和 2.3倍。
61.4%
* 提升度 = 模型筛选用户流失率 /用户集中用户流失率
-32-
在网 1月新增用户流失预警模型
在网 1 月新增用户没有月数据,只有日数据,由于系统只保留最近 3 月的日数据, 9 月的日数据不完整, 11 月的新增用户不能判定用户流失,只能取 10 月新增用户的日数据为建模数据集 用户的样本量小,考虑到决策树算法如使用交叉验证,能一定程度上弥补样本量小的不足,采用决策树算法作为预警建模算法
建模时间窗口
建模变量 基本情况 语音通话情况 数据业务使用情况
品牌 ARPU
余额 套餐名称 …
日均数据 时间段日数据 / 变化趋势数据 日均数据 时间段变化
趋势数据
本地通话次数
长途通话次数
漫游通话次数
…
本地通话次数波动率
长途通话次数波动率
漫游通话次数波动率
…短信条数
彩信条数
GPRS流量
…
短信条数波动率
…
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
入网时间在 10 月 1~25 日的用户从入网当天直到 10 月底的日数据
-33-
建模结果
余额品牌手机报费用套餐名称日均长途通话次数月租费日均本地被叫通话次数充值次数日均漫游通话次数包打套餐标志本地通话次数波动率手机邮箱标志新业务费多次充值标志彩铃订购标志手机报订购标志本地主叫次数波动率重入网标志外网通话对端数波动率通话大于5 分钟标志通话标志短信发送条数波动率
模型使用了交叉验证, 模型的结果为决策树,应用模型后的输出为用户流失的置信度 用户余额、品牌、手机报费用、套餐名称、日均长途通话次数、月租费、日均本地被叫通话次数变量重要
变量重要性
-34-
模型预测效果评估
由于没有 11 月的数据可用于测试 12 月流失情况,使用建模数据集评估模型拟合效果 从收益图来看,模型筛选了 20% 的 10 月新增用户,包含了 50% 的 11 月流失用户
筛选 40% 的的 10 月新增用户,包含了 74% 的 11 月流失用户
74%
50%
-35-
模型应用流程
新增用户和高价值用户 当前在网用户
定义候选用户
识别正常用户
渠道养卡用户识别模型 跳蚤用户识别模型
筛选流失预警用户
用户细分模型
根据不同用户特征,采用适宜的挽留策略
了解用户特征
在网 1月新增用户流失预警模型在网 2月新增用户流失预警模型在网 2月以上新增用户流失预警模型高价值用户流失预警模型
高价值用户用户细分模型在网 1月新增用户细分模型在网 2月以上新增用户细分模型
-36-
维 系
方 案
正常低网龄用户维系措施
正常低网龄用户维系
在网异动用户流失高危用户
•财务捆绑:预存话费送话费(高额度)
•用户忠诚度计划网龄营销(财务捆绑)
•服务捆绑用户归位,主动引导用户归位至适合其自身消费的品牌和资费套餐;优惠补卡;账户低余额时充值提醒;主卡付费 + 亲情网……
同一细分群的流失高危用户和在网异动用户采用同一类型的捆绑政策,但在力度上会有所差异。
•业务捆绑:预存送本地长途通话分钟数•业务捆绑:预存送本地通话分钟数(高额度)
•财务捆绑:预存话费送话费(中低额度)
•业务捆绑:专项预存 -高价值数据业务套餐优惠•业务捆绑:专项预存 -短信套餐捆绑•业务捆绑:专项预存 -GPRS套餐捆绑
•业务捆绑:预存送漫游主叫通话分钟数
•业务捆绑:专项预存 -数据业务套餐优惠
•业务捆绑:预存送本地通话分钟数(低额度)
商务高端用户群
长途话务突出群本地话务突出群
本地低端用户群
数据业务发烧群短信偏好用户群GPRS 偏好用户
群
漫游突出用户群
数据业务兴趣群
本地话务偏好群
全用户
-37-
谢 谢 !
top related