
项目背景当前缺乏系统化的用户付费潜力识别机制。现有运营策略主要依赖经验规则与单一行为阈值如浏览次数、活跃天数难以精准区分“高付费潜力但未转化”与“低价值用户”导致营销资源在高潜用户覆盖不足补贴与触达被浪费在低转化群体付费转化路径缺乏数据驱动的优先级判断为解决上述问题本项目基于用户历史行为数据登录、浏览、互动、留存等与付费表现构建 用户付费意愿评分卡模型Credit Scoring–style Model通过特征分箱、WOE 编码与 Logistic 回归将多维行为信号转化为 0–1000 分的付费倾向评分实现对用户付费概率的可解释量化对不同分数段的精细化运营策略对营销 ROI 的可预期评估该模型不仅服务于精准营销与权益投放也为后续 用户生命周期价值LTV预估、自动触达策略及产品定价优化提供基础能力支撑。项目目标基于历史免费用户行为数据挖掘高潜付费人群特征构建首购倾向评分模型输出高潜用户名单通过定向触达试用高级功能 限时优惠提升首购转化率为后续精细化运营和自动化触达策略提供依据项目流程① 明确定义 时间窗口首购定义第一次产生有效付费订单排除全额退款。时间窗口注册后90天内是否首购。② 特征构建特征说明标签Yis_paid_first_90d 1 / 0历史免费用户中已首购 vs 未首购用户属性X注册渠道、设备、城市线级、年龄注册月份季节性行为特征X登录天数注册后7/30天核心功能使用次数 / 深度是否用过 A/B/C 功能使用时长、导出/保存/分享等投入度行为是否参与活动、是否查看定价页付费按钮点击记录有点击≈高意向衍生指标X注册→首次核心行为天数连续活跃天数功能组合使用如 AB 同用③ 探索性数据分析EDA付费 vs 未付费用户差异哪些渠道/城市付费率明显更高哪些行为是付费用户显著更多做的是否有阈值效应如使用A功能≥3次付费概率翻倍Aha Moment 候选④ 建模/规则打分方案一规则打分高潜分 登录≥X天 × w1 使用核心功能≥Y次 × w2 查看定价页 × w3 来源渠道高分 × w4→ 按分数划 Top 20% 为高潜方案二机器学习模型逻辑回归输出概率排序 → 高潜名单评估AUC、LiftTop 10%30% 捕获多少付费⑤ AB测试落地触达实验对高潜免费用户推送 限时试用高级功能 / 首购优惠券 / 人工跟进对对照组同等活跃但不干预或随机A/B Test 对比 首购率提升幅度分组人群动作实验组Top 20% 高潜免费用户推送「7天高级功能试用 新客立减券」对照组同等活跃度随机免费用户不干预 / 普通运营⑥ 效果复盘 迭代监控指标高潜用户首购率 vs 全体免费用户首购 CAC含触达成本模型/规则 Lift 衰减情况季度重训特征工程sqlorder_log 订单表register_info 用户注册表event_log 用户行为埋点表with first_pay as (-- 中间表全量付费用户的首购时间 select user_id, min(pay_time) as first_pay_time from order_log group by user_id ), user_label as (-- 注册用户标签、判断是否注册90天内付费 select r.user_id, r.reg_date, r.channel, r.city, r.device, case when p.first_pay_time between r.reg_date and date_add(r.reg_date, 90) then 1 else 0 end as is_paid_90d -- 判断注册用户是否在90天内付费 from register_info r left join first_pay p on r.user_idp.user_id where r.reg_date2024-01-01 -- 筛选近2年数据 ) -- 统计30天内的行为 select u.user_id, u.channel, u.city, u.device, u.is_paid_90d, count(distinct e.event_date) as active_days, sum(case when e.event_typeview_price_page then 1 else 0 end) as view_price_page, -- 查看定价页 sum(case when e.event_typeexport then 1 else 0 end) as export_cnt,-- 发布内容 sum(case when e.event_type in (publish_post,comment_post,collect_post,follow_user,follow_topic, send_message,create_group,add_friend) then 1 else 0 end) as core_func_cnt,-- 核心行为 max(case when e.event_type in (publish_post,comment_post,collect_post,follow_user,follow_topic, send_message,create_group,add_friend) then e.event_date else null end) as last_core_use_date from user_label u left join event_log e on u.user_ide.user_id and e.event_date between u.reg_date and date_add(u.reg_date, 30) group by u.user_id,u.channel,u.city,u.device,u.is_paid_90d事件行为释义用途view_price_page用户主动查看价格 / 套餐 / 会员页是 强付费意图信号识别“高意向但未转化”用户判断是否已走到 购买决策阶段衡量用户有多认真考虑付费export分享成果代表用户产生了 “私有资产”心理学上叫 “沉没成本”预测留存 付费判断用户对产品的依赖程度工具类产品 付费最强信号之一衡量用户对产品成果有多依赖核心功能 行为深度统计用户使用核心功能的次数用户使用了产品的核心功能比如编辑、生成、分析、AI 创作等“最能体现产品价值”的功能判断用户是否体验到 Aha Moment核心功能 活跃新鲜度反映用户 最近一次价值体验时间比“累计次数”更能说明 活跃度新鲜度判断用户是否“沉睡”作为 召回 / 促活 / 付费转化 的时间窗口依据常用于 RFM 中的 Recency核心功能包括内容社区发布内容、评论、收藏、关注 publish_post,comment_post,collect_post,follow_user,follow_topic,社交发消息、建群、加好友 send_message,create_group,add_friend建模逻辑回归import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_auc_score, classification_report import numpy as np # 读取数据 df pd.read_csv(train.csv) # 简单清洗 df.fillna({ active_days_30d: 0, core_func_cnt: 0, view_price_cnt: 0, export_cnt: 0 }, inplaceTrue) # 类别变量编码 df pd.get_dummies(df, columns[channel, city, device], drop_firstTrue) X df.drop(columns[user_id, is_paid_90d]) y df[is_paid_90d] # 划分数据集 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.2, stratifyy, random_state42) # 建模评估 model LogisticRegression(max_iter500) model.fit(X_train, y_train) y_pred_prob model.predict_proba(X_test)[:, 1] auc roc_auc_score(y_test, y_pred_prob) print(AUC:, auc) print(classification_report(y_test, (y_pred_prob 0.5).astype(int))) # 特征重要性 coef_df pd.DataFrame({feature: X.columns,coef: model.coef_[0]}).sort_values(bycoef, ascendingFalse) print(coef_df.head(10)) # 导出高潜用户名单 df[pay_prob] model.predict_proba(X)[:, 1] high_potential df[(df[pay_prob] 0.7)][user_id] high_potential.to_csv(high_potential_users.csv, indexFalse)AB Test设计分组人群动作实验组Top 20% 高潜免费用户推送「7天高级功能试用 新客立减券」对照组同等活跃度随机免费用户不干预 / 普通运营核心指标免费→首购转化率首购转化率在观察期内完成首购的用户数/免费用户数护栏指标获客成本 CACROI 新增收入 / 触达成本