文档详情

SDCC2015机器学习在美团用户画像中的应用付晴川V210437

痛***
实名认证
店铺
PPTX
2.60MB
约27页
文档ID:157804075
SDCC2015机器学习在美团用户画像中的应用付晴川V210437_第1页
1/27

机器学习在美团用户画像中的应用付晴川2015-11-213W什么是用户画像?为什么要做用户画像?如何做用户画像?什么是用户画像?什么是用户画像?什么是用户画像?数据签化数据签化为什么需要用户画像?为什么需要用户画像?用户体验用户体验 营收提升营收提升 自动化自动化 运营效率运营效率用户商户工程师美团在对的时间获取对的服务!获取更多的潜在优质客户!更精准高效的活动策略制定!数据应用接口标准化/通用化!如何来做用户画像?架构 特征 模型算法实践问题架构 系统概览架构细节解读MT dmspa项目统一特征提取框架动机动机 1.多工程师/多个模型“自给自足”,特征分散2.存在人力/计算资源冗余实现 1.特征统一提取/集中存储大一统特征库2.支持no-coding/配置化提特征效果 1.建模周期:34周下降到12周2.人力/计算冗余减少2倍(估算值)架构细节解读MT utvs系列项目用户画像统一接口多系统项目动机动机 1.数据挖掘成果需要友好统一的输出接口:可视化+API实现 1.用户标签体系WEB可视化 2.用户标签索引/实时查询 3.报表自动化效果 1.成果推广加速/沟通成本降低 2.传统用户问卷调查报报告周期1个月,utvs系统10分钟!算法 用户特征需要做横跨多个产品线的特征提取!算法 用户特征体系用户特征体系一级/业务基本团购外卖酒店电影上门 二级/行为注册登陆浏览下单搜索收藏评论消费分享LBS三级/时间年月日周早中晚周末工作日节假日+每+最近自由级/可选品类品牌词条M x N x K x L=?特征膨膨胀算法 用户特征算法 用户特征算法 特征与效果实例用户职业标签:学生身份识别算法-问题及常用模型实践-问题及常用模型-实例模型实例一项目有车一族标签挖掘需求需求 1.汽车服务推广活动需要精准圈定有车人群降低营销成本。

实现 1.样本:问卷调查正样本+随机负样本 2.特征:信息增益特征离散化+卡方/信息增益/互信息等特征选择 3.模型:try SVM/MaxEnt/LR=SVM效果 1.离线评测:P93%,R85%2.线上对比:推送打开率提升提升3倍倍,下单率提升提升5倍倍!实践-问题及常用模型-实例模型实例一项目常住地标签挖掘需求需求 1.决策支持:酒店需要分析用户下单与地域关系,决定是否上异地推荐模块实现 1.样本:问卷调查 2.模型:try LR/SVM/RF/GBDT=LR 3.多个LR模型组合效果 1.离线评测:P96%,R73%2.线上对比:新上异地模块点击率超越历史最佳“名店抢购”1个百分点个百分点!实践-关于算法工程师的段子理想中的算法工程师提出假设-收集数据-训练模型-解释结果实际中的算法工程师提出假设-收集数据-预处理-预处理-训练模型-调试-调试-重新收集数据-预处理-收集更多数据-调试-调试-调试-放弃实践-分享:那些年踩过的坑目标效果现实效果分享一数据挖掘的天花板实数据本身!ToDo:努力逼近这个效果而不是较劲!实践-分享:那些年踩过的坑分享二实际应用中特征作用远大于模型!ToDo:在深度优化模型之前,先榨干数据特征的增益吧!特征至少带来80%+的收益。

模型特征浏览次数消费频次下单品类搜索分词LR SVM实践-分享:那些年踩过的坑分享三关于样本:样本少/不均衡!ToDo:1)SVM或TSVM,2)under sampling/over sampling/SMOTE不均衡?实在无样本:可以考虑随机+规则过滤方法挑样本!Smote要用到KNN,高维不靠谱!收集样本才是王道!实践-分享:那些年踩过的坑分享四训练集特征分布和自然待测数据不一致ToDo:特征如果跟Label有直接关联就不要用了建模训/测效果好的离谱自然结果一塌糊涂实践-分享:那些年踩过的坑分享五不要有把锤子,就把所有的问题当钉子ToDo:多了解模型的优缺点,选择合适的模型!考察点分类/回归/样本大小异常点敏感度效果/性能 tradeoff容易过拟合?线性/非线性Q&AThe mere formulation of a problem is far more essential than its solution.-Albert EinsteinThank You!。

下载提示
相关文档
正为您匹配相似的精品文档