
数据挖掘
文章平均质量分 77
风行者之倾覆天下
我为技术痴狂,技术为我护航。我自轻狂,追求前沿。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
线下模型的数据清洗建模
一、清洗流程:目的:为离线训练准备标注数据,清洗不合法的数据。数据源我们采用:曝光、点击、下单1.序列化曝光、点击、下单从Hive表中读取,采用schema可以直接根据日志名字来读取字段在家或减少的影响;曝光日志:存储了用户一次行为的详细信息,包括:包括城市、地理位置、筛选条件及一些行为特征;点击日志主要记录了用户点击的POIID、点击时间;下单日志原创 2016-09-20 16:42:11 · 2219 阅读 · 0 评论 -
推荐系统总结
导言:我们做推荐的初衷是解决长尾效应,让那些对于某些人很适合有不经常展示的菜品(餐厅)得到展示,不能推荐的一直都是用户经常点的,热卖的菜品和餐厅,这样的话会陷入死循环,让用户看到的一直都是热卖的热门菜品或餐厅,给其他的商家没有展示的机会,会不利于平台和推荐系统的运行。1.数据的类型1.1)用户行为数据:1)搜索,筛选,收藏,下单,点击,评分 2)负反馈:删除,取消订单,原创 2016-09-20 16:46:54 · 2286 阅读 · 0 评论 -
CTR预估模型浅谈
导言:一般是从离线数据中学习得到,离线数据是保存在Hive中的,通过机器学习算法将Hive中的数据进行分析,得到一个pCtr模型;对于在线工程而言,实现一个通过配置把离线模型加载进去的在线部分,的确没什么工作量,几行代码;但,要实现一个真正强的在线部分,都要几周时间完成;一、离线部分粗糙版就是python单机就可以步骤:join、norm、binariz原创 2016-09-20 16:48:00 · 9772 阅读 · 0 评论