前段时间在知乎学习了《了解信息流产品和内容推荐算法》,收获蛮多。对其中重要的部分进行了整理,这篇文章就是主要内容的摘要,附带课件。

从目前移动互联网的大环境来看,信息流是最能带来商业价值的产品形态之一。信息流推荐算法的今日头条,已经估值超过了200亿美金。图为信息流推荐算法简化框架:
信息流推荐算法简化框架

⏱ 对用户的价值:

  • 便捷阅读
  • 海量信息
  • 新鲜及时
  • 个人兴趣

💵 商业价值:

  • 类似搜索广告(网易-头条)
  • 产品产生粘性(2千万-1.2亿)
  • 用户时长增加(40-70分钟)
  • 广告曝光增加
  • 广告营收增加(50-150亿)

🧐 如何推荐内容:

  • 人工运营:新闻价值判断、突发新闻、热点预测、时效性和策划
  • 算法推荐:预估CTR、个性化匹配、学习、聚合,适合长尾内容
  • 海量内容,适合采用人工运营+算法推荐。

图为一个内容推荐算法的示例:
一个实际的例子

🌊 算法模型分流:

  • 70%给稳定模型
  • 10%给实验模型A
  • 10%给实验模型B
  • 10%给式样模型C

🚀 算法模型评测指标:

  • 准确率:推荐列表中,多少文章是用户读过的(训练集/测试集)。8/20=40%
  • 召回率:推荐列表中,用户读过的文章占用户阅读记录总数的比例。8/10=80%
  • 覆盖率:推荐列表中,推荐文章占文章库总数的比例。20/100=20%

举例:文章总量为100,用户实际看了10篇文章。最终实验模型推荐了20篇文章,用户看过的有8篇。准确率为40%,召回率为80%,覆盖率为20%

📮 核心业务指标:

  • UV转化率:阅读UV/曝光UV,反应多少比例的曝光用户转化为阅读用户。
  • PV转化率:阅读PV/曝光PV,反应违章的平均转化情况。
  • 人均篇数:阅读PV/阅读UV,反应内容消费深度。
  • 人均阅读时长:阅读总时长/阅读UV,反应内容消费深度。

⚙️ 影响推荐算法的因素:

👉 是否有强大的内容库:

  1. 多样性:图文、图片、短视频、直播、问答;
  2. 数量:每日入库量级超过50W,可推荐集20W;
  3. 质量:正规媒体文章、大V自媒体文章、专题专栏等深度文章;
  4. 时效性:突发事件一小时内入库,微博具有最好的时效性;

👉 是否有好的交互视觉,交互视觉会影响用户为内容的预期:

  1. 风格和内容要匹配;
  2. 留白减少10%,UV转化率提高5%;
  3. 刷新速度减少500ms,UV转化率提高5%;

👉 是否对业务参数进行了优化:

  1. 参数调优更多是一种艺术,而不是技术。
  2. 频道列表和顺序,新用户频道调整。(是否可以根据地域进行频道调整?)
  3. 下拉刷新更新条目数。今日头条首次15条,后续8条;
  4. 新闻条目小字信息。今日头条来源+评论数+下发时间;

👉 数据上报,会极大的影响推荐的准确度和策略选择:

  1. 数据要全面;
  2. 数据量要大;
  3. 数据上报准确。

上报规范:时机、阈值、去重;

上报内容:条目曝光、点击、详情页停留时长、列表/专题页时长上报、详情页/专题/视频完成度上报。

👉 冷启动策略:

  1. 地点、热点、设备
  2. 其他(手机厂商):安装应用、用户搜索等等

👉 探索与发现:

  1. 当用户有新的行为时,画像实时更新;
  2. 过去的特征画像进行时间衰减,逐渐降权;
  3. 在推荐列表中增加探索性的内容(Fix)

👉 是否有好的算法模型:

  1. 算法模型来源:大公司交流、学术界论文、自建模型
  2. 更重要的是算法人员对业务的理解
  3. 算法模型》编码实现、性能问题、实验效果、参数调优、维护成本、模型迭代、其他问题》实际应用

🎭 用户画像体系:

用户主动、推送刺激》数据挖掘》生成画像

  1. 一级类目的制定不能轻易改变,对算法影响较大;
  2. 用推送验证画像准确性,如果画像准确,点击率在20%;
  3. 一级类目每周更新,二级类目和标签实时更新;
  4. 负反馈、搜索数据较少,但对画像影响较大;

图为用户画像的结构和内容偏好示例:
用户画像
用户画像示例

🗿 相关领域:

  • 内容库:

内容接入》内容下发》后台管理》自媒体》过滤去重》文本分析》情感分析》内容分级》

  • 用户画像:

标签创建》标签测试》标签分级》数据上报》数据处理》数据挖掘

  • 短视频:

内容接入》内容下发》数据分析》运营策略》算法策略》视频广告

  • 搜索:

召回策略》搜索界面》数据分析》排序策略》搜索热词》搜索广告

  • 信息流广告:

收入分成》流量分配》筛选策略》性能优化》界面优化》eCPM优化

⛳️ 如何进入信息流领域:

  • 研究自媒体平台:
    1. 研究下发策略;
    2. 研究管理后台;
    3. 研究数据统计;
  • 从内容运营切入:
    1. 研究推送文案;
    2. 研究推送数据;
    3. 研究专题策划;
  • 如何做产品:
    1. 了解推荐流程;
    2. 使用各种应用;
    3. 研究各种内容;

📚 推荐书籍:

《推荐系统实践》、《这就是搜索引擎 核心技术详解》、《计算广告》

🏄 课件下载:

整理了下Live的课件,下载地址:百度云盘 密码:z1cy