信息流产品和内容推荐算法解析

信息改变世界
本文内容可能过长,需要花点时间,为了更好的梳理体系,我列出了全文框架,喜欢信息流的可以了解下。

什么是信息流产品?

  • 信息流的定义

信息流是一种可以滚动浏览的内容流。这些内容会出现在外观相似、一个挨一个显示的版块中。例如,信息流可以是编辑精选的信息流(如文章或新闻列表)或产品详情(如产品列表、服务列表等)。信息流可以出现在页面上的任何位置。

以下是信息流的一些示例(微信看一看等):

  • 首页上的主信息流(例如,新闻信息流)
  • 产品或服务结果页上的主信息流
  • 网页上的横向信息流
  • 纯文字信息流
  • 信息流产品的特点

  • 给用户带来的价值

  • 给商业带来的价值
  • 产品本身的粘性用户总时长广告曝光量广告营收

举例:


如何推荐内容?

  • 人工运营

人工强项:新闻价值判断、热点预测、突发事件响应、时效性、策划——比如,有经验的内容运营人员可以预测出“白百何出轨事件”成为全网热点

  • 推荐算法

机器强项:预估CTR、个性化匹配、学习、聚合——冷门的长尾内容如考古、历史等,推荐给合适人群

  • 为什么要用算法

大数据时代,每天更新的内容是海量的。而人工运营,往往局限于热点内容,就像是冰山的一角。冰山之下,是大量的长尾、冷门的内容,必须依赖机器算法做个性化推荐。

  • 理论上的简化框架

  • UI界面:展示内容并和用户交互用户行为上报系统:记录用户的行为,并上报到日志存储系统用户行为日志存储系统:存储用户的各种行为数据推荐系统:分析用户行为,生成推荐数据列表

如何评估推荐质量?

算法模型分流

  • 算法模型评测指标
  • 准确率推荐列表里,多少比例的文章,是用户读过的召回率推荐列表中,用户读过的文章,占用户阅读记录的比例覆盖率推荐列表里的文章,占文章库总数的比例

举例:

文章总量为100,用户实际看了10篇文章。最终实验模型推荐了20篇文章,用户看过的有8篇。准确率为40%,召回率为80%,覆盖率为 20%

  • 核心业务指标
  • UV转化率阅读UV/曝光UV,反映多少比例的曝光用户转化为阅读用户PV转化率阅读PV/曝光PV,反映文章的平均转化情况人均篇数阅读PV/阅读UV,反映内容消费深度人均阅读时长阅读总时长/阅读UV,反映内容消费深度
  • 为什么要看多个指标?

一味追求点击率,可能会导致:

  • “标题党”文章大量增加
  • 文章低俗低质,阅读完成度低
  • 深度用户流失,产品调性下降

解决办法:在Rank模块的模型训练阶段,文章的排序由预估CTR和预估时长共同决

影响推荐效果的因素?

  • 是否有强大的内容库?
  • 多样性图文资讯图片短视频直播问答数量每日入库量级超过50W可推荐集超过20W质量正规媒体机构文章大V自媒体文章专题、专栏等深度内容时效性热点突发事件新闻在1h内入库
  • 是否有好的交互视觉?

交互视觉会影响用户对内容的预期

  • 风格好内容匹配
  • 书籍:内容高质、专业,版面会存在留白报纸:内容质量一般、数量丰富,版面密密麻麻,不存在留白并不是一味追求高逼格,而是和内容匹配、和用户匹配
  • 数据上报?
  • 全面性数据量大上报准确

在实际工作中,数据上报可能是埋坑、填坑最多的地方,会极大影响推荐的准确度和策略的选择

  • 是否有冷启动策略?
  • 设备地点热点其它

手机厂商在冷启动上有优势,因为可以利用用户在手机上各个系统应用的标签

  • 探索与发现?

问题:经过一段时间后,用户画像相对固化,用户的兴趣变化无法及时发现

影响:在推荐效果上,产生了“瓶颈效应”,久而久之用户会流失

办法:

  1. 当用户有新行为,用户画像实时更新
  2. 增加时间衰减性,用户过去的特征逐渐降权
  3. 在推荐结果列表中,增加探索性内容

用户画像体系?


如果有志于在信息流做产品的,推荐下面三本书:

  1. 推荐系统实践
  2. 这就是搜索引擎
  3. 计算广告

简单自我介绍下:

本人应届生,大一到大四期间在IBM、网易、360、联想、中国铁路科学研究院等均做过产品、用户增长等方向,并且是微软2018春招PM,保研到中科院计算所(已放弃),大学创业过、自己也在闲暇时间做过自媒体,秋招没有怎么准备,春招拿了两三个offer,但岗位偏向运营,不怎么喜欢,所以,如果各位大佬有产品岗,(个人觉得社招一年经历也可以胜任),请联系我,谢谢。

文/赵林(微信公众号:赵林随笔;知乎:赵林)

0条评论 添加新讨论

登录后参与讨论
Ctrl+Enter 发表