讲完信息流流行的原因(信息流的那点事:2 为什么信息流如此流行),这一篇,我们来从产品的视角,来看看推荐算法在技术上是如何实现的。

一、推荐算法的分类

根据需要的技术和运营成本,可以将主流的推荐算法分为三类:基于内容元数据的推荐、基于用户画像的推荐、基于协同过滤算法的推荐。

1.基于内容元数据的推荐

基于元数据的推荐是比较基础的推荐算法,基本原理是给内容打标签,具体元数据的选取根据的内容有所不同,比较通用的角度有内容的关键词、类型、作者、来源等,打开一款头条类app,选择屏蔽一条内容,就可以看到一些该内容的元数据。

有了内容的元数据,就可以根据内容间的关联,可以进行相关内容的推荐,喜欢看奇葩说的用户,可能也会喜欢看同是米未传媒出品的饭局的诱惑。根据内容的元数据,也可以记录并逐渐明确用户的内容偏好,进行数据积累,便于结合用户的喜好进行对应的精准推荐,这也就是下面要说的基于用户画像的推荐的内容。

2.基于用户画像的推荐

用户画像,类比一下就是给用户打标签,主要由三部分组成:用户的基础数据(年龄、性别等)、应用使用数据(应用使用频率、时长等)和内容偏好数据(喜好的内容分类、种类等)。

对于基础数据,不同年龄的用户的内容偏好有很大差异,年轻人可能更喜欢新歌热歌,而中年人可能更爱听怀旧一些的歌曲;根据应用使用数据,可以进行用户分层,活跃用户可以多推荐内容促进使用,快要流失用户可以推送一些打开率较高的内容来挽回,运营活动也可以更有针对性;基于内容偏好数据,可以记录并逐渐明确用户的内容偏好,从而进行更精准的推荐,从爱看娱乐新闻,到爱看国内明星,再到爱看某个小鲜肉,随着内容偏好数据的逐步积累,头条类产品的推荐也就越精确。

3.基于协同过滤算法的推荐

协同过滤算法,简单来说,就是寻找相近的用户或内容来进行推荐,主要有基于用户的协同过滤推荐和基于项目的协同过滤推荐两种。

(1)基于用户的协同过滤推荐

基于用户的协同过滤推荐算法,就是通过算法分析出与你内容偏好相近的用户,将他喜欢的内容推荐给你,这种推荐给你志同道合的人爱看的内容的思路,更相近于生活中的朋友作为同道中人的推荐。举例来说,如果你喜欢ABC,而其他用户在和你一样喜欢ABC的同时,还都喜欢D,那么就会把D推荐给你。

(2).基于内容的协同过滤推荐

基于内容的协同过滤推荐算法,就是通过算法分析出内容和内容之间的关联度,根据你喜欢的内容推荐最相关的内容,常见的看了这个内容的用户85%也喜欢xxx,就是这种思路。举例来说,如果你喜欢A,而喜欢A的用户都喜欢B,那么就会把B推荐给你。

相比于纯粹的基于内容元数据的推荐,基于内容的协同过滤推荐更能发现一些内容间深层次的联系,比如罗辑思维经常推荐各种内容,仅仅根据内容元数据来推荐,一集罗辑思维最相关的应该是另外一集,并不能推荐内容元数据相关性不太大的节目里推荐的内容;但由于可能很多用户看完后都会搜索查看节目里推荐的内容,基于内容的协同过滤推荐就会发现两者的相关性,进行推荐。

二.推荐算法的数据来源

介绍推荐算法的思路时,我们一直谈到一个词“内容偏好”,这也就是实现推荐算法时一个核心的问题——需要通过怎样的数据,才能判定用户的内容偏好?主流的思路有一下三种:

1.手动选择

让用户手动选择,显然是最简单的思路,然而由于选择的空间必然有限,只能让用户从几个大类中间挑选,无法涵盖全部内容的同时,粒度过大推荐也就很难精准。而且刚打开应用就让用户选择,或者是让用户使用一段时间后在去补充选择,这样的操作都太重可能造成用户流失。

2.用户操作

既然手动选择很难实现,我们就需要从用户的使用数据中挖掘,主流的思路就是根据用户一些主动操作来判断,点击阅读了就说明喜欢,点了赞或者回复分享就是特别喜欢,如果跳过了内容就减少推荐,点击了不感兴趣,就不再推荐。

根据用户使用的操作来判断内容偏好,在不断地使用中积累与细化数据,对内容偏好的判断也就越来越准确,这就是头条系应用的主要策略,这样的策略对于下沉市场的不愿做出主动选择的沉默用户,是一个非常适合的策略,但这样只看点击与操作,不关注内容实际质量的策略也会造成标题党、内容低俗等问题,在后文会进一步介绍。

3.隐性数据

既然选择不能完全代表用户的内容偏好,如何使判断更加精准呢?就要从一些更加隐性的数据入手了,比如对于文章,除了点击,阅读时间信息流推荐,阅读完成度,是否查看文章的相关推荐内容,都是可以考虑的角度,相比纯粹的点击判断,可以一定程度上解决标题党的问题。再比如看视频,如果快进次数过多,虽然看完了,可能也不是特别感兴趣,而值得反复回看的内容,命中内容偏好的几率就相对较高。

三、推荐算法的分发过程

介绍完了推荐算法的原理与数据来源,让我们来试着还原一下一条内容的完整分发流程。

首先信息流推荐,是内容的初始化与冷启动。可以通过算法对内容进行分析提取或者人工处理,提取内容的来源、分类、关键词等元数据,再根据用户画像计算内容兴趣匹配度,分发给有对应内容偏好的用户,,也可以通过内容原匹配度,向关系链分发,完成内容的冷启动。

然后,可以根据用户阅读时间,阅读完成度,互动数等数据,对该内容的质量进行分析,相应的增加或者减少推荐,实现内容动态分发调节。

最后,就是协同过滤算法发挥作用的时间,对于优质内容,可以通过基于用户的协同过滤推荐,推荐给与该内容受众有类似爱好的用户,也可以基于项目的协同过滤推荐,推荐给爱观看同类内容的用户,让优质内容的传播不在局限于关系链。

写在最后

在真正的推荐算法实现过程中,除了基础的内容原匹配度,内容匹配度和内容质量,还有很多值得考虑的问题,比如新闻通知等时效性内容就要短时间加权,超时则不推荐;对于用户的内容偏好也不能永远维持,随着时间用户可能会喜欢新的内容,如果一定时间内用户对以前喜欢的内容不感兴趣,就要减少该种类推荐;还有为了不陷入越喜欢越推荐,最后全部是一种内容,让用户厌烦的境地,对于用户的偏好也要设定一个上限;为了保持新鲜度,需要帮助用户发现他可能喜欢的新内容…..

最后,通过数据可以了解我们如何阅读这篇文章,但任何数据都无法准确描述我们阅读后的感受与收获;再高级的算法也只是算法,它虽然可能比我们更了解我们实际的的内容偏好,但无法了解到我们对于内容的追求。

这可能也就是头条系产品虽然收获了巨大成功,但也收到了标题党、低俗化、回音室效应等指责的原因,下一篇,让我们来聊聊,信息流产品的面临的问题与可能的解决方法。

免责声明:本文系转载自其它媒体,版权归原作者所有;本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,旨在传递信息,不代表本站的观点、立场和对其真实性负责。如需转载,请联系原作者。内容会稍有编辑,如果来源标注有误或侵犯了您的合法权益等其他原因不想在本站发布,来信即删。投稿等其它问题请联系本站

文章来源:https://www.jianshu.com/p/2ab122e8355e