极端实验:推荐算法如何探寻我们的兴趣边界?

  • 时间:
  • 浏览:33

声明:本文来自于微信公众号 一有另有一有一个胖纸的世界(ID:we_the_people),作者:柳胖胖,授权站长之家转载发布。

算法到底并且 让让.我儿的信息环境更闭塞,还是更多元?机器让推荐和送达更容易了,但让.我儿比并且 懂了更多吗?你是什么 世界一种是算是就像是一套算法,只提供并且 你需要的东西,这套算法一种是算是也在进化?

新闻实验室的方可成老师在系统性地阅读了近年来发表在国外一流学术期刊上的研究后发现:使用社交媒体和算法推荐App的人,并如此明显跳出视野变窄的问题报告 ,大多数人阅读的内容依然有相当的多样性。

“研究者们挑选了 21 个月的数据。让.我将用户分为两组,一组是根据算法推荐挑选电影观看的,叫做“跟随组”;另一组是不理会算法推荐的电影,叫做“不理会组”。让.我发现:算法向“跟随组”推荐的电影,无缘无故要比向“不理会组”推荐的电影更加多元化。也本来我说,根据算法的推荐挑选电影,并且 进行打分,嘴笨 会让算法更好地学习到你的喜好,并且 并且 你推荐更多样的片子;而并且 不根据算法的推荐来看电影和打分,反而会让算法并且 你推荐更窄的片子。也本来我说,在不使用算法推荐的情况汇报下,用户的视野反而变窄得很慢。”

学术的研究结果当然值得参考,不过,并且 是针对一有另有一有一个非常极端的内容消费用户,推荐算法又会带给他那此呢?基于一有另有一有一个严谨的产品工作者的好奇心和动手欲,以及对那此问题报告 的困惑,我买了一有另有一有一个新手机号,找了一台如此装过今日头条的廉价安卓测试机,开始了了了我的“反人类”探索之旅。

我的思路合适是从前的:在今日头条上只关注一有另有一有一个从体量上来说极其小众的内容领域,逐步成为它的资深内容消费者,并且 观察在你是什么 过程中,头条会怎么投喂我在你是什么 兴趣领域的偏好,以及最重要的,最终头条是算是会用你是什么 领域的内容完整版淹没我,并且 很多可不并能了看到你是什么 领域的内容。

在第一次打开头条的并且 ,我是一有另有一有一个空白未登录的情况汇报,还如此任何操作行为或关注任何账号,头条推荐页给我的内容也是比较随机的,相对以社会新闻和热点内容为主,某些类内容随机分布各第一根。

某些某些,我先注册登录了一下,并且 在推荐内容的“更多”里,我忽略了头条置顶给我推荐的娱乐,健康,科技,体育和历史五大分类,本来我直接把列表拉到了最下方,关注了最小众的“收藏”领域。

一并,我还一次性关注了头条推荐的 20 个收藏类的内容创作账号。收藏你是什么 品类,主要带有的本来我文物和古玩类的内容,包括诸如字画、钱币和邮票等等类似于的都算,而我自己对你是什么 领域基本属于一无所知的情况汇报。

关注完 20 人后,我还做了一件事,本来我把收藏标签移到了最靠近推荐标签的位置,从前内容阅读起来最方便,理论上,这也应该增强了系统判断给我推荐收藏类内容的权重。

今日头条App里默认进入的推荐页,前三位一般被国家重要新闻给地处了, 2 条是默认置顶, 1 条是人民网从前的官媒发布的热点新闻,从位置上来说,从第四条开始了了才算是经过算法推荐展现并且 你看的内容。

在第一次的刷新中,头条似乎还如此给我打上很强的"收藏爱好者“的标签,整个前 10 条就第一根和收藏相关的,剩下 9 条里,除了两条社会新闻两条娱乐新闻,其它五类内容各第一根。

在我第二次的刷新中,结果依然差很多,收藏可不并能了第一根,社会娱乐两条,其它随机的五类内容(与第一次的不同)各第一根。

第三遍还是如此。

我判断头条并不并且 我本来我关注了一堆收藏类账号,就判断我只对收藏类的内容感兴趣了,并且 我每次本来我在推荐流里刷下来看标题,还如此跟任何的收藏文章之间产生互动(转评赞),也如此和某些类的内容有过互动,某些某些我的推荐流里无缘无故保持了从前的比例:10%的收藏类内容+不断更换的其它类内容。

不过嘴笨 内容流里收藏内容很多,并且 在“让.我也在用头条的”横向推人的流里,跳出了如此一有另有一有一个情况汇报,左右滑动的区域内一共能可不并能了显示 10 个账号,其带有 9 个是收藏类账号。

从这里并能可不并能了看出,对于荐人和荐内容,头条并且 是采用分开的两套策略我猜测,账号推荐上,头条希望快速收拢以获取你的关注关系,增强它App结构的连接,某些某些直接并且 你推并且 关注过的类似于账号,但内容推荐上,头条需要你进一步有更多反馈数据后,才会逐步让某一类内容更多地处你的推荐流。

于是从新的一次下拉刷新开始了了,我做了如此一件事:对头条在推荐流里给我的每第一根收藏类内容,都点击进入文章,慢慢再慢慢地下拉到底部(当然我一有另有一有一个字也没看进去),并且 点赞,点收藏,评论(一般就有2个字:真棒,好喜欢,不错,类似于的)。

合适从第五次刷新开始了了,收藏类内容的比例终于开始了了变多(我为那此要说终于),一并,推荐流里跳出我未关注的收藏类账号发的内容,我会在内容互动后一并关注作者。

合适从第 8 次开始了了,收藏类内容达到了150%的比例,而一并推荐流里还开始了了跳出人文和历史类的内容。

我判断这两类内容会跳出,是基于算法的“协同过滤”,并且 想精通收藏的领域眼前 需要非常了解文化和历史类的知识,从前才能够判断各种文物和古玩的价值,某些某些一有另有一有一个“收藏爱好者”必然也得看文化和历史的内容。

(解释一下:常见的协同过滤算法一种,一种是基于用户的(user-based),也即计算用户之间的类似于性,并且 A和B的兴趣相近,如此A喜欢的电影,B也很有并且 喜欢。另一种是基于物品的(item-based),也即计算物品之间的类似于性,并且 电影C和电影D很类似于,如此喜欢电影C的人,并且 也会喜欢电影D。)

这能可不并能了可不并能了看出,尽管收藏类内容如此小众,但头条的算法依然找到了一批和我类似于的“收藏爱好者”,并把让.我同样爱看的“人文和历史”内容推到了我的眼前 (尽管比例还很小,各第一根)。

(不过嘴笨 关注了收藏的人,很合适率会关注文化和历史类的内容,但反之貌似合适率并不,文化和历史爱好者并不对古玩钱币那此的有兴趣。并且 对于头条的机器算法来说,更好的推荐策略肯定是,给一有另有一有一个对文化和历史有兴趣标签的用户在推荐流里偶尔夹杂第一根收藏类内容,视乎其反馈来决定是算是推荐更多。头条算法架构师曹欢欢曾表示:“让.我儿会留一次责比例流量,探索用户的兴趣,比如每几刷,或有一刷的位置本来我探索用户的兴趣,推荐某些模型不确认用户是都有感兴趣,并且 模型想探索一下,会有某些从前的流量。”)

说回我的实验,我在刷新后“对每条收藏类内容给予重度反馈并且 忽略其它一切内容”的行为很慢获得了算法的淬硬层 重视,收藏类内容从比例来看快速升高,最多的并且 达到了每 10 条里有 6 条收藏强相关的内容,合适1- 2 条人文并且 历史的内容,剩下 2 条还是社会热点和娱乐新闻。

并且 一般在前三条里,必有第一根是直接关注账号发的收藏内容,剩下两条并且 是相关人文历史领域的内容并且 还未关注的账号发的收藏类内容。

最后,我把你是什么 “极端收藏爱好者”的身份坚持了两周左右,每天重复十有2个到数十次不等的刷新,并且 只对收藏类内容进行点击阅读、评论、点赞、收藏和关注。

不过,最终头条给我的推荐比例却如此继续增加,前 10 条里,除了广告比例提高(并且 是嘴笨 老用户更能忍?),最多的并且 还是5- 6 条收藏类相关内容,少的并且 2- 4 条。其中,必有 2 条以上是收藏类强相关的内容(直接探讨收藏物一种),1- 2 两条收藏弱相关的文章(或我关注的收藏领域账号发布的其它领域内容),以及1- 2 条文化和历史强相关内容,而剩下还有4- 6 条则都有非收藏相关的内容。

看起来,推荐算法并很多跳出 10 条里 9 条都有收藏类内容的情况汇报。经过你是什么 十分极端(真实用户不并且 只在新闻资讯App里盯着收藏内容不放)但嘴笨 并不麻烦的实验并且 ,我整体的感受有以下几点:

1、推荐算法在做的并都有以某第一根内容去压中你的兴趣,本来我以“组”为单位(10- 20 条)来测试你(身份标签)、你以都有喜欢的内容(兴趣标签)和你当下的情况汇报(环境标签),命不命中是一有另有一有一个概率游戏;并且 要条条命中、甚至单条命中嘴笨 很困难,但以组为单位去看压中过(1- 2 条)的概率,很有并且 在90%以上。

2、某些某些纯以兴趣推荐为基础的产品,最难的是用户前三次使用的并且 ,并且 流失率很高、印象很差,后面 基于用户在内容消费上的需求和行为为基础,使用合适率会如此顺。

3、资讯推荐类平台没并且 最终只提供特定某一类内容并且 你看,并且 这本质并不能够它自己的日活和时长,当你的今日头条完整版变成“收藏头条”后,也是一有另有一有一个用户被抛弃的并且 。

4、比如头条架构师曹欢欢曾提到:“聪明算法工程师都有希望自己的用户兴趣窄化,就像如此一有另有一有一个商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。商场经理都希望顾客关注尽并且 多的产品品类,算法工程师也希望用户尽并且 的拓展自己的兴趣。”

“一有另有一有一个喜欢鞋子的用户,若果每次来商场都能快速买到自己喜欢的鞋子,用户的单次消费就很开心,但最终用户会减少来你是什么 商场的消费次数(包括每次来商场逛的“用户时长),除非他又产生了买鞋子的需求。要把用户长期留存下来,就要穿透他的兴趣,拓展他的视野,并且 你衣服、饮食、看电影那此消费,都有商场里完成。”

5、要注意的是,传统上让.我儿无缘无故提到的“信息茧房”并都一种理论(theory),本来我一种假设(hypothesis),至今仍未得到数据量化和案例的证明。学术上更常见的是概念是“信息回音室(echo chamber)”和“过滤气泡(filter bubble)”:让.我在某些社交和新闻类产品里更容易听到回声和信息被过滤,但这都有类似于茧房的完整版束缚,本来我代表“一有另有一自己的信息获取不再多元”“意见被单一来源的信息左右”

6、相对算法推荐,过去报纸、杂志和门户网站更有并且 造成“信息茧房”某些,并且 让.我的内容本质上是由一群天天泡在一并相互影响的编辑们推荐并且 你的。而让.我圈的信息并且 是最容易造成“信息茧房”的,前提有你只通过让.我来获得资讯和看法,但你是什么 问题报告 本质上这也可不并能了算是“社交偏食”而已,自古以来人总倾向于和自己喜欢的人多打交道和聊天;

7、从认知心理学的淬硬层 来说,人类大众无缘无故难以防止的是“确认偏见”(confirmation bias),也即更很多相信自己并且 认同的内容。

并且 你只和自己聊得来的人交让.我和聊天,且只看自己认同的内容,坚持相当长一段时间后(封闭环境不被打破),如此他还真有并且 无限接近信息茧房情况汇报,只不过你是什么 茧房是一种作茧自缚。

但你是什么 并且 ,推荐算法反本来我能可不并能了帮你进行茧房穿透的武器之一,并对抗并且 年岁增长而是是因为的好奇心的衰减。

比如在我作为一有另有一有一个“极致的收藏爱好者”的数据反馈之下,头条并未给我推的都有收藏类内容,还是保持了社会热点新闻的比例,并且 渐渐为我找到了文化和历史内容,并在后期持续测试我的兴趣边界,不断找到了并且 和我作为一有另有一有一个“收藏重度爱好者的用户画像”相匹配的内容(对派发有历史价值的物品、及其相关交易极度感兴趣、合适率是男性、注重传统文化、年龄在估计在 40 岁以上),给我推荐了财经、科学、钓鱼和养生类相关的内容。

8、文初提到的方可成的学术研究里,还说到从前是是因为解释了让.我为那此会对“信息茧房”信以为真,那是并且 让.我儿的“心口不一”:让.我会向研究人员过度报告自己常看的某些媒体(通常是和自己的态度相近的媒体),而如此报告另某些自己也嘴笨 看到的媒体(和自己的意见相反的媒体)。比如你是一有另有一有一个美国政治自由派,你平常并且 既看自由派的媒体,也接触到了保守派的媒体,并且 在向研究人员报告自己的媒体消费情况汇报时,你只报告了自由派媒体,而隐藏了自己消费的保守派媒体。

让.我喜欢宣称和坚持自己的人设,并且 有时先要正确回忆自己的行为,造成了类似于“幸存者偏差“的效应。但整个世界嘴笨 无缘无故在滚滚向着多元化的一面发展,用户和内容在多元化,算法嘴笨 也在多元化。