本文将以B站为例,详细回答软件是怎么把信息更有效率的推送到你面前的?作为创作者和用户,如何利用推荐系统反哺自身?
零售电商给你推荐喜爱的日用品、新闻阅读给你推荐合口味的知识、短视频软件向你推荐你最爱的娱乐视频……
自个性化推荐算法在各种软件广泛应用开来,千人千面的说辞已经被互联网用户熟稔于心。
但,你真的知道,这些软件是怎么把这些信息更有效率的推送到你面前的么?作为创作者和用户,如何利用推荐系统反哺自身?
一方面,用户因为年龄、性格、爱好、生活阅历的不同,对内容有不同的需求;另一方面,内容的种类和质量也影响用户的偏好。
以科技区为例,又可以展开为科学科普、社科人文、演讲公开课等二级导航;当你选择科学科普栏目,又能看到环境、科学、生物、气象这些小分类。
我们以罗翔教授的这篇《为什么刑法要严格解释》为例,从科技社科人文频道,进入视频详情页,可以在页面中部看到和视频相关的信息。
第一,视频播放量、弹幕量、评论数和数据排行表现,分别为161.1万、2.6万、7967和全站日排行最高第七。
第二,点赞数、不喜欢数、投币数、收藏数和分项数,其中不喜欢数并不显示,其余可量化的数据为24.1万、10万、3.3万和7616。
第三,视频标签,这里区分了比较热门的罗翔、法考专辑标签,也有刑法、校园星UP、厚大等普通热度话题。
从投稿页面可以发现,用户上传视频后,可以填写的内容有五项,分别是分区、标题、类型、标签和简介,其中标签的选择可以是自定义、推荐来源和参与活动。
如果按照视频投稿前后来给一份内容画侧写,创作者相关信息和内容信息可以归为静态数据,而具体的数据表现随时间会随时间变化归为动态数据。
万物皆有联系,“你的气质里,藏着你读过的书和走过的路”告诉我们人格特质会受读书习惯和生活经验影响,而用户的浏览、消费等操作行为也隐藏着个人的偏好。
播放历史的记录使得用户可以方便的追踪到自己在什么时间看了什么视频。但用户往往并不会关注自己看到了哪里,而只在乎下一次点进去是否可以跳过已播放的部分。
播放时间短,用户可能只是被播放量或标题吸引点进来随便看看, 但实际并不偏好此类内容;播放时间中等,用户可能偏好此类内容,但视频时长或质量会影响观看完整度;播放时间长,反映出这类内容可能正对用户兴趣。
此外,用户在视频详情页对内容的点赞、收藏或不喜欢等操作,也反映出了个人偏好;评论作为文本数据,也可以从其长度、情感偏颇、可读性反映出用户对内容的喜好程度。
上述可以被用户明确感知到的行为被归为显式行为,而另一类包含屏幕操作轨迹、停留时长等不易被用户感知到的操作被称为隐式行为。
后者除了被用于构建用户侧写外,也可以用于激发用户的显式行为,如在B站视频详情页停留时间满足一定水平后,会触发分享图标转为颜色鲜明的微信图标。
例如,用户的关注列表里70%都是类似巫师财经、硬核的半佛仙人、财经药丸这类up主,那系统在评估用户爱好的时候大几率会给贴上金融爱好者的标签。
B站用户的消费除了会员外,还包含课程、虚拟游戏、演出展览、线下游戏等,而消费会留下交易金额、时间、地址、类型等痕迹。
B站数亿活跃用户中,移动游戏月均付费用户接近150万,直播季度付费用户120万,占比仅为1%左右;作为“金主”,他们不仅在权益享受上优于普通用户,也会因其出色的消费能力而被推荐系统“盯上”,贴上“消费能力佳”的标签。
用户的身份信息包含性别、年龄、教育水平、地理位置等,允许访问通讯录、上网记录后,平台还可以获取到社交关系和其他产品使用情况,来推算用户对产品的需求程度。
从B站首页,我们可以发现:目前基于兴趣的推荐视频一般可以分为这几种:已关注、高赞视频、新星计划、关注的人赞过、广告和互动视频,这些标签正是基于内容或用户的tag标签推送到了用户面前,但单一的tag处理,推荐精确度上还有可以优化的空间。
完成对内容和用户的tag处理后,这两者仍是个体,但个体间会因为标签的类似产生联系,从而多个个体能够进入同一圈子,权重和相似性通常被用作划分圈子内个体关联程度的标准。
内容和内容之间的相似度常用创作者相关信息(认证、关注)或内容信息(频道、话题活动、关键词)来计算,而数据表现则一般用于排序展示在排行榜或热门中。
比如动物圈下的热门标签汪星人、喵星人、大熊猫等,就是因为内容信息中关键词的相似而被划分为同一类视频,进而可以集中展示;或是搜索场景,依据关键词进行搜索,关键词用于和数据库内的创作者或内容信息进行匹配。
用户和用户之间的相似度常用用户行为来计算,这一过程被称为协同过滤,主要以基于物品的协同和基于用户的协同为底层框架。
区别于上述的内容类聚,内容协同的过滤标准是用户行为指向内容的相似性,而后者的标准没有纳入用户的偏好。
主体是用户,根据某一用户喜欢的视频,找到和这位用户有类似偏好的用户,再把这个群体所偏好的视频推荐给用户。
根据给出的内容分区和浏览用户来判断用户的喜好,在基于内容的协同下,系统会给用户A推荐游戏区的内容——因为这三个分区的浏览用户相似度更高。
而在基于用户的协同下,系统会给用户A推荐动画和游戏区——因为A和用户B、C的浏览历史相似度更高,而这个群体似乎更偏好这两个分区。
观察下面这个例子,可以发现用户近期观看的偏好和关注up主皆是舞蹈音乐类,所以首页推荐同类视频的占比可以达到60%以上。
对于一个B站内新生产的视频来说,其数据表现在短期内并不具备很高的参考价值,所以可供推荐系统参考的是内容方的静态信息。
从创作者相关信息来看,一个过去创作记录更优质的up主的新内容会在冷启动阶段获得更高推荐量;从内容信息看,标题、更新时间、关键词和封面则是主要因素。
对于一名up主来说,标题、关键词的选取不过是短时间的哗众取宠,真正能获得稳定关注者和预期收益的关键在于提高内容质量、培养自身的持续创作能力。
基于平台对内容原创度、垂直度和传播度的衡量,up主可以更有针对性的寻找自身擅长、热点度高的版块,并构建自身创作的周期体系,在更新时间、内容质量上保持稳定性。
利用推荐算法的机制,普通用户也可以参照其原理,训练自己的推荐清单,从而合理利用B站。
比如,喜欢科普知识类分享的用户,在关注同类up主、延长科普类视频播放时长、增加点赞、评论、分享行为后,会发现首页推送会更合自己的兴趣。
相对内容,用户从注册到活跃,也会面临一个从0到1的过程,平台在此期间最重要的目的是通过优质内容提高用户活跃和留存。
相比行为数据,身份信息是平台可以获取到第一手信息,比如依据手机品牌对用户偏好做出第一轮兴趣猜想。
但要留住用户,平台更重要的任务是寻找到小白用户的兴趣点,给他贴上标签、划分兴趣圈。
一方面,平台可以通过某频道的强曝光逐步探索用户的兴趣,锁定具体分区并逐渐缩小范围,或是根据年龄这一维度更多元的属性来做用户协同推荐;另一方面,平台可以积极利用用户在初始阶段主动选择的分区、关键词搜索行为来逐步构建侧写。
平台给出的频道是有限的,而B站月均PUG视频提交量就可以达到310万,显然,把规模如此大的视频数仅用几个标签划分是远远不够的。
因此,B站不仅允许创作者给视频添加已有标签和自定义标签,还允许观众给视频添加标签,丰富视频维度。
从质量上看,B站目前延长了对视频的审核流程,意味着对视频真实性、原创、价值引导上的审核会更加严格,这一优化不仅是对用户的尊重,更有利于平台的长期维护。
推荐算法的怪圈在于“信息茧房”,一种体现是:用户越是消费某一类内容,系统越会推荐同类内容,而其他内容被隔离在外;另一种体现是:数据表现越好的内容越能获得推荐,而长尾视频无出头之日。
针对前者,B站的推荐系统并不会止步于用户已有兴趣的推荐,而是会在探索中鼓励用户发现自身更多元化的兴趣,这就是基于用户的协同推荐要优于基于内容的协同的地方。
针对后者,B站在长尾视频曝光上,引入了新星计划,也会提高首页推荐的权重。
- 本文固定链接: http://douyinkuaishou.cc/?id=29518
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论