点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
关于案例背景
《2021中国移动互联网年度大报告》显示,短视频使用时长已反超即时通讯,成为占据人们网络时间最长的领域,增长势头迅猛。截至2021年12月,短视频用户黏性超过其他行业,同比增长4.7%,使用总时长占比达25.7%。然而短视频质量参差不齐,对用户造成了极大的困扰。一些优质的短视频,未经允许被“搬运工”和“剪刀手”稍作处理,成为吸引流量的工具;同一内容的短视频被“掐头去尾”,重复出现在不同平台,不仅令观众纳闷,更令视频原创作者烦恼,大大制约了短视频行业的创作环境。短视频的发展短板令人担忧。
随着在短视频平台活跃的青少年用户日益增加,抖音青少年项目从内容挖掘和智能推荐等多维度应用人工智能技术赋能业务,更好地服务青少年用户。抖音一直以来致力于响应联合国儿童基金会保护儿童的九大原则,从制度制定、技术开发等多侧不断强化未成年人保护。抖音“青少年模式”自上线以来,多次升级系统功能和打磨内容品质,于2021年9月17日针对14岁以下和14-18岁实名用户两个群体正式全面开启平台最严格青少年模式,成为国内各大视频平台中首家推出如此严格保护措施的平台。
本案例主要分享了抖音青少年项目如何应用机器学习技术,为广大青少年用户创建多样丰富、寓教于乐的内容消费环境。机器学习在抖音青少年项目中主要应用在以下场景中:
首先,内容挖掘模型赋能内容生态建设,丰富内容供给:青少年模式前期主要依靠运营人工检索挖掘账号丰富内容供给,为高效扩充青少年模式的内容池,我们引入机器学习内容挖掘模型,通过人工智能技术在抖音全局挖掘适合青少年观看的内容,补充青少年模式内容供给,优化、丰富内容供给生态,为青少年提供更加多样的视频内容。
其次,机器学习模型赋能适龄内容发掘,提升青少年使用体验:在用户调研访谈中,我们发现不同学段的青少年需求有明显差异,为针对性提升青少年内容消费体验,我们在推荐系统中增加了用户侧和内容侧的特征,提升个性化推荐效果,向不同年龄段的青少年推荐适龄内容,满足青少年用户多样的内容消费偏好和对内容的个性化需求。
关于技术方案的具体措施
儿童获取信息、学习知识技能的方式也越来越多样化,而机器学习便可以成为为儿童学习与教育服务的重要技术。大数据时代的机器学习更强调“学习本身是手段"机器学习成为一种支持和服务技术。
特征工程,其实是将数据属性转换为数据特征的过程,对数据进行预处理的话,算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。在内容挖掘模型中采用了图像特征、语音特征、文本特征,并且对这些特征进一步分析,选择出作者维度特征、画风模型特征、互动维度特征、内容理解特征、文本长度特征。在机器学习模型中采用了基于视频分龄的内容侧特征和基于用户类型、学段的用户侧特征。这项技术有利于对儿童学习需求进行更加精确的侧写,帮助儿童从多感官更好地认识世界。
互联网挖掘技术,是面对互联网上海量、分布、动态、异质、复杂、非结构化的丰富信息资源,用户如何从中查找、抽取自己想要的数据和有用信息而由此产生。可分为三类:互联网内容挖掘、互联网结构挖掘和互联网应用挖掘。内容挖掘可以抽取对儿童认知有益的、健康的、有学习意义的信息。
内容挖掘模型赋能内容生态建设,该模型流程图如图1所示。内容挖掘模型的训练主要分为,训练集的选取、模型训练、输出结果策略三个部分。
图1 内容挖掘模型流程图
机器学习模型赋能适龄内容发掘,图2展示了该推荐系统流程图。机器学习模型的训练主要分为筛选视频、读取数据、计算视频得分、返回结果四部分。
图2推荐系统流程图
推荐模型中加入青少年用户类型、青少年用户具体年龄段、内容的匹配年龄分段的特征维度,提升推荐系统个性化推荐能力和准确性,为青少年用户推荐更符合其个性化偏好的内容,帮助青少年更好地学习和成长。
关于应用效果
目前青少年模式内容池已有丰富优质内容,内容挖掘模型已为青少年内容池贡献了21%的内容供给量级,并将持续丰富特征、优化模型为青少年模式输入内容、丰富青少年内容生态。其中,内容分龄模型已训练完成(准确率90%以上)并上线,当前推荐算法会结合用户类型、学段和内容分龄进行推荐分发,为青少年提供更加个性化、多元化和适龄的消费体验。
本产品也面临着很多挑战,一是系统化和自动化的歧视和因偏差产生的排斥;二是基于人工智能的预测分析和侧写对儿童机会和发展的限制;三是基于人工智能的系统也被用于侧写。这些技术大多数受商业利益驱动,会限制儿童的世界观、上网体验和知识水平,从而影响儿童的表达权和言论自由。最终,当儿童在持续的监视下成长,他们的能动性和自主性受到人工智能系统的限制,他们的幸福感和充分发展的潜力将受到限制。
(案例报送单位来自北京微播视界科技有限公司,上文为部分节选,如需全文请联系项目组。)