今日头条推荐算法原理全文详解之二

zz/2024/4/20 14:29:35

模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据,包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统,因为头条数据规模增长太快,类似的开源系统稳定性和性能无法满足,而我们自研的系统底层做了很多针对性的优化,提供了完善运维工具,更适配现有的业务场景。

目前,头条的推荐算法模型在世界范围内也是比较大的,包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征,导入到Kafka文件队列中,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时,因为文章推荐后用户不一定马上看,不考虑这部分时间,整个系统是几乎实时的。
在这里插入图片描述
今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第7张

但因为头条目前的内容量非常大,加上小视频内容有千万级别,推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略,每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致,一般超时不能超过50毫秒。
在这里插入图片描述
今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第8张

召回策略种类有很多,我们主要用的是倒排的思路。离线维护一个倒排,这个倒排的key可以是分类,topic,实体,来源等,排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断,高效的从很大的内容库中筛选比较靠谱的一小部分内容。
在这里插入图片描述
今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第9张

二、内容分析

内容分析包括文本分析,图片分析和视频分析。头条一开始主要做资讯,今天我们主要讲一下文本分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签,无法得到用户兴趣标签。举个例子,只有知道文章标签是互联网,用户看了互联网标签的文章,才能知道用户有互联网标签,其他关键词也一样。
在这里插入图片描述
今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第10张

另一方面,文本内容的标签可以直接帮助推荐特征,比如魅族的内容可以推荐给关注魅族的用户,这是用户标签的匹配。如果某段时间推荐主频道效果不理想,出现推荐窄化,用户会发现到具体的频道推荐(如科技、体育、娱乐、军事等)中阅读后,再回主feed,推荐效果会更好。因为整个模型是打通的,子频道探索空间较小,更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大,子频道做的好很重要。而这也需要好的内容分析。
在这里插入图片描述
今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第11张

上图是今日头条的一个实际文本case。可以看到,这篇文章有分类、关键词、topic、实体词等文本特征。当然不是没有文本特征,推荐系统就不能工作,推荐系统最早期应用在Amazon,甚至沃尔玛时代就有,包括Netfilx做视频推荐也没有文本特征直接协同过滤推荐。但对资讯类产品而言,大部分是消费当天内容,没有文本特征新内容冷启动非常困难,协同类特征无法解决文章冷启动问题。
在这里插入图片描述


http://www.ngui.cc/zz/2390092.html

相关文章

我们分析了 10000 条视频,终于知道了今日头条推荐系统的秘密

本文首发于 视频帮平台(ID:kbstreet),作者齐穆。大数据获授权转发,如需转载请与首发公众号联系,谢绝二次转载。 就算法机制平台而言,播放量绝大部分取决于【推荐量】。 受“今日头条金秒奖组委…

我们分析了10000条视频,终于知道了今日头条推荐系统的秘密

本文首发于 视频帮平台(ID:kbstreet),作者齐穆。大数据获授权转发,如需转载请与首发公众号联系,谢绝二次转载。就算法机制平台而言,播放量绝大部分取决于【推荐量】。受“今日头条金秒奖组委会”…

今日头条推荐算法原理 - 梳理

PS:腾讯新闻和今日头条,我每天都会对比着用,喜欢腾讯新闻的细致和头条的粗暴。 算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。 今日头条的推荐算…

今日头条推荐算法原理全文详解之五

四、评估分析 上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好? 有一句我认为非常有智慧的话,“一个事情没法评估就没法优化”。对推荐系统也是一样。 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第25张 事…

今日头条推荐系统算法岗日常实习面试经验

今日头条推荐系统算法岗日常实习面试经验 时间:2019年3月27日 地点:校内视频面试 一面 深度学习基础 Adam的原理、公式 (没答上来) 找了一个简书的讲解,挺好的,有需要的同学可以移步简单认识Adam优化器 Dropout的原理 (为什么…

今日头条推荐算法研究

算法分发是信息平台,搜索引擎,浏览器,社交软件等几乎所有软件的标配。系统推荐系统的本质上要解决用户 环境和资讯的匹配 y F (Xi, Xu,Xc)推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,…

今日头条推荐算法原理全文详解

本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。 一、系统概览 推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。 第一个维度是内容…

干货丨3分钟了解今日头条推荐算法原理(附视频+PPT)

今日头条的内容分发算法一直颇神秘低调。自12年开发运营起进四次改版,从未透露核心内容。2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法,希望消除各…

tensorflow WGAN 实现

1 生成器判别器实现 import tensorflow as tf from tensorflow import keras from tensorflow.keras import layersclass Generator(keras.Model):def __init__(self):super(Generator, self).__init__()# z: [b, 100] > [b, 3*3*512] > [b, 3, 3, 512] > [b,…

WGAN的代码实现

1.哔站视频链接: https://www.bilibili.com/video/BV1TU4y1H7Mz?spm_id_from333.1007.top_right_bar_window_custom_collection.content.click 2.github链接: https://github.com/dragen1860/Deep-Learning-with-PyTorch-Tutorials/blob/master/less…