快手基于Alveo优化大规模网络直播和短视频自动语音识别服务_快手网红

　　快手成立于 2011年3月，总部位于北京，是全球用户利用短视频或者直播形式记录和分享日常生活的领先内容社区和社交平台，每天产生上千万条原创新鲜视频。

　　自动语音识别（ASR）是电子商务、短视频、直播等众多应用的核心技术之一。ASR 在快手有许多的应用场景，是快手 APP、直播、风控、游戏等众多业务的核心功能，尤其是在直播和短视频应用领域。 ASR流式自动语音识别，已经成为快手各种创新服务的核心技术之一。比如广受主播们喜爱的直播间小快机器人（语音助手），快手 APP 语音搜索、直播间语音输入法、语音魔法表情、一甜相机实时字幕，以及最新上线的快影自动字幕服务等等，为全球数亿用户带来了前所未有的各种创新体验。

　　作为全球最受欢迎的直播和短视频应用平台之一，快手全球平均每天有 3 亿活跃用户通过各种终端在快手平台记录和分享他们的生活或体验。面对如此庞大的规模用户和应用场景，快手希望能够优化其 ASR 服务，满足不断增长的客户需求，并为他们提供更好的用户体验。

　　用户体验最重要的性能指标，就是时延和并发路数。致力于“围绕快手核心业务打造技术护城河”的快手异构计算中心，借助赛灵思Alveo™及相关工具套件，大幅提升了ASR 整体服务性能和用户满意度，成为国内大规模网络直播和短视频应用场景的ASR 典范。

　　在快手之前基于CPU框架的处理流程中，特征提取等前处理模块运行时间占比约为 5%～10%， TDNN+LSTM 声学模型运行时间占比约为 60%～80%，而包含语言模型的解码器部分运行时间占比约为 15%～30%。快手异构计算中心，希望找到一个更合适的异构底层器件，将最耗时的TDNN+LSTM 声学模型转移到这个器件上并进行优化。

　　快手异构计算中心团队认为，以 TDNN+LSTM 为主结构的流式声学模型优化的关键痛点有三个，那就是时延（Latency）、实时率（RTF，Realme Factor）和并发数（Concurrency），具体而言需要解决如下问题：

　　此外，快手对GPU进行了评估，发现其硬件使用率（UTIlizaTIon）比较低，不能满足RTF需求，SRAM容量也无法满足TDNN+LSTM模型高并发性的需求。至于主流的ASIC，除了以上介绍的硬件使用率问题外，还存在不支持 Kaldi 框架，定点实际只有 12bit 等问题，很难满足ASR优化在精度上的需求。

　　综上所述，快手技术团队认为，满足上述需求的理想的异构器件平台，应当是一个可以全定制的专用平台，可以通过软硬件协同设计确保精度符合各种不同业务的标准。

　　快手异构计算中心经过评估后，决定选用赛灵思的Alveo U50LV加速器卡来优化 ASR 服务。

　　“我们认为理想的 ASR 加速解决方案，是可以支持高带宽、大 SRAM 和定点推断的硬件平台，”快手异构计算中心总监刘凌志博士表示：“赛灵思的 AlveoFPGAU50LV 完全符合我们的要求。”

　　结合公司自研的定点通用推理框架和定点 C 模型，快手基于Alveo U50LV 及赛灵思相关 ViTIs HLS 高层次综合及 Vitis Design Flow，从算法、系统、软件和硬件等多个关键层面对ASR 系统进行了多方位的创新，应用了多项最先进的优化技术：

　　算法层面：采用图融合、图优化、图同构、图分割，以及不重训的高精度量化技术，在保证精度的同时，有效的压缩了模型，使之更有利于FPGA 计算效率的发挥；

　　系统层面：自研通用推理框架及适合FPGA的通用Host调度框架，支持多模型，模型可扩展，自动化部署，具有很强的易用性；

　　软件层面：设计Batch机制，基于OpenCL的任务调度及负载均衡策略，实现了任务级的数据传输、kernel 计算等高效并行处理；

　　硬件层面：自定义基于超长指令字的指令集架构，设计编译器，并基于 Vitis™ HLS高层次综合优化技术，快速完成了高效的FPGA底层设计。和直接采用硬件描述语言（如VerilogHDL）相比，HLS 技术在更高的抽象层次上使用C++/C++ 的语法描述硬件行为，不仅达到了和 Verilog 接近的效果，而且加速了各种优化技术的实现，将开发时间从 3 个月缩短到 6 周。

　　优化后的系统整体架构如图三所示：调度加速引擎的代码框架（ Host ）接收输入的语音数据，经过前处理、神经网络推断和后处理过程，生成识别后的文本。其中黄色部分的神经网络推断过程是卸载到Alveo 加速卡上来完成的。

　　借助赛灵思 Alveo 加速卡及相关设计工具，快手最终实现了针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案，全面优化了ASR 服务，实现了：

　　1.大幅减轻了CPU 的工作负载，将单台服务器业务处理能力提升7.5倍；

　　4.大幅缩短了开发周期。通过采用OpenCL实现了与现有业务无缝集成，并借助 Vitis Design Flow将设计周期从3个月减少到6周。

　　这是 FPGA 在国内大规模直播及短视频自动语音识别场景落地的首个成功案例，展示了快手各种创新应用背后技术团队强大的实力。2021年中以来，优化的ASR 服务已经在快手直播及短视频应用平台广泛部署，目前有数亿用户正在享受其所带来的前所未有的语音识别体验。

　　声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容图片侵权或者其他问题，请联系本站作侵删。侵权投诉

　　并行处理能力，为构建这些关键应用提供了理想的基础。赛灵思日前推出了一款基于

　　分析平台。它具备合作伙伴解决方案生态系统，并且专为最复杂、时延最敏感的 AI

　　Flow特征提取;最后利用字典学习的方法对构建的联合特征进行稀疏表示，

　　下多媒体内容处理的成本与体验之间的平衡，不断为我们带来了新的挑战和新的惊喜。

　　此次IPO受到市场追捧，成为近期新股发行的人气王，当然跟其背后巨大的群众基础分不开，最新数据显示，

　　，迎来港股投资者空前高涨的打新热情，成为资本市场近期最热门的话题。“老铁经济”迎来高光时刻的背后，国内

　　行业已经经历了四个阶段，分别是蓄势期、转型期、爆发期和平稳期。目前处在平稳期，竞争格局逐渐稳定，

　　已通过港交所上市聆讯，最快于1月26日招股，上市团队保荐人将于1月18日启动分析师路演，评估投资者需求，计划于今年2月5日挂牌。

　　其他广告走红的方式不同，其广告因为存在严重的价值观问题而受到了诸多网友批评。随着事情持续发酵，12月15日，京东金融官方就

　　平台配乐是否侵权的争议一直存在，日前，中国音像著作权集体管理协会在北京召开“

　　10月15日，第三方数据分析机构艾媒咨询发布《2020—2021年中国

　　声卡设备领域应用发展白皮书》（以下简称《白皮书》），《白皮书》显示，在

　　视听应用是吸引新网民的主要力量。2020年3月—6月，在新增的3625万网民中，有23.9%是为了使用

　　上，公平、普惠的价值观深入商业模式中，而由此构建起的老铁关系，打造了强信任驱动，从而更好地实现了“人带货”的电商模式。

　　部署竞争中，面对诸多技术挑战，任何公司都无法突破速度限制。根据Forrester对全球汽车行业 54 位专家的调查显示，目前大家看到的

　　一倍多，由350款增加到760款。CNNIC的数据显示，截至2018年12月，我国

　　画面常卡顿，影响观感。得益于5G技术的发展，今年，湖北之声不仅实现顺畅的

　　刷赞作品的时候相互推送，也可以到其他网红账号下评论，更多精彩内容@橘子网红助手（大号）。刚注册的时候先刷几天

　　作品的各项指标到达阀值，才能进入下一步的流量池。其中粉丝量是一个重要的指标，很多作品没有上热门上推荐

　　的小伙伴每天苦思冥想，绞尽脑汁的给出创意，给出段子，有的是为了单纯的记录生活的点点滴滴，而有的是为了能够吸引更多的粉丝，成为网红。在一些

　　，虽说拥有许多年轻用户，但在中国互联网产品册上，已经不算年轻，毕竟同样选择渠道下沉的拼

　　的流量与技术优势，围绕“奋进新时代、欢度幸福年”春晚主题，传播精彩内容，还与央视达成了公益广告等多项合作。据悉，

　　App Annie发布的《2019 年移动市场报告》显示，2018年中国App月活跃用户数前十名里并无抖音、

　　提供了英特尔®MKL与高性能编译器两项“尖端武器”。前者包含了一系列经过深度

　　矢量化的数学函数，能够最大化地发挥基于英特尔®架构的处理器的性能潜力。

　　收发单元等每个组成部分进行详细介绍，对在技术开发过程中会遇到的技术难题提出解决措施建议，在此基础上探讨后续5G

　　兴起的元年。而不同以往的是，这一次的市场角逐中，虽然也有诸多玩家，但可以说主要是两个创业者的角逐，宿华

　　屏平台在迅速聚集大量流量的同时，也赚得盆满钵满。面对巨大的市场红利，就连

　　，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的

　　”都已经在应用商店默默上线。因为这两款APP还在用户验证阶段，没有进行

　　定制等主题。由于内容较短，可以单独成片，也可以成为系列栏目。不同于微电影

　　，实现例如外星人，化妆等特效目前，已经接入全局美颜、大眼瘦脸、动态贴纸及全新滤镜功能。

　　屏平台在迅速聚集大量流量的同时，也赚得盆满钵满。面对巨大的市场红利，就连

　　数据的基本途径．概率模型以其灵活的建模和解释能力、坚实的理论框架成为各领域研究

　　摘在图像分类任务中，为了获得更高的分类精度，需要对图像提取不同层次的特征信息．深度学习被越来越多的应用于

　　技术对特征筛选的人工技能要求高，而且准确率低。deep learning

　　Automatic Speech Recognition，(ASR)，其目标是将人类的

　　器系统的组成 1 、Oracle Video Server简介 OVS(Oracle Video Server)是能适合较

　　),IP,TV, IP video, IPTV,STB,摘要:三重播放

本文固定链接: https://www.douyinkuaishou.cc/?id=31416
转载请注明: admin 2022年04月01日于抖音快手发表

作者：admin

抖音快手站点 QQ交谈

快手基于Alveo优化大规模网络直播和短视频自动语音识别服务

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复取消回复

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复 取消回复

留下一个回复取消回复