作为第一届 L3DAS21 比赛的冠军,快手音视频技术部音频算法团队在深度学习的音频信号处理方向上持续探索。此次团队联合意大利罗马第一大学发起挑战赛,旨在提供一个通用的数据集和公平的测试平台,促进线D 深度音频信号处理核心技术的研究。基于深度学习的 3D 音频信号处理技术引起学术界和工业界广泛关注,在虚拟和真实会议、游戏开发、音乐制作,自动驾驶及监控等领域深入应用。相较于单通道音频,3D 音频携带的增量三维声源方位信息,有助于提升语音和情感识别、声源分离、语音增强和去噪,以及声学回声消除算法的效果。
任务一:多通道 3D 语音增强任务,专注于办公场景下的实时语音增强需求。
任务二:真实场景下特定声源检测和定位任务,专注于自动驾驶、监控等应用场景。
经过近三个月的激烈角逐,挑战赛结果正式出炉。任务一中,卡耐基梅隆大学、百度和腾讯分列前三名;中科院声学所、重庆邮电大学和新加坡 ForteMedia 分列任务二的前三名。同时,快手将为每个任务的前两名团队提供丰厚奖金。此次挑战赛数据集模拟了 40,000 余个 3D 环境,提供了 2 组 Ambisonics 格式的 3D 录音。参赛团队的成绩通过语音可懂度指标 (Short-Time Objective Intelligibility, STOI) 和单词错误率 (Word Error Rate, WER) 两个指标进行综合评定。
快手音视频技术部汇聚了音频领域顶尖人才,结合快手业务推进了前沿算法的应用和落地,深入实时语音通信、音频音效及后处理、音频内容理解、音频编解码、音频硬件等多个领域。团队成员在 IEEE ICASSP、Interspeech、ACM/IEEE TALSP 等顶级学术会议和期刊上,均有发表系列学术论文,并多次斩获音频挑战赛冠军。
快手定义的「音视频」不局限于画面观感,更强调「视」「听」统一的极致体验。在不同场景中,快手音视频技术部通过将丰富的音频处理能力与视频处理能力相结合,自动形成算法决策,为用户呈现真正的视听盛宴。对于前沿技术,团队将持续投入研发与探索,保持领先,以应对更为丰富多元的应用场景。
- 本文固定链接: http://douyinkuaishou.cc/?id=40874
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论