NVIDIA 推出流式 Sortformer 实时说话人识别技术



Rongchai Wang
2025年8月19日 02:26

英伟达推出Streaming Sortformer,一种实时说话人分类模型,增强会议、通话和语音应用中的多说话人跟踪。了解其功能和潜在应用。



英伟达推出Streaming Sortformer实现实时说话人识别

英伟达宣布推出其最新创新产品Streaming Sortformer,这是一种实时说话人分类模型,旨在彻底改变在会议、通话和语音应用中识别说话人的方式。据英伟达称,该模型专为处理低延迟、多说话人场景而设计,可与英伟达NeMo和英伟达Riva工具无缝集成。

主要特点和功能

Streaming Sortformer提供先进功能,增强其在各种实时应用中的可用性。它提供帧级分类,为每个话语提供精确时间戳,确保准确的说话人跟踪。该模型支持以最小延迟跟踪两到四位说话人,并针对高效GPU推理进行了优化,使其可用于NeMo和Riva工作流程。虽然主要针对英语进行优化,但它在普通话数据集和其他语言上也表现出色。

基准性能

对Streaming Sortformer的性能评估显示,在说话人分类错误率(DER)方面取得了令人印象深刻的结果,这是衡量说话人识别准确性的关键指标,较低的错误率表示更好的性能。该模型与现有系统如EEND-GLA和LS-EEND相比表现良好,展示了其在实时说话人跟踪环境中的潜力。

应用和使用场景

该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话人标签的实时转录,到促进联络中心的合规性和质量保证,Streaming Sortformer有望提高各行业的生产力。此外,它通过改善对话自然度和轮流发言,支持语音机器人和AI助手,并通过自动标记辅助媒体和广播行业的编辑工作。

技术架构

在底层,Streaming Sortformer采用了复杂的架构,包括卷积预编码模块和一系列conformer和transformer块。这些组件协同工作,处理和分析音频,根据说话人在录音中的出现对其进行排序。该模型使用到达顺序说话人缓存(AOSC)处理小型重叠音频块,确保整个流程中说话人识别的一致性。

未来前景和局限性

尽管具有强大的功能,Streaming Sortformer目前设计用于涉及最多四位说话人的场景。英伟达承认需要进一步开发,以扩展其处理更多说话人的能力,并提高在各种语言和具有挑战性的声学环境中的性能。还计划加强其与Riva和NeMo管道的集成。

对于有兴趣探索Streaming Sortformer技术细节的人,英伟达关于Offline Sortformer的研究可在arXiv上获取。

图片来源:Shutterstock


来源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

免责声明:本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。
分享文章

你可能也会喜欢

亚历克斯·沃伦匹配贾斯汀·比伯的电台记录

亚历克斯·沃伦匹配贾斯汀·比伯的电台记录

帖子《Alex Warren 匹配 Justin Bieber 的电台记录》出现在 BitcoinEthereumNews.com。Alex Warren 的《Ordinary》在流行广播播放榜上连续第十周保持第一,这是自 2021 年 The Kid Laroi 和 Justin Bieber 的《Stay》以来最长的连冠纪录。芝加哥,伊利诺伊州 – 7 月 31 日:Alex Warren 于 2025 年 7 月 31 日在芝加哥格兰特公园的 Lollapalooza 音乐节上表演。(照片由 Joshua Applegate/WireImage 提供)WireImage Alex Warren 的《Ordinary》正成为 2025 年最大的惊喜热门歌曲之一。在发布这首已成为他职业生涯最成功的歌曲之前,Warren 已经崭露头角,但这位创作歌手凭借《Ordinary》达到了新高度。这首歌本周领跑多个 Billboard 排行榜,并在最具竞争力的电台榜单上再次登顶,Warren 实现了多年来其他艺人未能达成的壮举。《Ordinary》连续 10 周位居第一 《Ordinary》再次领跑流行广播播放榜。截至这个最新的里程碑周,该歌曲已连续 10 周被评为美国全国 Top 40 流行电台最成功的曲目。自 Justin Bieber 以来首个统治 10 周的歌曲 据 Billboard 报道,《Ordinary》是自 2021 年以来首个在流行广播播放榜上统治 10 周的歌曲。那一年,The Kid Laroi 和 Justin Bieber 合作的《Stay》成功连续 10 周位居榜首。《Stay》最终在流行广播播放榜上共统治了 13 个周期。在多个 Billboard 排行榜上位居第一 《Ordinary》在 Billboard 的三个流行电台榜单上都保持强劲表现。Warren 的这首歌同时领跑流行广播播放榜和成人流行广播播放榜,同时在成人当代榜上攀升至第 6 位。随着《Ordinary》在该榜单上的上升,这首歌达到了新的历史最高位置。...
分享
BitcoinEthereumNews2025/08/21 00:12
分享
泰勒·斯威夫特看到三张专辑同时回归

泰勒·斯威夫特看到三张专辑同时回归

帖子《Taylor Swift 看到三张专辑同时回归》出现在 BitcoinEthereumNews.com。Taylor Swift 本周在热门流媒体专辑榜上占据五个位置,因为《Lover》、《Reputation》和《Midnights》都重返榜单。纽瓦克,新泽西州 – 8月28日:Taylor Swift 于2022年8月28日在新泽西州纽瓦克的普鲁登夏尔中心参加2022年MTV音乐录影带大奖。(照片:Cindy Ord/WireImage)WireImage Taylor Swift 的作品目录在过去几周经历了相当疯狂的旅程。她所有的专辑——无论是重新录制的作品还是原创项目——都因为这位创作歌手为世界准备新时代而人气爆发。最近,Swift 透露她即将推出的第十二张全长专辑《The Life of a Showgirl》预计将于10月3日发布。仅仅提及新音乐就帮助她多张最受欢迎的作品再次成为强劲的销售者,尤其是强大的流媒体播放量。Swift 的作品目录在 Spotify 和 Apple Music 等平台上从未受挫,但本周对她的多个项目来说尤其辉煌,这些项目重新跃上了 Billboard 最新的榜单之一。《Lover》、《Reputation》和《Midnights》回归 Swift 的三张专辑本周重新出现在热门流媒体专辑榜上。这种上升趋势凸显了美国大量人口中对她过去全长专辑的消费有了显著回归。她三张回归作品中的两张成功进入前40名。《Lover》重新进入热门流媒体专辑榜,位列第36位,而《Reputation》则回到第40位。《Midnights》排在那个重要区域下方几个位置,它悄悄重返全国最多流媒体播放的全长专辑和EP列表,位列第43位。三张前十名专辑 Swift 所有三张回归的热门作品已经在热门流媒体专辑榜上停留了数月,而且它们每一张都曾进入过前十名...
分享
BitcoinEthereumNews2025/08/20 23:45
分享