NVIDIA 推出流式 Sortformer 实时说话人识别技术

Rongchai Wang
2025年8月19日 02:26

英伟达推出Streaming Sortformer，一种实时说话人分类模型，增强会议、通话和语音应用中的多说话人跟踪。了解其功能和潜在应用。

英伟达推出Streaming Sortformer实现实时说话人识别

英伟达宣布推出其最新创新产品Streaming Sortformer，这是一种实时说话人分类模型，旨在彻底改变在会议、通话和语音应用中识别说话人的方式。据英伟达称，该模型专为处理低延迟、多说话人场景而设计，可与英伟达NeMo和英伟达Riva工具无缝集成。

主要特点和功能

Streaming Sortformer提供先进功能，增强其在各种实时应用中的可用性。它提供帧级分类，为每个话语提供精确时间戳，确保准确的说话人跟踪。该模型支持以最小延迟跟踪两到四位说话人，并针对高效GPU推理进行了优化，使其可用于NeMo和Riva工作流程。虽然主要针对英语进行优化，但它在普通话数据集和其他语言上也表现出色。

基准性能

对Streaming Sortformer的性能评估显示，在说话人分类错误率(DER)方面取得了令人印象深刻的结果，这是衡量说话人识别准确性的关键指标，较低的错误率表示更好的性能。该模型与现有系统如EEND-GLA和LS-EEND相比表现良好，展示了其在实时说话人跟踪环境中的潜力。

应用和使用场景

该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话人标签的实时转录，到促进联络中心的合规性和质量保证，Streaming Sortformer有望提高各行业的生产力。此外，它通过改善对话自然度和轮流发言，支持语音机器人和AI助手，并通过自动标记辅助媒体和广播行业的编辑工作。

技术架构

在底层，Streaming Sortformer采用了复杂的架构，包括卷积预编码模块和一系列conformer和transformer块。这些组件协同工作，处理和分析音频，根据说话人在录音中的出现对其进行排序。该模型使用到达顺序说话人缓存(AOSC)处理小型重叠音频块，确保整个流程中说话人识别的一致性。

未来前景和局限性

尽管具有强大的功能，Streaming Sortformer目前设计用于涉及最多四位说话人的场景。英伟达承认需要进一步开发，以扩展其处理更多说话人的能力，并提高在各种语言和具有挑战性的声学环境中的性能。还计划加强其与Riva和NeMo管道的集成。

对于有兴趣探索Streaming Sortformer技术细节的人，英伟达关于Offline Sortformer的研究可在arXiv上获取。

图片来源：Shutterstock

来源：https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

NVIDIA 推出流式 Sortformer 实时说话人识别技术

主要特点和功能

基准性能

应用和使用场景

技术架构

未来前景和局限性

你可能也会喜欢

巴西将于8月20日在副总统支持下举行首次关于190亿美元国家战略比特币储备的公开听证会

亚历克斯·沃伦匹配贾斯汀·比伯的电台记录

泰勒·斯威夫特看到三张专辑同时回归

热门新闻

巴西将于8月20日在副总统支持下举行首次关于190亿美元国家战略比特币储备的公开听证会

亚历克斯·沃伦匹配贾斯汀·比伯的电台记录

泰勒·斯威夫特看到三张专辑同时回归

华尔街公司加倍看空Palantir，预见未来70%下跌空间

美国银行使用比特币闪电网络进军7400亿美元汇款市场