Rongchai Wang
2025年8月19日 02:26
英伟达推出Streaming Sortformer,一种实时说话人分类模型,增强会议、通话和语音应用中的多说话人跟踪。了解其功能和潜在应用。
英伟达宣布推出其最新创新产品Streaming Sortformer,这是一种实时说话人分类模型,旨在彻底改变在会议、通话和语音应用中识别说话人的方式。据英伟达称,该模型专为处理低延迟、多说话人场景而设计,可与英伟达NeMo和英伟达Riva工具无缝集成。
主要特点和功能
Streaming Sortformer提供先进功能,增强其在各种实时应用中的可用性。它提供帧级分类,为每个话语提供精确时间戳,确保准确的说话人跟踪。该模型支持以最小延迟跟踪两到四位说话人,并针对高效GPU推理进行了优化,使其可用于NeMo和Riva工作流程。虽然主要针对英语进行优化,但它在普通话数据集和其他语言上也表现出色。
基准性能
对Streaming Sortformer的性能评估显示,在说话人分类错误率(DER)方面取得了令人印象深刻的结果,这是衡量说话人识别准确性的关键指标,较低的错误率表示更好的性能。该模型与现有系统如EEND-GLA和LS-EEND相比表现良好,展示了其在实时说话人跟踪环境中的潜力。
应用和使用场景
该模型的多功能性体现在其广泛的应用范围。从在会议期间生成带有说话人标签的实时转录,到促进联络中心的合规性和质量保证,Streaming Sortformer有望提高各行业的生产力。此外,它通过改善对话自然度和轮流发言,支持语音机器人和AI助手,并通过自动标记辅助媒体和广播行业的编辑工作。
技术架构
在底层,Streaming Sortformer采用了复杂的架构,包括卷积预编码模块和一系列conformer和transformer块。这些组件协同工作,处理和分析音频,根据说话人在录音中的出现对其进行排序。该模型使用到达顺序说话人缓存(AOSC)处理小型重叠音频块,确保整个流程中说话人识别的一致性。
未来前景和局限性
尽管具有强大的功能,Streaming Sortformer目前设计用于涉及最多四位说话人的场景。英伟达承认需要进一步开发,以扩展其处理更多说话人的能力,并提高在各种语言和具有挑战性的声学环境中的性能。还计划加强其与Riva和NeMo管道的集成。
对于有兴趣探索Streaming Sortformer技术细节的人,英伟达关于Offline Sortformer的研究可在arXiv上获取。
图片来源:Shutterstock
来源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification