Rongchai Wang
2025年8月19日 02:26 (UTC +8)
NVIDIA 推出 Streaming Sortformer,一款即時說話者分離模型,增強會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。
NVIDIA 已宣布推出其最新創新技術 Streaming Sortformer,這是一款即時說話者分離模型,旨在徹底改變會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示,這款模型專為處理低延遲、多說話者場景而設計,可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。
主要特點和功能
Streaming Sortformer 提供先進功能,增強其在各種即時應用中的可用性。它提供幀級分離功能,為每個語句提供精確的時間戳記,確保準確的說話者追蹤。該模型支援以最小延遲追蹤兩到四位說話者,並針對高效 GPU 推論進行了優化,使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化,但它在普通話數據集和其他語言上也展現出強大的性能。
基準性能
Streaming Sortformer 的性能評估在分離錯誤率 (DER) 方面顯示出令人印象深刻的結果,這是說話者識別準確性的關鍵指標,較低的錯誤率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好,展示了其在即時說話者追蹤環境中的潛力。
應用和使用案例
該模型的多功能性體現在其廣泛的應用範圍。從會議期間生成帶有說話者標籤的即時轉錄,到促進聯絡中心的合規性和質量保證,Streaming Sortformer 有望提高各行業的生產力。此外,它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手,並幫助媒體和廣播行業進行自動標記以便編輯。
技術架構
在底層,Streaming Sortformer 採用了複雜的架構,包括卷積預編碼模組和一系列 Conformer 和 Transformer 區塊。這些組件協同工作,處理和分析音頻,根據說話者在錄音中的出現順序進行排序。該模型使用到達順序說話者緩存 (AOSC) 處理小型重疊音頻塊,確保整個流程中一致的說話者識別。
未來前景和限制
儘管具有強大的功能,Streaming Sortformer 目前設計用於涉及最多四位說話者的場景。NVIDIA 承認需要進一步開發,以擴展其處理更多說話者的能力,並在各種語言和具挑戰性的聲學環境中提高性能。還計劃加強其與 Riva 和 NeMo 管道的整合。
對於有興趣探索 Streaming Sortformer 技術細節的人,NVIDIA 關於 Offline Sortformer 的研究可在 arXiv 上獲取。
圖片來源:Shutterstock
來源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification