NVIDIA 推出串流 Sortformer 實現即時說話者識別

Rongchai Wang
2025年8月19日 02:26 (UTC +8)

NVIDIA 推出 Streaming Sortformer，一款即時說話者分離模型，增強會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。

NVIDIA 推出 Streaming Sortformer 實現即時說話者識別

NVIDIA 已宣布推出其最新創新技術 Streaming Sortformer，這是一款即時說話者分離模型，旨在徹底改變會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示，這款模型專為處理低延遲、多說話者場景而設計，可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。

主要特點和功能

Streaming Sortformer 提供先進功能，增強其在各種即時應用中的可用性。它提供幀級分離功能，為每個語句提供精確的時間戳記，確保準確的說話者追蹤。該模型支援以最小延遲追蹤兩到四位說話者，並針對高效 GPU 推論進行了優化，使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化，但它在普通話數據集和其他語言上也展現出強大的性能。

基準性能

Streaming Sortformer 的性能評估在分離錯誤率 (DER) 方面顯示出令人印象深刻的結果，這是說話者識別準確性的關鍵指標，較低的錯誤率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好，展示了其在即時說話者追蹤環境中的潛力。

應用和使用案例

該模型的多功能性體現在其廣泛的應用範圍。從會議期間生成帶有說話者標籤的即時轉錄，到促進聯絡中心的合規性和質量保證，Streaming Sortformer 有望提高各行業的生產力。此外，它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手，並幫助媒體和廣播行業進行自動標記以便編輯。

技術架構

在底層，Streaming Sortformer 採用了複雜的架構，包括卷積預編碼模組和一系列 Conformer 和 Transformer 區塊。這些組件協同工作，處理和分析音頻，根據說話者在錄音中的出現順序進行排序。該模型使用到達順序說話者緩存 (AOSC) 處理小型重疊音頻塊，確保整個流程中一致的說話者識別。

未來前景和限制

儘管具有強大的功能，Streaming Sortformer 目前設計用於涉及最多四位說話者的場景。NVIDIA 承認需要進一步開發，以擴展其處理更多說話者的能力，並在各種語言和具挑戰性的聲學環境中提高性能。還計劃加強其與 Riva 和 NeMo 管道的整合。

對於有興趣探索 Streaming Sortformer 技術細節的人，NVIDIA 關於 Offline Sortformer 的研究可在 arXiv 上獲取。

圖片來源：Shutterstock

來源：https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

NVIDIA 推出串流 Sortformer 實現即時說話者識別

主要特點和功能

基準性能

應用和使用案例

技術架構

未來前景和限制

您可能也會喜歡

新《南方公園》劇集針對 Trump 的華盛頓特區接管

《KPop 惡魔獵人》達成罕見串流成就

加拿大通貨膨脹率降低速度超出預期，加拿大元走弱

熱門新聞

新《南方公園》劇集針對 Trump 的華盛頓特區接管

《KPop 惡魔獵人》達成罕見串流成就

加拿大通貨膨脹率降低速度超出預期，加拿大元走弱

Layer Brett 準備挑戰 Shiba Inu 並超越 Dogecoin 獲取收益

Arbitrum Gaming Ventures 向 Ronin 提供 750K ARB 成為 Orbit 鏈