NVIDIA 推出串流 Sortformer 實現即時說話者識別



Rongchai Wang
2025年8月19日 02:26 (UTC +8)

NVIDIA 推出 Streaming Sortformer,一款即時說話者分離模型,增強會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。



NVIDIA 推出 Streaming Sortformer 實現即時說話者識別

NVIDIA 已宣布推出其最新創新技術 Streaming Sortformer,這是一款即時說話者分離模型,旨在徹底改變會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示,這款模型專為處理低延遲、多說話者場景而設計,可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。

主要特點和功能

Streaming Sortformer 提供先進功能,增強其在各種即時應用中的可用性。它提供幀級分離功能,為每個語句提供精確的時間戳記,確保準確的說話者追蹤。該模型支援以最小延遲追蹤兩到四位說話者,並針對高效 GPU 推論進行了優化,使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化,但它在普通話數據集和其他語言上也展現出強大的性能。

基準性能

Streaming Sortformer 的性能評估在分離錯誤率 (DER) 方面顯示出令人印象深刻的結果,這是說話者識別準確性的關鍵指標,較低的錯誤率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好,展示了其在即時說話者追蹤環境中的潛力。

應用和使用案例

該模型的多功能性體現在其廣泛的應用範圍。從會議期間生成帶有說話者標籤的即時轉錄,到促進聯絡中心的合規性和質量保證,Streaming Sortformer 有望提高各行業的生產力。此外,它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手,並幫助媒體和廣播行業進行自動標記以便編輯。

技術架構

在底層,Streaming Sortformer 採用了複雜的架構,包括卷積預編碼模組和一系列 Conformer 和 Transformer 區塊。這些組件協同工作,處理和分析音頻,根據說話者在錄音中的出現順序進行排序。該模型使用到達順序說話者緩存 (AOSC) 處理小型重疊音頻塊,確保整個流程中一致的說話者識別。

未來前景和限制

儘管具有強大的功能,Streaming Sortformer 目前設計用於涉及最多四位說話者的場景。NVIDIA 承認需要進一步開發,以擴展其處理更多說話者的能力,並在各種語言和具挑戰性的聲學環境中提高性能。還計劃加強其與 Riva 和 NeMo 管道的整合。

對於有興趣探索 Streaming Sortformer 技術細節的人,NVIDIA 關於 Offline Sortformer 的研究可在 arXiv 上獲取。

圖片來源:Shutterstock


來源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

免責聲明:本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章

您可能也會喜歡

新《南方公園》劇集針對 Trump 的華盛頓特區接管

新《南方公園》劇集針對 Trump 的華盛頓特區接管

新《南方公園》劇集針對川普接管華盛頓特區的內容出現在BitcoinEthereumNews.com。頭條 根據社交媒體上發布的預告片,《南方公園》將在週三晚上的新劇集中諷刺唐納德·川普總統對華盛頓特區警察部隊的聯邦接管,這標誌著該節目對川普政府的最新嘲諷。《南方公園》創作者馬特·斯通和特雷·帕克在新劇集中再次諷刺川普政府。(Jon Kopaloff/Getty Images for Paramount+攝) Getty Images for Paramount+ 關鍵事實 《南方公園》發布了一則預告片,宣布即將播出的劇集"Sickofancy",該劇集描繪了經常出現的角色Towelie,一條會說話且經常吸食大麻的毛巾,乘坐巴士前往華盛頓特區。片段顯示Towelie經過最高法院大樓和白宮,這兩處外面都駐紮著美國陸軍部隊和軍用坦克。在預告片中,被創作者特雷·帕克和馬特·斯通描述為"有史以來最蹩腳的角色"且以口頭禪"別忘了帶毛巾"聞名的Towelie,高興地評論說白宮似乎是"毛巾的完美去處"。"Sickofancy"是《南方公園》第27季的第三集,看來這是連續第三集針對川普政府的內容。新《南方公園》劇集何時播出? 新的《南方公園》劇集將於週三晚上10點(UTC +8)在Comedy Central播出。該劇集將在次日在Paramount+上提供串流觀看。《南方公園》如何針對川普政府? 新《南方公園》季度的前兩集因諷刺川普政府的一些關鍵人物而引起了川普政府的憤怒。在季度首播將川普描繪成撒旦的情人並經常嘲笑其卡通形象生殖器大小後,白宮稱《南方公園》是一個"四流"節目,"20多年來都沒有相關性"。…
分享
BitcoinEthereumNews2025/08/21 01:15
分享
《KPop 惡魔獵人》達成罕見串流成就

《KPop 惡魔獵人》達成罕見串流成就

《KPop 惡魔獵人》實現罕見串流成就的貼文出現在 BitcoinEthereumNews.com。KPop 惡魔獵人現在在 Billboard 的串流歌曲排行榜前 10 名中佔據了五個位置,由排名第 1 的《Golden》和排名第 10 的《What It Sounds Like》領銜。洛杉磯,加利福尼亞 – 2025 年 6 月 16 日:Ejae 出席 Netflix 的《KPop 惡魔獵人》特別放映會,地點在洛杉磯加利福尼亞的 Netflix Tudum 劇院。(照片由 Alberto E. Rodriguez/Getty Images 提供)Getty Images 每週,當 Billboard 排行榜再次發布時,來自《KPop 惡魔獵人》的歌曲變得越來越受歡迎。這部原聲帶僅發行了約兩個月,在這段時間內它已成為美國歷史上最成功的原聲帶之一。專為 Netflix 動畫電影創作的多首歌曲在多個排行榜上達到了歷史新高。串流活動繼續推動這些曲目以及原聲帶本身達到更高更令人印象深刻的位置。《KPop 惡魔獵人》本週主宰了 Billboard 的串流歌曲排行榜 — 不僅僅是因為其主打單曲位居第 1 名。《What It Sounds Like》進入前 10 名 來自《KPop 惡魔獵人》原聲帶的《What It Sounds Like》首次進入串流歌曲排行榜前 10 名,從第 11 名躍升到第 10 名。這個提升雖小但非常重要,因為它所屬的專輯在 Billboard 最具競爭力的榜單之一上取得了令人難以置信的表現。《KPop 惡魔獵人》佔據了前 10 名的一半 隨著《What It Sounds Like》的進步並打入前 10 名,《KPop 惡魔獵人》的歌曲佔據了串流歌曲排行榜前 10 名中的一半位置。原聲帶中的五首歌曲現在出現在這個區域內,這對於任何完整專輯來說都相對罕見 — 即使是超級巨星的作品 — 尤其是...
分享
BitcoinEthereumNews2025/08/21 02:27
分享
加拿大通貨膨脹率降低速度超出預期,加拿大元走弱

加拿大通貨膨脹率降低速度超出預期,加拿大元走弱

加拿大通貨膨脹率低於預期,加元走弱的文章出現在BitcoinEthereumNews.com。週二,加元對美元進一步走低。7月份加拿大CPI通貨膨脹率降低幅度超過預期,打擊了加元。儘管通貨膨脹壓力有所緩解,但整體通貨膨脹指標仍遠高於加拿大央行目標。週二,加元(CAD)進一步走弱,在加拿大消費者物價指數(CPI)通貨膨脹數據顯示整體數據略有緩解後,對美元(USD)下跌。儘管整體數據降溫,但由於日常用品成本仍在上升,而聯邦政府取消關鍵碳稅後燃料價格下降,消費者價格壓力緩解的預期仍然低迷。市場對加拿大央行(BoC)下一次降息的押注基本保持不變,中位數預期預測加拿大央行將繼續維持利率不變直到1月底。混合的通貨膨脹數據不利於BoC明確前進路徑,再加上第二季度就業數據滯後,使BoC難以證明進一步降息的合理性。每日市場動向摘要:加元因複雜的CPI通貨膨脹數據而回落。週二,加元對美元下跌了近0.5%。在加拿大CPI通貨膨脹數據公布後,USD/CAD被推高至兩週多以來的最高出價。共同CPI同比保持在2.6%不變,而BoC的修剪平均CPI保持在3.0%不變。整體CPI環比上升到了0.3%,也符合預期。儘管整體通貨膨脹壓力略有緩解,但由於第二季度招聘數據下降,BoC仍缺乏降息空間。經濟學家對加拿大央行是否能夠在9月份的下一次利率決定中證明降息的合理性意見平分秋色。USD/CAD價格...
分享
BitcoinEthereumNews2025/08/21 02:12
分享