免费一级片网站,天堂av8在线,婷婷视频网站,91操操操,精品久久ai,黄色在线观看国产,亚洲天堂av一区

數(shù)字報(bào)
小程序
公眾號
Qwen3-Omni系列模型攬32項(xiàng)開源最佳表現(xiàn)
2025-09-24 16:46:40
來源:中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)  作者: 張偉

9月24日,2025年云棲大會開幕,阿里巴巴發(fā)布通義全模態(tài)預(yù)訓(xùn)練大模型Qwen3-Omni系列模型。通過引入多種架構(gòu)升級和技術(shù)迭代,Qwen3-Omni系列的模型表現(xiàn)和效率大幅提升。在36個(gè)音視頻基準(zhǔn)測試中,22項(xiàng)達(dá)到SOTA水平,其中32項(xiàng)取得開源模型最佳效果。語音識別、音頻理解與語音對話能力可比肩Gemini 2.5-Pro。

作為全模態(tài)模型,Qwen3-Omni能夠?qū)崿F(xiàn)全模態(tài)輸入和全模態(tài)輸出。類似于人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”“說”“寫”多模態(tài)混合訓(xùn)練。在預(yù)訓(xùn)練過程中,Qwen3-Omni采用了混合單模態(tài)和跨模態(tài)數(shù)據(jù)。此前,模型在混合訓(xùn)練后,各個(gè)功能會相互掣肘甚至降智,比如音頻理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在實(shí)現(xiàn)強(qiáng)勁音頻與音視頻能力的同時(shí),單模態(tài)文本與圖像性能均保持穩(wěn)定,這是業(yè)內(nèi)首次實(shí)現(xiàn)這一訓(xùn)練效果。

Qwen3-Omni的優(yōu)異表現(xiàn)源于多種架構(gòu)升級。Qwen2.5-Omni采用了雙核架構(gòu)Thinker-Talker,讓大模型擁有了人類的“大腦”和“發(fā)聲器”。Qwen3-Omni的Thinker-Talker架構(gòu)進(jìn)一步加強(qiáng),結(jié)合AuT預(yù)訓(xùn)練構(gòu)建強(qiáng)通用表征,配合多碼本設(shè)計(jì),響應(yīng)延遲壓縮至最低。相較于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,純模型端到端音頻對話延遲低至211ms,視頻對話延遲低至507ms;支持的語言更多,包括19種語言音頻輸入、10種語言輸出。

作為一款“會說話”的模型,Qwen3-Omni應(yīng)用場景廣泛,未來可部署于車載、智能眼鏡和手機(jī)等。用戶還可設(shè)定個(gè)性化角色、調(diào)整對話風(fēng)格,打造專屬的個(gè)人IP。相較于傳統(tǒng)的錄音轉(zhuǎn)文字軟件,Qwen3-Omni能夠處理長達(dá)30分鐘的音頻文件,無需切割音頻,即可精準(zhǔn)識別語音、深度理解內(nèi)容。

目前,Qwen3-Omni系列已開源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和Qwen3-Omni-30B-A3B-Captioner,值得關(guān)注的是,擅長音頻描述的模型Qwen3-Omni-30B-A3B-Captioner為全球首次開源的通用音頻caption模型,可以清晰描述用戶輸入音頻的特征,填補(bǔ)了開源社區(qū)空白。

Qwen3-Omni現(xiàn)已在Hugging Face和ModelScope上開放,用戶可訪問Qwen Chat免費(fèi)體驗(yàn)Qwen3-Omni-Flash。

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司