免费一级片网站,天堂av8在线,婷婷视频网站,91操操操,精品久久ai,黄色在线观看国产,亚洲天堂av一区

數(shù)字報
小程序
公眾號
最強視覺理解模型Qwen3-VL發(fā)布,32項評測超過Gemini2.5-Pro和GPT5
2025-09-24 16:46:40
來源:中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報  作者: 張偉

9月24日的2025云棲大會上,阿里開源新一代視覺理解模型Qwen3-VL。該模型在視覺感知和多模態(tài)推理方面實現(xiàn)重大突破,在32項核心能力測評中超過Gemini2.5-Pro和GPT-5。同時,Qwen3-VL大幅提升了視覺Agent、視覺編程和空間感知等關(guān)鍵能力,不但可調(diào)用摳圖、搜索等工具完成“帶圖推理”,也可以憑借一張設(shè)計草圖或一段小游戲視頻直接“視覺編程”,“所見即所得”地復(fù)刻圖表、網(wǎng)頁和復(fù)雜程序。

本次開源的是旗艦版Qwen3-VL-235B-A22B,有開源指令(Instruct)模型和推理(Thinking)模型兩大版本。Qwen3-VL展現(xiàn)了在復(fù)雜視覺任務(wù)中的強大泛化能力與綜合性能,在邏輯謎題、通用視覺問答、多語言文本識別與圖表文檔解析、二維與三維目標(biāo)定位、具身與空間感知、視頻理解等32項具體測評中,指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5等閉源模型,同時刷新了開源多模態(tài)模型的最佳成績。推理版Qwen3-VL多模態(tài)思考能力顯著增強,在 MathVision、MMMU、MathVista 等權(quán)威評測中達到領(lǐng)先水平。

Qwen3-VL擁有極強的視覺智能體和視覺Coding能力,幾乎刷新所有相關(guān)評測的最佳性能。Qwen3-VL 不僅能看懂圖片,還能像人一樣操作手機和電腦,自動完成許多日常任務(wù),例如打開應(yīng)用、點擊按鈕、填寫信息等,實現(xiàn)智能化的交互與自動化操作。輸入一張圖片,Qwen3-VL可自行調(diào)用Agent工具放大圖片細節(jié),通過更仔細的觀察分析,推理出更好的答案;看到一張設(shè)計圖,Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼,“所見即所得”地完成視覺編程,真正推動大模型從“識別”邁向“推理與執(zhí)行”。

Qwen3-VL可支持?jǐn)U展百萬tokens上下文,視頻理解時長擴展到2小時以上。這意味著,無論是幾百頁的技術(shù)文檔、整本教材,還是長達數(shù)小時的會議錄像或教學(xué)視頻,都能完整輸入、全程記憶、精準(zhǔn)檢索。Qwen3-VL還能根據(jù)時間戳精確定位“什么時候發(fā)生了什么”,比如“第15分鐘穿紅衣服的人做了什么”“球從哪個方向飛入畫面”等,都能準(zhǔn)確回答。

大模型的空間理解能力是實現(xiàn)具身智能的基礎(chǔ),Qwen3-VL 專門增強了3D檢測(grounding)能力,可以更好地感知空間。當(dāng)前,機器人想要輕松抓住桌上的一個蘋果,并不容易。憑借Qwen3-VL強大的3D檢測能力,未來可讓機器人更好地判斷物體方位、視角變化和遮擋關(guān)系,從而準(zhǔn)確判斷蘋果的位置與自身距離,實現(xiàn)精準(zhǔn)抓取。

據(jù)了解,千問視覺理解模型已實現(xiàn)廣泛落地,比如國家天文臺聯(lián)合阿里云發(fā)布的全球首個太陽大模型“金烏”,正是基于 Qwen-VL 等模型以超過90萬張?zhí)栃l(wèi)星圖像為樣本完成微調(diào)訓(xùn)練。未來,Qwen3-VL模型還將開源更多尺寸版本。即日起,用戶可在通義千問QwenChat上免費體驗Qwen3-VL,也可通過阿里云百煉平臺調(diào)用API服務(wù)。

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報》社有限責(zé)任公司