果然,武漢駛上了AI高速路
中科院自動化所牽頭的新AI產(chǎn)業(yè)聯(lián)盟,為武漢發(fā)展又添了一把火。
博雯 明敏?發(fā)自?凹非寺
量子位 報道 | 公眾號 QbitAI
要致富先修路。
在面向智能時代的轉(zhuǎn)型中,武漢深諳此理。
這不,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟,為此而來。
中科院自動化研究所牽頭,華為、武漢人工智能研究院提供技術(shù)支持。
再看其他聯(lián)盟成員:武漢大學、華中科技大學、中移系統(tǒng)集成、愛奇藝、新華社技術(shù)局……都是產(chǎn)學研各界耳熟能詳?shù)拿帧?/p>
它們聚集在武漢,搞了這個“大合體”的目的也很簡單:
依靠和聯(lián)盟成員的合作,要把多模態(tài)人工智能產(chǎn)業(yè)落地推進到底。
這是一個怎樣的組織?
先從關(guān)鍵詞解題。
“模態(tài)”。這是一個認知領(lǐng)域的概念,指某種信息的來源或形式,或者“某件事情發(fā)生、被感知到的方式”。
人的觸覺、聽覺、視覺、嗅覺,作為信息媒介的語音、視頻、圖像、文字等都可以被稱之為是一種模態(tài)。

而通過多模態(tài)進行交互和學習,一度被稱為是“最接近類人腦智能的方式”。
究其原因,還是人腦的感知和認知過程,本質(zhì)也是一個多種感官信息融合處理的過程。
比如,人可以同時利用視覺和聽覺信息理解說話人的情感:
因此,人工智能領(lǐng)域近幾年的一個熱門方向,就是學習不同模態(tài)信息之間的關(guān)聯(lián),處理和理解多模態(tài)信息。
并且,這些技術(shù)已經(jīng)應用在了我們生活中的各個方面。
比如大家都熟知的自動駕駛技術(shù),就是基于視覺攝像頭、激光雷達、超聲傳感、地圖等多種模態(tài)的傳感器實現(xiàn)的:

還有一些視頻網(wǎng)站的智能化推薦,也是通過分析視頻封面、視頻抽幀和文本幾個模態(tài)的信息對視頻質(zhì)量進行評估:

此外,通過語音識別和視覺感知理解語義的智能音箱、結(jié)合產(chǎn)品圖像和語義屬性進行推薦的智能客服、融合人臉聲音虹膜等多種信息進行身份識別的安全系統(tǒng),都是多模態(tài)技術(shù)的體現(xiàn)。
所以多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟會聚集各行各業(yè)的成員,也就再自然不過。
牽頭的中科院自動化研究所,國內(nèi)最早開展類腦智能研究的國立研究機構(gòu),擁有3個國家級重點平臺和數(shù)十個重點實驗室及研究中心。
今年9月份,中科院自動化研究所在華為全聯(lián)接大會發(fā)布了全球首個三模態(tài)大模型紫東.太初。這一模型擁有千億級別的參數(shù),能夠跨越視覺-文本-語音三種模態(tài)進行統(tǒng)一編碼。
在今年的兩項AI頂會,ACM Multimedia和ICCV的視頻語義理解與視頻描述賽道中,“紫東.太初”拿下兩項冠軍,在跨模態(tài)理解與生成性能上都展現(xiàn)出了目前業(yè)界的最高水準。

多模態(tài)聯(lián)盟將基于紫東.太初,孵化更多行業(yè)應用,并進一步探索通用人工智能新路徑。
聯(lián)盟的理事長單位是中科院自動化研究所。
另外三位副理事長,也是多模態(tài)領(lǐng)域的重要玩家。
他們分別來自華為、愛奇藝和武漢昇騰人工智能生態(tài)創(chuàng)新中心。
其中,昇騰AI平臺包括Atlas系列硬件、異構(gòu)計算架構(gòu)CANN、全場景AI框架昇思MindSpore、昇騰應用使能MindX以及AI應用使能ModelArts等,為開發(fā)者和企業(yè)高效使用AI能力,創(chuàng)新場景化AI應用,加速千行百業(yè)智能升級,可以說是目前業(yè)界極其領(lǐng)先的全場景AI平臺。
愛奇藝也在多模態(tài)領(lǐng)域深耕多年。
依據(jù)自身的數(shù)據(jù)場景,愛奇藝構(gòu)建了PPC視頻-中文描述的數(shù)據(jù)集,基于這一數(shù)據(jù)集開發(fā)的跨模態(tài)搜索項目能夠通過中文語句搜索視頻中的內(nèi)容。此外,還有能夠基于視頻內(nèi)容自動生成語音解說的視頻-臺詞-描述的跨模態(tài)模型。
此外,與其他AI生態(tài)組織中不同,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟當中,確實包含了諸多產(chǎn)業(yè)一線力量,通過完整名單,就能明顯感知:
會員單位由湖南省馬欄山計算媒體研究院、依瞳科技(深圳)有限公司、魏橋國科研究院、拓維信息股份有限公司、斗魚、長江計算、武漢大學、華中科技大學、極目智能、武漢微創(chuàng)光電股份有限公司、武漢光庭信息技術(shù)股份有限公司、武漢興圖新科電子股份有限公司、武漢唯理科技有限公司、三峽電能能源管理(湖北)有限公司、普宙飛行器科技(深圳)有限公司、傳神語構(gòu)成。

在成立儀式現(xiàn)場,聯(lián)盟成員也表達了目標和雄心。
希望從各自擅長的領(lǐng)域展開合作,通過這樣一種產(chǎn)業(yè)聚合的模式,解決專用AI走向通用AI的挑戰(zhàn)。
不僅是產(chǎn)學研融合,由于聯(lián)盟成員幾乎涉及到各行各業(yè),AI創(chuàng)新成果也能及時落地到行業(yè)中,帶來實際價值,并輻射到更廣闊領(lǐng)域。
為什么是現(xiàn)在?為什么是武漢?
實際上,了解了“多模態(tài)”,也就知道并非新事物新概念。
于是問題也就來了——
那為什么多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟的成立,會是現(xiàn)在?聯(lián)盟基石“紫東.太初”是在武漢孵化?
個中緣由,其實包含了三方面。
因為這是在聚集了天時地利人和多方面因素、謀定而后動的一個成果。
首先來看天時——
多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟的成立,是順應AI發(fā)展的大勢所趨的結(jié)果。
現(xiàn)下,AI發(fā)展的最大趨勢是什么?
是從單點技術(shù)走向真正的通用技術(shù)、從單模態(tài)走向多模態(tài)、從大模型走向超大模型。
單一算法的人工智能應用已逐漸不能滿足應用需求,融合計算機視覺、自然語言理解、智能決策多方面能力的通用人工智能,開始大放異彩。
AI處理任務(wù)也不再只是收集單一信息,而是跨越圖像、文字、語音、語義等多種模態(tài),從中抽象出更高層的特征向量來解決問題。
以此同時,隨著任務(wù)的復雜程度變高,算法模型的規(guī)模也在日漸擴大。
這些趨勢上的變化,在應用層面上也早有顯露。
比如AI最初的商用,在視覺和核驗身份等方面,但現(xiàn)在,衣食住行用方方面面,都開始有AI滲透的影子。
背后原因,正是因為它在不斷向多模態(tài)、通用性上靠攏。
而且這還可能只是開始的開始。
其次,地利,武漢的優(yōu)勢不言而喻。
作為長江經(jīng)濟帶核心城市、中部崛起戰(zhàn)略支點,國家對于武漢科技發(fā)展的重視程度可見一斑。
2020年9月,科技部正式發(fā)文批復,支持武漢建設(shè)國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)。
不到一年時間,2021年5月31日,武漢人工智能計算中心正式竣工并投入運營,成為科技部批復的18個國家人工智能創(chuàng)新發(fā)展試驗區(qū)中,最早落地的一個。

該人工智能計算中心,基于昇騰AI基礎(chǔ)軟硬件平臺建設(shè),在原來100P的基礎(chǔ)上已擴容高達200P FLOPS。
什么概念?
要知道,100P FLOPS就可相當于50萬臺電腦加起來的算力,每秒運算次數(shù)達百億億次。
如此強悍的算力,一方面可以支持一個城市來運行許多重大AI項目,比如自動駕駛、智慧交通、智能制造、城市大腦等等。另一方面,作為智能時代的城市基礎(chǔ)設(shè)施,也是支撐其他場景下AI落地的關(guān)鍵所在。
這也是為什么,在全國各大城市爭相建設(shè)AI算力大型基建的背景下,武漢會搶占先機、拔得頭籌,在人工智能計算中心的建設(shè)中,如此堅決果斷。
當然,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟在武漢成立,也就順利成章——畢竟計算中心已經(jīng)有了,就意味著黑土地已經(jīng)準備好了。
最后,人和。
天時也好,地利也好,背后都是武漢自身對于發(fā)展AI、抓住智能時代發(fā)展機遇的渴求。
今年7月,武漢出臺了《武漢國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設(shè)若干政策》,提出8條激勵措施,最高提供5億元資金支持。
具體措施上,武漢開創(chuàng)了人工智能一中心四平臺的“武漢模式”。
“中心”就是人工智能計算中心。
四大平臺則是公共算力服務(wù)平臺、應用創(chuàng)新孵化平臺、產(chǎn)業(yè)聚集發(fā)展平臺、科研創(chuàng)新和人才培養(yǎng)平臺,主要面向千行百業(yè)。
目前,武漢已集聚超過500家人工智能企業(yè),相關(guān)產(chǎn)業(yè)規(guī)模超過200億元。預計2023年武漢AI核心產(chǎn)業(yè)規(guī)模將超過500億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過5000億元。
而發(fā)展之關(guān)鍵,不僅要有基礎(chǔ)設(shè)施,還在于人才。
作為中國四大科教中心之一,武漢從來不缺人才,不然也不會“惟楚有才”。
而它現(xiàn)在進一步鼓勵高校和龍頭企業(yè),做好產(chǎn)學研結(jié)合。例如創(chuàng)建人工智能重點實驗室、研究院等創(chuàng)新科研組織,更是為了進一步培養(yǎng)關(guān)鍵科技人才。
加之這些年,武漢本身在科技產(chǎn)業(yè)發(fā)展上傾注了諸多心血。
比如吸引了華為、小米、聯(lián)想等科技龍頭企業(yè)落戶,還打造了“光谷”這一高新技術(shù)發(fā)開區(qū)名片。

種種努力,樁樁件件,都是對智能時代機遇的志在必得。
如果說曾經(jīng),武漢和湖北,被質(zhì)疑過“錯失”互聯(lián)網(wǎng)發(fā)展機遇,那么現(xiàn)在,AI時代大潮中,就得加倍補回來。
所以回過頭來再看人工智能計算中心的建立、多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟的成立,似乎都水到渠成,都是武漢要抓住AI機遇更快發(fā)展的努力和成果。
而剩下的問題,只有一個,武漢的干勁,用對地方了嗎?
AI高速路上的武漢
時代級的機遇,往往成果也需要更長時間來等待。
但從大方向上,武漢的干勁,使在正確的方向上。
從AI發(fā)展維度來看,經(jīng)歷了技術(shù)研發(fā)、商用檢驗,現(xiàn)在正在進入產(chǎn)業(yè)場景下的大規(guī)模落地進程中。這種落地,深入各個場景,會與多元產(chǎn)業(yè)的方方面面結(jié)合,就像語音之于交互,視覺之于視頻,覆蓋到產(chǎn)業(yè)的方方面面。
所以“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟”因何成立,就是因為武漢看到了這種趨勢而成立,說明武漢準確把握了AI發(fā)展的趨勢,給產(chǎn)業(yè)發(fā)展提供了搶占先機的機會。
其次,從經(jīng)濟發(fā)展層面來說,都說AI是新動能,提供了新機遇,但如果能在發(fā)軔期就把機遇變成機制,產(chǎn)生飛輪效應,就能培養(yǎng)基礎(chǔ)生態(tài)。
現(xiàn)在,“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟”就是這樣的基礎(chǔ)生態(tài),它可以提供更多的需求、機遇和崗位。
一方面,可以最大限度留住武漢輩出的人才;另一方面,還能憑借各項人才政策,吸引更多優(yōu)秀的人才前來,最終形成人才-產(chǎn)業(yè)生態(tài)-經(jīng)濟發(fā)展的正向循環(huán)。
最后,要致富先修路,AI時代也一樣。
而AI時代的“高速路”、基礎(chǔ)設(shè)施是什么?歸根溯源,還是人工智能計算中心。
武漢,正是準確預判了這種預判,在昇騰AI的加持下,各大一線城市在智能時代的競速中,率先把握住了這種機遇。
于是九省通衢武漢,現(xiàn)在也是AI高速路上的武漢。
- 4o-mini華人領(lǐng)隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應:下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11