聘大佬、秀技術、搞開源,開發(fā)者說:小米「很技術」
不再強調(diào)「性價比」的小米,還有什么拿的出手?
邊策 賈浩楠 發(fā)自 小米科技園
量子位 報道 | 公眾號 QbitAI
小米要更技術。
雷軍不止一次這樣強調(diào)。在《新聞聯(lián)播》采訪中,在MIDC 2020小米開發(fā)者大會現(xiàn)場,「技術」都是這位小米集團創(chuàng)始人&董事長強調(diào)最多的詞匯。
崔寶秋也是這樣反復布道的,他是小米集團副總裁、小米技術委員會主席,從最初打造小米大數(shù)據(jù),到后來成為小米AI的核心引擎和業(yè)務,以及在底層框架方面的種種努力,并成功吸引到全球AI語音大牛、Kaldi之父Daniel Povey……在接受采訪時,他認為小米的技術底色正在越來越外顯。
在今年小米開發(fā)者大會上,小米還官宣了5000名工程師的招聘計劃——史無前例。
這是大眾印象中鮮于看到的那一面,對于小米的關注,集中于產(chǎn)品,不常深入技術甚至底層。
但如果問現(xiàn)場開發(fā)者,「小米很技術」,甚至不需要論證。
小米展示了哪些技術?
「我感覺小米最大的變化,可能不再是一個簡單的手機廠,手機只是小米推整個家庭物聯(lián)網(wǎng)的抓手。」
MiNLP 3.0、新版Kaldi、MACE Micro、NuttX操作系統(tǒng)、小米Vela物聯(lián)網(wǎng)軟件平臺……
以上已經(jīng)或即將開放的技術,都是過去一年由小米自研,或者小米在其中做出了重要貢獻。
一位開發(fā)者向我們說:今天干貨非常多,小米今年真的是開了場技術大會。
但究竟如何技術?
不妨先先從6大技術發(fā)布總結(jié),來快速了解今年的小米開發(fā)者大會。
語音識別工具包新一代Kaldi
去年,小米將語音界AI大神Daniel Povey招募進來,他是最流行的語音識別工具包Kaldi的開發(fā)者。
加入小米一年,Daniel Povey設計并開發(fā)出了新一代Kaldi。
新一代Kaldi分成三個部分,包括核心算法部分,訓練數(shù)據(jù)準備部分、示例腳本集合部分。
Lhotse(訓練數(shù)據(jù)準備部分)將替代以前Kaldi中所有數(shù)據(jù)準備相關的工作,操作各種音頻和文本的元數(shù)據(jù)。
Lhotse除了Kaldi本身,也適用于其他應用。而且Lhotse純Python代碼,方便易用。
Icefall(示例腳本集合部分)將代替Kaldi中的示例腳本集合,并獨立成為一個單獨的子項目。
之所以要把示例腳本集合與核心算法分開,是考慮到示例腳本可能會非常龐大,且經(jīng)常變動。
新一代Kaldi的核心部分叫“k2”。
k2可以讓開發(fā)者很容易在PyTorch/TensorFlow中實現(xiàn)各種語音識別相關算法,比如CTC、LF—MMI、RNN—T、2nd—pass語言模型等,消除以往語音識別算法中訓練跟解碼不匹配的問題。
同時,通過k2可以非常容易實現(xiàn)(置信度逐漸提高的)多輪解碼過程,這在以往是很難做到的。
當然,這只是k2的應用場景之一。
Povey博士還舉了另一個例子:FSA(有限狀態(tài)自動機)是語音識別里普遍使用的數(shù)據(jù)結(jié)構,比如可以用來構建“音標—詞—句子”的轉(zhuǎn)換概率圖。而K2的核心貢獻在于讓FSA可導,從而可在PyTorch等深度學習庫中來進行FSA的反向傳播訓練。
相較于其他一些語音識別庫的優(yōu)勢,k2速度更快,通用性強(可以用來建模多種語音識別算法)。
Povey博士透露,k2核心代碼已完成。約41000行代碼(主要是C++),本周將發(fā)布0.1版本。
開源自然語言處理平臺MiNLP 3.0
“擁抱開源,構建開發(fā)者社區(qū)”,是「技術向」小米始終掛在嘴邊的。
今年的開發(fā)者大會,小米公布了最新的自然語言處理平臺,MiNLP 3.0,并且承諾,MiNLP 3.0中的不同功能模塊,將按計劃逐漸開源。
3.0都有哪些新特性?
與去年的MiNLP 2.0相比,3.0從原來的兩大功能模塊(基礎算法、語義理解)上升到四大功能模塊,增加了內(nèi)容理解和輿情分析模塊。
新的模塊可以幫助系統(tǒng)更好的結(jié)合上下文理解交互內(nèi)容,提高識別的準確性。
3.0版平臺還結(jié)合預訓練、知識圖譜能力,提升了語義解析技術。
除了語義解析,新平臺還拓展了多模態(tài)理解能力,即基于文本、語音、圖像和視頻等多模態(tài)特征,實現(xiàn)對內(nèi)容的精準理解。
在11月中下旬,小米會開源第一個模塊,分詞技術。
崔寶秋也給出了一張開源的時間表:
移動端深度學習框架MACE 1.0
另外一項備受期待的開發(fā)工具是MACE 1.0:小米的移動端深度學習框架。
去年的小米開發(fā)者大會發(fā)布了MACE 0.13,這是一個部署在個人設備端的深度學習框架,目的是實現(xiàn)AI推理能力、計算能力、智能水平在邊緣設備的有效運行,而不是將所有數(shù)據(jù)和算法上傳到云,保證用戶的隱私。
今年的MACE 1.0,升級了一個很重要的功能,MACE Micro,這是專門為微控制器或者小單片機打造的AI推理框架。
MACE Micro代碼特別少, 不算模型大小一般只需幾十K存儲空間, 可以放在低功耗,價格便宜的智能設備上。
比如在一個微控制器上,如果用MACE來做圖像識別,平均每秒一次的使用頻率,一年的計算耗電量,只需要一個紐扣電池就可以提供。
目前,MACE已經(jīng)在小米自家的物聯(lián)網(wǎng)設備中應用,但小米的產(chǎn)品并不是MACE最終的「歸宿」,崔寶秋提到,MACE愿意向合作伙伴甚至是友商開放。
小愛5.0
前面介紹的幾項,都是小米底層技術的新進展,而這些技術落到消費者看得見摸得著的產(chǎn)品,就是語音助手智能助手小愛同學5.0。
配合小米集團手機xAIoT戰(zhàn)略,小愛同學5.0正式從語音助手升級為智能生活助手。就產(chǎn)品功能點而言,小愛同學5.0新特性可以總結(jié)為五點。
第一,小愛同學5.0支持了全場景智能協(xié)同。在多設備工況情況下小愛同學可以做到更智能的協(xié)同喚醒、更智能的協(xié)同響應、更智能的協(xié)同提醒和建議。
與過去語音助手 語音助手行業(yè)普遍采用的就近喚醒不同,小愛同學5.0會根據(jù)用戶所處環(huán)境選擇合理的設備方案。設備距離、設備活躍狀態(tài)、設備形態(tài)等,智能選擇最優(yōu)設備進行應答與傾聽。
比如要播一段視頻,用戶可能偏向選擇最大的屏幕,由電視來播放,而不是手機。
當協(xié)同喚醒搭配協(xié)同響應,小愛同學將為用戶提供最優(yōu)的全場景解決方案。比如在客廳場景中要播一段視頻,應答設備會是近距離的活躍設備(手機或音箱),但播放視頻將會由電視執(zhí)行,客廳場景看視頻大屏才是最優(yōu)選擇。
第二是對話式的主動智能。小愛同學5.0會有記憶,會更加「貼心」,更加理解用戶。
第三個新特性,是多模態(tài)融合交互,語音+視覺+其他傳感器的一種感知認知能力。包括音箱上的手勢控制和小愛同學手機端多模態(tài)輸入及掃一掃。
第四個新特性,定制化情感語音。小愛同學5.0新增兒童音色泡芙,奶萌童音備受用戶好評。此外,用戶呼聲最高的粵語,也在5.0正式發(fā)布。超過20000句符合粵語文化的常用話語深度優(yōu)化,讓小愛同學的粵語更地道。
今年2月在小米10發(fā)布會上,小愛同學發(fā)布了定制聲音能力,經(jīng)過工程師的努力,,在小愛5.0定制聲音將覆蓋更多的手機機型和更多終端設備,包括音箱和電視。
第五個更新是智慧學習。針對學生群體,小愛同學5.0在教育內(nèi)容及工具兩大類別,為用戶提供更智能、更豐富的服務。
包括AI課程表、AI翻譯、K12教輔內(nèi)容、知識問答。上包括為大學生做了AI課程表、AI翻譯、面對面翻譯、連續(xù)翻譯、一句話翻譯等等。還支持K12教輔。
最后是更多的定制化情感聲音。之前發(fā)布的定制聲音能力,也將覆蓋到更多小米設備中。
所以總結(jié)起來,5.0的小愛同學,技術上更智能,功能上更強大,落地產(chǎn)品也將更多種多樣。
「一指連」UWB
這是今年開發(fā)者大會現(xiàn)場,發(fā)布簡短卻又「韻味無窮」的新技術。
UWB技術,被小米形象化取名「一指連」,效果相當酷炫。
應用起來,手機上如果內(nèi)置UWB芯片和天線,用手機指向風扇,手機屏幕上就彈出來風扇的遙控器;
指向電視,就會彈出電視的遙控器;
指向音箱,手機的播放列表就傳到了音箱上去。
目前,「一指連」已經(jīng)做到厘米級、正負3度的精度,而未來UWB會取消「指一下」動作,僅僅靠近IOT設備,就能實現(xiàn)控制。
不過對于AIoT的互聯(lián)互通和操作,小米還有更強大更基礎的準備。
物聯(lián)網(wǎng)軟件平臺:小米Vela
小米Vela,面向物聯(lián)網(wǎng)時代而準備。在這次開發(fā)者大會上正式亮相。
被稱為小米開發(fā)物聯(lián)網(wǎng)設備的「基礎設施」。
小米IoT平臺部總經(jīng)理、AIoT戰(zhàn)略委員會主席范典在發(fā)布會上介紹,“小米Vela是基于開源嵌入式操作系統(tǒng)NuttX打造的物聯(lián)網(wǎng)軟件平臺?!?/p>
NuttX由Gregoy Nutt在2007年發(fā)布,是一個實時嵌入式操作系統(tǒng)。
但由于NuttX在設計之初就考慮到了對應用較為廣泛的Linux的兼容、并對POSIX原生支持,在過去幾年里,索尼、三星等大廠先后加入了這一陣營。
小米則是從2017年開始就基于NuttX開發(fā)物聯(lián)網(wǎng)產(chǎn)品,并在隨后推動NuttX加入了Apache基金會。目前,小米在其中的貢獻量達到了三分之一,是最有影響力的貢獻者之一。
小米Vela主要分為三?部分:底層是NuttX內(nèi)核、上層是Vela應?框架,?右側(cè)是開發(fā)者?具。小米Vela的初衷是提供豐富的組件和易?的框架,把開發(fā)者解放出來。
從整個架構上,也能看出小米對Vela的雄心,而且小米Vela從出生第一天起,就面向AIoT賽道,從底層團結(jié)軟硬件開發(fā)者之力。
范典說:Vela源?拉丁語,是船帆的意思,在物聯(lián)?的星??海中,我們愿與開發(fā)者?起,乘風帆遠航,共同打造物聯(lián)?產(chǎn)業(yè)美好的明天。
雖然未能言明,但這種希驥之間,不難看出Windows、安卓一樣的期待。
而且相比其他玩家,小米在AIoT領域的底氣無需贅述——最新數(shù)據(jù)披露,小米IoT平臺已連接IoT設備數(shù)超過2.71億,擁有5個以上IoT設備的用戶超過510萬。是全球規(guī)模最大的AIoT平臺之一。
總而言之,技術、技術,還是技術,就是小米現(xiàn)在傳遞出的最強觀感。
小米為何高頻強調(diào)技術?
“技術”這個關鍵詞,今年為何小米被提到了前所未有的高度?
雷軍在開發(fā)者大會的第一場演講中就給出了答案:
手機之爭就是相機之爭,相機之爭就是AI之爭。
所以,2018年小米單獨成立了相機部,作為一級部門,如今已有850名工程師,這還不包括小米另外的350名人工智能工程師。
從今年的小米10開始,雷軍不再強調(diào)小米的性價比,而是用技術作為核心競爭力沖擊高端市場。
還有智能家居的核心“小愛同學”,也離不開語音識別、語言理解等AI前沿技術。
為了儲備技術,小米近年來廣納頂尖人才。尤其是去年“Kaldi之父”Daniel Povey的加入,令開發(fā)者刮目相看。
“我根本沒想到他會加入小米”,現(xiàn)場一位開發(fā)者說。
作為小米集團技術委員會主席,崔寶秋對此當然并不意外,然而這位“Kaldi之父”的巨大吸引力還是超乎他的想象。
回憶起小米宣布Daniel加入團隊當天,崔寶秋印象深刻,他當時正在蘇州參加2019年中國計算機大會。
現(xiàn)場好幾位來自新加坡的參會者聽到消息后,當即向崔寶秋表示,他們想加入小米,因為和一位“技術大神”在一起工作是他們夢寐以求的。
除了Daniel外,小米近年來年來還吸引了NLP領域著名學者王斌博士加入,成為小米自然語言首席科學家。
王斌加入后,他的學生從各個企業(yè)和研究機構慕名而來。
“這就是牛人加入小米帶來的引領作用”,崔寶秋說。
吸引技術人才,一方面靠“大神”的虹吸效應,另一方面是靠寬松的研發(fā)環(huán)境。
比如Daniel本身是語音識別領域的大牛,但小米并沒有讓他加入到小愛同學的研發(fā)中,而是集中精力兌現(xiàn)對開源社區(qū)的承諾。
這一年來,小米全力支持新版Kaldi的代碼開發(fā)工作。甚至Daniel本人在今年三四月決定將新版Kaldi推倒重來,執(zhí)行Plan B,小米依然全力支持。
崔寶秋認為,正是因為沒有給技術人員太大壓力,用長遠的眼光看待研發(fā),才讓小米今年來能吸引到真正的技術人才。
現(xiàn)在小米的產(chǎn)品和技術是脫耦的。
一個需要預研的技術,這個研發(fā)團隊需要被保護起來,不要被業(yè)務所累。
經(jīng)過一年的努力,新版Kaldi在小米團隊的努力下,終于要在11月下旬開源。
而Kaldi只是小米在開源技術上的一角。去年小米為NuttX開源操作系統(tǒng)貢獻了近1/3的代碼。
據(jù)不完全統(tǒng)計小米在GitHub上已經(jīng)創(chuàng)立超過120個開源項目。
基礎研究方面,小米在自然語言處理、語音識別領域皆有建樹。
但“AI大神”云集的小米過去在技術上卻異常低調(diào)。
我們卻很少能看到小米向AI學術會議提交論文,或是參加AI性能測試“刷榜”。
究其原因,崔寶秋解釋說,過去小米做的第一件事就是把產(chǎn)品落地,快速占領市場,沒有時間參加比賽、發(fā)表文章或進行學術交流。小米很多工程師也不善言辭。
他一直鼓勵員工多出去交流,今后應該會有更多的小米工程師在技術場合露面。今年的開發(fā)者大會就是一個“分水嶺”。
這一次,技術低調(diào)的小米終于選擇了高調(diào)。
小米的技術研發(fā)和招聘規(guī)模都在逐年擴大,是小米加碼技術的直接體現(xiàn)。
去年小米研發(fā)投入70億,今年研發(fā)投入將超過100億,并擴招3000名工程師。
雷軍表示,明年小米還將在10個重點領域招收5000名工程師,占小米目前員工總數(shù)的近40%。
這一年,手機上的“黑科技”讓很多消費者對小米刮目相看,120W超級快充、UWB一指連都技術都屬小米首發(fā)。
不出意料,明年小米還會有更多手機黑科技,而AIoT會是小米的另一個發(fā)力點。
據(jù)小米統(tǒng)計,擁有5件小米智能設備用戶已經(jīng)超過310萬。面對消費升級,個人設備越來越多,未來AIoT市場大有可為。
當然,還有一件事很重要,也是小米的初心。
現(xiàn)在的小米10手機已經(jīng)在通過小米的智能工廠生產(chǎn),高度自動化的“黑燈”產(chǎn)線絕大部分都是小米自主研發(fā)的生產(chǎn)設備在工作。
過去,“性價比”是小米逢山開路遇水搭橋的法寶,是用親民價格打造感動人心的產(chǎn)品。
現(xiàn)在,小米正在把更多黑科技納入到更多產(chǎn)品和功能中。
技術小米,面臨重估
而技術,也正在給小米帶來整體變化。
一方面,這種變化體現(xiàn)在大眾認知中。
特別是小米MIX發(fā)布起,小米就正在成為手機技術創(chuàng)新的核心驅(qū)動玩家,影響業(yè)態(tài)至今的全面屏革命,起于小米,還在不斷進化。
而隨著相機、語音交互和整體操作功能方面的不斷優(yōu)化,手機和AIoT成為雙引擎,小米的技術底色也在更大范圍內(nèi)得到認可。
小米很技術,正在成為越來越廣泛的共識。
另一方面,技術之力,也不斷轉(zhuǎn)換為產(chǎn)品之力,推動小米核心增長。
最具代表性事件,是小米手機超越蘋果,重返全球第三。
今年10月底,三家市場研究機構IDC、Canalys和Counterpoint分別發(fā)布了第三季度全球智能手機市場統(tǒng)計報告,三家數(shù)據(jù)均顯示,小米手機出貨量升至全球第三。
這也是小米自2014年之后,再次重返全球第三,并且也創(chuàng)造了小米史上最高出貨量。
相較而言,如果2014年小米是理念的勝利、風口上的勝利,順勢而為的勝利。那么現(xiàn)在重返巔峰,就是創(chuàng)新的勝利、技術的勝利,千淘萬漉后的勝利。
而且小米上上下下,也深知這種勝利如何而言、怎樣延續(xù)。
越來越多強調(diào)技術立業(yè),越來越廣泛展示技術底色,越來越公開表達對技術人才渴求……
技術,就是小米開誠布公的發(fā)展之路。
當然,對于如此技術化發(fā)展的小米,資本市場也給出了反饋。
小米股價和市值,也不斷被刷新。
截至11月9日,小米集團(HK.1810)股價漲至25.5港元,市值超過6100億港元,漲勢強勁,還在不斷上揚中。
但這個技術化小米,還只是小米新十年的開端。
- 具身智能洶涌,激光雷達爆單:頭部玩家600%年增長,出貨超20萬臺2025-08-08
- 智能座艙率先L3!AI Agent上車顛覆體驗,千里科技WAIC交卷2025-07-28
- 千里科技聯(lián)手階躍星辰、吉利發(fā)布下一代智能座艙Agent OS2025-07-26
- 老黃剛走,全球最強算力Robotaxi方案落地中國2025-07-24