這一屆年輕人,開始懷疑AI只是賣貨套路了
包括AI在內(nèi)的一切技術(shù),最終也將指向于人、服務于人。
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
導語:今天(4月26日),是世界知識產(chǎn)權(quán)日。據(jù)清華AI研究院等統(tǒng)計,我國AI專利申請量登頂全球第一,其中相當一部分已經(jīng)落地應用。
我朋友,知春路“高圓圓”,最近懷疑AI是一場營銷騙局。
“AI過去兩年一度熱得發(fā)燙,萬事萬物皆可AI,比如手機的第一賣點也都是AI……然后呢?”
她舉著自己的手機,說很少有鋪天蓋地的AI標榜和宣傳,但從大學以來,就是換機首選。
我一看,是OPPO。
我回答她,你錯了,OPPO只是說得不多。
OPPO不重視AI嗎?
當然不是。
根據(jù)公開資料,OPPO的成名絕技——自拍、攝影等功能,背后都有AI技術(shù)的影子。
很多OPPO的忠實用戶,可能很享受OPPO的影像系統(tǒng)帶來的效用。
卻往往會忽略,背后發(fā)揮作用的“感知人像”和“畫質(zhì)增強”兩個引擎,都是AI驅(qū)動。
感知人像引擎,負責對拍攝時的人像區(qū)域進行優(yōu)化,包括AI人臉關(guān)鍵點檢測、AI超清人像(暗景/長焦拍攝)、OFL膚質(zhì)優(yōu)化、人臉畸變矯正四大項技術(shù)。
畫質(zhì)增強引擎,則包含多幀HDR等算法,保證用戶在各種場景下拍出滿意的視頻及照片。
而且,像人臉關(guān)鍵點檢測、超分辨率、語義分割、自動補幀這些基礎(chǔ)AI技術(shù),OPPO的自研算法已經(jīng)都在CVPR等AI頂會、以及各種AI視覺榜單中嶄露頭角。
△ 獨創(chuàng)的超分算法,奪得CVPR 2020榜一
而且其中的不少AI技術(shù),是有據(jù)可查的專利——
例如,“人臉識別方法、裝置、電子設備及可讀存儲介質(zhì)”中,基于參數(shù)化人臉模型的實時3D稠密關(guān)鍵點檢測與3D人臉網(wǎng)格重建。
針對手機端使用,OPPO自研了輕量型的人臉關(guān)鍵點檢測AI模型。除了關(guān)鍵點信息以外,這一AI模型訓練時,還加入了關(guān)鍵點可見性、人臉角度判斷等輔助信息。
在WFLW人臉關(guān)鍵點檢測數(shù)據(jù)集上,NME(Normalized Mean Error)為實現(xiàn)了4.74%的檢測精度誤差,且能以100+fps的幀率在移動平臺上運行,解鎖手機安全又毫不費力。再例如,針對由攝像頭硬件引起的人臉拍照變形,OPPO研發(fā)的“一種局部畸變的校正方法及移動終端和相關(guān)介質(zhì)產(chǎn)品”專利。
隨著硬件技術(shù)的提升,目前的主流手機攝像頭,視場角(fov,field of view)已經(jīng)達到了80°,超廣角攝像頭更是達到了120°,這意味著在拍攝人像時,不可避免會出現(xiàn)人臉畸變(50°以內(nèi)才能避免)。
為了讓你的臉不被攝像機“拽扁”,在拍照時,AI會自動生成透視投影和球極平面投影兩種照片,并“摳出”球極平面投影中正常的人臉,放進照片中。
聽起來很簡單,但實際上,球極平面投影出來的圖像,會比正常圖像偏小。為了讓摳出來的人臉和畫面保持一致性,“P得無痕無跡”,還得在模型中加上補償算法。
除此之外,這一算法模型還包括人臉降噪、銳度優(yōu)化和細節(jié)提升幾個子模塊,目的就是能在暗光、變焦場景下也能拍出清晰的人臉效果。
上面這些,都是“感知人像引擎”中的技術(shù)專利。而在“畫質(zhì)增強引擎”中,用到的AI技術(shù)只多不少。
例如,超級防抖算法。
AI通過抓取陀螺儀、加速器和傳感器的數(shù)據(jù),自動對運動軌跡、姿態(tài)和曝光進行判斷,來區(qū)分不同的場景,為圖像拍攝匹配不同的防抖策略。
而對視頻拍攝來說,這一防抖算法還具有運動趨勢判斷的功能,可以自動選取振幅相近的畫面組成相鄰幀,極大地降低成片的抖動感。
又例如,將夜景和HDR算法融成“組合拳”,用于亮度調(diào)節(jié)。
亮度值(lux)低的時候,AI自動啟用夜景算法,提升亮度;亮度值高的話,就啟用HDR自動調(diào)節(jié)算法,提升局部亮度、抑制高光。
光是實現(xiàn)這一項技術(shù),就涉及3個環(huán)節(jié),包括畫面整體、局部優(yōu)化,以及多幀融合,以減少提高亮度帶來的時域噪聲。
沒錯,OPPO是對AI技術(shù)最重視的手機廠商——就專利數(shù)量而言,甚至沒有之一。
根據(jù)清華大學人工智能研究院、清華-中國工程院知識智能聯(lián)合研究中心聯(lián)合發(fā)布的《人工智能發(fā)展報告2020》,2011-2020十年間,OPPO在國內(nèi)AI專利申請數(shù)量統(tǒng)計中排名全國第三。
截至2021年3月31日,OPPO在AI領(lǐng)域的全球?qū)@暾埑^2450件,主要布局在計算機視覺、語音技術(shù)、自然語言處理、機器學習等方面。
而且對于AI等前沿技術(shù)的重視,還有進一步加強之勢,體現(xiàn)在公司級戰(zhàn)略上。
比如2020年11月,OPPO正式發(fā)布“3+N+X”科技躍遷戰(zhàn)略,明確將AI作為能力中心之一:
- 3大基礎(chǔ)技術(shù)能力:硬件、軟件、服務
- N個能力中心:AI、安全隱私、多媒體等
- 差(X)異化技術(shù):AR、閃充、影像、新形態(tài)等
而近年來,領(lǐng)軍人才接連加盟、高精尖技術(shù)人員相繼引進,也是OPPO重視AI等技術(shù)的風向標之一。
所以OPPO沒有AI、不重視AI嗎?
自然不是。
但知春路“高圓圓”的感覺也并非完全不對,因為OPPO對AI的宣傳,確實相對聲勢小很多。
這與OPPO自身的風格和選擇有關(guān)。
“AI為人”,不必過分強調(diào)
我們把問題拋向OPPO副總裁、研究院院長劉暢,他給出這樣的回答:
“科技公司真正的實力,不一定需要通過營銷和宣傳才能體現(xiàn)?!?/p>
劉暢認為,OPPO內(nèi)部的技術(shù)理念,也不提倡把技術(shù)掛在嘴邊,或者成為用戶認知上的負擔。
用戶選擇你的科技產(chǎn)品,享受科技帶來的便利,但不必知曉背后復雜的原理,不必增加認知上的負擔,真正有科技力的產(chǎn)品,用戶不必“感知到”科技的存在。
OPPO把這個理念稱為“科技為人”。
比如在AI成像在業(yè)內(nèi)宣傳熱鬧之前,OPPO用戶其實就已經(jīng)有實際體驗,他們的手機在逆光環(huán)境下也能清晰成像,他們的手機夜間拍視頻也明亮飽滿,畫質(zhì)有保障。
但這些用戶只需要感知到效果好,而不必被告知和灌輸繁瑣的技術(shù)原理。
再比如,OPPO用戶發(fā)現(xiàn),自己的手機放置于桌面,目光所至屏幕點亮,目光移開屏幕又熄。頗有王陽明“你未看此花時,此花與汝心同歸于寂”的哲學意味……在日常場景中也非常實用。
但這些用戶不必知道,背后涉及的AI感知和眼球追蹤等技術(shù)。
其實對于手機行業(yè)來說,新技術(shù)很多,可以加強自身黑科技形象的技術(shù)也有很多。
那么,評判、選擇的標準是什么?
劉暢透露,對于OPPO內(nèi)部而言,從應用場景來看,技術(shù)通常會被劃分優(yōu)先級。
如相機、相冊、語音助手(如小布Breeno)、視頻軟件(如即錄)這些用戶經(jīng)常使用的功能,屬于頭部應用場景;而對于圖片優(yōu)化、證件照拍攝等關(guān)注度略少的功能,則屬于尾部場景。
而從技術(shù)研究本身來看,一項AI技術(shù)是否值得鉆研,同樣有“前沿”或是“有用”的評判標準。
在OPPO研究院,則有著3:5:2的說法,其中30%的投入,用來做產(chǎn)品和業(yè)務的技術(shù)轉(zhuǎn)化,將一些AI算法與場景結(jié)合;50%做前瞻性布局,如AR技術(shù)驅(qū)動;20%則靠天才或“瘋子”驅(qū)動研究。
然而,無論場景優(yōu)先級,還是“前沿”和“有用”,都并非OPPO評判技術(shù)的核心標準。
在OPPO內(nèi)部,選擇前沿技術(shù)展開創(chuàng)新和突破,最關(guān)鍵的標準在于——給用戶帶來的價值。
而對用戶和使用效果的關(guān)注,甚至從技術(shù)立項和研發(fā)之初,就會成為標準。
背后的核心理念,也是CEO陳明永所強調(diào)的“致善式”創(chuàng)新,不做關(guān)注競爭和友商的創(chuàng)新,關(guān)注用戶和用戶需求本身,遵循本分。
△OPPO創(chuàng)始人兼首席執(zhí)行官陳明永
在OPPO研究院,新技術(shù)立項和選擇,會有“終極使用設想”——會大致以怎樣的方式給用戶帶來怎樣的體驗提升?
這種標準下,有些功能很小,但用戶剛需時很爽,就做。
比如OPPO手機中,有一個叫“AI證件照”的功能,使用頻次不高,但當技術(shù)人員描繪使用設想,并論證對用戶實實在在的價值后,OPPO選擇了開發(fā)它。
又例如,已在OPPO商店上線的《表情包大作戰(zhàn)》小游戲,能用AI算法同時識別多個人的表情,一起參與游戲,迅速拉近親友同事伴侶間的關(guān)系(手動狗頭)。
所以如此理念和機制下,OPPO的用戶時有驚喜,而且忠誠度很高。
對于科學家和技術(shù)工程師而言,這樣的理念和機制,也讓他們不斷被用戶的由衷稱贊所激勵,動力和成就感十足。
視頻防抖、眼球追蹤、125W快充“餅干充電器”,可變色手機……一茬接一茬的創(chuàng)新能力和體驗,就這樣被驅(qū)動產(chǎn)生。
當然,OPPO的這種理念也并非全無劣勢。
如果技術(shù)的應用和創(chuàng)新,總是以用戶體驗、感知效果為導向,就會導致一個悖論:
不去使用的話,就沒有機會去感知。
更直白來說,這是為什么也有玩家,把技術(shù)和科技創(chuàng)新,喊得響亮的原因。聲勢越大,用戶直觀受影響的可能性越強,接觸并使用產(chǎn)品的可能性也就越高。反之亦然。
所以OPPO就從沒有過糾結(jié)嗎?
劉暢說,沒有。
在OPPO研究院搞創(chuàng)新會是怎樣的體驗?
這位OPPO副總裁、研究院院長說,因為OPPO的理念就是如此,如果公司上上下下都是這樣,就不會有糾結(jié)。
所以OPPO研究院雖然成立不算早,但理念和思路格外清晰——
依然要以用戶價值為導向、以人為本。
與貝爾、施樂等側(cè)重于理論、基礎(chǔ)的研究院不同的是,OPPO從成立伊始,聚焦點就是應用性研究。
相比于施樂所發(fā)明的圖形界面、手機、Pad、電池等產(chǎn)品本身,OPPO看中的是這些產(chǎn)品背后的技術(shù)價值,即如何才能更好地應用它。
也就是說,OPPO研究的并不止是算法本身,而是算法的體驗度,包括優(yōu)化應用時的響應時間、與硬件結(jié)合、數(shù)據(jù)選取、精確度等等指標。
這樣在迭代、加速一項AI技術(shù)的同時,也能反過來證明一些理論研究、從而加速技術(shù)創(chuàng)新。
并且因為身處大眾消費電子產(chǎn)業(yè),用戶的反饋實際也會快速而直接,對于科研和技術(shù)人員而言,堪稱立竿見影。
這讓科研和技術(shù)容易獲得成就感。
而且作為一家創(chuàng)辦于2004年的公司,OPPO其實經(jīng)歷過不少新技術(shù)驅(qū)動的新產(chǎn)品創(chuàng)新周期,整個市場聲量會變得很大,多音復義,眾聲喧嘩……希望最快速影響更多的用戶。
但跨過最初的“風口”之后,留存的本質(zhì),依舊是產(chǎn)品體驗。
所以目光拉長、時間維度拉長,產(chǎn)品的競爭力依然在于體驗,而不是時髦技術(shù)的營銷和宣傳。
劉暢說,做時間的朋友就不會慌。
當然,這或許還跟AI等技術(shù)的內(nèi)在特性息息相關(guān)。
從AI的發(fā)展來看,作為基礎(chǔ)性技術(shù),AI正在被應用到更加基礎(chǔ)的領(lǐng)域中,如聲光水電,不知不覺中滲透進我們的生活。
我們現(xiàn)在無時不刻離不開電,但我們不再強調(diào)“電”本身如何如何神奇。
AI也是,甚至一切技術(shù)皆如是,最終還是指向于人,服務于人。
所以OPPO基于“AI為人”展開的一切,看起來是一條更難的路,實際是更為本質(zhì)的路:
當智能產(chǎn)品最終趨于同質(zhì)化時,技術(shù)終將為解決剛需而服務。
參考鏈接:
[1]http://www.cdtc.org.cn/a/tongzhigonggao_hongseziti_/2020/1225/1156.html
[2]https://www.aminer.cn/research_report/6008402fe8a87f775ad224d8
- 首個GPT-4驅(qū)動的人形機器人!無需編程+零樣本學習,還可根據(jù)口頭反饋調(diào)整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產(chǎn)業(yè)2023-12-08
- AI視覺字謎爆火!夢露轉(zhuǎn)180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07