AIGC是日燒百萬的銷金窟,但有應(yīng)用場景的公司不在乎
2022:AIGC元年,2023:?
夢晨 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
沒想到,第一批AI繪畫產(chǎn)品已經(jīng)開始倒閉了……
StockAI,成立僅4個月,在2022年底因用戶付費無法覆蓋成本,遺憾宣布關(guān)閉平臺、退款。
以3月的付費AI繪畫平臺Midjourney推出為標(biāo)志,AI繪畫開始被職業(yè)畫師重視起來。到8月的Stable Diffusion開源,AI繪畫正式出圈并開啟一場全民狂歡,這一過程只用了不到半年。
AIGC(利用AI技術(shù)生成內(nèi)容)這一概念也被徹底帶火,成為最熱門的風(fēng)口之一,剛剛過去的2022年也被形容為AIGC元年。
Stable Diffusion背后的公司StabilityAI融資1.01億美元,AI文案生成公司Jasper融資1.25億美元。
這一波熱潮還沒完全過去,ChatGPT橫空出世,又把AIGC抬上了新高度。
人們開始認(rèn)為它能搶走搜索引擎的生意,甚至谷歌自己都感受到了危機,在公司內(nèi)部發(fā)布了“紅色警報”。
以ChatGPT的火爆程度,從0到100萬用戶只用了不到5天。
這是什么概念?作為對比,Twitter用了2年,F(xiàn)acebook用了300天,Instagram用了將近75天。
據(jù)馬里蘭大學(xué)副教授Tom Goldstein粗略估計,如果100萬用戶平均每天只進行10次對話,Open AI就需要為ChatGPT每天燒掉10萬美元(68萬人民幣)。
AIGC太燒錢該如何持續(xù)?OpenAI為什么能先后引領(lǐng)AI繪畫與對話系統(tǒng)兩波浪潮?成了行業(yè)熱議的話題。
量子位在這段時間里也和一些學(xué)者、從業(yè)者交流了這些問題,其中,京東集團副總裁、IEEE Fellow何曉冬博士的觀點很有啟發(fā)性:
利用AI拓展人類認(rèn)知邊界和AI商業(yè)化落地,是兩個不同的邏輯
商業(yè)巨頭很難搞出ChatGPT這樣的項目
我們2017年就做了AI繪畫
在AI技術(shù)圈,何曉冬是公認(rèn)的大牛。
他本科畢業(yè)于清華大學(xué),碩士畢業(yè)于中國科學(xué)院,后赴美國密蘇里大學(xué)哥倫比亞分校獲得博士學(xué)位,在微軟全球八大研究院之首的雷德蒙研究院工作十余年,2018年回國加入京東,并于2019年當(dāng)選IEEE Fellow。
他先后發(fā)表了200余篇學(xué)術(shù)論文, 谷歌學(xué)術(shù)統(tǒng)計引用數(shù)超4萬次,其中單篇論文最高被引用近5000次,h-index達到70。
早在2017年,何曉冬就在微軟研究過讓AI根據(jù)文字生成圖像的技術(shù),當(dāng)時的模型AttnGAN登上CVPR,生成的一張“一只紅羽毛白肚子的短咀小鳥”現(xiàn)在看來也不算過時,這也是早期AIGC和多模態(tài)智能領(lǐng)域重要的進展。
△AttnGAN 按照 “一只紅羽毛白肚子的短咀小鳥” 生成的圖像
語言模型方面,像ChatGPT一樣不再一味追求大參數(shù)、無監(jiān)督學(xué)習(xí)的類似思路之前也不是沒人想到過,只是沒能做到極致。
那么其他人離做出DALL·E和ChatGPT這樣的產(chǎn)品還差些什么?
何曉冬認(rèn)為,不差在思路,也不差在資源,而是差在決心。
兩大獨立AI研究機構(gòu),DeepMind和Open AI做的事,都是在拓展人類認(rèn)知邊界,并不能直接帶來商業(yè)價值。
要下這樣的決心,和技術(shù)負責(zé)人的品味、組織的使命和生存模式都離不開關(guān)系。
像谷歌雖然手里也有LaMDA這樣的超強對話語言模型,卻遲遲不面向公眾大規(guī)模開放,甚至被內(nèi)部員工吐槽是“起了個大早,趕了個晚集”。
△谷歌LaMDA概念圖
這其中的原因,有谷歌在AI倫理道德議題上不敢冒進,也有對自身現(xiàn)有商業(yè)模式顛覆的顧慮——廣告是谷歌的核心收入來源之一,當(dāng)人們不再用搜索引擎而改用AI對話時,廣告是無處安放的。
要讓AIGC產(chǎn)生商業(yè)價值,就要遵從一套完全不同的邏輯。
AIGC如何產(chǎn)生商業(yè)價值?
在微軟開發(fā)的這個AI繪畫技術(shù)當(dāng)年終究是沒能做成產(chǎn)品上線,但作為技術(shù)初心和拓展人類認(rèn)知邊界的一個嘗試,AI畫出的這只鳥一直被何曉冬當(dāng)作手機壁紙。
不過,另一項技術(shù)“AI看圖說話”就成功找到了自己的位置。
現(xiàn)在的Office里,插入一張圖片就能自動生成一段描述文本(alt text),可由系統(tǒng)語音讀出為視力障礙者提供方便。
技術(shù)結(jié)合場景,在產(chǎn)業(yè)真實落地,就能發(fā)揮更大的價值。
2018年,何曉冬離開工作了十余年的微軟雷蒙德研究院,選擇回國加盟京東,這之中也是有離場景更近方面的考量。
在京東,何曉冬帶領(lǐng)團隊打造了京東云言犀人工智能應(yīng)用平臺,服務(wù)京東5.8億用戶和17.8萬商家,也將系列AI產(chǎn)品服務(wù)落地到了金融、政務(wù)、交通等各個領(lǐng)域。
僅在開放給第三方商家使用服務(wù)與導(dǎo)購產(chǎn)品的京小智上,就幫助商家?guī)砹松锨|元GMV。
另一套商品文案生成系統(tǒng),目前已覆蓋3000+品類,累計“種草”30億字,帶來超過3億的GMV。
光是線上購物這一個場景,就支持了這么多種技術(shù)落地的可能性,而更大的發(fā)揮空間在背后的設(shè)計、生產(chǎn)、倉儲、物流等供應(yīng)鏈上下游場景。
這也是京東云產(chǎn)業(yè)AI的推進路線,一面保持對前沿技術(shù)的探索,一面依托自身的場景推進AI技術(shù)產(chǎn)業(yè)化、規(guī)模化落地。
經(jīng)過反復(fù)迭代打磨后,再將技術(shù)以模塊化、組件化、產(chǎn)品化的方式,基于言犀人工智能應(yīng)用平臺對外開放,成為產(chǎn)業(yè)上下游的超復(fù)雜協(xié)同的最佳“助手”,助力產(chǎn)業(yè)數(shù)智化升級。
相比于一些其他公司,京東的供應(yīng)鏈場景豐富,更重要的是京東的“價值標(biāo)準(zhǔn)”,如同正品行貨、物流配送一樣,AI產(chǎn)品也必須滿足客戶的價格、產(chǎn)品、服務(wù)等方面的綜合體驗,又要滿足京東在技術(shù)商業(yè)化過程中自身的成本與效率。
深入產(chǎn)業(yè)AI,不可避免的會遇到更低頻、長尾的復(fù)雜場景和產(chǎn)業(yè)大規(guī)模協(xié)同的需求。
這些場景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均,研發(fā)成本更高,同時定制化程度高、難以復(fù)制。如此一來,就需要遷移成本低、基礎(chǔ)數(shù)據(jù)樣本豐富、靈活彈性、適用能力強的綜合性AI系統(tǒng)。
對于AIGC這一具體方向來說,同樣如此。
何曉冬拿智能客服場景來舉例,用于京東自營時模型是高度定制化的,直接開放給幾十萬第三方賣家使用很難滿足所有人需求,又很難靠人力去適配所有需求。
后來的解決辦法是定義好產(chǎn)品的邊界,預(yù)訓(xùn)練大模型提供基礎(chǔ)能力,同時結(jié)合在京東沉淀的豐富領(lǐng)域知識圖譜,把知識接口開放給賣家,無論是賣食品還是化妝品都可以把產(chǎn)品知識填進去,讓AI能力方便的遷移到不同領(lǐng)域。
這個過程中模型免不了犧牲一些性能才能做到最終產(chǎn)品的標(biāo)準(zhǔn)化、開箱即用,因為產(chǎn)業(yè)AI到了這一步,很多用戶都不是技術(shù)專家。
把AI能力組合成產(chǎn)品對傳統(tǒng)行業(yè)客戶太有挑戰(zhàn)性了,直接提供開箱即用的AI產(chǎn)品和應(yīng)用才能讓不懂技術(shù)的客戶也能快速組成解決方案,滿足自己的需求。
在這套體系下,京東云還進行了AIGC的多方向探索,如聯(lián)手中央美術(shù)學(xué)院的AI書法生成。
以及一鍵生成店鋪專屬數(shù)字人。在數(shù)字人領(lǐng)域,言犀平臺上推出了2D真人、3D卡通、3D超寫實等多種類型數(shù)字人,近期還上線了大姿態(tài)(側(cè)臉、轉(zhuǎn)頭等)數(shù)字人。目前言犀平臺已有100+形象,30+音色選擇,為電商直播、金融、政務(wù)等領(lǐng)域提供媲美真人的服務(wù)體驗。尤其是電商直播領(lǐng)域,百變的形象、專屬的音色,智能腳本實時撰寫,豐富的“知識體系”等同于一名金牌銷售,推出后已為客戶帶來顯著的GMV提升。
△京東云言犀數(shù)字人演示
甚至對實體倉庫、實體零售店做一個數(shù)字孿生。京東物流研發(fā)了京東物控 3D Scada 智能倉儲數(shù)字孿生平臺大大提升了倉庫作業(yè)的效能,相比于傳統(tǒng)人工作業(yè)的方式效率可以提高3~8倍;京東也在探索一種具有未來感的零售模式,構(gòu)建柔性店鋪,讓店鋪的功能隨著消費者時間不同、需求不同而實時改變,革新線下零售的購物體驗。
要說AIGC如此多的方向中,最有商業(yè)價值潛力的是哪個?
何曉冬還是最看好數(shù)字人,加入了視覺形象、人物表情,交互更自然,使用體驗有很大提升。
而且他預(yù)測,2023年AIGC一個可能的技術(shù)突破方向也在這里。
AI繪畫最常用的技術(shù)是擴散模型,有天馬行空的創(chuàng)造力,但是容易失控。超寫實數(shù)字人常用的是神經(jīng)輻射場,可以根據(jù)物理特性重構(gòu)三維環(huán)境。
如果兩者能結(jié)合起來,可能把可控性和真實性再提高一個數(shù)量級,到時候應(yīng)用場景也會進一步打開。
One More Thing
如何讓AIGC產(chǎn)生更大價值,是全行業(yè)都在關(guān)注的熱點,相關(guān)討論層出不窮。
比如在量子位舉辦的MEET2023智能未來大會上,小冰公司CEO李笛分享了他對數(shù)字人的思考。
如數(shù)字員工會使toB和toC的界限變得模糊,比如銀行的數(shù)字客戶經(jīng)理可能會與客戶變成朋友。
未來數(shù)字人也將不再隸屬于某一平臺,人們在客服、手機、汽車場景上與同一個數(shù)字人交流,能獲得更加無縫、24小時、持續(xù)連貫的服務(wù)。
OpenAI的CEO Sam Altman最近則發(fā)表了他對ChatGPT進一步發(fā)展的想法。
ChatGPT這樣的技術(shù),隨著時間推移一定會造成一些重大的破壞……但是不讓技術(shù)接觸現(xiàn)實世界是無法獲得改進辦法的。
探索人類認(rèn)知邊界與產(chǎn)生商業(yè)價值,2023年你更期待AI在哪方面的進展?
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08