搜狗的2019年:錄音筆開辟智能硬件新戰(zhàn)場,語言AI要在C端找準點
明年還將推出兩款神秘硬件
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
回顧即將過去的2019年,這一年AI領(lǐng)域的行業(yè)關(guān)鍵詞是“落地”,至于到底落在哪里,每家公司都有不同的見解。
在搜狗CEO王小川看來,AI技術(shù)應(yīng)該落在C端。至少to B和to C并不矛盾,即使是to B,最終也要落到消費者身上。
王小川之所以這么說,是搜狗這家公司的基因決定的。
多年以前,王小川就為搜狗構(gòu)想了一套完整的to C戰(zhàn)略,他提出的“三級火箭”理論,其中的每一級都是面向消費者。
時代在變,搜狗也把三級火箭升級為搜索、輸入法和硬件,如今AI就是這只火箭的燃料。以搜索起家的搜狗,現(xiàn)在要以語言AI為燃料助推火箭。
那么,過去這一年里,AI火箭把搜狗推到了什么高度,搜狗火箭注入的燃料里究竟有什么成分?
硬件另辟蹊徑
今天PC端、移動端不再是唯一的用戶入口,豐富多樣的硬件成為互聯(lián)網(wǎng)公司爭奪用戶的新戰(zhàn)場。
在硬件這條道路上,搜狗的思路與眾不同。
要說2019年最火的AI硬件是什么,非智能音箱莫屬,小米、華為、百度、阿里,都投入了巨大的人力財力在這片紅海中。
但王小川認為,智能音箱不是未來硬件的趨勢。在接受《財經(jīng)天下》采訪時,王小川說,未來的智能硬件一定是更便攜、更具備IO能力的,可以成為人的外設(shè)器官,提升能力及能力邊界。
搜狗把目光鎖定在一個市場規(guī)模僅400萬的硬件市場——錄音筆。這個看似不起眼的小硬件讓搜狗在硬件領(lǐng)域獲得了初步勝利。
對于人來說,語音雖然是一個快速輸入的好方式,但并不適合快速的讀取。過去錄音筆之所以不被用戶接受,一個很重要的原因就是重新整理錄音內(nèi)容耗時耗力。
隨著搜狗將AI技術(shù)注入到錄音筆中,這一看似不起眼的硬件又煥發(fā)了新的活力,無論是關(guān)注度還是銷量都出現(xiàn)了增長。
搜狗不僅自己做硬件,也要為整個產(chǎn)業(yè)賦能,今年8月,搜狗聯(lián)合愛國者、紐曼、索尼等錄音筆制造商,成立AI創(chuàng)新聯(lián)盟,把自身的AI技術(shù)和服務(wù)開放給友商,實現(xiàn)行業(yè)共贏。
成功探索出AI錄音筆這一智能硬件后,搜狗還會嘗試哪些新的形式?
在這次采訪中,王小川還透露,明年年初搜狗將推出兩款新的智能硬件,可能會顛覆一些傳統(tǒng)行業(yè)。
軟件添加新玩法
硬件為搜狗開辟了新的戰(zhàn)場,搜狗傳統(tǒng)的軟件陣地也在鞏固,甚至還開辟出了新的邊界。
光是輸入法,搜狗今年就已經(jīng)玩出了花來,給它加入變聲功能、輸入法預(yù)測。
最早是5月,搜狗為手機端輸入法加入了變聲功能,讓用戶可以輕松模仿周星馳、高曉松等明星的聲音。
簡而言之,只要用戶在輸入法中錄入一段自己的語音,就能瞬間把聲音轉(zhuǎn)化成另一個角色,語調(diào)的抑揚頓挫、情感都原原本本保留下來,效果堪比柯南的“變聲領(lǐng)結(jié)”。
上個月,搜狗輸入法又迎來重大產(chǎn)品升級,正式迎來10.0版本。用AI技術(shù)提升輸入體驗,推出了“AI逐字校對”、“AI長句預(yù)測”等全新功能。
除了直接提供給消費者的產(chǎn)品,搜狗還有toB而后toC的語音技術(shù)、分身技術(shù),雖然普通用戶可能沒有直觀感知,但這些技術(shù)已經(jīng)和我們的生活息息相關(guān)。
搜狗語音變聲已經(jīng)用在得到這樣的知識付費平臺中,通過與知識大咖梁寧的合作,這項技術(shù)大大提高了語音付費內(nèi)容的生產(chǎn)效率。
搜狗不僅能合成單獨的語音,還能通過合成的虛擬分身以視頻形式聲情并茂為用戶傳遞信息。目前,包括新華社、央視的多家媒體都使用了搜狗的AI合成主播,為觀眾播報新聞。
通過先進的語音合成、人臉建模等技術(shù),搜狗AI合成主播能大大縮短新聞制作流程,無論何種場景都能快速上崗。
它還能做到24小時不間斷播報,將傳統(tǒng)的媒體工作者從繁重的新聞播報工作中解脫出來,大大提升了媒體行業(yè)的效率。
最近,搜狗的合成主播還在T-EDGE科技大會、WISE大會中擔當了“主持人”,若非是在屏幕上顯示,幾乎可以以假亂真。
基礎(chǔ)研究的積累
火箭的推進離不開燃料,搜狗積累的AI技術(shù)就是推進三級火箭的核心動力。
今年搜狗已在多項語言AI技術(shù)的上達到全球領(lǐng)先的水平,并在一些頂級會議上發(fā)表學(xué)術(shù)論文,展示了搜狗軟硬件之下的支撐力。
年初,搜狗搜索AI研究團隊憑借BERT + Answer Verification模型在AI問答大賽CoQA中,超過微軟、訊飛、清華、復(fù)旦等公司和高校奪得冠軍。
搜狗一直堅持探索以語言為核心的人工智能戰(zhàn)略,AI問答對搜狗具有重要意義,王小川相信搜索的未來是問答。而機器閱讀理解是現(xiàn)今問答技術(shù)發(fā)展的核心之一。在這次采訪中,王小川也提到“搜索明年會有新的形態(tài)”,這個“新形態(tài)”可能是走向問答的重要一步。
5月,搜狗在信號處理頂級會議ICASSP上,提出了一個新的多模態(tài)語音識別模型,即“基于模態(tài)注意力的端到端音視覺語音識別”。
人類說一段話,AI根據(jù)唇形和語音準確識別內(nèi)容。該技術(shù)對嘈雜環(huán)境下的語音識別具有極大的提升作用。在外界噪聲與語音信號幾乎相同的情況下,搜狗的多模態(tài)識別能將準確率提高了30%。
多模態(tài)語音識別未來將在搜狗的手機輸入法中集成,也有可能與車廠合作,解決車內(nèi)復(fù)雜環(huán)境的語音識別,拓展搜狗技術(shù)的使用場景。
搜狗認為未來語音識別和交互的方式一定是多模態(tài)的,語音識別技術(shù)已經(jīng)發(fā)展到了一個瓶頸階段,純的聲音識別已經(jīng)很難再有大幅度的提高。
在搜狗看來,未來的人機交互不止是聲音,還有視覺動作、神態(tài)的加入,這些技術(shù)都會提高交互體驗。
搜狗這一年
縱觀搜狗的2019年,從AI錄音筆、輸入法升級再到AI合成主播,搜狗的新技術(shù)實力不斷通過to C方式展現(xiàn)。
短短一年的時間里,搜狗的錄音筆設(shè)備已經(jīng)穩(wěn)穩(wěn)占據(jù)市場,AI合成等技術(shù)主要也迅速擴展到知識付費、新聞媒體、互聯(lián)網(wǎng)法院、金融客服等各個角落。
在技術(shù)研發(fā)上,搜狗也是步步為營、穩(wěn)扎穩(wěn)打,多模態(tài)的語音識別技術(shù)為搜狗的輸入法和新的硬件產(chǎn)品帶來的新的想象。
從這些端倪,我們不難看出搜狗希望以語言AI為核心,讓AI技術(shù)加持的各種產(chǎn)品,無論是硬件還是軟件都能成為用戶的智能助理。
“落地實用”是扎根在搜狗工程師大腦中的理念,先進的技術(shù)一經(jīng)推出就快速應(yīng)用到產(chǎn)品中,與競品形成差異化競爭。
搜狗也不局限在某幾個特定場景,而是在各種場景下為用戶提升效率。在語音AI技術(shù)取得突破后,搜狗還在積極拓展邊界,加入圖像、視覺、翻譯、知識計算,將搜狗已有的語音AI技術(shù)帶到一個更新的應(yīng)用場景,和更高的理論高度。
用搜狗自己的話來說,搜狗正致力于成為語言AI技術(shù)的創(chuàng)新者和引領(lǐng)者。
明年,搜狗還會有什么動作,王小川口中的兩個神秘智能硬件是什么?值得期待。