AI大模型加持,生成式搜索來了!
海量信息自動(dòng)提取,完整答案一秒直出
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
最近有兩件事,讓搜索引擎重回聚光燈下。
百度發(fā)布“文心百中”,用AI大模型技術(shù)驅(qū)動(dòng)的產(chǎn)業(yè)級搜索系統(tǒng)。構(gòu)建企業(yè)內(nèi)部搜索引擎的人力成本減少90%以上,同時(shí)只需要極低數(shù)據(jù)。
幾乎同一時(shí)間,OpenAI最新發(fā)布聊天機(jī)器人ChatGPT,網(wǎng)友發(fā)現(xiàn)用它來尋找問題的答案雖然有時(shí)會出錯(cuò),但直接得到完整回答的感覺要比從搜索中再去挑選爽快多了。
搜索引擎這個(gè)經(jīng)典技術(shù),就要迎來一輪變革了嗎?
想當(dāng)年,搜索引擎是PC互聯(lián)網(wǎng)時(shí)代的流量入口,絕對的王者。
進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代后,雖然不再是最受關(guān)注的焦點(diǎn),但搜索也仍舊是高頻剛需,逐漸融入人們的日常生活。
當(dāng)人們重新把目光看向搜索引擎,也會注意到它這些年并沒有停止進(jìn)化。
搜索變了
過去一提到搜索,肯定離不開關(guān)鍵詞。前幾屆世界杯時(shí),人們更習(xí)慣于搜“世界杯 直播地址”,關(guān)鍵詞之間用空格隔開。
就好像把所有網(wǎng)頁當(dāng)成一個(gè)大文檔,用類似Ctrl+F的方式去對關(guān)鍵詞做匹配。
隨著手機(jī)、移動(dòng)互聯(lián)網(wǎng)的普及,人們的需求也在變化,現(xiàn)在更傾向于提出一個(gè)問題,并期待搜索引擎能直接給出回答。
如搜索“世界杯直播在哪看?”,更口語化也更復(fù)雜,甚至一些時(shí)候就是語音轉(zhuǎn)換出來的。
搜索引擎也在適應(yīng)這種變化,給出的結(jié)果不再是單純的頁面排序。
針對一些問題,會給出對內(nèi)容深入理解后的答案抽取。
有時(shí)會給出更直觀、更容易跟著操作的視頻內(nèi)容。
甚至在理解需求的基礎(chǔ)上出現(xiàn)配套的服務(wù)跳轉(zhuǎn)。
這些變化看起來并不復(fù)雜,背后卻要有很多技術(shù)做支撐。
在這里要重點(diǎn)講一下百度今年亮相的兩項(xiàng)新技術(shù),“知一”和“千流”。
先看跨模態(tài)大模型知一,AI技術(shù)在搜索場景落地的代表。
簡單來說,知一大模型可以從全網(wǎng)形態(tài)各異的資源中持續(xù)學(xué)習(xí),無論是文本、圖片、視頻還是結(jié)構(gòu)化信息都可以融會貫通。
打破了資源形態(tài)的界限,就更容易理解用戶的搜索需求。
從技術(shù)層面講,知一使用了百度文心大模型技術(shù)。大規(guī)模預(yù)訓(xùn)練技術(shù)提升模型性能,蒸餾壓縮率高達(dá)99%的模型小型化技術(shù)以降低成本,得以在搜索場景全面應(yīng)用。
據(jù)了解,目前知一在百度搜索的各場景中每天要進(jìn)行上萬億次的推理。如此巨大的使用規(guī)模又帶來新的問題,如何把滿足需求的結(jié)果高效呈現(xiàn)給用戶。
這就要提到新一代索引技術(shù)千流,負(fù)責(zé)把不同維度的信息進(jìn)行智能有序的組織。
千流與之前的索引技術(shù)相比,主打多領(lǐng)域、多維度表達(dá)的立體柵格化索引。
如何理解柵格化?
在過去,搜索引擎為提高效率會把內(nèi)容按質(zhì)量橫向分層。先從高質(zhì)量內(nèi)容開始檢索,滿足需求就可以及時(shí)返回結(jié)果,還未滿足再進(jìn)入下一層。
如今,在千流中又把質(zhì)量最高的一批內(nèi)容按領(lǐng)域垂直分層。質(zhì)量分層+內(nèi)容命中結(jié)合,一橫一縱把內(nèi)容切分成柵格按需檢索,大大減少每次檢索的計(jì)算量。
百度工程師透露,這樣節(jié)省下的計(jì)算量也沒有閑著,而是對內(nèi)容進(jìn)行精耕細(xì)作,用不同的算法從多維度提高索引的質(zhì)量。
還有一個(gè)額外好處,在不同柵格之間可以應(yīng)用個(gè)性化算法。就好比“一魚多吃”,不同的部分使用不同的烹飪方法。
知一和千流配合起來,整個(gè)系統(tǒng)還會根據(jù)模型最新學(xué)習(xí)到的知識,進(jìn)行實(shí)時(shí)動(dòng)態(tài)調(diào)整,確保最優(yōu)檢索效果。最大程度避免無效計(jì)算,最終把滿足需求的結(jié)果高效呈現(xiàn)給用戶。
這些新技術(shù),在實(shí)際業(yè)務(wù)中是否起到了效果呢?
答案或許可以從數(shù)據(jù)中找。
反饋驅(qū)動(dòng)創(chuàng)新
9月份舉辦的萬象·百度移動(dòng)生態(tài)大會,百度指出,過去一年,百度搜索規(guī)模逆勢增長17%。
最新的百度第三季度財(cái)報(bào)也顯示,移動(dòng)端搜索查詢次數(shù)同比實(shí)現(xiàn)兩位數(shù)的增長。
百度集團(tuán)資深副總裁、百度移動(dòng)生態(tài)事業(yè)群組(MEG)總經(jīng)理何俊杰指出,其中的關(guān)鍵是“反饋驅(qū)動(dòng)創(chuàng)新”。
一方面反饋來自智能搜索。百度搜索每天響應(yīng)來自100多個(gè)國家、幾十億次的搜索請求。
另一方面則來自智能推薦。2022年第三季度百度App信息流內(nèi)容分發(fā)量同比增長23%,其中的用戶點(diǎn)贊、評論、分享也都是用戶最直接的反饋。
用戶的高頻需求,驅(qū)動(dòng)著AI技術(shù)變革。新技術(shù)又能激發(fā)新用戶需求表達(dá),兩者構(gòu)成“雙輪驅(qū)動(dòng)”,持續(xù)推動(dòng)搜索進(jìn)化。
比如虛擬人技術(shù)加持下,可以實(shí)現(xiàn)交互式對話,單純的搜索之外又有了聊天、陪伴需求。
正如百度研究院在年初的十大科技趨勢中所預(yù)測的,AIGC(AI Generated Content,人工智能生成內(nèi)容)在今年大放異彩。
未來AIGC繼續(xù)與搜索深度結(jié)合,還將帶來“搜索即生成”甚至“搜索即創(chuàng)造”。
不會再有“抱歉,沒有找到相關(guān)的網(wǎng)頁,請檢查您的輸入是否正確”,而是用戶點(diǎn)下搜索按鈕的一瞬間,本不存在的內(nèi)容由AI即時(shí)創(chuàng)造出來。
百度CEO李彥宏前段時(shí)間也說過:
隨著技術(shù)的突破,AI作畫、AI視頻、甚至AI構(gòu)建一個(gè)虛擬世界可能都會像手機(jī)拍照一樣簡單。
而一切技術(shù)的突破和創(chuàng)新,都離不開人才。
為了更好推動(dòng)技術(shù)和算法創(chuàng)新、促進(jìn)產(chǎn)學(xué)研交流、培養(yǎng)人才,百度舉辦了首屆搜索技術(shù)創(chuàng)新挑戰(zhàn)賽。
大賽提供30萬元總獎(jiǎng)金池、提供英偉達(dá)A100算力資源,更是有機(jī)會接觸到百度海量搜索業(yè)務(wù)的脫敏數(shù)據(jù)。
本屆大賽分為兩個(gè)賽道:
搜索問答,旨在探索開放領(lǐng)域搜索場景。面對網(wǎng)頁文檔質(zhì)量參差不齊、長短不一,問題答案分布零散、長度較長等問題,希望參賽者能進(jìn)一步提升深度智能問答效果,給用戶提供更好的搜索體驗(yàn)。
搜索模型推理優(yōu)化,對于保障億萬用戶流暢的搜索體驗(yàn)、控制算力成本開銷至關(guān)重要。希望參賽者通過各種優(yōu)化技術(shù),挑戰(zhàn)最優(yōu)的模型推理性能。
大賽期間,百度還提供了豐富的相關(guān)課程和學(xué)習(xí)資料,搜索技術(shù)與GPU加速計(jì)算專家也將提供全程的技術(shù)輔導(dǎo)。
本次大賽對全社會開放,消息一出立即吸引了大量高校學(xué)生、企業(yè)團(tuán)隊(duì)或個(gè)人開發(fā)者,目前已有1500+隊(duì)伍報(bào)名參加,成為搜索技術(shù)領(lǐng)域一次盛會。
大賽地址:
https://sti.baidu.com
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18