騰訊靠AI大模型斬獲兩項(xiàng)世界冠軍:信息檢索權(quán)威比賽登頂
相關(guān)技術(shù)已落地微信搜一搜
近日,信息檢索領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023競(jìng)賽成績(jī),來自騰訊的研究團(tuán)隊(duì)基于大模型預(yù)訓(xùn)練、搜索排序以及集成學(xué)習(xí)等技術(shù)上的突破,在無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道上的兩項(xiàng)任務(wù)中獲得冠軍,體現(xiàn)了在該領(lǐng)域的領(lǐng)先技術(shù)實(shí)力。
ACM WSDM(Web Search and Data Mining) 會(huì)議是信息檢索領(lǐng)域頂級(jí)會(huì)議之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四個(gè)專委會(huì)協(xié)調(diào)籌辦,在互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘領(lǐng)域享有較高學(xué)術(shù)聲譽(yù)。第16 屆 ACM 國(guó)際 WSDM 會(huì)議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行,論文的接收率為17.8%。
WSDM Cup由 WSDM 會(huì)議舉辦,本屆 WSDM Cup 共計(jì)400余支隊(duì)伍參加,分別來自中國(guó)、美國(guó)、新加坡、日本、印度等國(guó)家的知名高校和公司,大賽共設(shè)置三個(gè)賽道:無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search)、跨語言連續(xù)體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages)和視覺問答挑戰(zhàn)賽道(Visual Question Answering Challenge)。
此次騰訊「參賽隊(duì)名:騰訊機(jī)器學(xué)習(xí)平臺(tái)部搜索團(tuán)隊(duì)(TMLPS)」參加了無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道,并在該賽道的兩項(xiàng)子任務(wù)中(Pre-training for Web Search和Unbiased Learning to Rank)獲得冠軍。
目前兩項(xiàng)成果代碼和論文均已發(fā)布到Github上(見:GitHub –
lixsh6/Tencent_wsdm_cup2023)
在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)標(biāo)注的質(zhì)量對(duì)于模型的效果有著較為顯著的影響,但是較高的標(biāo)注數(shù)據(jù)成本一直是研究團(tuán)隊(duì)的阻礙之一,如何從技術(shù)上利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型自然成為了成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點(diǎn)。
論文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation
地址:
https://arxiv.org/pdf/2302.13756.pdf
本次比賽,針對(duì)基于搜索的預(yù)訓(xùn)練任務(wù)(Pre-training for Web Search),騰訊團(tuán)隊(duì)通過大模型訓(xùn)練、用戶行為特征去噪等方法,在點(diǎn)擊日志上進(jìn)行基于搜索排序的模型預(yù)訓(xùn)練,進(jìn)而使模型有效地應(yīng)用到下游相關(guān)性排序的檢索任務(wù)。通過預(yù)訓(xùn)練、模型微調(diào)、集成學(xué)習(xí)等多方面的優(yōu)化,在人工標(biāo)注的相關(guān)性排序任務(wù)上取得了較大的領(lǐng)先優(yōu)勢(shì)
論文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking
地址:
https://arxiv.org/pdf/2302.13498.pdf
在本次比賽的另一賽道無偏排序?qū)W習(xí)任務(wù)(Unbiased Learning to Rank)中,團(tuán)隊(duì)通過深入挖掘點(diǎn)擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點(diǎn)擊后的滑屏次數(shù)等特征對(duì)文檔相關(guān)性進(jìn)行無偏估計(jì),提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。
據(jù)了解,奪冠團(tuán)隊(duì)的成果均基于騰訊混元AI大模型(下文簡(jiǎn)稱“HunYuan”)和太極機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)。目前,通過聯(lián)合微信搜索團(tuán)隊(duì),兩項(xiàng)技術(shù)已經(jīng)在微信搜一搜的多個(gè)場(chǎng)景落地相關(guān)技術(shù),并取得了顯著的效果提升。
AI大模型(又稱預(yù)訓(xùn)練模型)是指預(yù)先訓(xùn)練好,具有相對(duì)通用性的“一套算法”,具有“巨量數(shù)據(jù)、巨量算力、巨量模型”等特性。大模型通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表達(dá)層次,發(fā)展出接近、超越人類水平的“智能”,具備分析推理能力,能夠識(shí)別文字、圖像和聲音等。
2022年4月,騰訊首次對(duì)外披露HunYuan大模型研發(fā)進(jìn)展。HunYuan集CV(計(jì)算機(jī)視覺)、NLP(自然語言理解)、多模態(tài)理解能力于一體,先后在MSR-VTT、MSVD等五大權(quán)威數(shù)據(jù)集榜單中登頂,實(shí)現(xiàn)跨模態(tài)領(lǐng)域的大滿貫。2022年5月,更是在國(guó)際公認(rèn)的CLUE(中文語言理解評(píng)測(cè)集合)三個(gè)榜單同時(shí)登頂,一舉打破三項(xiàng)紀(jì)錄。近日,HunYuan又迎來全新進(jìn)展,推出國(guó)內(nèi)首個(gè)低成本、可落地的NLP萬億大模型,并再次登頂CLUE。
騰訊太極機(jī)器學(xué)習(xí)平臺(tái)是集模型訓(xùn)練和在線推理于一身的高性能機(jī)器學(xué)習(xí)平臺(tái),具備萬億參數(shù)模型的訓(xùn)練和推理能力,為AI大模型預(yù)訓(xùn)練推理和應(yīng)用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應(yīng)用過程中特征處理、模型訓(xùn)練、模型服務(wù)等工程問題。
騰訊長(zhǎng)期致力于前沿搜索技術(shù)的研究,通過改進(jìn)搜索算法,提升用戶搜索體驗(yàn),相關(guān)技術(shù)團(tuán)隊(duì)在檢索預(yù)訓(xùn)練、大模型訓(xùn)練、搜索排序任務(wù)目標(biāo)函數(shù)設(shè)計(jì)等方面的具有豐富的實(shí)踐經(jīng)驗(yàn),研究成果多次在國(guó)際競(jìng)賽和學(xué)術(shù)會(huì)議中取得領(lǐng)先成績(jī),并廣泛應(yīng)用于微信搜索、騰訊廣告、游戲等多個(gè)業(yè)務(wù)場(chǎng)景。
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開源之光多模態(tài)統(tǒng)一模型,來了2025-07-30