天壤聯(lián)合創(chuàng)始人韓定一:大模型+小樣本數(shù)據(jù),AI驅(qū)動(dòng)金融數(shù)字化轉(zhuǎn)型新范式|量子位·視點(diǎn)分享回顧
實(shí)現(xiàn)金融機(jī)構(gòu)的決策智能,降低業(yè)務(wù)成本。
后疫情時(shí)代,現(xiàn)實(shí)世界企業(yè)面臨更多復(fù)雜、非線性的變化,數(shù)字化、自動(dòng)化成為企業(yè)提高戰(zhàn)略競(jìng)爭(zhēng)力的關(guān)鍵因素。
特別是業(yè)務(wù)規(guī)模巨大的金融機(jī)構(gòu),如何借助AI、大數(shù)據(jù)、自動(dòng)化等技術(shù)工具構(gòu)建數(shù)字化、精準(zhǔn)化的營(yíng)銷體系?如何通過(guò)更好地調(diào)度AI模型實(shí)現(xiàn)金融機(jī)構(gòu)的決策智能,降低業(yè)務(wù)成本?
正是基于“復(fù)雜”而生的大模型,已成為機(jī)器智能學(xué)習(xí)的基礎(chǔ)。
“算法、數(shù)據(jù)、算力”三者協(xié)同,面對(duì)億級(jí)規(guī)模的金融復(fù)雜、碎片化場(chǎng)景,大模型只要經(jīng)過(guò)少量微調(diào)即可滿足學(xué)習(xí)任務(wù),AI能力一鍵即用,高效實(shí)現(xiàn)金融業(yè)務(wù)的數(shù)智化。
關(guān)于金融數(shù)字化領(lǐng)域,如何利用大模型和小樣本數(shù)據(jù)解決一些實(shí)際業(yè)務(wù)場(chǎng)景的問(wèn)題,天壤聯(lián)合創(chuàng)始人韓定一在「量子位·視點(diǎn)」直播中分享了他的從業(yè)經(jīng)驗(yàn)和觀點(diǎn)。
以下根據(jù)分享內(nèi)容進(jìn)行整理:
金融數(shù)字化面臨的挑戰(zhàn)和趨勢(shì)
金融數(shù)字化的場(chǎng)景其實(shí)大家日常生活中經(jīng)常遇到,例如銀行ATM機(jī)刷臉取款、手機(jī)銀行人臉識(shí)別核驗(yàn)身份、疫情期間網(wǎng)點(diǎn)使用紅外技術(shù)檢測(cè)體溫等,還有通過(guò)手機(jī)APP直接來(lái)識(shí)別身份證、銀行卡,不必再手動(dòng)輸入相應(yīng)字段信息等各種場(chǎng)景。
金融機(jī)構(gòu)應(yīng)用AI一方面是為了合規(guī),通過(guò)驗(yàn)證身份來(lái)驗(yàn)證每筆交易的真實(shí)性,另一方面是用機(jī)器代替了人工識(shí)別,既提升了效率,也降低了人為因素可能導(dǎo)致的錯(cuò)誤率。
可以預(yù)見(jiàn),AI技術(shù)是金融機(jī)構(gòu)未來(lái)大幅提升效率、快速辦理業(yè)務(wù)的基礎(chǔ)。這樣的場(chǎng)景還有更多,例如銀行內(nèi)部各種審核流程、單證流轉(zhuǎn),傳統(tǒng)銀行業(yè)務(wù)用紙質(zhì)完成,現(xiàn)在用數(shù)字世界的識(shí)別能力將它們電子化。比如銀行業(yè)務(wù)中涉及到的手寫(xiě)簽名比對(duì)、密碼驗(yàn)證、識(shí)別筆跡、印章的真?zhèn)涡?,以及系統(tǒng)將手寫(xiě)單據(jù)錄入至系統(tǒng)中再將其作為指令發(fā)送出去,包括一些線下網(wǎng)點(diǎn)提供的遠(yuǎn)程機(jī)器人業(yè)務(wù)辦理服務(wù),背后涉及多個(gè)銀行業(yè)務(wù)系統(tǒng)的多套單元操作。今天的AI技術(shù)已經(jīng)可以做到幾乎代替人工自動(dòng)化地去完成單個(gè)的步驟和復(fù)雜的流程操作。
這些場(chǎng)景對(duì)AI能力要求越來(lái)越高。那么在金融這樣特殊的業(yè)務(wù)場(chǎng)景下,有哪些相較于一般應(yīng)用場(chǎng)景的特殊需求?
首先,金融機(jī)構(gòu)嚴(yán)格的監(jiān)管以及數(shù)據(jù)的私有化決定了數(shù)據(jù)獲取成本很高,考驗(yàn)AI能否用更少的數(shù)據(jù)解決同樣的問(wèn)題;第二,基于少量數(shù)據(jù)樣本訓(xùn)練的AI模型是否能達(dá)到非常高的準(zhǔn)確率去很好地解決業(yè)務(wù)問(wèn)題;第三,業(yè)務(wù)場(chǎng)景非常多,例如銀行、保險(xiǎn)、證券等場(chǎng)景涉及不同業(yè)務(wù)規(guī)則、流程操作,金融機(jī)構(gòu)往往希望模型快速上線,一年內(nèi)開(kāi)發(fā)100個(gè)流程應(yīng)用涉及到的模型可能有1000多個(gè),這些挑戰(zhàn)決定了需要不同AI模型和應(yīng)用的組合能力來(lái)解決復(fù)雜業(yè)務(wù)問(wèn)題。
能不能讓模型生產(chǎn)變成流水線?其實(shí)就是“大模型+小數(shù)據(jù)”最典型的場(chǎng)景。
接下來(lái),我們回顧一下AI技術(shù)的發(fā)展趨勢(shì)。
1997年5月份,IBM的深藍(lán)電腦以3.5:2.5擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍卡斯巴羅夫。2016年,AlphaGO以4:1擊敗李世石,又是引起一陣軒然大波??缭搅藢⒔?0年的時(shí)間,AI雖然得到了長(zhǎng)足的發(fā)展,但是應(yīng)用也僅僅是剛剛開(kāi)始。其中背后的技術(shù)到底發(fā)展了多少?
象棋和圍棋這兩個(gè)問(wèn)題其實(shí)本身都比較難:國(guó)際象棋的棋盤(pán)有8×8個(gè)格子,圍棋有19×19個(gè)格子。從這個(gè)角度來(lái)說(shuō),圍棋比國(guó)際象棋要難很多。數(shù)學(xué)家大致推算,像國(guó)際象棋這樣的棋盤(pán)大概有10的47次方種可能性,而圍棋有10的170次方。這個(gè)數(shù)字大到雖然看上去有限,卻沒(méi)有辦法完全計(jì)算——物理學(xué)家估算整個(gè)宇宙中的原子數(shù)量是10的80次方,就算所有原子都參與計(jì)算,仍然有10的90次方的可能性需要靠時(shí)間來(lái)完成。
AI圍棋又是如何擊敗世界冠軍?當(dāng)年在國(guó)際象棋中,AI使用的是搜索的方法:將圍棋的棋盤(pán)狀態(tài)和接下來(lái)可能發(fā)生的變化一一枚舉,然后判斷哪種情況結(jié)果更好。這樣的AI模型算法簡(jiǎn)單,但是規(guī)模非常大,工程難度高,實(shí)現(xiàn)這樣的模型只需要現(xiàn)在計(jì)算機(jī)系大三學(xué)生的水平就足夠。IBM為了支持這樣的程序,專門(mén)研制了VLSI象棋芯片,每顆芯片每秒進(jìn)行11.38億次浮點(diǎn)計(jì)算,意味著每秒可以計(jì)算2億步棋,對(duì)應(yīng)到國(guó)際象棋棋盤(pán)中就是能夠估算當(dāng)前棋面12步后的棋盤(pán)變化,而最厲害的人類國(guó)際象棋棋手大概只能估算到10步以內(nèi)的局面變化。
但這個(gè)方法解決不了圍棋的問(wèn)題。在AlphaGO出現(xiàn)前,2013、2014年時(shí)候,市面上最厲害的圍棋AI也就只能做到圍棋業(yè)余五段或?qū)I(yè)三段、四段的水平。
AlphaGO的出現(xiàn)改變了計(jì)算的框架,采用了基于蒙特卡洛的數(shù)字搜索,同時(shí)提出了兩大神經(jīng)網(wǎng)絡(luò):是估值網(wǎng)絡(luò)和走棋網(wǎng)絡(luò)。所謂估值,是用來(lái)判斷棋譜局面的情況;走棋網(wǎng)絡(luò)是根據(jù)當(dāng)前棋盤(pán)的情況判斷如何走棋,然后再用估值網(wǎng)絡(luò)評(píng)估走哪步棋的勝率是多少。這兩個(gè)網(wǎng)絡(luò)都需要事先訓(xùn)練,通過(guò)自我博弈生成幾十億盤(pán)九段的棋譜,再通過(guò)總結(jié)這些棋譜提高估值網(wǎng)絡(luò)的精準(zhǔn)度。
AlphaGO在實(shí)現(xiàn)這個(gè)模型時(shí)只使用了48顆TPU芯片,但實(shí)際計(jì)算力是8640 tera flops比之前的480顆VLSI芯片還要高8萬(wàn)倍。預(yù)訓(xùn)練得到的大模型,其中估值網(wǎng)絡(luò)和走棋網(wǎng)絡(luò)都被訓(xùn)練得非常優(yōu)秀,判斷力比專業(yè)九段棋手還要高。
過(guò)去的20年中,其一計(jì)算算力得到了極大的提升,其二所需要的芯片數(shù)量大幅降低,意味著耗電減少,其三是現(xiàn)在的模型可以離線訓(xùn)練,用大量的數(shù)據(jù)支持它做到對(duì)棋面的判斷?;诖藢?shí)現(xiàn)了人類國(guó)際象棋AI到圍棋AI的突破,也支持了后續(xù)自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域的進(jìn)展。
這里列出了自然語(yǔ)言大模型的發(fā)展。2018年谷歌提出Bert模型,其中有3.4億的參數(shù)是通過(guò)13GB的文本數(shù)據(jù)訓(xùn)練得到的。以前做自然語(yǔ)言的分類或是圖像實(shí)體的識(shí)別問(wèn)題,需要成千上萬(wàn)標(biāo)注的文本和feature,再通過(guò)得到一個(gè)適用于之前標(biāo)注的一萬(wàn)多樣本的模型。但當(dāng)有了Bert這樣的模型支撐,只需要100個(gè)對(duì)應(yīng)topic的標(biāo)注文件,模型就能快速適應(yīng)問(wèn)題,不再需要大量的數(shù)據(jù)。
2019年,出現(xiàn)GPT-2模型,參數(shù)量比Bert多五倍,達(dá)到15億,這里訓(xùn)練數(shù)據(jù)又多了三倍,達(dá)到40GB。到了2020年,自然語(yǔ)言又有了大發(fā)展,提出了GPT-3模型,含有1750億個(gè)參數(shù),數(shù)量多了100倍,訓(xùn)練數(shù)據(jù)翻了1000倍到45TB。當(dāng)再使用這些模型去解傳統(tǒng)的自然語(yǔ)言問(wèn)題時(shí),使用非常少的數(shù)據(jù)模型就能夠快速適應(yīng)到問(wèn)題所對(duì)應(yīng)的具體場(chǎng)景。
這里列的是2021年的三個(gè)模型都是在圖像領(lǐng)域ImageNet公開(kāi)、公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)集上面做圖像分類的準(zhǔn)確率,參數(shù)量都是幾十億的規(guī)模,訓(xùn)練數(shù)據(jù)也需要上億,訓(xùn)練耗時(shí)、所需要的硬件資源都非常充足。將這樣的大模型運(yùn)用到新的具體應(yīng)用場(chǎng)景完成圖像分類或是物體檢測(cè)的問(wèn)題,只需要小規(guī)模的樣本,也能快速得到好結(jié)果。
這就是“大模型”和“小樣本”的含義。
有了“大模型+小樣本”的解法思路后,我們?cè)偃プ鰴C(jī)器學(xué)習(xí)模型會(huì)是什么樣?
首先,標(biāo)注少量訓(xùn)練數(shù)據(jù),形成一個(gè)小數(shù)據(jù)樣本,然后從我們的模型庫(kù)選擇一個(gè)合適的大模型,在大模型的基礎(chǔ)上使用小數(shù)據(jù)樣本進(jìn)行訓(xùn)練,再標(biāo)注少量生產(chǎn)數(shù)據(jù)用于評(píng)測(cè)。評(píng)測(cè)后調(diào)整好模型中的問(wèn)題再進(jìn)行改進(jìn)。比起傳統(tǒng)機(jī)器學(xué)習(xí)模型,節(jié)約了大量數(shù)據(jù)標(biāo)注和模型訓(xùn)練的時(shí)間。
但仍存在兩個(gè)難點(diǎn):其一是很難找到可以用于改進(jìn)的訓(xùn)練數(shù)據(jù),比如剛剛提到的金融機(jī)構(gòu)很多數(shù)據(jù)有嚴(yán)格的訪問(wèn)流程,且種類繁多,未必是所需數(shù)據(jù);其二是大模型對(duì)于計(jì)算資源的要求較高,需要幾十上百的TPU來(lái)實(shí)現(xiàn),具體的業(yè)務(wù)場(chǎng)景中未必存在這么多計(jì)算資源,所以大模型經(jīng)過(guò)訓(xùn)練后,還需要進(jìn)行壓縮,只需要一塊甚至不到一塊的TPU或GPU就能實(shí)現(xiàn)。
算力的快速發(fā)展幫助了AI的快速普及,同時(shí)“大模型+小數(shù)據(jù)”的思路提升了模型的生產(chǎn)效率和效果,經(jīng)過(guò)針對(duì)性調(diào)整后就能夠推廣至金融業(yè)務(wù)流程中的各個(gè)方面。
OCR訓(xùn)練平臺(tái)高效連接物理世界和數(shù)字世界
金融領(lǐng)域中各種銀行卡、身份證的數(shù)字化大家早已經(jīng)習(xí)以為常,這些數(shù)據(jù)對(duì)應(yīng)的模型相對(duì)簡(jiǎn)單。但涉及到各種進(jìn)賬單、財(cái)報(bào)更復(fù)雜的證件或是國(guó)際結(jié)算單里面的提單,這一類模型要復(fù)雜和難很多,這是金融機(jī)構(gòu)嘗試做數(shù)字化的主要項(xiàng)目?jī)?nèi)容。
這里列了一個(gè)比較完整版本的模型需求,包含各類證件照、銀行票證、企業(yè)票證以及各類財(cái)務(wù)報(bào)表、醫(yī)療票據(jù)等。這些文本不僅種類繁多,版式各異,甚至還有不同語(yǔ)言。上百種不同專業(yè)領(lǐng)域里面的各種單證,對(duì)應(yīng)每一家金融機(jī)構(gòu)具體場(chǎng)景的真實(shí)的業(yè)務(wù)數(shù)據(jù),這樣的場(chǎng)景就比較適合用大模型和小訓(xùn)練數(shù)據(jù)的方式去精調(diào)。
回顧數(shù)字化標(biāo)準(zhǔn)的三個(gè)痛點(diǎn):一是模型參數(shù)多,需要非常多的訓(xùn)練數(shù)據(jù),可以通過(guò)預(yù)訓(xùn)練大模型加小規(guī)模的數(shù)據(jù)去降低模型訓(xùn)練對(duì)數(shù)據(jù)的要求;二是數(shù)據(jù)的標(biāo)注成本非常高,每人每天標(biāo)300張已經(jīng)是極限,每次使用10000張圖片去訓(xùn)練相應(yīng)的模型需要三個(gè)人按照極限標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù),對(duì)于上億個(gè)參數(shù)的大模型來(lái)說(shuō)往往需要百萬(wàn)或者千萬(wàn)張這樣的圖片;三是模型實(shí)施周期非常短,不能以半年一年來(lái)計(jì)算,而要按照周、天來(lái)完成模型。
幾百個(gè)場(chǎng)景對(duì)應(yīng)幾百個(gè)需求,對(duì)我們整個(gè)的模型生產(chǎn)和管理提出了詳細(xì)的架構(gòu)上的要求。底層要管理足夠多的CPU、GPU甚至TPU的資源,上層要管理好各種問(wèn)題的數(shù)據(jù)集,還需要有模型訓(xùn)練的基礎(chǔ)組件、足夠多的大模型積累。基于這樣的框架再去管理模型的訓(xùn)練和調(diào)優(yōu)、評(píng)估及評(píng)估后的標(biāo)準(zhǔn)發(fā)布,再跟金融機(jī)構(gòu)的各種業(yè)務(wù)進(jìn)行鏈條整合,確保整個(gè)流程是非常順暢、自動(dòng)、高效地運(yùn)轉(zhuǎn)。
基于大模型、小數(shù)據(jù)訓(xùn)練的AI能力調(diào)用
接下來(lái)具體看一下基于大模型和小數(shù)據(jù),AI是如何訓(xùn)練和生產(chǎn)的。
拿票證數(shù)字化的場(chǎng)景舉例,一張紙質(zhì)的票證標(biāo)準(zhǔn)數(shù)字化的過(guò)程是:首先通過(guò)手機(jī)或者高分拍照儀把它變成圖像,轉(zhuǎn)化為數(shù)字化基礎(chǔ)的多媒體文件;在此基礎(chǔ)上,判斷圖像對(duì)應(yīng)到之前我們表中的不同類型,再使用OCR的方法將需要的信息轉(zhuǎn)化為不同的字段、數(shù)字,通過(guò)語(yǔ)義識(shí)別判斷整個(gè)文檔中字段的關(guān)系,這其實(shí)是多任務(wù)的學(xué)習(xí)過(guò)程。
對(duì)應(yīng)到大模型中,所需要調(diào)用的圖像類模型功能有旋轉(zhuǎn)方向、ROI檢測(cè)、文本區(qū)域檢測(cè)和文字識(shí)別,將文本區(qū)域內(nèi)的信息轉(zhuǎn)化為具體的字符。文本類模型的功能包括實(shí)體識(shí)別和對(duì)應(yīng)關(guān)系的抽取。
將不同功能的大模型組合去解決具體任務(wù),需要看大模型在具體任務(wù)的每個(gè)步驟是否有足夠高的精度、是否需要做精調(diào)以及更多標(biāo)注數(shù)據(jù)用于評(píng)測(cè)等,再看整體的效果是否會(huì)得到提升。
再舉一個(gè)具體步驟的例子,比如營(yíng)業(yè)執(zhí)照識(shí)別分為橫版和豎版,具體應(yīng)用時(shí),第一批拿到的數(shù)據(jù)可能全部都是豎版、沒(méi)有橫版。我們當(dāng)時(shí)使用16張豎版數(shù)據(jù)訓(xùn)練得到的模型,應(yīng)用到橫版的數(shù)據(jù)集中,準(zhǔn)確率只有76%,f1 score precision和recall這些綜合指標(biāo)都不太理想。在補(bǔ)充標(biāo)注了一些橫版的數(shù)據(jù)集后,只需要5張就能夠提升準(zhǔn)確率到95.5%。
另外一個(gè)例子:進(jìn)出口的發(fā)票的關(guān)鍵信息提取。對(duì)于這樣的票證,難點(diǎn)在于每一家國(guó)際企業(yè)公司的發(fā)票版式都不太一樣,客戶名字、數(shù)量、單價(jià)、總價(jià)可能都在不同位置去識(shí)別實(shí)體會(huì)比較困難。傳統(tǒng)的做法是要找大量的數(shù)據(jù)去做標(biāo)注,基于大模型放幾張完全不同版式的發(fā)票給少量的標(biāo)注,就可以快速提取關(guān)鍵信息。
例子左上角是客戶的名字和地址,表格中標(biāo)明了具體的什么貨物、多少錢以及總價(jià)。模型通過(guò)實(shí)體抽取就可以將其變成單個(gè)字段,抽取具體的“值”。這張INVOICE里包含一些邏輯關(guān)系的表格的,這個(gè)關(guān)系也需要用大模型加小數(shù)據(jù)做訓(xùn)練來(lái)提取。
另外一個(gè)發(fā)票的例子中,表格中嵌套著表格,每一行是每一類貨物的類別,這一類貨物里面還有細(xì)分表格項(xiàng)。這些場(chǎng)景都需要我們用大量預(yù)訓(xùn)練模型加小規(guī)模的、精調(diào)的樣本數(shù)據(jù)。
回過(guò)來(lái)再看在票證數(shù)字化整個(gè)訓(xùn)練流程,“大模型+小數(shù)據(jù)”到底如何改進(jìn)了過(guò)程?
傳統(tǒng)的票證數(shù)字化的訓(xùn)練的流程是:先收集數(shù)據(jù),再做標(biāo)注數(shù)據(jù),模型訓(xùn)練,模型評(píng)估,到模型發(fā)布。模型通常從0%的準(zhǔn)確率開(kāi)始,一步步迭代,先提升到50%,再逐步提升到70%、80%。
而有了預(yù)訓(xùn)練大模型,直接從80%的準(zhǔn)確率開(kāi)始訓(xùn)練,再迭代一次就可以做到90%。對(duì)于標(biāo)注數(shù)據(jù),每人每小時(shí)標(biāo)30條數(shù)據(jù),成本非常高,通過(guò)使用小樣本數(shù)據(jù),可以使用非常少量的數(shù)據(jù)標(biāo)注,讓整個(gè)模型訓(xùn)練的過(guò)程更高效。當(dāng)模型90%的準(zhǔn)確率需要提升到95%時(shí),會(huì)比較難,要靠數(shù)據(jù)生成的方法去解決數(shù)據(jù)樣本稀缺的問(wèn)題。
這個(gè)方法在開(kāi)場(chǎng)介紹圍棋的時(shí)候提到,AlphaGO模型訓(xùn)練用了幾十億盤(pán)九段棋譜,中日韓三個(gè)棋院歷史上所有有記載的九段棋譜也就四五十萬(wàn)盤(pán),要達(dá)到上億的數(shù)據(jù)其實(shí)是靠機(jī)器跟機(jī)器自己下棋來(lái)解決很多數(shù)據(jù)稀缺的問(wèn)題。
天壤借助數(shù)據(jù)生成的方法快速地迭代、提升模型精調(diào)效果。九張我們機(jī)器生成的銀行票據(jù),模擬了各種效果的數(shù)據(jù),比如字體偏移、復(fù)印效果帶噪點(diǎn)、拍照時(shí)閃光過(guò)曝、紙張折疊、透視的效果或者打印機(jī)漏幀的現(xiàn)象,都可以通過(guò)圖像處理的方法去模擬和精調(diào),通常會(huì)得到很好的效果。
基于這樣的技術(shù),用上億數(shù)據(jù)、極大算力的大模型,通過(guò)時(shí)間把它預(yù)訓(xùn)練好,再結(jié)合具體問(wèn)題的小數(shù)據(jù),實(shí)現(xiàn)一個(gè)快速迭代的AI應(yīng)用的場(chǎng)景就走通了。借助數(shù)據(jù)增強(qiáng)、圖像生成的方法去補(bǔ)充一些機(jī)器快速標(biāo)注的數(shù)據(jù),一天時(shí)間就可以得到上百萬(wàn)上千萬(wàn)的類似數(shù)據(jù),可以快速地把具有上億、幾十億參數(shù)的神經(jīng)網(wǎng)絡(luò)的精度調(diào)得非常高,。
AI+金融,數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)轉(zhuǎn)型和升級(jí)
再和大家分享一些我們實(shí)際做的案例。
第一個(gè)場(chǎng)景,是某銀行的確權(quán)審批流程。網(wǎng)上業(yè)務(wù)流程開(kāi)展涉及以下幾個(gè)步驟:
檢測(cè)辦理業(yè)務(wù)的人和原來(lái)指定的人是否和銀行記錄的是同一個(gè)人、業(yè)務(wù)申請(qǐng)的簽名和原來(lái)留在銀行的簽名是否是同一個(gè)人、公司辦業(yè)務(wù)蓋的公章和原來(lái)留在銀行的公章是不是同一個(gè)。當(dāng)三要素都匹配的時(shí)候,流程審核通過(guò)。
原來(lái)銀行業(yè)務(wù)花大量時(shí)間人工審核,幾分鐘才能審核一筆,現(xiàn)在結(jié)合各種AI能力和整個(gè)流程的自動(dòng)化,可以非常快速地審核,基本上可以做到秒批,準(zhǔn)確率也非常高,每一筆審核都不會(huì)漏檢。
疫情期間,銀行財(cái)務(wù)人員的UKey放在企業(yè)辦公室,但人被封在了自己家小區(qū)出不去,這時(shí)候銀行開(kāi)始開(kāi)通視頻授權(quán)進(jìn)行打款業(yè)務(wù),解決了大家的燃眉之急,背后都靠AI技術(shù)來(lái)提升整個(gè)流程效率和準(zhǔn)確率。
第二個(gè)場(chǎng)景發(fā)生在國(guó)際結(jié)算部門(mén),比如國(guó)內(nèi)某公司向國(guó)外某公司發(fā)貨,對(duì)方未收到貨時(shí)不會(huì)打款,但對(duì)公司來(lái)說(shuō)資金周轉(zhuǎn)非常重要,因此能否有裝箱單或者發(fā)貨單作為憑證,當(dāng)打款風(fēng)險(xiǎn)很小的時(shí)候,銀行進(jìn)行貸款支持。
銀行業(yè)務(wù)中原本的單證審核依賴人工效率非常低。天壤利用小規(guī)模的數(shù)據(jù)去快速訓(xùn)練模型,再結(jié)合NLP的預(yù)訓(xùn)練模型小數(shù)據(jù)樣本的調(diào)整,用一個(gè)模型快速識(shí)別3000種不同的表單,準(zhǔn)確率超過(guò)95%,減少了90%以上人力工作。
第三個(gè)場(chǎng)景是在銀行風(fēng)控部門(mén)。風(fēng)控部門(mén)涉及各種業(yè)務(wù)審核,最大訴求是希望使用模型來(lái)解決上百類復(fù)雜單證的識(shí)別問(wèn)題,基于大模型和小數(shù)據(jù)訓(xùn)練我們可以快速地產(chǎn)出對(duì)應(yīng)的上百種模型。幾天產(chǎn)出一個(gè)AI模型,30天產(chǎn)出10個(gè)符合要求的模型,100個(gè)模型也只需要半年到一年的時(shí)間就可以完成,且準(zhǔn)確率都非常高,極大地提高了整個(gè)風(fēng)控部門(mén)的業(yè)務(wù)效率。
“大模型+小數(shù)據(jù)”的技術(shù)框架,最大的亮點(diǎn)就是在能快速適配各種應(yīng)用場(chǎng)景,通過(guò)非常好的預(yù)訓(xùn)練大模型、結(jié)合場(chǎng)景的小數(shù)據(jù)去落地。
關(guān)于「量子位·視點(diǎn)」
量子位發(fā)起的CEO/CTO系列分享活動(dòng),不定期邀請(qǐng)AI創(chuàng)業(yè)公司CEO或CTO,分享企業(yè)最新戰(zhàn)略、最新技術(shù)、最新產(chǎn)品,與廣大AI從業(yè)者、愛(ài)好者探討人工智能的技術(shù)理論與產(chǎn)業(yè)實(shí)踐。歡迎大家多多關(guān)注 ~