應(yīng)對(duì)金融大數(shù)據(jù)挑戰(zhàn) 從個(gè)體到群體風(fēng)險(xiǎn)預(yù)測(cè):氪信技術(shù)干貨全析
近日,上海交通大學(xué)上海高級(jí)金融學(xué)院聯(lián)合世界知名高校及科研院所舉辦2019國(guó)際金融科技會(huì)議,氪信科技創(chuàng)始人兼CEO朱明杰博士代表年輕的AI創(chuàng)業(yè)公司,向與會(huì)者闡述了氪信深耕金融領(lǐng)域頭部機(jī)構(gòu)的“秘密武器”,這不僅是氪信首度公開(kāi)的一份較全面的技術(shù)干貨總結(jié),也是通過(guò)一系列實(shí)踐經(jīng)驗(yàn)對(duì)AI金融痛點(diǎn)和難點(diǎn)的系統(tǒng)性梳理,因此對(duì)于AI時(shí)代如何搶占金融科技制高點(diǎn),具有前瞻性意義。
以下為演講實(shí)錄:
謝謝李教授,謝謝各位,很高興又來(lái)到高金。我們公司成立第一年就在這附近的番禺路上,技術(shù)合伙人全是交大的,所以我們經(jīng)常過(guò)來(lái)吃午飯,吃了飯以后溜彎轉(zhuǎn)轉(zhuǎn)。
今天講這個(gè)題目非常得理直氣壯。兩方面的底氣,首先我做了十幾年的AI,以前在互聯(lián)網(wǎng)行業(yè)里用算法和AI解決問(wèn)題,覺(jué)得理所當(dāng)然。當(dāng)時(shí)金融界的朋友講了大數(shù)據(jù)給他們帶來(lái)的挑戰(zhàn),我覺(jué)得算法或許可以用得上,于是開(kāi)始進(jìn)到金融行業(yè)實(shí)踐,從15年底做這件事,一不小心做了差不多4年;另一個(gè)底氣,是氪信剛成立就和民生銀行合作,解決小微企業(yè)信貸難的問(wèn)題。
在座的應(yīng)該比較清楚,給小微企業(yè)放貸的風(fēng)險(xiǎn)壓力很大,我們當(dāng)時(shí)和民生銀行啟動(dòng)了以大數(shù)據(jù)為特色的小微3.0項(xiàng)目,嘗試用大數(shù)據(jù)解決風(fēng)險(xiǎn)攀升的問(wèn)題,效果很好,去年6月末,民生銀行的小微企業(yè)貸款余額已經(jīng)達(dá)到了6500余億元。
16年開(kāi)始,我們和招商銀行合作,那時(shí)候招商銀行希望通過(guò)智能方式拓展線上零售業(yè)務(wù),我們開(kāi)始陪伴招商銀行智能升級(jí),從風(fēng)控、反欺詐延伸到營(yíng)銷、催收等,合作主體也從信用卡中心擴(kuò)展到了零售信貸;去年開(kāi)始,我們又和四大行合作,解決數(shù)億賬戶體量帶來(lái)的智能金融業(yè)務(wù)挑戰(zhàn)以及對(duì)公業(yè)務(wù)等,所以我們從一開(kāi)始成立走到現(xiàn)在,其實(shí)是經(jīng)過(guò)了發(fā)展理念最先進(jìn)、要求也最高的銀行考驗(yàn)的一家AI公司。
同時(shí)我們?cè)趪?guó)際的頂級(jí)學(xué)術(shù)會(huì)議上也發(fā)表了一些論文。一個(gè)創(chuàng)業(yè)公司還有空發(fā)論文,感覺(jué)有點(diǎn)不務(wù)正業(yè),其實(shí)是因?yàn)槲覀冇型Χ嗟膶?shí)踐和數(shù)據(jù)處理經(jīng)驗(yàn),就順便發(fā)了一些論文。昨天跟幾位教授和同行吃飯,有人說(shuō)我們公司的論文已經(jīng)成為一些公司的面試題,這讓我壓力很大。
AI應(yīng)對(duì)另類大數(shù)據(jù)業(yè)務(wù)挑戰(zhàn)
今天大家講金融大數(shù)據(jù),主要都在說(shuō)強(qiáng)金融數(shù)據(jù)之外的“另類數(shù)據(jù)”。我們這些做計(jì)算機(jī)工作的,能感受到風(fēng)控專家最痛苦的地方,是他們希望按照以前定規(guī)則的方式,把這些數(shù)據(jù)編碼到以往的評(píng)分體系里。比如以前你可以根據(jù)工資多少、納稅多少做評(píng)分卡,所以對(duì)那些金融概念之外的數(shù)據(jù),比如一個(gè)人一天和多少人打電話,他的互聯(lián)網(wǎng)行為、社交狀況等,風(fēng)控專家一開(kāi)始也想根據(jù)傳統(tǒng)經(jīng)驗(yàn)把這些數(shù)據(jù)變成特征變量,結(jié)果發(fā)現(xiàn)它們遠(yuǎn)遠(yuǎn)超出了評(píng)分卡可處理的范圍。
我們剛好很擅長(zhǎng)做這件事情,因?yàn)橐郧拔覀冊(cè)诨ヂ?lián)網(wǎng)里面處理的就是這些數(shù)據(jù),我們訓(xùn)練機(jī)器在一堆照片里識(shí)別誰(shuí)是章子怡,不是告訴它誰(shuí)長(zhǎng)得美長(zhǎng)得白就是章子怡,不是這樣的。但是我們依然能做出識(shí)別率非常高的模型,這里面沒(méi)有什么神奇的單項(xiàng)技術(shù),它是一系列技術(shù)。
同理,我們今天用AI技術(shù)去處理金融領(lǐng)域的另類數(shù)據(jù),也不是圍繞一個(gè)非常fancy的技術(shù),不是首先要遷就人的理解范疇,我們是為了達(dá)到實(shí)際效果才出發(fā)的。所以,我們發(fā)表的學(xué)術(shù)論文也有非常好的實(shí)踐效果來(lái)支持,我今天有底氣來(lái)講一講氪信在學(xué)術(shù)上的成果。
三種“另類數(shù)據(jù)”的處理方式
一般來(lái)說(shuō),難以做成評(píng)分卡的另類數(shù)據(jù)主要包括動(dòng)態(tài)時(shí)序類、文本類、網(wǎng)絡(luò)類三種,這些讓風(fēng)控專家束手無(wú)策的數(shù)據(jù)問(wèn)題,機(jī)器都能解決??偟乃悸肥窃诮鹑趫?chǎng)景下,將專家的經(jīng)驗(yàn)變成機(jī)器能夠理解的數(shù)據(jù),不斷訓(xùn)練機(jī)器,提高機(jī)器的學(xué)習(xí)能力,最后讓機(jī)器處理人力無(wú)法解決的問(wèn)題。
這套框架的提出基于一個(gè)很自然的想法:這些年大家多用深度學(xué)習(xí),尤其是LSTM(基于深度循環(huán)網(wǎng)絡(luò)的特征提取框架),它特別適合處理時(shí)序型數(shù)據(jù)。所以我們就把這類序列行為編碼到我們的LSTM模型里去。
同時(shí)我們是一個(gè)非??粗貙?shí)際使用效果的公司,所以做到這一步還不夠,我們還有一套框架是用CNN的模型對(duì)序列行為衍生特征。這個(gè)過(guò)程中我們會(huì)得到額外的信息量,今天我也很難解釋這兩者結(jié)合起來(lái)為什么效果會(huì)更好,對(duì)具體結(jié)果感興趣的,可以看我們?cè)贙DD 2018上面的paper。
但是我們能做到什么呢?我們能做到在一個(gè)限定的場(chǎng)景里面,給出一個(gè)很好的結(jié)果。因?yàn)槟忝繉?duì)它多做一個(gè)限制,你的計(jì)算復(fù)雜度就會(huì)降低很多,在有限的計(jì)算資源和技術(shù)條件下,就能得到一個(gè)足夠好的效果。舉個(gè)最極端的例子,如果能簡(jiǎn)化到一個(gè)問(wèn)題,其實(shí)應(yīng)用規(guī)則就可以解決了。這個(gè)領(lǐng)域的學(xué)術(shù)成果,我們也有幾篇論文。
第一篇論文主要講我們建了一套QA問(wèn)答體系的特征,從一段文本最后變成數(shù)值化的向量,其實(shí)是有標(biāo)準(zhǔn)做法的。但是我們發(fā)現(xiàn),在一個(gè)限定的場(chǎng)景里,比如說(shuō)客服場(chǎng)景是一問(wèn)一答的方式,單單用X-Encoder(基于無(wú)監(jiān)督深度學(xué)習(xí)的特征提取框架)是不夠高效的,于是我們做了一套針對(duì)QA的基于X-Encoder的催收風(fēng)險(xiǎn)模型交互式特征提取框架,專門適合金融領(lǐng)域的一問(wèn)一答。
第二篇論文是關(guān)于提取客戶標(biāo)簽的,通過(guò)對(duì)話把你的context提取成標(biāo)準(zhǔn)事件。這件事的關(guān)鍵點(diǎn)在于,今天金融機(jī)構(gòu)的客服人員,都是被訓(xùn)練成機(jī)器一樣在工作,一個(gè)新人招進(jìn)來(lái)以后,就用標(biāo)準(zhǔn)化的培訓(xùn)模板去教導(dǎo)他,告訴他比如客戶講了這句話以后,你要講哪些話,怎么給客戶打標(biāo)簽等等。所以我們的工作是構(gòu)建一個(gè)知識(shí)庫(kù),建立標(biāo)準(zhǔn)對(duì)話流程預(yù)測(cè)體系,讓這個(gè)新人可以更快地上手。我們更長(zhǎng)遠(yuǎn)的打算,是希望機(jī)器訓(xùn)練機(jī)器,而不是機(jī)器訓(xùn)練人。今天我們和一些合作伙伴一起,已經(jīng)在做這方面的探索,后續(xù)應(yīng)該有更多有趣的工作出來(lái)。
第三類網(wǎng)絡(luò)數(shù)據(jù),因?yàn)閭€(gè)人數(shù)據(jù)非常有限,尤其在金融領(lǐng)域,我們大家都在講大數(shù)據(jù)風(fēng)控,其實(shí)需要大量的訓(xùn)練樣本,但金融場(chǎng)景里面的訓(xùn)練樣本是非常寶貴的,比如你想獲得一個(gè)人是壞人的樣本數(shù)據(jù),那么至少得有一筆幾萬(wàn)塊的壞賬,這個(gè)成本非常高。這跟我們以前做互聯(lián)網(wǎng)預(yù)測(cè)分析不一樣,用戶喜不喜歡一部電影,一個(gè)廣告,或者一個(gè)手機(jī)殼,這件事情的成本沒(méi)那么高。我們的做法是找到類似的人,從他的申請(qǐng)資料和社交關(guān)系上面去抽取知識(shí),做聚類。當(dāng)你發(fā)現(xiàn)了一個(gè)壞人,那么跟他類似的那群人是壞人的概率就非常高。也就是說(shuō),當(dāng)你找到有效的群體之間相似這種關(guān)系以后,是有助于對(duì)個(gè)體風(fēng)險(xiǎn)做識(shí)別的。當(dāng)然僅僅個(gè)人的大數(shù)據(jù)還不夠,我們還需要借助更多的大數(shù)據(jù),最后用集成模型把個(gè)人的風(fēng)險(xiǎn)特征和局部網(wǎng)絡(luò)、全局網(wǎng)絡(luò)上建立的風(fēng)險(xiǎn)特征結(jié)合在一起,提升風(fēng)險(xiǎn)預(yù)測(cè)效果。
模型的可解釋性:AI下一個(gè)突破點(diǎn)
所以模型的可解釋性是深度學(xué)習(xí)突破之后AI面臨的新挑戰(zhàn),在通用模型上目前我還沒(méi)有看到特別好的解決辦法。但是在具體的金融場(chǎng)景里,我們可以在某種程度上給出解釋。有兩個(gè)辦法:一個(gè)是局部的近似,用低維模型擬合高維模型,它參考了博弈論里面的東西,最后得到最優(yōu)的決策,是倒推博弈論的過(guò)程,這個(gè)我們有成型的產(chǎn)品,用在了我們的風(fēng)險(xiǎn)解決方案里面;第二個(gè)是把AI模型里最重要的幾個(gè)特征變量找出來(lái),解釋給業(yè)務(wù)專家聽(tīng)。
效果第一
第二個(gè)是短文本信息提取模型效果,傳統(tǒng)做法和利用AI模型的做法在數(shù)值表現(xiàn)上效果差不多,但是后者的擴(kuò)展性更強(qiáng),因?yàn)樵瓉?lái)要求人非常有經(jīng)驗(yàn),時(shí)時(shí)想著應(yīng)對(duì)策略,有了這個(gè)框架以后就不用人費(fèi)力去調(diào)參了,機(jī)器會(huì)替代部分人力工作。
第三個(gè)是對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的使用效果,如果只是單純用個(gè)人的風(fēng)險(xiǎn)數(shù)據(jù),KS值是0.3,加上我們基于圖的特征以后,有類似于人群的特征,很明顯提升到0.38,這是非常了不起的結(jié)果。
右邊是加入上述三種類型數(shù)據(jù)以后的綜合表現(xiàn),我們也可以看到KS值是不斷增長(zhǎng)的。
從個(gè)體數(shù)據(jù)處理經(jīng)驗(yàn)遷移到群體
這里的關(guān)鍵是使用圖算法。在互聯(lián)網(wǎng)行業(yè)專門有做圖算法、圖解決方案的公司,提出解決方案來(lái),發(fā)現(xiàn)一直沒(méi)有成功的??偨Y(jié)起來(lái)是兩個(gè)點(diǎn),一定要根據(jù)行業(yè)知識(shí)來(lái)做降維;還需要一套有效的計(jì)算體系。我們的列式計(jì)算引擎能夠在15分鐘內(nèi)處理百億級(jí)別數(shù)據(jù),這在以前是很難想象的。
首先互相帳戶往來(lái)會(huì)建立起一個(gè)大的Graph,我們會(huì)給定以前的可疑種子結(jié)點(diǎn),經(jīng)過(guò)局部社區(qū)算法找到跟它關(guān)聯(lián)的可疑子社區(qū),比如說(shuō)放進(jìn)去10萬(wàn)個(gè)可疑種子,找到10萬(wàn)個(gè)跟它相關(guān)的社區(qū)。這10萬(wàn)個(gè)社區(qū)里一共是上億的帳戶。其中90%以上的都是好人,我們就對(duì)其余10%的人群進(jìn)行重點(diǎn)布控。
講完原理,我再舉個(gè)例子。比如一個(gè)大銀行的房貸系統(tǒng),發(fā)現(xiàn)幾十個(gè)帳戶,都和叫“X琴”的人有關(guān)系,和她的資金往來(lái)非常多, X琴可能是中介,或者專門職業(yè)給人提供首付、中間過(guò)橋的,這里面肯定不正常。如果純靠人工去找的話,很難從幾十億交易流水?dāng)?shù)據(jù)中找到這樣的東西,但是通過(guò)圖挖掘可以一目了然看到X琴的帳戶有問(wèn)題。
這是我們今天的分享,最后想說(shuō)“AI+金融”的實(shí)踐,我們作為外行,有幸和金融專家合作,得到還可以的結(jié)果。希望更多同學(xué)與我們有更多合作。
謝謝大家。
— 完 —
- 長(zhǎng)城汽車自研芯片點(diǎn)亮!提前布局下一代架構(gòu)RISC-V,魏建軍:不能再受制于人2024-09-27
- 騰訊云發(fā)布自研大數(shù)據(jù)高性能計(jì)算引擎Meson,性能最高提升6倍2024-07-04
- Intel2024-03-18
- 數(shù)字員工全新發(fā)布 加速企業(yè)轉(zhuǎn)型2024-01-15