砸下數(shù)百萬美元分析CEO語氣,投資者用AI發(fā)現(xiàn)比財(cái)報(bào)更多的細(xì)節(jié)
越來越多的CEO不敢即興發(fā)言了
夢晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
上市公司的CEO一言一行都得謹(jǐn)慎,不然股價(jià)分分鐘跌給你看。
回想這輪缺芯潮剛剛開始的時(shí)候,IT行業(yè)高管們還在發(fā)言中回避或淡化供應(yīng)鏈問題。
幾個(gè)月后,大眾、福特這些老牌車企也遭波及,紛紛出聲警告“我撐不住啦,我要減產(chǎn)”。
一輪股市動(dòng)蕩隨之而來。
不過卻有那么幾家投資機(jī)構(gòu)一點(diǎn)也不慌,因?yàn)樗麄冊缇筒蹲降搅薈EO們信誓旦旦言論背后的遲疑。
他們用AI算法對比CEO發(fā)言稿中選擇的字詞和說話時(shí)的語氣,分析出了高度不一致性。
使用算法的基金經(jīng)理表示AI技術(shù)能幫他們在競爭中取得優(yōu)勢。
畢竟頂級(jí)投資機(jī)構(gòu)都把財(cái)務(wù)報(bào)表分析的透透的了,很難從中榨取出更多價(jià)值。
此外,算法還產(chǎn)生了一個(gè)有趣的副作用。
因?yàn)榧磁d發(fā)言太容易暴露心理狀態(tài),逼得越來越多的CEO提前寫好照稿念了。
誰在用?
走在前面的有英國曼氏集團(tuán)旗下的基金MAN AHL。
從1983年開始,這只基金就靠一個(gè)叫AHL Diversified的算法策略自動(dòng)跟蹤市場變化,到現(xiàn)在已經(jīng)成了“量化投資界的航母”。
隨著機(jī)器學(xué)習(xí)方法的發(fā)展,MAN AHL也不斷把新技術(shù)應(yīng)用到投資策略中。
對于CEO的發(fā)言,他們的算法關(guān)注語調(diào)、節(jié)奏和重音,再結(jié)合NLP技術(shù)與文字轉(zhuǎn)錄版本作對比,找出口頭和字面表述不一致的部分。
具體算法細(xì)節(jié)雖然不公開,不過也可以從MAN AHL的機(jī)器學(xué)習(xí)主管Slavi Marinov偶爾發(fā)表的論文中略作了解。
在證券市場使用NLP技術(shù)的還有日本野村證券。
他們統(tǒng)計(jì)了2014年以來公司高管在電話會(huì)議上語言的復(fù)雜程度和股價(jià)的關(guān)系,結(jié)果是使用簡單措辭的公司股價(jià)要比復(fù)雜措辭的高出6%。
美國銀行?(Bank of America)也利用電話會(huì)議中出現(xiàn)的詞匯來預(yù)測公司債券違約率。
他們的模型驗(yàn)證了削減成本?(Cost Cutting)、燒錢?(Cash Burn)這樣的詞與公司未來違約行為高度相關(guān)。
這樣的AI系統(tǒng),開發(fā)和運(yùn)行成本高達(dá)數(shù)百萬美元,一般小公司還真用不起。
大的投資機(jī)構(gòu)到底能不能用這個(gè)賺到錢?他們以商業(yè)敏感性為由都沒有透露。
對于小的投資機(jī)構(gòu),市場上也有一批技術(shù)提供商可以出售分析服務(wù),也就是此前火過一陣的概念FinTech(金融科技)。
用的什么模型?
金融NLP最大的問題就是數(shù)據(jù)量不夠,把能找到的新聞和電話會(huì)議記錄全用上也不夠訓(xùn)練出效果好的語言模型。
不過得益于預(yù)訓(xùn)練技術(shù)的發(fā)展,先用大量通用領(lǐng)域文本訓(xùn)練,再用少量金融新聞和經(jīng)過標(biāo)注的電話會(huì)議文稿微調(diào)取得了效果。
很多金融語言模型都是基于BERT,像倫敦證券交易所推出了使用路透社新聞?dòng)?xùn)練的BERT-RNA和使用39萬份電話會(huì)議記錄訓(xùn)練的BERT-TRAN。
ICRL 2020也收錄了一篇金融語言模型論文FineBERT。
一家投資機(jī)構(gòu)Sparkline Capital透露了很多他們的BERT模型訓(xùn)練細(xì)節(jié)。
預(yù)訓(xùn)練分為用通用文本、未標(biāo)注的電話會(huì)議記錄、帶情緒標(biāo)注的IMDb電影評(píng)論三步,最后再用少量帶情緒標(biāo)注的電話會(huì)議記錄微調(diào)。
最后,Sparkline Capital還解釋了為什么現(xiàn)階段不能直接用深度學(xué)習(xí)來預(yù)測股價(jià)。
因?yàn)橄啾菴V和NLP任務(wù)的數(shù)據(jù)來說,金融市場上參與者眾多、交易行為產(chǎn)生的數(shù)據(jù)信噪比太低。
噪音稀釋了數(shù)據(jù)中的有效信息,AI模型會(huì)更容易被隨機(jī)性騙到。
按他們的說法,一張貓照片包含的信息量比1000個(gè)企業(yè)價(jià)值倍數(shù)(EV/EBITDA)數(shù)據(jù)還多。
參考鏈接:
[1]https://www.reuters.com/technology/ai-can-see-through-you-ceos-language-under-machine-microscope-2021-10-20/
[2]https://www.nature.com/articles/s41598-021-82338-6
[3]https://www.linkedin.com/pulse/deep-learning-investing-opportunity-unstructured-data-kai-wu/
[4]https://www.lseg.com/about-lseg/labs/financial-language-modelling
[5]https://arxiv.org/abs/2006.08097
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18