安妮 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
聯(lián)合國(guó)發(fā)言生成器了解一下?
最近,有研究人員真就搞出了一個(gè)。手握這個(gè)生成器,你就可以無(wú)限生成逼真的聯(lián)合國(guó)演講風(fēng)格的內(nèi)容。
快速傳遞假新聞、隨口就能生成仇恨言論、冒充知名人物進(jìn)行演講……這個(gè)模型讓人細(xì)思極恐,令人深感不安。
做這樣一個(gè)系統(tǒng)時(shí)間和金錢(qián)成本很高吧?
這么想就大錯(cuò)特錯(cuò)了。研究人員表示的,整個(gè)模型只需要13個(gè)小時(shí)的訓(xùn)練,總共花費(fèi)不超過(guò)7.8美元,也就是人民幣54元。
也就是說(shuō),半天時(shí)間,一頓晚飯錢(qián)的成本,你也能讓AI偽造一系列聯(lián)合國(guó)發(fā)言。推特網(wǎng)友評(píng)論道,現(xiàn)在終于理解為什么有些模型不應(yīng)該開(kāi)源了。
可怕。
真假難辨的效果
研究人員用三類(lèi)任務(wù)展示了這個(gè)模型的效果,在每種任務(wù)上,模型都能Hold住相關(guān)場(chǎng)景,生產(chǎn)出假新聞、假言論。
一是一般性的主題,比如氣候變化、核裁軍等。
氣候變化仍然是所有國(guó)家關(guān)注的主要問(wèn)題,世界各國(guó)領(lǐng)導(dǎo)人和馬里政府重申了這一承諾,呼吁聯(lián)合國(guó)通過(guò)一系列解決眾多人面臨的嚴(yán)重局勢(shì)的緊急措施,面對(duì)氣候變化。作為一個(gè)穆斯林國(guó)家,穆斯林國(guó)家堅(jiān)信促進(jìn)和平、安全與發(fā)展的國(guó)際合作的重要性。
在這一段假新聞里,無(wú)論是口吻、用詞還是行文邏輯,AI模型生成的文本都顯得逼真。
第二種任務(wù)是模仿聯(lián)合國(guó)秘書(shū)長(zhǎng)的口吻對(duì)事件進(jìn)行公開(kāi)評(píng)論。
相比于第一種任務(wù),這個(gè)任務(wù)需要的觀(guān)點(diǎn)輸出更明確,難度也進(jìn)一步提升。
AI模型的表現(xiàn)如何?看看生成效果:
聯(lián)合國(guó)秘書(shū)長(zhǎng)強(qiáng)烈譴責(zé)這種發(fā)生在摩加迪沙的恐怖致命襲擊事件。……(此處有省略)我們希望國(guó)際社會(huì)也將響應(yīng)對(duì)“非洲之角”和平與安全的呼吁,并希望蘇丹將繼續(xù)執(zhí)行自己的安全理事會(huì)決議制度。
如果是呼吁和平的言論還好,最可怕的是,這個(gè)模型還能產(chǎn)生惡意煽動(dòng)性言論。
研究人員展示的第三種效果就是生成充滿(mǎn)惡意和煽動(dòng)性言論,到底能到哪種程度。
在這個(gè)任務(wù)中,AI分別就“難民是恐怖分子”和“移民是艾滋病傳播的罪魁禍?zhǔn)住眱蓚€(gè)命題生成假言論,內(nèi)容更是讓人看了脊背發(fā)涼。
這樣一個(gè)模型,到底是怎樣在半天時(shí)間+54塊錢(qián)成本的情況下做出來(lái)的?
開(kāi)源模型
研究人員表示,從頭開(kāi)始訓(xùn)練語(yǔ)言模型是一項(xiàng)復(fù)雜的任務(wù),需要大量的數(shù)據(jù)和計(jì)算力來(lái)進(jìn)行,借助別人已經(jīng)開(kāi)源的項(xiàng)目進(jìn)行研究,也不失為一種性?xún)r(jià)比高的選擇。
在這個(gè)項(xiàng)目中,訓(xùn)練數(shù)據(jù)是由Baturo等此前研究匯集的1970-2016年聯(lián)合國(guó)7507次發(fā)言的文本。
在這么多次演講中,已經(jīng)討論過(guò)很多話(huà)題。研究人員表示,在使用這個(gè)數(shù)據(jù)集前,這些演講被分成了283593個(gè)段落,并清理文本中的噪聲,使用spaCy進(jìn)行標(biāo)記。
論文What Drives the International Development Agenda? An NLP Analysis of the United Nations General Debate 1970-2016地址:
https://arxiv.org/abs/1708.05873
數(shù)據(jù)集搞定后,模型訓(xùn)練又成了大問(wèn)題。在這個(gè)階段,研究人員采用了開(kāi)源模型:AWD-LSTM模型進(jìn)行預(yù)訓(xùn)練。
這是2017年由Salesforce研究院的Stephen Merity等人提出的模型,論文中提出了一系列基于詞的語(yǔ)言模型正則化和優(yōu)化策略,這些策略可在不改變現(xiàn)LSTM模型的基礎(chǔ)上應(yīng)用。
論文Regularizing and Optimizing LSTM Language Models地址:
https://arxiv.org/abs/1708.02182
研究人員用Wikitext-103數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,借助fast.ai庫(kù),最終,AWD-LSTM模型在NVIDIA K80 GPU上訓(xùn)練不到13個(gè)小時(shí),就完成了模型的訓(xùn)練,成本僅用了7.80美元(54元)。
多重身份的一作
這篇論文出自Joseph Bullock和Miguel Luengo-Oroz之手。
一作Joseph Bullock有3重身份:一是United Nations Global Pulse小組成員,二是英國(guó)杜倫大學(xué)(Durham University)數(shù)據(jù)科學(xué)研究所的一員,三是杜倫大學(xué)粒子物理現(xiàn)象學(xué)研究所的成員。
Miguel Luengo-Oroz是United Nations Global Pulse的數(shù)據(jù)科學(xué)家。
這篇論文也將出現(xiàn)在長(zhǎng)灘上舉辦的Conference on Machine Learning AI for Social Good Workshop上。
傳送門(mén)
論文Automated Speech Generation from UN General Assembly Statements: Mapping Risks in AI Generated Texts地址:
https://arxiv.org/abs/1906.01946
原報(bào)道地址:
https://www.technologyreview.com/f/613645/ai-fake-news-deepfakes-misinformation-united-nations/
— 完 —
誠(chéng)摯招聘
量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請(qǐng)?jiān)诹孔游还娞?hào)(QbitAI)對(duì)話(huà)界面,回復(fù)“招聘”兩個(gè)字。
量子位 QbitAI · 頭條號(hào)簽約作者
?’?’ ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)