AI也能寫高考作文?我們用清華剛剛開源的「九歌」試了試
能寫詩的AI
曉查 郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
今天是高考第一天,我猜,你一定在看全國(guó)各地那些奇奇怪怪的高考作文題,還要糾結(jié)一下:
這題目,該怎么寫?
那,寫不出來不如扔給AI,看看能生成什么文章?
正好,最近清華的AI寫詩模型「九歌」開源了,給它一個(gè)關(guān)鍵詞,它就能立即賦詩一首。
雖然大部分考卷都規(guī)定了“詩歌除外”,但我們偏要拿它來試一試。
AI的高考作文
「九歌」可以生成絕句、律詩、藏頭詩、詞等多種詩詞,在Demo網(wǎng)站里,只要輸入關(guān)鍵詞,就可以自動(dòng)生成。
那我們就把各地的作文題目當(dāng)做關(guān)鍵詞放進(jìn)去試試。且看各地考卷在AI筆下會(huì)變成什么樣?
天津卷“中國(guó)面孔”
“中國(guó)面孔”是全球熱播紀(jì)錄片里充滿家國(guó)情懷的杜甫,是用中醫(yī)藥造福人類榮獲諾貝爾獎(jiǎng)的屠呦呦,是醫(yī)務(wù)工作者厚重防護(hù)服下疲憊的笑臉,是快遞小哥在寂靜街巷里傳送溫暖的雙手……也是用各種方式共同形塑“中國(guó)面孔”的你和我。
走過2020年的春天,你對(duì)“中國(guó)面孔”又有什么新的思考和感悟?請(qǐng)寫一篇文章。
先來一首七言絕句:
能看出是一首有民族自豪感的詩,雖然開頭的“平生面面”讓人有點(diǎn)看不懂,但后兩句“四海共推周典禮,百年誰識(shí)漢文高”看起來對(duì)仗工整的兩句詩。
再來一首《憶江南·中國(guó)面孔》:
這首詞就和前面完全不一樣了,整體都喪喪的,開頭就是中原國(guó)破,山河不再的凄涼感,后面還有一個(gè)回不去的老頭子。
咦,有種熟悉的感覺,仿佛在洗稿陸游的《示兒》:
死去元知萬事空,但悲不見九州同。王師北定中原日,家祭無忘告乃翁。
北京卷作文題1:北斗衛(wèi)星相關(guān)
2020年6月23日,北斗三號(hào)最后一顆衛(wèi)星成功發(fā)射,整個(gè)系統(tǒng)55個(gè)衛(wèi)星織成一張“天網(wǎng)”每一顆都有自己的功用。以材料“每一顆都有自己的功用”為話題,自選角度,自擬題目,寫一篇議論文。
嗯,題目是「北斗衛(wèi)星」,我們?cè)囈幌拢?/p>
生成又是感嘆時(shí)光易逝、歲月變遷的詩,一點(diǎn)都不正能量。
不知道詩中的情感這么喪,會(huì)不會(huì)被判卷老師打低分?
但寫首藏頭詩效果就好得多了:
「夜月」、「夕陽」、「草木」……看起來是是在描述自然景觀,可是開頭代表戰(zhàn)爭(zhēng)的「旌旗」暴露了一切。
嗯,背后的AI一定是一個(gè)鷹派的詩人。
寫詞的效果,也有些類似,比如這篇《如夢(mèng)令·北斗》:
怎么一說「北斗」,就全是星星月亮的啊?
北京卷作文題2:一條信息
當(dāng)今時(shí)代,我們每天都會(huì)面對(duì)各種各樣的信息。其中有一條信息,或引發(fā)了你的感悟,或影響了你的生活,或令人振奮,或使你愧疚,或讓你學(xué)會(huì)辨別真?zhèn)巍?qǐng)以“一條信息”為題,聯(lián)系現(xiàn)實(shí)生活,展開聯(lián)想或想象,寫一篇記敘文。要求:思想健康;內(nèi)容充實(shí),有細(xì)節(jié)描寫;語言流暢,書寫清晰。
請(qǐng)以“一條信息”為題,寫一篇記敘文。字?jǐn)?shù)仍要求不少于700字。
寫一首七言絕句:
真是佛系的詩,簡(jiǎn)直是“信息人間造成的一百種焦慮的消除方法”,勸你不要在網(wǎng)上跟人吵架,自己玩自己的吧?
全國(guó)II卷:“攜手同一世界,青年共創(chuàng)未來”主題演講
墨子說:“視人之國(guó),若視其國(guó);視人之家,若視其家;視人之身,若視其身。”英國(guó)詩人約翰·多恩說:“沒有人是自成一體、與世隔絕的孤島,每一個(gè)人都是廣袤大陸的一部分?!?/p>
“青山一道同云雨,明月何曾是兩鄉(xiāng)。”“同氣連枝,共盼春來?!薄?020年的春天,這些寄言印在國(guó)際社會(huì)援助中國(guó)的物資上,表達(dá)了世界人民對(duì)中國(guó)的支持。
“山和山不相遇,人和人要相逢?!薄跋О?,黑夜!黎明時(shí)我們將獲勝!”……這些話語印在中國(guó)援助其他國(guó)家的物資上,寄托著中國(guó)人民對(duì)世界的祝福。
“世界青年與社會(huì)發(fā)展論壇”邀請(qǐng)你作為中國(guó)青年代表參會(huì),發(fā)表以“攜手同一世界,青年共創(chuàng)未來”為主題的中文演講。請(qǐng)完成一篇演講稿。
我只輸入了“攜手同一世界,青年共創(chuàng)未來”這個(gè)主題,難道AI自動(dòng)讀出了要代表中國(guó)青年參加世界大會(huì)的意思?全篇都是場(chǎng)面話,又是「仙」,又是「賢」的,如果是根據(jù)訓(xùn)練模型的數(shù)據(jù)集來的,那看來古人寫詩也是充滿了彩虹屁。
全國(guó)三卷:自畫像
人們用眼睛看他人、看世界,卻無法直接看到完整的自己。所以,在人生的旅程中,我們需要尋找各種“鏡子”、不斷繪制“自畫像”來審視自我,嘗試回答“我是怎樣的人”“我想過怎樣的生活”“我能做些什么”“如何生活得更有意義”等重要的問題。
畢業(yè)前,學(xué)校請(qǐng)你給即將入學(xué)的高一新生寫一封信,主題是“如何為自己畫好像”,與他們分享自己的感悟與思考。
注意第三句,不是「掉發(fā)」,不是「掉發(fā)」,不是「掉發(fā)」。
什么是九歌
九歌是清華自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室(THUNLP)研發(fā)的自動(dòng)詩歌生成系統(tǒng),基于超過一千多年來80萬首中國(guó)古詩進(jìn)行訓(xùn)練學(xué)習(xí)。
該團(tuán)隊(duì)由清華孫茂松教授帶領(lǐng),多位博士、碩士、本科生參與開發(fā)。
九歌系統(tǒng)最早可以追溯到2017年,當(dāng)年還登上了央視挑戰(zhàn)類節(jié)目《機(jī)智過人》,與人類同臺(tái)比拼詩詞創(chuàng)作,讓在場(chǎng)觀眾都難辨AI與人類。
經(jīng)過這些年的發(fā)展終于在7月2日,清華九歌團(tuán)隊(duì)宣布將古詩寫作模型MixPoet開源。
AI發(fā)展到今天,NLP模型來寫文章已經(jīng)不稀奇了。和其他模型相比,九歌多了些人文氣息。
如果告訴它以“明月”為題來賦詩一首,那么九歌能寫出幾首不重樣,而且每一首都帶有不同的感情色彩。
如果說其他的AI詩歌生成器是“強(qiáng)行”擬合語料庫(kù),那么九歌可以說是熟讀《聲律啟蒙》,掌握古詩詞基本規(guī)則,而非一通亂扯。
最近,我們從團(tuán)隊(duì)公開的數(shù)據(jù)集也可看出他們的細(xì)致用心,可以說九歌是站在人文和AI的十字路口。
九歌依靠四大數(shù)據(jù)集保證了AI能夠?qū)W習(xí)到人類作詩的基本法則。
首先是學(xué)習(xí)古代著名詩人的句法。
CCPC是中國(guó)古典詩歌語料庫(kù),收納了從隋朝到明朝的所有古詩,每首詩都附帶作者姓名、朝代、標(biāo)題以及自動(dòng)提取的關(guān)鍵詞。
比如:
{“dynasty”: “Tang”, “author”: “杜牧”, “content”: “李白題詩水西寺|古木回巖樓閣風(fēng)|半醒半醉游三日|紅白花開山雨中”, “title”: “念昔游三首 其三”, “keywords”: “題詩 花開 樓閣 山雨”}
其次是學(xué)習(xí)詩歌的聲律。
CRRD是古詩音律數(shù)據(jù)集,將漢字按照古代的平仄聲進(jìn)行分類。古詩不僅要押韻,也要符合平仄規(guī)律。例如詩的第一句是「仄仄平平仄」,那么第二句就應(yīng)該是「平平仄仄平」。
然后是學(xué)習(xí)詩歌中表達(dá)的情感,給AI加上一點(diǎn)人文氣息。
FSPC是細(xì)膩情感詩歌語料庫(kù),將每首詩、每行注釋都分為5類情感,即否定、隱含否定、中性、隱含肯定和肯定。
詩歌寫得好不好,最終還需要人類判定。
PQED是手動(dòng)注釋的詩歌質(zhì)量數(shù)據(jù)集,按照以下四個(gè)標(biāo)準(zhǔn)對(duì)詩歌評(píng)分,每項(xiàng)得分為1到5分:
給文科生一個(gè)報(bào)考清華的理由
你覺得,如果李白杜甫白居易們的作詩水平是滿分10分,九歌的作詩水平能打幾分?
「九歌」雖然只是一個(gè)實(shí)驗(yàn)研究性項(xiàng)目,但其實(shí),背后的自然語言處理(NLP)技術(shù),才是大有用途的AI領(lǐng)域。
你可以「調(diào)戲」的小愛同學(xué)、Siri、天貓精靈們,需要NLP技術(shù)支撐,才能聽懂人類的語言;
手機(jī)輸入法里長(zhǎng)按空格鍵就可以實(shí)現(xiàn)的語音輸入功能,也要靠NLP技術(shù),才能準(zhǔn)確的呈現(xiàn)你想要說的句子;
無論是在百度還是在淘寶,要靠NLP技術(shù)拆解你輸入的文字,才能搜索出你需要的資料或商品;
還有谷歌翻譯、翻譯筆、微信聊天中的自動(dòng)翻譯,背后都要依靠NLP技術(shù);
……
人類和語言相關(guān)的工作,都可以自動(dòng)完成。
而這些技術(shù)的開拓,并非只靠程序員寫代碼、跑數(shù)據(jù)、調(diào)參數(shù)就可以完成,同樣需要語言文學(xué)方面的專家支持。
(準(zhǔn)備)學(xué)中文的朋友們,你們以后可能不只能夠當(dāng)人類學(xué)生們的語文老師了,說不定畢業(yè)后就可以進(jìn)入NLP方面的實(shí)驗(yàn)室,當(dāng)AI的語文老師。
雖說「文科選北大,理科選清華」,九歌也是給文科生報(bào)考清華找到了一個(gè)理由吧。
最后祝愿所有考生高考順利!
傳送門
論文鏈接:https://arxiv.org/pdf/2003.06094.pdf
代碼鏈接:https://github.com/THUNLP-AIPoet/MixPoet
參考鏈接:
https://mp.weixin.qq.com/s/uw7uDV94z3iQsn1v_NKiYw
http://nlp.csai.tsinghua.edu.cn/news/九歌多樣化古典詩歌機(jī)器寫作模型mixpoet開源/