猛男把400+條貓咪叫聲做成數(shù)據(jù)集,可識別貓咪的3種不同狀態(tài)丨開源
網(wǎng)友:哪有心思搞科研
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
這年頭,就連喵星人也有自己的語音數(shù)據(jù)集了。
沒錯(cuò),來自米蘭大學(xué)計(jì)算機(jī)系的幾位猛男,和生物系、獸醫(yī)系的小伙伴們一起,收集了21只貓咪的400+條語音數(shù)據(jù),做了個(gè)貓叫聲數(shù)據(jù)集。
這21只貓咪中,包括10只成年緬因貓和11只成年歐洲短毛貓,是長毛和短毛貓咪中的代表類型。
△緬因貓vs歐洲短毛貓
不少網(wǎng)友下載后表示:
癡漢笑半小時(shí)了,根本干不了活?。?/p>
3種貓咪叫聲,總長21分鐘
制作這個(gè)數(shù)據(jù)集的初衷,是為了人類能更好地理解貓咪叫聲的含義,為以后的人-貓溝通作準(zhǔn)備。
因此,在制作數(shù)據(jù)集時(shí),研究者們選擇了3種讓貓發(fā)出不同叫聲的場景:
-
等待投喂:主人喂食前的貓叫聲。
-
被放到陌生環(huán)境下隔離:將貓運(yùn)送到一個(gè)陌生環(huán)境,車程不超過半小時(shí),被隔離前會與主人先相處半小時(shí)。隔離時(shí)的貓會發(fā)出叫聲。
-
刷牙:主人給貓刷牙時(shí)的貓叫聲。
在這些場景中,每次收集貓叫的時(shí)間不超過5分鐘(例如,5分鐘后就會給貓喂食)。
為了讓語音數(shù)據(jù)更清晰、且不影響貓的日常行動,研究者們采用了一個(gè)不到50g的小型麥克風(fēng),掛在貓脖子上。
在清除了不包含貓叫聲的片段后,研究者們將這些叫聲錄音剪切成平均長度1.82s、方差0.37s左右的錄音文件,共448個(gè)片段,其中緬因貓196個(gè),歐洲短毛貓是252個(gè),總時(shí)長約21分鐘。
這是收集到的3種類型的叫聲,從左至右依次為等待投喂、被隔離和刷牙:
為了準(zhǔn)確識別貓咪在這3種情況下的叫聲,研究者們還做了一個(gè)機(jī)器學(xué)習(xí)模型。
無關(guān)貓咪種類,識別效果90%以上
研究者們采用了模式識別的方法,算法框架是一個(gè)有向無環(huán)圖。
簡單來說,先區(qū)分貓叫聲是否屬于“等投喂”和“被隔離”兩種狀態(tài),再識別它們是否屬于“刷牙”的狀態(tài)。
為了驗(yàn)證哪種模型對于識別3種貓咪語音狀態(tài)更有效,研究者們采用了不同的模型進(jìn)行實(shí)驗(yàn),最后確定了有向無環(huán)圖中的隱馬爾科夫模型,識別率最高能達(dá)到95.94%。
經(jīng)過實(shí)驗(yàn),“等待投喂”的貓咪叫聲能被完美識別,達(dá)到了100%;“刷牙”的貓咪叫聲識別率達(dá)到了第二,平均在95.24%,有一定概率被識別成“等待投喂”;“被隔離”的貓咪叫聲識別率在92.59%,有一定概率被識別成“刷牙”。
三種狀態(tài)的識別效果都在90%以上,也算是一個(gè)不錯(cuò)的模型了。
這項(xiàng)研究、以及貓叫數(shù)據(jù)集的制作,來自米蘭大學(xué)計(jì)算機(jī)系的3位猛男,以及生物學(xué)系和獸醫(yī)系的小伙伴們,所有人在這項(xiàng)研究中的貢獻(xiàn)相同。
網(wǎng)友:哪有心思搞科研
發(fā)現(xiàn)這個(gè)數(shù)據(jù)集后,不少網(wǎng)友第一反應(yīng):居然連這都有?
已經(jīng)有網(wǎng)友,開始試圖搞懂、甚至已經(jīng)聽懂?dāng)?shù)據(jù)集的“詳細(xì)內(nèi)容”了:
有網(wǎng)友嗅到了里面的商機(jī):
還有網(wǎng)友調(diào)侃,根本沒心情搞科研,只剩開心了。
當(dāng)然,除了貓咪叫聲,也有不少網(wǎng)友提出,想要其他的聲音數(shù)據(jù)集:
對貓咪叫聲有興趣的朋友,戳下方地址即可獲取~
貓叫數(shù)據(jù)集傳送門:
https://zenodo.org/record/4008297#.YNFSEhMzaPf