27個(gè)人類基因被重新命名,只因Excel總把它們自動(dòng)糾正成日期
科學(xué)家:等微軟更新,不如重新命名
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
在Excel里輸入證件號的時(shí)候,你是否有過數(shù)字秒變科學(xué)計(jì)數(shù)法的抓狂經(jīng)歷?
讓人萬萬沒想到的是,Excel類似這樣的功能,竟然在過去一年里,導(dǎo)致27種人類基因被重新命名。
因?yàn)檫@些基因符號,總被Excel誤讀為日期。
比如一個(gè)名為MARCH1(Membrane Associated Ring-CH Type Finger 1)的基因,當(dāng)你將其輸入到Excel中……
2016年的一項(xiàng)研究就指出,由于Excel在默認(rèn)設(shè)置狀態(tài)下,會(huì)將基因名稱轉(zhuǎn)換為日期和浮點(diǎn)數(shù),大約有五分之一的公開遺傳數(shù)據(jù)都存在錯(cuò)誤的基因名稱轉(zhuǎn)換。
據(jù)The Verge報(bào)道,英國Quadram研究所的系統(tǒng)生物學(xué)家Dezs? Módos就表示:
這真的非常非常煩人。
27種人類基因已因Excel被重新命名
比起等待Excel的更新,要改變這惱人的現(xiàn)狀,科學(xué)家們覺得還是重命名基因簡單一些。
人類基因的命名主要包括基因名稱和基因符號等內(nèi)容,絕大多數(shù)基因的命名,由國際人類基因命名委員會(huì)(HGNC)完成。
本周,HGNC發(fā)布了有關(guān)基因命名的新指南,其中包括「影響數(shù)據(jù)處理和檢索的符號」。
HGNC表示,從現(xiàn)在起,在命名人類基因及其表達(dá)的蛋白質(zhì)時(shí),將采用Excel默認(rèn)格式下也不會(huì)被錯(cuò)誤轉(zhuǎn)換的方式。
比如,把SEPT1修改為SEPTIN1,MARCH1修改為MARCHF1。
HGNC也將存儲舊符號和名稱的記錄,以避免將來造成混亂。
據(jù)The Verge報(bào)道,HGNC表示,到目前為止,大約有27個(gè)基因名稱已經(jīng)按照這個(gè)規(guī)則進(jìn)行了更改。
重新命名基因,自然會(huì)帶來一些麻煩,比如影響到以前發(fā)表的相關(guān)研究的檢索。
不過,HGNC的工作人員Elspeth Bruford表示,盡管基因重命名并不是輕而易舉的決定,但也并不罕見。
比如,許多可以讀作名詞的基因符號已經(jīng)被重新命名,以避免搜索的時(shí)候出現(xiàn)混亂,CARS改為CARS1,WARS改為WARS1就是這樣的例子。
「這鍋不該微軟背?」
這樣的消息一出,立即引發(fā)了國內(nèi)外網(wǎng)友的熱議。
有網(wǎng)友表示,這顯然應(yīng)該讓微軟改啊,不只是基因符號的輸入遇到了這種問題,平常輸入項(xiàng)目編號什么的,也會(huì)被自動(dòng)轉(zhuǎn)成日期……
也有網(wǎng)友指出,雖然可以事先將Excel中的單元格設(shè)置為文本格式,但在實(shí)際工作中,經(jīng)常遇到的情況是:專業(yè)軟件導(dǎo)出txt/csv文件,再用Excel打開,某些基因名就被自動(dòng)轉(zhuǎn)成了日期。
更麻煩的是,一旦被自動(dòng)轉(zhuǎn)換,再去改成文本格式是無法恢復(fù)到原來的文本的,這就會(huì)導(dǎo)致大量數(shù)據(jù)的丟失。
并且,目前沒有任何辦法關(guān)掉Excel默認(rèn)設(shè)置下的自動(dòng)格式轉(zhuǎn)換。
對此,Elspeth Bruford認(rèn)為,這畢竟是Excel軟件的有限用例,「Excel的其他廣大用戶正在廣泛使用這樣的功能,對于微軟來說,幾乎沒有什么動(dòng)力去對這些功能開刀」,所以,還是改基因名字更簡單些。
那么,你怎么看呢?
— 完 —