華人小哥控訴機器學(xué)習(xí)「四大Boring」,CS博士:深有同感,正打算退學(xué)
Reddit熱度500+
楊凈 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
機器學(xué)習(xí)很無聊。
至少這位鐵汁是這樣認為得。
甚至還在Reddit上發(fā)了帖子,標題就直接這么明晃晃寫道:
Why machine learning is more boring than you may think?
結(jié)果不到15個小時,便引起了500+熱度的討論。
對此,有網(wǎng)友認為,「因為它是工程技術(shù),而不是基礎(chǔ)研究,工程需要滿足最低標準和最后期限的,技術(shù)上沒有什么挑戰(zhàn)性」。
而至于為何要如此強調(diào)「Boring」,這位數(shù)據(jù)科學(xué)家肖安講了如下原因,也給出了自己的解決方式。
機器學(xué)習(xí)「四大Boring」
首先是設(shè)計?(Designing)的部分,占據(jù)5%-10%的時間。
這時候是群策群力、迸發(fā)新想法的時候,包括新的模型體系結(jié)構(gòu)、數(shù)據(jù)功能和系統(tǒng)設(shè)計等。
預(yù)期的情況是,在每個項目中應(yīng)用最新和最出色的算法,可以在知名頂會期刊發(fā)布的那種。
但實際情況是,由于「時間限制」和其他優(yōu)先級事項,只能做到最簡單、有效的算法。
這時候,為了滿足作者的「成就感」,就會在附帶項目中進行一些「瘋狂」的想法,即使這些想法根本不起作用。
接著是編碼?(Coding )的部分,根據(jù)項目的不同,20%到70%的時間占比。
代碼通常分為五類:占代碼總行數(shù)的百分比。
- 數(shù)據(jù)管道,50-70%;
- 系統(tǒng)和集成事物,10–20%;
- ML模型:5–10%;
- 支持調(diào)試和演示分析,5–10%;
預(yù)期的場景是,花費大量的時間在編碼ML組件。
但現(xiàn)在已經(jīng)有很多現(xiàn)成的框架和編碼語言,將很多復(fù)雜的東西抽象化,這樣工作流已經(jīng)十分標準化了,根本不需要去開發(fā)和完善ML組件。
既然如此,工程師則將更多的時間花在其他低級的優(yōu)化上,比如系統(tǒng)、數(shù)據(jù)管道等。
然后是質(zhì)量檢查、調(diào)試、修復(fù)?(Debug),至少要花65%的時間。(感受到了作者的怨念)
一般主要有兩種錯誤,不良結(jié)果和傳統(tǒng)軟件問題。
不良結(jié)果,就是模型效果不好、評分較低(比如準確性)。
傳統(tǒng)軟件問題,就包括系統(tǒng)損壞、系統(tǒng)配置問題。
理想的狀態(tài),是只需要處理「不良結(jié)果」,然后去構(gòu)建更好的模型。
嗯,展現(xiàn)才能的時間到了!
然而現(xiàn)實情況是,大概70%-90%都是「傳統(tǒng)軟件」問題。
而至于不良結(jié)果,通常在構(gòu)建端到端模型訓(xùn)練和數(shù)據(jù)管道之后,就可以的很快獲得很好的結(jié)果了。
最后一個部分,就是「滅火」(Fire-fighting),處理各種意外情況。
這大概是所有工程師都不愿意看到的點了吧。
在整個交付過程中,不管是外部、甲方爸爸的要求還是內(nèi)部溝通不暢、能力不足等各種人為Bug,用作者的話來講,「就是一場噩夢」。
這時候,除了保持微笑之外,建議將時間軸延長到2-3倍,在團隊里積極交流。
害,說到這里,歸根結(jié)底就是理想與現(xiàn)實之間的差距,別人以為的和你自己正在干的區(qū)別。
比如,就像這樣。
最后,這位小哥還是注入了一些安慰劑。
就像從事任何職業(yè)一樣,最終都會感到無聊和沮喪。
但是沒關(guān)系,很正常。你應(yīng)該開發(fā)一種應(yīng)對機制,像玩游戲一樣,在過程中獲得一些小獎勵,然后最終獲得勝利。
網(wǎng)友怎么看?
對于這件事,網(wǎng)友們倒是意見各異。
有學(xué)CS學(xué)了6年的博士生自述了所遇到的迷茫,并表示打算放棄現(xiàn)在的博士學(xué)位。
我期望它是酷炫的、知識性、算法性的東西,但一直沒有等到可大展拳腳的工程/調(diào)試類項目。
因為這個原因,我打算退學(xué)。雖然現(xiàn)在還不清楚該申請什么樣的工作。
但有人覺得,作者所說的幾個Boring,恰好是喜歡當ML工程師的原因。
還給出建議:如果你想花費100%的時間用來構(gòu)建和調(diào)試ML模型,那你應(yīng)該去看看研究崗,而不是工程崗。
還有網(wǎng)友表示,自己很喜歡ML工程師的工作,從構(gòu)建自運行的端到端模型,到正式投入生產(chǎn),會有很強烈的成就感。
也有人形象地比喻了理想與現(xiàn)實:
那么,對于這件事你怎么看?如果你的身邊也有類似的經(jīng)歷,歡迎與我們分享~
參考鏈接:
https://towardsdatascience.com/data-science-is-boring-1d43473e353e
https://www.reddit.com/r/MachineLearning/comments/jvq4jw/d_why_machine_learning_is_more_boring_than_you/
- 英偉達最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06