印度裔Kaggle大神自述:我是如何獲得所有4個(gè)類別的Grandmaster
還是數(shù)獨(dú)高手,擔(dān)任今年亞洲數(shù)獨(dú)錦標(biāo)賽銀牌得主
楊凈 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
Kaggle大神是如何煉成的?
最近,一個(gè)印度裔Kaggle大神在論壇上分享了他獲得4個(gè)類別的Grandmaster的經(jīng)歷。
嗯,一共就只有四種。
可以看到,他的金牌總數(shù)加起來(lái)就有84枚,其中Discussion上獲得了56枚,數(shù)據(jù)集這一類別的排名術(shù)最高,在27466個(gè)選手中位列第7位,最高排名為第6位。
在Competitions里,他共獲得了4枚單人金牌和4枚團(tuán)隊(duì)金牌。
為此,他就發(fā)表了一篇博文回憶了過(guò)去一些印象深刻的項(xiàng)目,并感謝Kaggle給他這樣一個(gè)平臺(tái):
我斷斷續(xù)續(xù)在Kaggle上跑了七年,這真是一段旅程。
Kaggle不僅僅是網(wǎng)站或競(jìng)賽。對(duì)于喜歡數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的人來(lái)說(shuō),這是一生的經(jīng)歷。
除此之外,他還是一個(gè)數(shù)獨(dú)愛好者,多次獲得國(guó)家冠軍,最高排名第8。
4個(gè)Kaggle Grandmaster的經(jīng)歷
首先是Competitions。
在過(guò)去7年中,他共完成了56場(chǎng)比賽,他的最高成績(jī)是4枚個(gè)人金牌和4枚團(tuán)隊(duì)金牌。
其中Santander、ASHRAE這幾個(gè)金牌項(xiàng)目令他印象深刻。
Santander Product Recommendation,桑坦德產(chǎn)品推薦。(桑坦德,西班牙的一個(gè)銀行)
這一挑戰(zhàn)中,主要是根據(jù)客戶過(guò)去的行為以及類似客戶的行為,來(lái)預(yù)測(cè)現(xiàn)有客戶下個(gè)月將使用哪些產(chǎn)品,進(jìn)而將產(chǎn)品和人來(lái)匹配。
最終,共有1779支隊(duì)伍參加,而他與另一位數(shù)據(jù)科學(xué)家合作@sudalairajkumar,排列第11位,摘得他第五枚金牌。
還有像ASHRAE,預(yù)測(cè)建筑物將消耗多少能量?Rossmann Store Sales,利用商店促銷、競(jìng)爭(zhēng)對(duì)手來(lái)分析銷售情況等等。
作者認(rèn)為,這是唯一具有意義的積分排名系統(tǒng)類別。他希望可以成為Kaggle以外的行業(yè)標(biāo)準(zhǔn),使其更具價(jià)值。
然后是Datasets。
作者表示,為數(shù)據(jù)集爭(zhēng)取投票是最具挑戰(zhàn)性任務(wù)之一。
因此,他就以對(duì)終端用戶最有用、最為結(jié)構(gòu)化的格式來(lái)準(zhǔn)備數(shù)據(jù)集,并加以盡可能多的細(xì)節(jié)描述。
一些令人印象深刻的數(shù)據(jù)有這些:
- 印度的空氣質(zhì)量:作者花了100小時(shí)來(lái)匯總、清理和準(zhǔn)備這個(gè)數(shù)據(jù)集。
- Chai Time Data Science Show(對(duì)ML專家的采訪節(jié)目)每集的統(tǒng)計(jì)數(shù)據(jù);
- 女特級(jí)大師的國(guó)際象棋比賽(2009-2020年)。嗯,國(guó)際象棋是作者的最愛。
不過(guò),在他發(fā)布的18個(gè)數(shù)據(jù)集當(dāng)中,我還是發(fā)現(xiàn)了一些有趣的數(shù)據(jù)集。
比如,拜登的從2007年-2020年數(shù)據(jù)推特?cái)?shù)。
SpaceX的數(shù)據(jù)(2006-2020)。
還有Notebooks。
在比賽結(jié)束之前,作者是不會(huì)看公共EDA Notebook。一般是在完成自己深度EDA后再看別人的工作。
按照這樣的方式,他就獲得了15枚金牌,4枚銀牌以及6枚銅牌,達(dá)到大師級(jí)別。
不過(guò),他也感嘆道,用Macbook Air贏得比賽的日子已經(jīng)一去不復(fù)返了,但誰(shuí)說(shuō)不會(huì)再嘗試了呢。
最后還有,Discussions。
作為喜歡交流的他,除了獲得以上成績(jī)之外,他還對(duì)社區(qū)一些建議,
社區(qū)通過(guò)帖子的凈投票來(lái)優(yōu)先處理有用的討論,并過(guò)濾掉垃圾信息,這一點(diǎn)做得很好。
我希望Datasets和Notebooks也能允許下拉投票,不被區(qū)別對(duì)待。
2020年亞洲數(shù)獨(dú)錦標(biāo)賽銀牌得主
來(lái)介紹一下作者本作——Vopani,真名叫做Rohan Rao,來(lái)自印度,是H2O.ai的數(shù)據(jù)科學(xué)家,畢業(yè)于印度孟買理工學(xué)院應(yīng)用統(tǒng)計(jì)學(xué)專業(yè)。
而H2O.ai是一家成立于2012年,總部位于硅谷的開源軟件公,該公司擁有一個(gè)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的開源平臺(tái)H2O。據(jù)介紹稱,一半的世界五百?gòu)?qiáng)公司都在使用這個(gè)平臺(tái)。
除此之外,他還是一個(gè)數(shù)獨(dú)愛好者。
他曾獲得7次全國(guó)數(shù)獨(dú)冠軍,5次全國(guó)拼圖類冠軍,4次時(shí)代數(shù)獨(dú)國(guó)家冠軍,2020年亞洲數(shù)獨(dú)錦標(biāo)賽銀牌得主。
目前數(shù)獨(dú)世界排名在第23名,最佳成績(jī)到過(guò)第8名。
果然,優(yōu)秀的人一定不只一個(gè)地方優(yōu)秀。
好了,所以你身邊有沒(méi)有遇到Kaggle大神的經(jīng)歷,歡迎與我們分享。
參考鏈接:
https://www.kaggle.com/general/195396
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06