AI數(shù)據(jù)也要緊跟MLOps,那個把標(biāo)注精度提高到99.99%的公司再出手
最新解決方案來了
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
當(dāng)IT行業(yè)改變整個世界的時候,DevOps理念從大量產(chǎn)業(yè)實(shí)踐中誕生。
如今AI也進(jìn)入產(chǎn)業(yè)化新時代,繼承者MLOps或者叫AI工程化也越發(fā)火熱。
Gartner咨詢公司將AI工程化列為2022年十二大戰(zhàn)略性技術(shù)趨勢,IDC則預(yù)測到2024年60%的企業(yè)將MLOps用于機(jī)器學(xué)習(xí)工作流。
△圖源:ml-ops.org
這一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自動部署、持續(xù)訓(xùn)練甚至AutoML都有較大進(jìn)展。
與之相對的是,數(shù)據(jù)的工程化稍顯落后。
對此,一直呼吁建設(shè)“以數(shù)據(jù)為中心AI”的吳恩達(dá),今年初在接受IEEE Spectrum采訪時也喊出新的口號:
AI要從大數(shù)據(jù)轉(zhuǎn)向高質(zhì)量的小數(shù)據(jù)。
吳恩達(dá)認(rèn)為,對于數(shù)據(jù)中存在的噪聲,通常做法是只要量足夠大就可以讓算法對其做平均處理。
但這樣做不僅限制了算法的能力,有些場景如工業(yè)質(zhì)檢、罕見病等更是根本湊不出一個大型數(shù)據(jù)集,精心標(biāo)注的高質(zhì)量數(shù)據(jù)就成了關(guān)鍵。
實(shí)際上,除了碎片場景之外,如何高效構(gòu)建高質(zhì)量數(shù)據(jù)集也是全行業(yè)共同面對的問題。
AI工程化的大背景下,新一代數(shù)據(jù)標(biāo)注與管理方法也從實(shí)踐中逐漸誕生。
最新解決方案來了
云測數(shù)據(jù),一家以“將數(shù)據(jù)標(biāo)注的最高準(zhǔn)確率提升到99.99%”而聞名的AI數(shù)據(jù)服務(wù)公司,率先推出「面向AI工程化的新一代數(shù)據(jù)解決方案」。
方案不僅包括標(biāo)注數(shù)據(jù)、管理數(shù)據(jù)所需的平臺工具,還涉及管理體系以及數(shù)據(jù)安全,總共三個方面。
平臺工具方面,除了基礎(chǔ)的標(biāo)注工具、API集成能力,還有數(shù)據(jù)流轉(zhuǎn)產(chǎn)線工作臺和數(shù)據(jù)產(chǎn)能管理體系。
管理體系方面,分為人員管理和項(xiàng)目管理兩部分。
數(shù)據(jù)安全方面,則從硬件安全、網(wǎng)絡(luò)安全、物理安全和人員安全管理4個角度提供保障。
為什么是這三個方面?云測數(shù)據(jù)總經(jīng)理賈宇航從AI工程化時代的不同特征進(jìn)行了分析。
算法進(jìn)入持續(xù)優(yōu)化期,此時數(shù)據(jù)也要從瀑布式流轉(zhuǎn)過渡到持續(xù)流轉(zhuǎn)。
在算法預(yù)研期只需要基礎(chǔ)數(shù)據(jù)集就能滿足需求,針對實(shí)際業(yè)務(wù)場景的算法研發(fā)期則需要數(shù)據(jù)采集、清洗、標(biāo)注等一系列定制化服務(wù)。
算法進(jìn)入持續(xù)優(yōu)化期,情況再次發(fā)生變化。
生產(chǎn)環(huán)境的回流數(shù)據(jù)需要持續(xù)標(biāo)注用于迭代,使算法越用越智能;標(biāo)注數(shù)據(jù)需要流轉(zhuǎn)至仿真平臺用于算法評測,提高重復(fù)利用價值;自動化流程中又需要輔以人工檢查糾正,降本增效。
云測數(shù)據(jù)新一代解決方案中基于這些需求打造了數(shù)據(jù)處理工作臺,支持持續(xù)任務(wù)處理、人機(jī)協(xié)作,同時以標(biāo)準(zhǔn)API接口與各類系統(tǒng)對接,將AI數(shù)據(jù)訓(xùn)練過程中的綜合效率提升200%。
算法落地到實(shí)際場景中,而高質(zhì)量的場景數(shù)據(jù)需要標(biāo)注人員有領(lǐng)域?qū)I(yè)知識。
舉例來說,前一陣谷歌的文本情感數(shù)據(jù)集GoEmotion就被一位機(jī)器學(xué)習(xí)工程師Edwin Chen指出有30%標(biāo)注錯誤,他分析問題出在谷歌請的印度員工不了解美國本土互聯(lián)網(wǎng)文化。
像這樣的問題,在知識門檻頗高的金融、自動駕駛等領(lǐng)域場景中也有可能發(fā)生。
對此,云測數(shù)據(jù)推出數(shù)據(jù)服務(wù)體系。其中人員管理體系涵蓋招聘、業(yè)務(wù)培訓(xùn),以及自動駕駛、智慧金融、AIOT等重點(diǎn)行業(yè)的領(lǐng)域知識培訓(xùn)。項(xiàng)目管理體系則以標(biāo)準(zhǔn)化的流程把控?cái)?shù)據(jù)質(zhì)量,將數(shù)據(jù)標(biāo)注最高精度提升至99.99%。
最后,算法深入到實(shí)際業(yè)務(wù)中,數(shù)據(jù)安全需要得到保障。
云測數(shù)據(jù)推出安全交付體系,全方位保障數(shù)據(jù)安全和風(fēng)險治理,同時滿足ISO27001和ISO27701標(biāo)準(zhǔn)。
新一代數(shù)據(jù)解決方案,如何煉成?
云測數(shù)據(jù)是AI數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)先者,憑借在產(chǎn)品、服務(wù)、技術(shù)研發(fā)等方面的綜合實(shí)踐,已連續(xù)三年被評為行業(yè)第一,具備豐富的研發(fā)及產(chǎn)業(yè)化服務(wù)經(jīng)驗(yàn)。
技術(shù)能力方面,去年云測數(shù)據(jù)先后發(fā)布云測數(shù)據(jù)標(biāo)注平臺、AI數(shù)據(jù)集管理系統(tǒng)等技術(shù)成果,率先形成AI訓(xùn)練數(shù)據(jù)的“采、標(biāo)、管、存”一站式服務(wù),實(shí)現(xiàn)從“數(shù)據(jù)原料”到最后的“數(shù)據(jù)成品”全鏈條打通,輸出完整的數(shù)據(jù)價值,其中更是將數(shù)據(jù)標(biāo)注的最高準(zhǔn)確率提升到了99.99%。
又經(jīng)過一年的打磨完善后,云測數(shù)據(jù)標(biāo)注平臺&數(shù)據(jù)集管理系統(tǒng)在工具豐富性與易用性得到升級,并且與各種類型企業(yè)系統(tǒng)對接的能力得到增強(qiáng),整合到最新解決方案里。
行業(yè)經(jīng)驗(yàn)方面,云測數(shù)據(jù)提供多維度、場景化的數(shù)據(jù)服務(wù)與策略,多年來服務(wù)于汽車、安防、手機(jī)、家居、金融、教育、新零售、地產(chǎn)等行業(yè),滿足AI應(yīng)用在數(shù)據(jù)質(zhì)量、數(shù)據(jù)豐富度、數(shù)據(jù)時效性等方面的需求。
另外正如MLOps繼承自軟件行業(yè)的DevOps,Testin云測結(jié)合自身優(yōu)勢,將軟件測試業(yè)務(wù)上10多年ToB服務(wù)經(jīng)驗(yàn)也遷移沉淀至云測數(shù)據(jù)的AI數(shù)據(jù)服務(wù)中,提質(zhì)增效的作用十分顯著。
到如今,隨著智能化轉(zhuǎn)型的逐漸深入,云測數(shù)據(jù)的服務(wù)對象已擴(kuò)展至各行各業(yè),正是在大量實(shí)踐與不斷探索中,AI數(shù)據(jù)服務(wù)所需的方方面面被云測數(shù)據(jù)掌握、整合,最終沉淀成新一代數(shù)據(jù)解決方案集中發(fā)布亮相。
而隨著新一代數(shù)據(jù)解決方案的發(fā)布及云測數(shù)據(jù)背后更多動作布局,給AI數(shù)據(jù)服務(wù)行業(yè)本身也帶來一些改變。
云測數(shù)據(jù),帶來什么改變?
先看云測數(shù)據(jù)給服務(wù)對象帶來的改變。
以自動駕駛行業(yè)為例,首先是一站式解決自動駕駛領(lǐng)域多場景的數(shù)據(jù)采集的需求,包括智能駕駛主流應(yīng)用場景。通過云測數(shù)據(jù)的DMS與ADAS場景搭建采集能力,來減少數(shù)據(jù)采集周期、提升數(shù)據(jù)質(zhì)量。
接下來,通過數(shù)據(jù)標(biāo)注平臺來解決包括2D標(biāo)注、3D點(diǎn)云標(biāo)注、2D/3D融合標(biāo)注、語義分割、目標(biāo)跟蹤等等數(shù)據(jù)標(biāo)注需求,同時標(biāo)注&管理平臺支持與企業(yè)完成訓(xùn)練、仿真等系統(tǒng)集成。
數(shù)據(jù)不必再按批次來回傳輸,實(shí)時處理的同時節(jié)省大量時間和成本。數(shù)據(jù)不出企業(yè)內(nèi)網(wǎng)就能完成流轉(zhuǎn),同時也支持專業(yè)標(biāo)注員駐場作業(yè),在保證數(shù)據(jù)安全的基礎(chǔ)上,有效降低信息傳遞損耗,同時兼顧標(biāo)注作業(yè)效率和質(zhì)量的提升。
據(jù)賈宇航透露,以某自動駕駛相關(guān)企業(yè)為例,原來要花一周時間的AI數(shù)據(jù)工作,對接新一代數(shù)據(jù)解決方案后效能至少提升2倍以上。
憑借這樣的能力,云測數(shù)據(jù)與行業(yè)內(nèi)包括自主、合資車企,大型Tier1、Tier2,以及無人出租車等眾多自動駕駛企業(yè)建立了持久良好的合作關(guān)系。
效率的提升同樣體現(xiàn)在零售貨檢行業(yè),通過云測數(shù)據(jù)標(biāo)注平臺將貨柜檢測數(shù)據(jù)持續(xù)回流,基于算法預(yù)標(biāo)注結(jié)果進(jìn)行可視化審查并修改,與純?nèi)斯?biāo)注效率提升3倍。
而在金融領(lǐng)域,通過云測數(shù)據(jù)標(biāo)注平臺及集成算法API可進(jìn)行金融票據(jù)標(biāo)注,通過離岸的安全房進(jìn)行標(biāo)注,在保證質(zhì)量和效率的基礎(chǔ)上確保數(shù)據(jù)隱私安全。
另外還有建筑行業(yè)也可以通過云測數(shù)據(jù)標(biāo)注平臺對生成建筑CAD圖紙進(jìn)行審查校驗(yàn)。
云測數(shù)據(jù)深度合作伙伴覆蓋了汽車、手機(jī)、工業(yè)、家居、金融、安防、教育、新零售、地產(chǎn)、生態(tài)系統(tǒng)等行業(yè)。這其中包含眾多世界500強(qiáng)企業(yè)、高??蒲袡C(jī)構(gòu)、政府機(jī)構(gòu),頭部AI企業(yè)和大型互聯(lián)網(wǎng)企業(yè)覆蓋率超90% ,涵蓋了計(jì)算機(jī)視覺、語音識別、自然語言處理、知識圖譜等AI主流技術(shù)領(lǐng)域。
與此同時,云測數(shù)據(jù)對AI數(shù)據(jù)服務(wù)行業(yè)自身的探索也在持續(xù)進(jìn)行。
比如作為人工智能數(shù)據(jù)服務(wù)領(lǐng)域代表廠商,參與信通院牽頭的全球首個MLOps模型開發(fā)管理標(biāo)準(zhǔn),以數(shù)據(jù)標(biāo)準(zhǔn)化助推AI落地。
最新能透露的一條進(jìn)展是, 云測數(shù)據(jù)正與云服務(wù)廠商合作,探討延展數(shù)據(jù)服務(wù)的邊界。
參考資料:
[1]https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18