AI數(shù)據(jù)也要緊跟MLOps,那個把標注精度提高到99.99%的公司再出手
最新解決方案來了
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
當IT行業(yè)改變整個世界的時候,DevOps理念從大量產(chǎn)業(yè)實踐中誕生。
如今AI也進入產(chǎn)業(yè)化新時代,繼承者MLOps或者叫AI工程化也越發(fā)火熱。
Gartner咨詢公司將AI工程化列為2022年十二大戰(zhàn)略性技術(shù)趨勢,IDC則預(yù)測到2024年60%的企業(yè)將MLOps用于機器學習工作流。
△圖源:ml-ops.org
這一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自動部署、持續(xù)訓練甚至AutoML都有較大進展。
與之相對的是,數(shù)據(jù)的工程化稍顯落后。
對此,一直呼吁建設(shè)“以數(shù)據(jù)為中心AI”的吳恩達,今年初在接受IEEE Spectrum采訪時也喊出新的口號:
AI要從大數(shù)據(jù)轉(zhuǎn)向高質(zhì)量的小數(shù)據(jù)。
吳恩達認為,對于數(shù)據(jù)中存在的噪聲,通常做法是只要量足夠大就可以讓算法對其做平均處理。
但這樣做不僅限制了算法的能力,有些場景如工業(yè)質(zhì)檢、罕見病等更是根本湊不出一個大型數(shù)據(jù)集,精心標注的高質(zhì)量數(shù)據(jù)就成了關(guān)鍵。
實際上,除了碎片場景之外,如何高效構(gòu)建高質(zhì)量數(shù)據(jù)集也是全行業(yè)共同面對的問題。
AI工程化的大背景下,新一代數(shù)據(jù)標注與管理方法也從實踐中逐漸誕生。
最新解決方案來了
云測數(shù)據(jù),一家以“將數(shù)據(jù)標注的最高準確率提升到99.99%”而聞名的AI數(shù)據(jù)服務(wù)公司,率先推出「面向AI工程化的新一代數(shù)據(jù)解決方案」。
方案不僅包括標注數(shù)據(jù)、管理數(shù)據(jù)所需的平臺工具,還涉及管理體系以及數(shù)據(jù)安全,總共三個方面。
平臺工具方面,除了基礎(chǔ)的標注工具、API集成能力,還有數(shù)據(jù)流轉(zhuǎn)產(chǎn)線工作臺和數(shù)據(jù)產(chǎn)能管理體系。
管理體系方面,分為人員管理和項目管理兩部分。
數(shù)據(jù)安全方面,則從硬件安全、網(wǎng)絡(luò)安全、物理安全和人員安全管理4個角度提供保障。
為什么是這三個方面?云測數(shù)據(jù)總經(jīng)理賈宇航從AI工程化時代的不同特征進行了分析。
算法進入持續(xù)優(yōu)化期,此時數(shù)據(jù)也要從瀑布式流轉(zhuǎn)過渡到持續(xù)流轉(zhuǎn)。
在算法預(yù)研期只需要基礎(chǔ)數(shù)據(jù)集就能滿足需求,針對實際業(yè)務(wù)場景的算法研發(fā)期則需要數(shù)據(jù)采集、清洗、標注等一系列定制化服務(wù)。
算法進入持續(xù)優(yōu)化期,情況再次發(fā)生變化。
生產(chǎn)環(huán)境的回流數(shù)據(jù)需要持續(xù)標注用于迭代,使算法越用越智能;標注數(shù)據(jù)需要流轉(zhuǎn)至仿真平臺用于算法評測,提高重復(fù)利用價值;自動化流程中又需要輔以人工檢查糾正,降本增效。
云測數(shù)據(jù)新一代解決方案中基于這些需求打造了數(shù)據(jù)處理工作臺,支持持續(xù)任務(wù)處理、人機協(xié)作,同時以標準API接口與各類系統(tǒng)對接,將AI數(shù)據(jù)訓練過程中的綜合效率提升200%。
算法落地到實際場景中,而高質(zhì)量的場景數(shù)據(jù)需要標注人員有領(lǐng)域?qū)I(yè)知識。
舉例來說,前一陣谷歌的文本情感數(shù)據(jù)集GoEmotion就被一位機器學習工程師Edwin Chen指出有30%標注錯誤,他分析問題出在谷歌請的印度員工不了解美國本土互聯(lián)網(wǎng)文化。
像這樣的問題,在知識門檻頗高的金融、自動駕駛等領(lǐng)域場景中也有可能發(fā)生。
對此,云測數(shù)據(jù)推出數(shù)據(jù)服務(wù)體系。其中人員管理體系涵蓋招聘、業(yè)務(wù)培訓,以及自動駕駛、智慧金融、AIOT等重點行業(yè)的領(lǐng)域知識培訓。項目管理體系則以標準化的流程把控數(shù)據(jù)質(zhì)量,將數(shù)據(jù)標注最高精度提升至99.99%。
最后,算法深入到實際業(yè)務(wù)中,數(shù)據(jù)安全需要得到保障。
云測數(shù)據(jù)推出安全交付體系,全方位保障數(shù)據(jù)安全和風險治理,同時滿足ISO27001和ISO27701標準。
新一代數(shù)據(jù)解決方案,如何煉成?
云測數(shù)據(jù)是AI數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)先者,憑借在產(chǎn)品、服務(wù)、技術(shù)研發(fā)等方面的綜合實踐,已連續(xù)三年被評為行業(yè)第一,具備豐富的研發(fā)及產(chǎn)業(yè)化服務(wù)經(jīng)驗。
技術(shù)能力方面,去年云測數(shù)據(jù)先后發(fā)布云測數(shù)據(jù)標注平臺、AI數(shù)據(jù)集管理系統(tǒng)等技術(shù)成果,率先形成AI訓練數(shù)據(jù)的“采、標、管、存”一站式服務(wù),實現(xiàn)從“數(shù)據(jù)原料”到最后的“數(shù)據(jù)成品”全鏈條打通,輸出完整的數(shù)據(jù)價值,其中更是將數(shù)據(jù)標注的最高準確率提升到了99.99%。
又經(jīng)過一年的打磨完善后,云測數(shù)據(jù)標注平臺&數(shù)據(jù)集管理系統(tǒng)在工具豐富性與易用性得到升級,并且與各種類型企業(yè)系統(tǒng)對接的能力得到增強,整合到最新解決方案里。
行業(yè)經(jīng)驗方面,云測數(shù)據(jù)提供多維度、場景化的數(shù)據(jù)服務(wù)與策略,多年來服務(wù)于汽車、安防、手機、家居、金融、教育、新零售、地產(chǎn)等行業(yè),滿足AI應(yīng)用在數(shù)據(jù)質(zhì)量、數(shù)據(jù)豐富度、數(shù)據(jù)時效性等方面的需求。
另外正如MLOps繼承自軟件行業(yè)的DevOps,Testin云測結(jié)合自身優(yōu)勢,將軟件測試業(yè)務(wù)上10多年ToB服務(wù)經(jīng)驗也遷移沉淀至云測數(shù)據(jù)的AI數(shù)據(jù)服務(wù)中,提質(zhì)增效的作用十分顯著。
到如今,隨著智能化轉(zhuǎn)型的逐漸深入,云測數(shù)據(jù)的服務(wù)對象已擴展至各行各業(yè),正是在大量實踐與不斷探索中,AI數(shù)據(jù)服務(wù)所需的方方面面被云測數(shù)據(jù)掌握、整合,最終沉淀成新一代數(shù)據(jù)解決方案集中發(fā)布亮相。
而隨著新一代數(shù)據(jù)解決方案的發(fā)布及云測數(shù)據(jù)背后更多動作布局,給AI數(shù)據(jù)服務(wù)行業(yè)本身也帶來一些改變。
云測數(shù)據(jù),帶來什么改變?
先看云測數(shù)據(jù)給服務(wù)對象帶來的改變。
以自動駕駛行業(yè)為例,首先是一站式解決自動駕駛領(lǐng)域多場景的數(shù)據(jù)采集的需求,包括智能駕駛主流應(yīng)用場景。通過云測數(shù)據(jù)的DMS與ADAS場景搭建采集能力,來減少數(shù)據(jù)采集周期、提升數(shù)據(jù)質(zhì)量。
接下來,通過數(shù)據(jù)標注平臺來解決包括2D標注、3D點云標注、2D/3D融合標注、語義分割、目標跟蹤等等數(shù)據(jù)標注需求,同時標注&管理平臺支持與企業(yè)完成訓練、仿真等系統(tǒng)集成。
數(shù)據(jù)不必再按批次來回傳輸,實時處理的同時節(jié)省大量時間和成本。數(shù)據(jù)不出企業(yè)內(nèi)網(wǎng)就能完成流轉(zhuǎn),同時也支持專業(yè)標注員駐場作業(yè),在保證數(shù)據(jù)安全的基礎(chǔ)上,有效降低信息傳遞損耗,同時兼顧標注作業(yè)效率和質(zhì)量的提升。
據(jù)賈宇航透露,以某自動駕駛相關(guān)企業(yè)為例,原來要花一周時間的AI數(shù)據(jù)工作,對接新一代數(shù)據(jù)解決方案后效能至少提升2倍以上。
憑借這樣的能力,云測數(shù)據(jù)與行業(yè)內(nèi)包括自主、合資車企,大型Tier1、Tier2,以及無人出租車等眾多自動駕駛企業(yè)建立了持久良好的合作關(guān)系。
效率的提升同樣體現(xiàn)在零售貨檢行業(yè),通過云測數(shù)據(jù)標注平臺將貨柜檢測數(shù)據(jù)持續(xù)回流,基于算法預(yù)標注結(jié)果進行可視化審查并修改,與純?nèi)斯俗⑿侍嵘?倍。
而在金融領(lǐng)域,通過云測數(shù)據(jù)標注平臺及集成算法API可進行金融票據(jù)標注,通過離岸的安全房進行標注,在保證質(zhì)量和效率的基礎(chǔ)上確保數(shù)據(jù)隱私安全。
另外還有建筑行業(yè)也可以通過云測數(shù)據(jù)標注平臺對生成建筑CAD圖紙進行審查校驗。
云測數(shù)據(jù)深度合作伙伴覆蓋了汽車、手機、工業(yè)、家居、金融、安防、教育、新零售、地產(chǎn)、生態(tài)系統(tǒng)等行業(yè)。這其中包含眾多世界500強企業(yè)、高??蒲袡C構(gòu)、政府機構(gòu),頭部AI企業(yè)和大型互聯(lián)網(wǎng)企業(yè)覆蓋率超90% ,涵蓋了計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術(shù)領(lǐng)域。
與此同時,云測數(shù)據(jù)對AI數(shù)據(jù)服務(wù)行業(yè)自身的探索也在持續(xù)進行。
比如作為人工智能數(shù)據(jù)服務(wù)領(lǐng)域代表廠商,參與信通院牽頭的全球首個MLOps模型開發(fā)管理標準,以數(shù)據(jù)標準化助推AI落地。
最新能透露的一條進展是, 云測數(shù)據(jù)正與云服務(wù)廠商合作,探討延展數(shù)據(jù)服務(wù)的邊界。
參考資料:
[1]https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18