曾在國(guó)內(nèi)外5家大廠做數(shù)據(jù)庫工程師,這是他給出的5大趨勢(shì)預(yù)測(cè)
統(tǒng)一BI和AI、專用網(wǎng)格、多云策略、智能數(shù)據(jù)、數(shù)據(jù)資產(chǎn)。
Pine 編譯自 凹非寺
量子位 | 公眾號(hào) QbitAI
出門要健康碼,買東西用支付碼……
什么都可以變成數(shù)據(jù),近來被追捧的元宇宙甚至告訴我們連人都可以變成數(shù)據(jù)。
我們貌似已經(jīng)習(xí)慣了與數(shù)據(jù)相依存的生活,但在未來,數(shù)據(jù)會(huì)發(fā)展成什么樣子,你有想過嗎?
有30多項(xiàng)機(jī)器學(xué)習(xí)和數(shù)據(jù)云專利的大佬Luhui Hu發(fā)了一篇博客。
他梳理了數(shù)據(jù)庫的發(fā)展以及現(xiàn)狀,或許從中我們可以洞見數(shù)據(jù)未來的模樣。
一起來看看吧~
數(shù)據(jù)的探索
首先,簡(jiǎn)單了解下數(shù)據(jù)庫。
一言以蔽之,就是能夠存儲(chǔ)并管理龐雜的數(shù)據(jù)。
在過去的30年中,作為編程語言、操作系統(tǒng)中必不可少的技術(shù),數(shù)據(jù)庫的數(shù)量在呈指數(shù)級(jí)增長(zhǎng),已經(jīng)誕生出數(shù)百種不同的數(shù)據(jù)庫。
典型如SQL到NoSQL和NewSQL。
這些數(shù)據(jù)庫主要進(jìn)行兩項(xiàng)工作:
在線事務(wù)處理(OnLine Transactional Processing 簡(jiǎn)稱:OLTP);
在線分析處理(OnLine Analytical Processing 簡(jiǎn)稱:OLAP)?。
早在20世紀(jì)60年代早期,Charles Bachman就開發(fā)了第一個(gè)數(shù)據(jù)庫。
起初對(duì)于數(shù)據(jù)庫的探索主要集中在數(shù)據(jù)庫查詢和它的模型上,包括SQL(結(jié)構(gòu)化查詢語言)、XML(可擴(kuò)展標(biāo)記語言)和面向?qū)ο蟆?/p>
眾多數(shù)據(jù)庫在經(jīng)過10多年的競(jìng)爭(zhēng)之后,Oracle、SQL Server和MySQL三個(gè)脫穎而出。
它們憑借結(jié)構(gòu)化查詢語言和遵循ACID(原子性、一致性、隔離性、持久性,在出現(xiàn)故障的情況下也可以保證數(shù)據(jù)的有效性),幾乎主導(dǎo)了商業(yè)市場(chǎng)和開源社區(qū)。
然而,數(shù)據(jù)的種類、速度以及數(shù)據(jù)量在不斷增長(zhǎng),這對(duì)數(shù)據(jù)庫提出了更高的要求,這時(shí)出現(xiàn)了一種新的數(shù)據(jù)庫:NoSQL。
不同于傳統(tǒng)的數(shù)據(jù)庫,NoSQL允許部分?jǐn)?shù)據(jù)使用SQL系統(tǒng)存儲(chǔ),而其他數(shù)據(jù)則使用NOSQL系統(tǒng)存儲(chǔ)。
除此之外,NoSQL還首次提出了性能效率、模式靈活性和一些新的功能,并且還擁有鍵值存儲(chǔ)、文檔數(shù)據(jù)庫、面向列的數(shù)據(jù)庫、圖形數(shù)據(jù)庫等。
但由于NoSQL數(shù)據(jù)庫在遵守CAP定理(不能同時(shí)滿足一致性、可用性、分區(qū)容錯(cuò)性)時(shí)更注重可用性而非一致性,導(dǎo)致許多數(shù)據(jù)庫為了實(shí)現(xiàn)最終一致性或非規(guī)范化而做出妥協(xié)和優(yōu)化。
這也恰恰說明了數(shù)據(jù)庫要與時(shí)俱進(jìn),契合當(dāng)前數(shù)據(jù)的特點(diǎn)以及人們的需求。
就比如說NewSQL,它是一類現(xiàn)代的關(guān)系數(shù)據(jù)庫,為OLTP工作提供了與NoSQL相同的可擴(kuò)展性能,同時(shí)仍然使用SQL并維護(hù)傳統(tǒng)數(shù)據(jù)庫的ACID保證。
在數(shù)據(jù)庫的發(fā)展過程中,還有一個(gè)不得不提的東西:數(shù)據(jù)倉庫。
它是用于數(shù)據(jù)分析和業(yè)務(wù)洞察的核心組件,但在10年前大數(shù)據(jù)平臺(tái)出現(xiàn)之后,人們從傳統(tǒng)的數(shù)據(jù)倉庫轉(zhuǎn)移到大數(shù)據(jù)平臺(tái),它就黯然失色了。
直到云技術(shù)的出現(xiàn),重新賦予給數(shù)據(jù)倉庫新的性能,使它具備了可擴(kuò)展性,數(shù)據(jù)倉庫這才再次被人們注意到。
隨著高性能、高可擴(kuò)展性數(shù)據(jù)云的出現(xiàn),一個(gè)新的數(shù)據(jù)平臺(tái)生態(tài)系統(tǒng)——現(xiàn)代數(shù)據(jù)堆棧應(yīng)運(yùn)而生。
云技術(shù)通過云托管(半托管甚至完全托管)和云原生兩種方式使得數(shù)據(jù)庫自動(dòng)化或半自動(dòng)化。
在這其中,云技術(shù)具體是怎么操作的呢?
它主要是通過解耦數(shù)據(jù)庫的存儲(chǔ)和計(jì)算,重新定義體系結(jié)構(gòu)。
并且存儲(chǔ)或計(jì)算還可以獨(dú)立擴(kuò)展,提高數(shù)據(jù)庫的效率、性能和靈活性等。
除此之外,這種解耦架構(gòu)還能為數(shù)據(jù)庫系統(tǒng)合并不同類型的存儲(chǔ)和計(jì)算,以實(shí)現(xiàn)總體的高性能和新功能。
目前,云技術(shù)正在逐步應(yīng)用到數(shù)據(jù)庫中。
S3(Simple Storage Service 簡(jiǎn)單存儲(chǔ)服務(wù))因?yàn)樽陨淼暮?jiǎn)單性、低成本、高可用性、可擴(kuò)展性等,已經(jīng)成為云計(jì)算的基礎(chǔ)。
而且,它還演變成了數(shù)據(jù)湖,可以用來存儲(chǔ)、處理和保護(hù)大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
現(xiàn)代數(shù)據(jù)庫
講了這么多數(shù)據(jù)庫的發(fā)展,說回到現(xiàn)代數(shù)據(jù)庫。
提到現(xiàn)代數(shù)據(jù)庫,就不得不了解下面兩種架構(gòu)。
首先是Data Lakehouse,它相當(dāng)于是數(shù)據(jù)倉庫和數(shù)據(jù)湖的結(jié)合,可以看作是在對(duì)象存儲(chǔ)上運(yùn)行快速的SQL。
它同時(shí)具備了數(shù)據(jù)倉庫的性能和數(shù)據(jù)湖的靈活性,能夠消除數(shù)據(jù)孤島(數(shù)據(jù)之間無法互通)和ETL(抽取-轉(zhuǎn)置-加載)過程,從而使得數(shù)據(jù)的性能、靈活性和成本效益都得到提升。
除此之外,它還統(tǒng)一了所有的數(shù)據(jù),簡(jiǎn)化了數(shù)據(jù)工程過程,并支持BI(商業(yè)智能)和AI工作負(fù)載在一起。
了解完Data Lakehouse,再來說說混合事務(wù)/分析處理?(HTAP)。
它是一種新興的應(yīng)用程序架構(gòu),為熱門的現(xiàn)代數(shù)據(jù)庫提供了動(dòng)力。
比如說谷歌發(fā)布的HTAP數(shù)據(jù)庫產(chǎn)品AlloyDB,具有卓越的性能、可擴(kuò)展能力和可用性,并且在高并發(fā)的OLTP環(huán)境中,可以快速響應(yīng)用戶的復(fù)雜操作。
而Snowflake(數(shù)據(jù)云公司)緊隨其后,發(fā)布了Unistore,同樣也支持HTAP,可以在單一平臺(tái)上同時(shí)處理交易和分析數(shù)據(jù)。
進(jìn)一步來說,和Lakehouse一樣,HTAP的目標(biāo)也是消除從OLTP到OLAP或從數(shù)據(jù)湖到數(shù)據(jù)倉庫的ETL過程。
并且,當(dāng)前的HTAP是支持OLTP和OLAP工作負(fù)載的單一系統(tǒng)體系結(jié)構(gòu),而早期的數(shù)據(jù)庫只能配置為OLAP或OLTP(不能同時(shí)使用)。
未來走向
數(shù)據(jù)對(duì)于現(xiàn)在的生活的確至關(guān)重要,我們也能從現(xiàn)在數(shù)據(jù)庫的發(fā)展?fàn)顩r窺見些許未來數(shù)據(jù)的走向。
大致總結(jié)了五大方向。
統(tǒng)一BI和AI
首先,數(shù)據(jù)庫在未來可能會(huì)統(tǒng)一BI和AI。
總的來說,未來數(shù)據(jù)庫的目標(biāo)應(yīng)該是解鎖所有數(shù)據(jù)的業(yè)務(wù)價(jià)值,并支持BI和AI的整個(gè)數(shù)據(jù)景觀,包括從描述到診斷、預(yù)測(cè)和規(guī)范等數(shù)據(jù)分析操作。
統(tǒng)一BI和AI不僅可以消除數(shù)據(jù)倉庫和ETL,還可以簡(jiǎn)化管道,提高利益相關(guān)者的生產(chǎn)力。Data Lakehouse可以被視作是一個(gè)巨大的飛躍,但是目前還只是處于起步階段。
除此之外,在從數(shù)據(jù)到商業(yè)價(jià)值的過程中,也會(huì)激發(fā)多種的崗位需求: 數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師等。
專用網(wǎng)格
其二,未來的數(shù)據(jù)庫可以通過構(gòu)建專用的網(wǎng)絡(luò)來滿足多樣化需求。
就目前來看,數(shù)據(jù)庫技術(shù)融合已經(jīng)成為一種趨勢(shì),如NewSQL、Lakehouse和HTAP。
但NewSQL、Lakehouse仍然是OLTP或OLAP的一種類型,CAP定理仍然成立。
并且當(dāng)前的HTAP解決方案主要是OLTP,只適合小型工作負(fù)載。目前市場(chǎng)上可用的HTAP還遠(yuǎn)不能作為大型企業(yè)數(shù)據(jù)倉庫或數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)。
因此,專門構(gòu)建的數(shù)據(jù)庫很有必要,它可以更好地滿足不同的業(yè)務(wù)目標(biāo),包括性能、可伸縮性或者/和特定的用例(例如,時(shí)間序列數(shù)據(jù)、圖表、搜索等)。
而且還可以分離開具有收斂層的數(shù)據(jù)庫,用于互連、統(tǒng)一的數(shù)據(jù)服務(wù)和一致的治理。
多云策略
前面已經(jīng)提到過云技術(shù)與數(shù)據(jù)庫的結(jié)合,這在未來也是一大發(fā)展趨勢(shì),比如說多云策略。
多云策略是指在不移動(dòng)數(shù)據(jù)的情況下將公共云和私有云聯(lián)合起來。
它可以提高與多個(gè)云供應(yīng)商的服務(wù)可用性,通過近距離計(jì)算減少延遲,從特定的云生態(tài)系統(tǒng)啟用獨(dú)特的功能,通過更多的云產(chǎn)品擴(kuò)展全球可用性,并增強(qiáng)數(shù)據(jù)遵從性。
并且,多云策略還可以推動(dòng)數(shù)據(jù)可觀測(cè)性、數(shù)據(jù)編目、數(shù)據(jù)共享和數(shù)據(jù)編排的浪潮。
智能數(shù)據(jù)
數(shù)據(jù)與人工智能也有結(jié)合的潛力。
目前,有三個(gè)領(lǐng)域的人工智能和數(shù)據(jù)相互啟用:AI for Data,AI for Database和Data for AI。
智能數(shù)據(jù)是AI for Data,它可以使數(shù)據(jù)具有數(shù)據(jù)治理、數(shù)據(jù)譜系、元數(shù)據(jù)、語義以及來自分析和人工智能的新數(shù)據(jù)等方面的要素。
預(yù)計(jì)到2025年,所有數(shù)據(jù)的10%將由生成型人工智能模型產(chǎn)生。這些數(shù)據(jù)包括聲音、視頻、圖像、文本、結(jié)構(gòu)化數(shù)據(jù)、代碼等。
數(shù)據(jù)資產(chǎn)
數(shù)據(jù)庫除了有上述的發(fā)展趨勢(shì)外,還可以用作資產(chǎn)管理。
數(shù)據(jù)資產(chǎn)是將數(shù)據(jù)作為數(shù)據(jù)庫或組織或個(gè)人存儲(chǔ)器中的數(shù)字資產(chǎn)進(jìn)行管理。
這樣的數(shù)據(jù)庫不僅是一個(gè)數(shù)據(jù)管理系統(tǒng),而且還提供了數(shù)據(jù)可觀測(cè)性、安全和隱私、定價(jià)、數(shù)據(jù)生命周期管理等。
未來數(shù)據(jù)庫的發(fā)展走向肯定不止于此,你覺得它還有哪些新穎的潛力,歡迎在評(píng)論區(qū)留言~
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06