知識庫
當(dāng)我們搭建網(wǎng)站的時候經(jīng)常會碰到數(shù)據(jù)庫,那數(shù)據(jù)湖和數(shù)據(jù)庫有什么關(guān)系呢?其實,數(shù)據(jù)倉庫大部分是結(jié)構(gòu)化的,并來自關(guān)系數(shù)據(jù)庫,也可以收集非結(jié)構(gòu)化數(shù)據(jù),但是大多數(shù)情況是要收集結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)湖專門用于存儲任何形式的數(shù)據(jù),即結(jié)構(gòu)化或非結(jié)構(gòu)化。它還使我們能夠以其本機格式保存大量原始數(shù)據(jù),直到需要它為止。
數(shù)據(jù)倉庫收集來自多個源(內(nèi)部或外部),該數(shù)據(jù)被進一步用于商業(yè)目的優(yōu)化的數(shù)據(jù)。而數(shù)據(jù)湖主要與面向Hadoop的對象存儲相關(guān)。在這種情況下,首先將組織的數(shù)據(jù)加載到Hadoop平臺,然后再加載到業(yè)務(wù)分析。進一步,將數(shù)據(jù)挖掘工具添加到該數(shù)據(jù)中,該數(shù)據(jù)挖掘工具通常位于商用計算機的Hadoop群集節(jié)點中。
AWS阿里云數(shù)據(jù)湖優(yōu)惠鏈接:http://www.ukunilife.com/zt/2023-05-06/
數(shù)據(jù)湖與數(shù)據(jù)倉庫:兩者都使用兩種不同的策略來存儲數(shù)據(jù)。
一、數(shù)據(jù)湖是什么?
數(shù)據(jù)湖的概念僅在2000年才開始興起,國內(nèi)數(shù)據(jù)湖的概念也是在2020年才由阿里在云棲大會上提出并展露鋒芒,數(shù)據(jù)湖展示了如何存儲數(shù)據(jù)以及如何同時節(jié)省成本。
數(shù)據(jù)湖(Data Lake)是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。它按原樣存儲數(shù)據(jù),而無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理。一個數(shù)據(jù)湖可以存儲結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫中的表),半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON),非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件、文檔、PDF)和二進制數(shù)據(jù)(如圖形、音頻、視頻)。
但是隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖不斷演變,匯集了各種技術(shù),包括數(shù)據(jù)倉庫、實時和高速數(shù)據(jù)流技術(shù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲和其他技術(shù)。逐漸發(fā)展成為一個可以存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化任意規(guī)模數(shù)據(jù),并可以運行不同類型的大數(shù)據(jù)工具,對數(shù)據(jù)進行大數(shù)據(jù)處理、實時分析和機器學(xué)習(xí)等操作的統(tǒng)一數(shù)據(jù)管理平臺。
數(shù)據(jù)湖:直接將原始數(shù)據(jù)全量存入數(shù)據(jù)湖(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等),而且數(shù)據(jù)湖存儲的數(shù)據(jù)量巨大且來源多樣,數(shù)據(jù)湖應(yīng)該支持異構(gòu)和多樣的存儲,如HDFS、HBase、Hive等。
優(yōu)勢是——保留原始數(shù)據(jù)的全量信息便于后期挖掘(數(shù)據(jù)具有保真性、靈活性、可管理、可追溯、豐富的計算引擎(批處理、流計算、交互式分析、機器學(xué)習(xí))
(1)輕松地收集和攝入數(shù)據(jù):企業(yè)中的所有數(shù)據(jù)源都可以送入數(shù)據(jù)湖中。因此,數(shù)據(jù)湖成為了存儲在企業(yè)內(nèi)部服務(wù)器或云服務(wù)器中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的無縫訪問點。此外,數(shù)據(jù)湖可以用多種文件格式存儲多種格式的數(shù)據(jù),比如文本、音頻、視頻和圖像。這種靈活性簡化了舊有數(shù)據(jù)存儲的集成。
(2)支持實時數(shù)據(jù)源:數(shù)據(jù)湖支持對實時和高速數(shù)據(jù)流執(zhí)行 ETL 功能,這有助于將來自 IoT 設(shè)備的傳感器數(shù)據(jù)與其他數(shù)據(jù)源一起融合到數(shù)據(jù)湖中。
(3)更快地準(zhǔn)備數(shù)據(jù):分析師和數(shù)據(jù)科學(xué)家不需要花時間直接訪問多個來源,可以更輕松地搜索、查找和訪問數(shù)據(jù),這加速了數(shù)據(jù)準(zhǔn)備和重用流程。數(shù)據(jù)湖還會跟蹤和確認(rèn)數(shù)據(jù)血統(tǒng),這有助于確保數(shù)據(jù)值得信任,還會快速生成可用于數(shù)據(jù)驅(qū)動的決策的 BI。
(4)更好的可擴展性和敏捷性:數(shù)據(jù)湖可以利用分布式文件系統(tǒng)來存儲數(shù)據(jù),因此具有很高的擴展能力。開源技術(shù)的使用還降低了存儲成本。數(shù)據(jù)湖的結(jié)構(gòu)沒那么嚴(yán)格,因此天生具有更高的靈活性,從而提高了敏捷性。數(shù)據(jù)科學(xué)家可以在數(shù)據(jù)湖內(nèi)創(chuàng)建沙箱來開發(fā)和測試新的分析模型。
(5)具有人工智能的高級分析:訪問原始數(shù)據(jù),創(chuàng)建沙箱的能力,以及重新配置的靈活性,這些使得數(shù)據(jù)湖成為了一個快速開發(fā)和使用高級分析模型的強大平臺。數(shù)據(jù)湖非常適合使用機器學(xué)習(xí)和深度學(xué)習(xí)來執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)。
劣勢是——在消費時要重新進行ETL數(shù)據(jù)處理。數(shù)據(jù)湖,多源異構(gòu)、大規(guī)模、各種實時性要求。
數(shù)據(jù)湖目標(biāo)用戶:數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家。除了大數(shù)據(jù)基礎(chǔ)平臺的能力之外,更要求數(shù)據(jù)管理、治理及數(shù)據(jù)資產(chǎn)化能力。
二、數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別:
1、服務(wù)對象不同。從用戶差異上來看,數(shù)據(jù)倉庫適合企業(yè)中大數(shù)據(jù)產(chǎn)品開發(fā)人員和業(yè)務(wù)用戶。而數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會接受數(shù)據(jù)治理,但專家們都認(rèn)為良好的數(shù)據(jù)管理對預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。
數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活;它們還提供了更高的敏捷性。在檢索數(shù)據(jù)之前無需執(zhí)行任何處理,而且數(shù)據(jù)湖特意使用了便宜的存儲。最適合數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家,他們直接基于數(shù)據(jù)沙箱做自由探索和分析,這些人要求有技術(shù)背景,會寫代碼或熟悉SQL。
2、對于管理企業(yè)的人員一般來說有兩種特征,開放性與有序性,創(chuàng)業(yè)公司的人思想往往比較開放,但管理大型公司的人更注重秩序,同理這個概念可以使用在如今的數(shù)據(jù)結(jié)構(gòu)中,開放意味著容易接受新信息以及接納新的觀點,創(chuàng)業(yè)公司擁抱開放的原因他們必須學(xué)會打破常規(guī),在市場中創(chuàng)造新的價值。
開放性→數(shù)據(jù)湖:數(shù)據(jù)湖以其原生格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),并且在使用數(shù)據(jù)之前,不對數(shù)據(jù)結(jié)構(gòu)進行定義。開放性的特征直接指向數(shù)據(jù)湖的概念,數(shù)據(jù)湖是新數(shù)據(jù)可以不受任何限制地進入的地方,在這里,任何數(shù)據(jù)都可以存在,因此這里是發(fā)現(xiàn)新想法,用數(shù)據(jù)實驗絕妙來源,但同時因為其對任何數(shù)據(jù)的開放性,使得其缺乏有意義的結(jié)構(gòu),對于數(shù)據(jù)量較大時,就顯得有些混亂了。
有序性→數(shù)據(jù)庫: 數(shù)據(jù)倉庫中存儲的主要是結(jié)構(gòu)化數(shù)據(jù),對于加載到數(shù)據(jù)倉庫中的數(shù)據(jù),首先需要定義數(shù)據(jù)存儲模型。有序性直接指向數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中,我們將維度和指標(biāo)視為可查詢的,這是可以統(tǒng)一管理,優(yōu)勢是消費時可以直接使用,劣勢是原始數(shù)據(jù)部分信息丟失,且更容易被不斷擴大的受眾消費;