中文在线中文a_麻豆乱码国产一区二区三区_精品人妻大屁股白浆无码_久久久国产一区二区三区_国内精品乱码卡一卡2卡三卡

億信華辰

連續(xù)3年穩(wěn)坐商務(wù)智能應(yīng)用榜首
與此同時(shí),億信華辰在數(shù)據(jù)治理領(lǐng)域榮登五強(qiáng)
首頁(yè)行業(yè)資訊數(shù)據(jù)分析

什么是ETL

時(shí)間:2021-06-18來(lái)源:億信ABI知識(shí)庫(kù)瀏覽數(shù):224

ETL代表“提取、轉(zhuǎn)換和加載”。ETL 過(guò)程在數(shù)據(jù)集成策略中起著關(guān)鍵作用。ETL允許企業(yè)從多個(gè)來(lái)源收集數(shù)據(jù)并將其整合到一個(gè)集中的位置。ETL還使不同類型的數(shù)據(jù)可以協(xié)同工作。

概述

典型的ETL過(guò)程會(huì)收集和優(yōu)化不同類型的數(shù)據(jù),然后將數(shù)據(jù)傳送到數(shù)據(jù)倉(cāng)庫(kù)。

ETL 還使在各種來(lái)源、目的地和分析工具之間遷移數(shù)據(jù)成為可能。因此,ETL流程在生成商業(yè)智能和執(zhí)行更廣泛的數(shù)據(jù)管理策略方面發(fā)揮著關(guān)鍵作用。

ETL 的工作原理

ETL 過(guò)程由三個(gè)步驟組成,并使數(shù)據(jù)能夠從源頭集成到目的地,這三個(gè)步驟分別是數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載。

第 1 步:提取

很少有企業(yè)依賴單一的數(shù)據(jù)類型或系統(tǒng)。大多數(shù)企業(yè)擁有來(lái)自各種來(lái)源的數(shù)據(jù),并使用多種數(shù)據(jù)分析工具來(lái)生成商業(yè)智能。要制定這樣的復(fù)雜數(shù)據(jù)策略,數(shù)據(jù)必須能夠在系統(tǒng)和應(yīng)用程序之間自由傳輸。

在將數(shù)據(jù)移動(dòng)到新目標(biāo)之前,必須首先從其源中提取數(shù)據(jù)。在ETL過(guò)程的第一步中,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)被導(dǎo)入并整合到一個(gè)存儲(chǔ)庫(kù)中??梢詮膹V泛的來(lái)源中提取原始數(shù)據(jù),包括:

· 現(xiàn)有數(shù)據(jù)庫(kù)和遺留系統(tǒng)

· 云、混合和本地環(huán)境

· 銷售和營(yíng)銷應(yīng)用

· 移動(dòng)設(shè)備和應(yīng)用程序

· 客戶關(guān)系管理系統(tǒng)

· 數(shù)據(jù)存儲(chǔ)平臺(tái)

· 數(shù)據(jù)倉(cāng)庫(kù)

· 分析工具

雖然可以手動(dòng)完成,但手工編碼的數(shù)據(jù)提取可能需要大量時(shí)間并且容易出錯(cuò)。ETL工具可自動(dòng)執(zhí)行提取過(guò)程并創(chuàng)建更高效、更可靠的工作流程。

第 2 步:轉(zhuǎn)型

在 ETL 過(guò)程的這個(gè)階段,可以應(yīng)用規(guī)則和法規(guī)來(lái)確保數(shù)據(jù)質(zhì)量和可訪問(wèn)性。您還可以應(yīng)用規(guī)則來(lái)幫助您的公司滿足報(bào)告要求。數(shù)據(jù)轉(zhuǎn)換的過(guò)程由幾個(gè)子過(guò)程組成:

· 清理——解決數(shù)據(jù)中的不一致和缺失值。 

· 標(biāo)準(zhǔn)化——格式化規(guī)則應(yīng)用于數(shù)據(jù)集。

· 重復(fù)數(shù)據(jù)刪除— 排除或丟棄冗余數(shù)據(jù)。

· 驗(yàn)證— 刪除不可用的數(shù)據(jù)并標(biāo)記異常。

· 排序— 根據(jù)類型組織數(shù)據(jù)。

· 其他任務(wù)——可以應(yīng)用任何附加/可選規(guī)則來(lái)提高數(shù)據(jù)質(zhì)量。

轉(zhuǎn)換通常被認(rèn)為是 ETL 過(guò)程中最重要的部分。數(shù)據(jù)轉(zhuǎn)換可提高數(shù)據(jù)完整性,并有助于確保數(shù)據(jù)到達(dá)新目的地時(shí)完全兼容并可供使用。

第 3 步:加載

ETL 過(guò)程的最后一步是將新轉(zhuǎn)換的數(shù)據(jù)加載到新目的地。數(shù)據(jù)可以一次加載(滿載)或按預(yù)定時(shí)間間隔(增量加載)加載。

滿載— 在 ETL 滿載場(chǎng)景中,來(lái)自轉(zhuǎn)換裝配線的所有內(nèi)容都會(huì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中新的、唯一的記錄。雖然有時(shí)這對(duì)研究目的很有用,但完全加載產(chǎn)生的數(shù)據(jù)集會(huì)呈指數(shù)增長(zhǎng),并且很快就會(huì)變得難以維護(hù)。

增量加載——一種不太全面但更易于管理的方法是增量加載。增量加載將傳入數(shù)據(jù)與現(xiàn)有數(shù)據(jù)進(jìn)行比較,并且只有在找到新的唯一信息時(shí)才會(huì)生成額外的記錄。這種架構(gòu)允許使用更小的數(shù)據(jù)倉(cāng)庫(kù)來(lái)維護(hù)和管理商業(yè)智能。

ETL和商業(yè)智能

數(shù)據(jù)戰(zhàn)略比以往任何時(shí)候都更加復(fù)雜,公司可以從更多來(lái)源訪問(wèn)更多數(shù)據(jù)。ETL 可以將大量數(shù)據(jù)轉(zhuǎn)化為可操作的商業(yè)智能。

所有這些數(shù)據(jù)都必須被提取、轉(zhuǎn)換并加載到新的目的地進(jìn)行分析。在這種情況下,ETL 通過(guò)以下方式幫助創(chuàng)建商業(yè)智能:

提供統(tǒng)一數(shù)據(jù)

管理多個(gè)數(shù)據(jù)集需要時(shí)間和協(xié)調(diào),并可能導(dǎo)致效率低下和延遲。ETL 將數(shù)據(jù)庫(kù)和各種形式的數(shù)據(jù)組合成一個(gè)單一的、統(tǒng)一的視圖。這使得分析、可視化和理解大型數(shù)據(jù)集變得更加容易。

提供歷史背景

ETL 允許企業(yè)將遺留數(shù)據(jù)與從新平臺(tái)和應(yīng)用程序收集的數(shù)據(jù)相結(jié)合。這會(huì)生成數(shù)據(jù)的長(zhǎng)期視圖,以便可以查看較舊的數(shù)據(jù)集以及更新的信息。

提高效率和生產(chǎn)力

ETL 軟件使手工編碼的數(shù)據(jù)遷移過(guò)程自動(dòng)化。因此,開(kāi)發(fā)人員及其團(tuán)隊(duì)可以將更多時(shí)間花在創(chuàng)新上,而減少管理編寫(xiě)代碼以移動(dòng)和格式化數(shù)據(jù)的時(shí)間。

構(gòu)建您的ETL策略

ETL 可以通過(guò)兩種方式完成。在某些情況下,企業(yè)可能會(huì)要求開(kāi)發(fā)人員構(gòu)建自己的 ETL。然而,這個(gè)過(guò)程可能是時(shí)間密集型,容易出現(xiàn)延遲。

如今,大多數(shù)公司都依賴 ETL 工具作為其數(shù)據(jù)集成過(guò)程的一部分。ETL 工具以其速度、可靠性和成本效益以及與更廣泛的數(shù)據(jù)管理策略的兼容性而聞名。ETL 工具還包含廣泛的數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理功能。

ETL工具選型

在評(píng)估 ETL 工具時(shí),您需要考慮所需連接器的數(shù)量和種類,以及它的便攜性和易用性。

億信ABI試用

(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即免費(fèi)申請(qǐng)產(chǎn)品試用 免費(fèi)試用
相關(guān)文章推薦
相關(guān)主題

人工
客服

立即掃碼
享受一對(duì)一服務(wù)
億信微信二維碼

預(yù)約
演示

您好,商務(wù)咨詢請(qǐng)聯(lián)系

400咨詢:4000011866
咨詢熱線:137-0121-6791