?????? ETL即數據抽取(Extract)、轉換(
(1)ETL的處理方式
本文所采用的ETL方法是數據庫段區域中的ETL處理方式,
(2)ETL過程中實現數據清洗的實現方法
首先,在理解源數據的基礎上實現數據表屬性一致化。
其次,通過數據縮減,大幅度縮小數據量。由于源數據量很大,
最后,通過預先設定數據處理的可視化功能節點,
?
-----------
數據集成:快速實現ETL
ETL的質量問題具體表現為正確性、完整性、一致性、完備性、
實現ETL,首先要實現ETL轉換的過程。
空值處理 可捕獲字段空值,進行加載或替換為其他含義數據,
規范化數據格式 可實現字段格式約束定義,對于數據源中時間、數值、字符等數據,
拆分數據 依據業務需求對字段可進行分解。例,主叫號 861084613409,可進行區域碼和電話號碼分解。
驗證數據正確性 可利用Lookup及拆分功能進行數據驗證。例如,
數據替換 對于因業務因素,可實現無效數據、缺失數據的替換。
Lookup 查獲丟失數據 Lookup實現子查詢,并返回用其他手段獲取的缺失字段,
建立ETL過程的主外鍵約束 對無依賴性的非法數據,可替換或導出到錯誤數據文件中,
為了能更好地實現ETL,
第一,如果條件允許,可利用數據中轉區對運營數據進行預處理,
第二,如果ETL的過程是主動“拉取”,而不是從內部“推送”,
第三,ETL之前應制定流程化的配置管理和標準協議;
第四,關鍵數據標準至關重要。目前,
ETL過程在很大程度上受企業對源數據的理解程度的影響,
管理簡單;采用元數據方法,集中進行管理;接口、數據格式、
數據模型:標準定義數據
合理的業務模型設計對ETL至關重要。數據倉庫是企業惟一、
模型的重要之處在于對數據做標準化定義,實現統一的編碼、
元數據:拓展新型應用
對業務數據本身及其運行環境的描述與定義的數據,稱之為元數據(
元數據的典型表現為對象的描述,即對數據庫、表、列、列屬性(
而元數據對于ETL的集中表現為:
ETL體系結構
下圖為ETL體系結構,
ETL體系結構圖
Design manager 提供一個圖形化的映射環境,讓開發者定義從源到目標的映射關系、
Meta data management 提供一個關于ETL設計和運行處理等相關定義、
Extract 通過接口提取源數據,例如ODBC、
Transform 開發者將提取的數據,按照業務需要轉換為目標數據結構,
Load 加載經轉換和匯總的數據到目標數據倉庫中,
Transport services 利用網絡協議或文件協議,在源和目標系統之間移動數據,
Administration and operation 可讓管理員基于事件和時間進行調度、運行、監測ETL作業、
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
