欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

ETL 概念簡介 ZT

系統 1870 0

?????? ETL即數據抽取(Extract)、轉換( Transform)、裝載(Load)的過程。 它是構建數據倉庫的重要環節。數據倉庫是面向主題的、集成的、 穩定的且隨時間不斷變化的數據集合, 用以支持經營管理中的決策制定過程。 數據倉庫系統中有可能存在著大量的噪聲數據,引起的主要原因有: 濫用縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值、 拼寫變化等。即便是一個設計和規劃良好的數據庫系統, 如果其中存在著大量的噪聲數據, 那么這個系統也是沒有任何意義的,因為“垃圾進,垃圾出”( garbage in, garbage out),系統根本就不可能為決策分析系統提供任何支持。 為了清除噪聲數據,必須在數據庫系統中進行數據清洗。 目前有不少數據清洗研究和ETL研究, 但是如何在ETL過程中進行有效的數據清洗并使這個過程可視化, 此方面研究不多。 本文主要從兩個方面闡述ETL和數據清洗的實現過程: ETL的處理方式和數據清洗的實現方法。


(1)ETL的處理方式
本文所采用的ETL方法是數據庫段區域中的ETL處理方式, 它不使用外部引擎而是使用數據庫作為唯一的控制點。 由于源系統SQLserver2000是關系數據庫, 它的段表也是典型的關系型表。 成功地將外部未修改數據載入數據庫后,再在數據庫內部進行轉換。 數據庫段區域中的ETL處理方式執行的步驟是提取、裝載、轉換, 即通常所說的ELT。 這種方式的優點是為抽取出的數據首先提供一個緩沖以便于進行復雜 的轉換,減輕了ETL進程的復雜度。


(2)ETL過程中實現數據清洗的實現方法
首先,在理解源數據的基礎上實現數據表屬性一致化。 為解決源數據的同義異名和同名異義的問題, 可通過元數據管理子系統,在理解源數據的同時, 對不同表的屬性名根據其含義重新定義其在數據挖掘庫中的名字, 并以轉換規則的形式存放在元數據庫中,在數據集成的時候, 系統自動根據這些轉換規則將源數據中的字段名轉換成新定義的字段 名,從而實現數據挖掘庫中的同名同義。


其次,通過數據縮減,大幅度縮小數據量。由于源數據量很大, 處理起來非常耗時,所以可以優先進行數據縮減, 以提高后續數據處理分析效率。


最后,通過預先設定數據處理的可視化功能節點, 達到可視化的進行數據清洗和數據轉換的目的。 針對縮減并集成后的數據, 通過組合預處理子系統提供各種數據處理功能節點, 能夠以可視化的方式快速有效完成數據清洗和數據轉換過程。

?

-----------

  數據集成:快速實現ETL

  ETL的質量問題具體表現為正確性、完整性、一致性、完備性、 有效性、時效性和可獲取性等幾個特性。 而影響質量問題的原因有很多, 由系統集成和歷史數據造成的原因主要包括: 業務系統不同時期系統之間數據模型不一致; 業務系統不同時期業務過程有變化;舊系統模塊在運營、人事、 財務、辦公系統等相關信息的不一致;遺留系統和新業務、 管理系統數據集成不完備帶來的不一致性。

  實現ETL,首先要實現ETL轉換的過程。 它可以集中地體現為以下幾個方面:

  空值處理 可捕獲字段空值,進行加載或替換為其他含義數據, 并可根據字段空值實現分流加載到不同目標庫。

  規范化數據格式 可實現字段格式約束定義,對于數據源中時間、數值、字符等數據, 可自定義加載格式。

  拆分數據 依據業務需求對字段可進行分解。例,主叫號 861084613409,可進行區域碼和電話號碼分解。

  驗證數據正確性 可利用Lookup及拆分功能進行數據驗證。例如, 主叫號861084613409,進行區域碼和電話號碼分解后, 可利用Lookup返回主叫網關或交換機記載的主叫地區, 進行數據驗證。

  數據替換 對于因業務因素,可實現無效數據、缺失數據的替換。

  Lookup 查獲丟失數據 Lookup實現子查詢,并返回用其他手段獲取的缺失字段, 保證字段完整性。

  建立ETL過程的主外鍵約束 對無依賴性的非法數據,可替換或導出到錯誤數據文件中, 保證主鍵惟一記錄的加載。

  為了能更好地實現ETL, 筆者建議用戶在實施ETL過程中應注意以下幾點:

  第一,如果條件允許,可利用數據中轉區對運營數據進行預處理, 保證集成與加載的高效性;

  第二,如果ETL的過程是主動“拉取”,而不是從內部“推送”, 其可控性將大為增強;

  第三,ETL之前應制定流程化的配置管理和標準協議;

  第四,關鍵數據標準至關重要。目前, ETL面臨的最大挑戰是當接收數據時其各源數據的異構性和低質量 。以電信為例,A系統按照統計代碼管理數據, B系統按照賬目數字管理,C系統按照語音ID管理。 當ETL需要對這三個系統進行集成以獲得對客戶的全面視角時, 這一過程需要復雜的匹配規則、名稱/地址正常化與標準化。 而ETL在處理過程中會定義一個關鍵數據標準,并在此基礎上, 制定相應的數據接口標準。

  ETL過程在很大程度上受企業對源數據的理解程度的影響, 也就是說從業務的角度看數據集成非常重要。 一個優秀的ETL設計應該具有如下功能:

  管理簡單;采用元數據方法,集中進行管理;接口、數據格式、 傳輸有嚴格的規范;盡量不在外部數據源安裝軟件; 數據抽取系統流程自動化,并有自動調度功能;抽取的數據及時、 準確、完整;可以提供同各種數據系統的接口,系統適應性強; 提供軟件框架系統,系統功能改變時, 應用程序很少改變便可適應變化;可擴展性強。


  數據模型:標準定義數據


  合理的業務模型設計對ETL至關重要。數據倉庫是企業惟一、 真實、可靠的綜合數據平臺。 數據倉庫的設計建模一般都依照三范式、星型模型、雪花模型, 無論哪種設計思想,都應該最大化地涵蓋關鍵業務數據, 把運營環境中雜亂無序的數據結構統一成為合理的、關聯的、 分析型的新結構,而ETL則會依照模型的定義去提取數據源, 進行轉換、清洗,并最終加載到目標數據倉庫中。

  模型的重要之處在于對數據做標準化定義,實現統一的編碼、 統一的分類和組織。標準化定義的內容包括:標準代碼統一、 業務術語統一。ETL依照模型進行初始加載、增量加載、 緩慢增長維、慢速變化維、事實表加載等數據集成, 并根據業務需求制定相應的加載策略、刷新策略、匯總策略、 維護策略。


  元數據:拓展新型應用


  對業務數據本身及其運行環境的描述與定義的數據,稱之為元數據( metadata)。元數據是描述數據的數據。從某種意義上說, 業務數據主要用于支持業務系統應用的數據, 而元數據則是企業信息門戶、客戶關系管理、數據倉庫、 決策支持和B2B等新型應用所不可或缺的內容。

  元數據的典型表現為對象的描述,即對數據庫、表、列、列屬性( 類型、格式、約束等)以及主鍵/外部鍵關聯等等的描述。 特別是現行應用的異構性與分布性越來越普遍的情況下, 統一的元數據就愈發重要了。“信息孤島” 曾經是很多企業對其應用現狀的一種抱怨和概括, 而合理的元數據則會有效地描繪出信息的關聯性。

  而元數據對于ETL的集中表現為: 定義數據源的位置及數據源的屬性、 確定從源數據到目標數據的對應規則、確定相關的業務邏輯、 在數據實際加載前的其他必要的準備工作,等等, 它一般貫穿整個數據倉庫項目, 而ETL的所有過程必須最大化地參照元數據, 這樣才能快速實現ETL。

  ETL體系結構

  下圖為ETL體系結構, 它體現了主流ETL產品框架的主要組成部分。 ETL是指從源系統中提取數據,轉換數據為一個標準的格式, 并加載數據到目標數據存儲區,通常是數據倉庫。

  ETL體系結構圖

  Design manager 提供一個圖形化的映射環境,讓開發者定義從源到目標的映射關系、 轉換、處理流程。 設計過程的各對象的邏輯定義存儲在一個元數據資料庫中。

  Meta data management 提供一個關于ETL設計和運行處理等相關定義、 管理信息的元數據資料庫。 ETL引擎在運行時和其它應用都可參考此資料庫中的元數據。

  Extract 通過接口提取源數據,例如ODBC、 專用數據庫接口和平面文件提取器, 并參照元數據來決定數據的提取及其提取方式。

  Transform 開發者將提取的數據,按照業務需要轉換為目標數據結構, 并實現匯總。

  Load 加載經轉換和匯總的數據到目標數據倉庫中, 可實現SQL或批量加載。

  Transport services 利用網絡協議或文件協議,在源和目標系統之間移動數據, 利用內存在ETL處理的各組件中移動數據。

  Administration and operation 可讓管理員基于事件和時間進行調度、運行、監測ETL作業、 管理錯誤信息、從失敗中恢復和調節從源系統的輸出。

ETL 概念簡介 ZT


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 天天天天天天天操 | 日韩欧美视频在线一区二区 | 亚洲精品午夜国产va久久成人 | 日本高清在线精品一区二区三区 | 日本久久中文字幕 | 三级黄色片在线免费观看 | 夜夜撸夜夜爽 | 欧美色伊人 | 欧美成人精品激情在线观看 | 国产亚洲综合成人91精品 | 国产人人爱| 亚洲婷婷国产精品电影人久久 | 欧美一区二区三区视频 | 91伊人| 中文字幕网在线 | 日本黄色片一级片 | 日韩成人在线观看 | 欧美精品videosex极品 | 2018中文字幕在线观看 | 国产专区在线播放 | www.夜夜操.com| 一区二区三区精品视频 | 天天影视色香欲综合网老头 | 久久日本精品99久久久久 | 日本不卡一区二区三区在线观看 | 欧美亚洲在线观看 | 日韩一级在线 | 欧美一级久久久久久久久大 | 午夜亚洲 | 日韩大片免费在线观看 | 日日摸夜夜添夜夜添aa | 国产美女福利视频福利 | 国产大片免费天天看 | 国产精品美女网站在线看 | 亚洲成av人片在线观看 | 精品久久中文久久久 | 亚洲呦呦系列视频 | 精品九九 | 性夜影院爽黄a爽在线看香蕉 | 欧美日韩国产一区二区三区 | 第四色播日韩AV第一页 |