數(shù)據(jù)治理--元數(shù)據(jù)
? ? ? 元數(shù)據(jù)是?對某個潛在信息性對象做出的陳述?。在瀏覽其他網(wǎng)頁的時候會看到元數(shù)據(jù)被稱之為 “數(shù)據(jù)的數(shù)據(jù)”。為了更好的描述元數(shù)據(jù)到底是什么東西,我以一本《Metadata》書作為例子進行說明?!禡etadata》第二頁記錄著該書的 CIP 信息、作者、出版社、書號、定價、印次、字?jǐn)?shù)等信息,而這些信息都是用于描述《Metadata》這本書的元數(shù)據(jù)。
? ? ? 一條元數(shù)據(jù)記錄就是關(guān)于一個資源的主謂賓陳述集合。例如:達(dá)芬奇(賓語)是蒙娜麗莎(主語)的創(chuàng)作者(謂語)。
主數(shù)據(jù)、元數(shù)據(jù)與參考數(shù)據(jù)
元數(shù)據(jù)
? ? ? 元數(shù)據(jù)(meta-data)是描述企業(yè)數(shù)據(jù)的相關(guān)數(shù)據(jù),指在IT系統(tǒng)建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),包括 對數(shù)據(jù)的業(yè)務(wù)、結(jié)構(gòu)、定義、存儲、安全等各方面對數(shù)據(jù)的描述 。地市表這個實體的數(shù)據(jù)模型如何進行定義正是元數(shù)據(jù)所關(guān)心的范疇。
元數(shù)據(jù)可以說是企業(yè)的數(shù)據(jù)地圖,它直接反映了企業(yè)中有什么樣的數(shù)據(jù),數(shù)據(jù)是如何存放的,例如,數(shù)據(jù)結(jié)構(gòu)是什么樣子,數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系是怎么樣,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是怎么樣,數(shù)據(jù)有什么樣的安全需求,數(shù)據(jù)有什么樣的存儲需求。
主數(shù)據(jù)
? ? ? 主數(shù)據(jù)(main data)主要是指經(jīng)實例化的企業(yè)?關(guān)鍵數(shù)據(jù)?。
? ? ? 我們在上面設(shè)計完成數(shù)據(jù)模型設(shè)計的“城市表”中填寫了相應(yīng)的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中?填充的數(shù)據(jù)?,正是組織中國地理協(xié)會的主數(shù)據(jù),因為這些數(shù)據(jù)是中國地理協(xié)會這個組織的關(guān)鍵業(yè)務(wù)實體,?它為組織的業(yè)務(wù)開展提供關(guān)聯(lián)環(huán)境?,而且它可能在企業(yè)業(yè)務(wù)開展過程中?被反復(fù)引用?。針對這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應(yīng)該有著最嚴(yán)格的數(shù)據(jù)要求。
? ? ? 主數(shù)據(jù)就是企業(yè)被不同運營場合反復(fù)引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營活動而改變,例如,客戶的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是,?主數(shù)據(jù)的變化頻率應(yīng)該是較低的?。所以,企業(yè)運營 過程產(chǎn)生過程數(shù)據(jù),如生產(chǎn)過程產(chǎn)生各種如訂購記錄、消費記錄等,一般不會納入主數(shù)據(jù)的范圍 。當(dāng)然,在不同行業(yè),不同企業(yè)對主數(shù)據(jù)有不同的看法和做法,正如我們與國內(nèi)大型航空企業(yè)的實施相關(guān)數(shù)據(jù)項目時,也在為航班動態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
? ? ? 個人覺得 主數(shù)據(jù)具有跨行業(yè)也能存在能力,同時實例數(shù)據(jù)變更是低頻的。例如商品價格信息、會員信息是主數(shù)據(jù),而訂單信息不是主數(shù)據(jù),它具有高頻更新存在。因而怎么算高頻就是一個仁者見仁智者見智的情況了,需要結(jié)合自己所在的行業(yè)進行判斷。
參考數(shù)據(jù)——數(shù)據(jù)的字典
? ? ? 在本文引用的假設(shè)案例中,我們將會注意到剛才填寫的地市這類數(shù)據(jù)有些列,如省份、城市類型等。?如果沒有缺少上下文的環(huán)境,我們是無法理解其具體含義?,這時候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解。
? ? ? 參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護性以及后續(xù)應(yīng)用的重要數(shù)據(jù)。例如,你看到“性別”的這個字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開發(fā)人員和運營人員的大腦當(dāng)中。但問題是一旦這些人離開,您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒有注釋的天書。
? ? ? 大家可能覺得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對,我們在很多系統(tǒng)里面都會有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典僅局限于個別系統(tǒng)而沒有統(tǒng)一標(biāo)準(zhǔn),從一個側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應(yīng)用,開始嘗試對參考數(shù)據(jù)進行企業(yè)或者部門層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫提供統(tǒng)一的參考數(shù)據(jù)。
小結(jié)
? ? ? 主數(shù)據(jù)則是真實的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
? ? ? 參考數(shù)據(jù)則是對數(shù)據(jù)的解釋,針對一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋,讓人們?nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
? ? ? 元數(shù)據(jù)是對數(shù)據(jù)的描述,用于描述企業(yè)數(shù)據(jù)的所有信息和數(shù)據(jù),如結(jié)構(gòu)、關(guān)系、安全需求等,除增加數(shù)據(jù)可讀性外,也是后續(xù)數(shù)據(jù)管理的基礎(chǔ)。
? ? ? 一般而言,企業(yè)中這三類數(shù)據(jù)與其它數(shù)據(jù)的數(shù)據(jù)量、質(zhì)量需求,更新頻率、數(shù)據(jù)生命周期的關(guān)系大致如下圖:
中臺與元數(shù)據(jù)
? ? ? 中臺強調(diào)的是復(fù)用性,利用提高服務(wù)的重復(fù)使用,降低開發(fā)時間和提高工作效率。但現(xiàn)實生活中,大量的數(shù)據(jù)孤島和重復(fù)建設(shè)存在,從而存在大量的數(shù)據(jù)指標(biāo)定義不同帶來的歧義問題。由于不同的項目 PM 管理風(fēng)格迥異,存在有些必要信息沒有進行存檔,而是通過口口相傳的不靠譜形式,信息準(zhǔn)確性大打折扣。
? ? ? 數(shù)據(jù)中臺建設(shè)中需要尋找共性數(shù)據(jù),通過數(shù)據(jù)建模,將其進行抽取形成一張公共的數(shù)據(jù)大寬表。如何快速了解掌握數(shù)據(jù)關(guān)系,定位表與表之間的共性部分,往往需要對業(yè)務(wù)有一定的了解,但現(xiàn)實情況大量的開發(fā)人員只了解自己負(fù)責(zé)的那一個模塊內(nèi)容,對于其他人或者項目的內(nèi)容一無所知。
? ? ? 而元數(shù)據(jù)就是為了消除二義性,同時,對元數(shù)據(jù)的管理,形成結(jié)構(gòu)化的權(quán)威數(shù)據(jù),降低數(shù)據(jù)傳遞成本和提高準(zhǔn)確性。
常見元數(shù)據(jù)分類
元數(shù)據(jù)包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
常見的業(yè)務(wù)元數(shù)據(jù)包括:業(yè)務(wù)定義、業(yè)務(wù)術(shù)語、業(yè)務(wù)規(guī)則、業(yè)務(wù)指標(biāo)等。
常見的技術(shù)元數(shù)據(jù)包括:存儲位置、數(shù)據(jù)模型、數(shù)據(jù)庫表、字段長度、字段類型、ETL腳本、SQL腳本、接口程序、數(shù)據(jù)關(guān)系等。
常見的管理元數(shù)據(jù)包括:數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量定責(zé)、數(shù)據(jù)安全等級等。
業(yè)務(wù)問題
? ? ? 在沒有元數(shù)據(jù)管理的情況下,從使用問題、管理問題、數(shù)據(jù)問題等三個方面進行說明:
使用問題
查看表結(jié)構(gòu)信息不方便(查看、檢索、表復(fù)用)
表依賴關(guān)系不清楚(血緣)
表信息缺少(表維護者,表狀態(tài))
管理問題
表權(quán)限管理
數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)問題
建表規(guī)則混亂,沒有統(tǒng)一標(biāo)準(zhǔn)
表結(jié)構(gòu)變更之后,信息不同步
如何設(shè)計元數(shù)據(jù)管理
數(shù)據(jù)治理
數(shù)倉構(gòu)建
名詞說明
業(yè)務(wù)板塊
? ? ? 定義數(shù)據(jù)倉庫的名稱和業(yè)務(wù)空間,以企業(yè)內(nèi)一個?相對獨立的業(yè)務(wù)?為分配單元。例如,如果業(yè)務(wù)涉及零售、文娛,且系統(tǒng)間?相對獨立?,則需要構(gòu)建兩個業(yè)務(wù)板塊,即零售、文娛。如果業(yè)務(wù)僅涉及零售,且業(yè)務(wù)內(nèi)的系統(tǒng)間隔離較少,則只需要構(gòu)建一個業(yè)務(wù)板塊,即零售。
公共定義
? ? ? 定義企業(yè)構(gòu)建數(shù)據(jù)所需的全局概念對象或參數(shù),以?保證全局概念統(tǒng)一?。當(dāng)定義完成后,系統(tǒng)內(nèi)其他指標(biāo)(例如派生指標(biāo))可以按需統(tǒng)一、通用化引用這些對象,例如統(tǒng)計周期,年、月、日、每周、每日。
項目管理
? ? ? 項目是一種?物理空間上?的劃分。項目管理,即用戶在數(shù)據(jù)中臺建設(shè)過程中,對物理資源及開發(fā)人員進行隔離化管理。?一個業(yè)務(wù)板塊可以包含多個項目?,每個系統(tǒng)成員可以加入多個不同的項目。
維度
? ? ? 維度即?進行統(tǒng)計的對象?。通常情況下,維度是?實際存在?、不因事件發(fā)生就存在的實體。創(chuàng)建維度,即從頂層規(guī)范業(yè)務(wù)中的實體(主數(shù)據(jù)),并保證實體的唯一性。例如訂單、商品。
業(yè)務(wù)過程
? ? ? 業(yè)務(wù)過程即業(yè)務(wù)活動中的?所有事件?(它是一個事件集合)。創(chuàng)建業(yè)務(wù)過程,即從頂層規(guī)范業(yè)務(wù)中事務(wù)內(nèi)容的類型及唯一性。因此業(yè)務(wù)過程是一個不可拆分的行為事件。例如下單、支付、退款都是業(yè)務(wù)過程。
指標(biāo)
? ? ? 指標(biāo)分為原子指標(biāo)和派生指標(biāo)。
? ? ? 原子指標(biāo):對指標(biāo)統(tǒng)計口徑(即計算邏輯)、具體算法的一個抽象,是業(yè)務(wù)定義中不可再拆分的指標(biāo),例如支付金額。一般都為數(shù)值(統(tǒng)計)。原子指標(biāo)=業(yè)務(wù)過程(動作)+度量, 如支付(事件)金額(度量)。
? ? ? 派生指標(biāo):業(yè)務(wù)中常用的統(tǒng)計指標(biāo)。派生指標(biāo)=原子指標(biāo)+業(yè)務(wù)限定+統(tǒng)計周期+統(tǒng)計粒度。例如,自然周、會員、采用優(yōu)惠券支付的訂單。
統(tǒng)計粒度
? ? ? 統(tǒng)計的最小顆粒度,數(shù)據(jù)唯一性的保證,統(tǒng)計分析的對象或視角,定義數(shù)據(jù)需要匯總的程度,可以理解為聚合運算時的分組條件(類似于SQL中g(shù)roup by的對象)。?粒度是維度的一個組合,指明您的統(tǒng)計范圍?。例如,某個指標(biāo)是某個賣家在某個省份的成交額,則粒度就是賣家、省份這兩個維度的組合。
? ? ? 這里需要注意粒度與維度的關(guān)系,通過一個或多個維度構(gòu)建粒度。
流程
維度構(gòu)建 DIM 維度模型。
數(shù)據(jù)域與項目是相互獨立的不同統(tǒng)計指標(biāo),但同屬于同一個業(yè)務(wù)板塊下面。
以源表和維表構(gòu)建得到事實明細(xì)表。
以原子指標(biāo)、業(yè)務(wù)限定、統(tǒng)計周期、統(tǒng)計粒度構(gòu)建得到派生指標(biāo),結(jié)合統(tǒng)計粒度構(gòu)建 DWS 匯總表
示例