宏观的元数据管理确定保证了BI系统具有高素质的信息,那八个概念作者在一开首做多少管理相关职业的时候也纠结了挺久澳门永利平台

[转载] http://www.cbdio.com/BigData/2016-02/16/content\_4617126.htm

正文更新版本已挪至
  http://www.zhoujingen.cn/blog/4178.html

在数额资金财产管理世界,有着众多相似的定义和词汇。譬如说“数据管理”和“数据治水”,像孪生兄弟同样让人纠结不已。下一周,与三个朋友谈到元数据、主数据和参照数据的关联是何等。这几个话题大家足足聊了拾7分钟。这多个概念我在一始发做多少管理有关职业的时候也纠结了挺久,于是自身依照谈到来的内容稍稍总计了瞬间,就有了那篇小说,希望能给读者减少多少猜疑。


 

     
BI的中标选取深度信赖于有效的元数据管理,平日被称作”关于数据的多寡”。元数据为全部BI系统的数据充当路标,从而能够对这一个数量迚行高效地管理、调节发更和分发。周到的元数据管理保证了BI系统拥有高素质的新闻,并提供足够的增添性,能知足新的新闻需求和数据源扩展。元数据施行也是新闻集成中的一片段,最重点的行事是将积存在各个工具中的元数据开始展览组合。元数据管理是数额管理框架的第八个数据管理效用,本篇将介绍一下以此职能。

澳门永利平台 1

DMBOK的元数据管理

澳门永利平台 2

澳门永利平台 3

澳门永利平台 4

澳门永利平台 5

壹、假使场景

怎么着是元数据?

  元数据通帯被称作”关于数据的数据”,即用于描述其余数据的数量。对于数据足以经过两种办法开始展览表明,例如

澳门永利平台 6

   当我们说元数据是”关于数据的数据”时,大家须要确定保证所谈论的是多少的背景,而不是关于数据的详细细节或有关数据。元数据描述的是多少的背景、内容、数据结构及其生命周期管理。简单来讲,元数据是”数据的背景”

  元数据管理全景包蕴八个部分剧情:1.元数据模型
贰.元数量拓扑结构 3.元数据管理方法论

咱俩的倘若场景先是那样的,将来正在为中中原人民共和国地理组织布署三个中华地理消息种类(当然真实的地理音讯种类不会是如此,都说只是只要一下)。小编明天正安顿到“地市”这几个目的。常说“万语千言不如1图”,那三者的关联大家先上航海用教室。

元数据模型

    元数据是BI框架结构中的八个关键器件。在BI环境中,元数据管理最要紧是能方便地合1差别数据库、数据模型、OLAP
和ETL工具所包涵的繁多的元数据。元数据包涵业务规则、数据源、汇总等级、数据别称、数据转变规则、技能配置、数据访问权限、数据用途等。安顿能够的元数据模型能够加强管理、更换调整和分发元数据的功能,实现无缝的、端到端的追踪回溯手艺。

上边举个例证,借使”十2250RichardKing”是数量,上面则是元数据:

  • 职员和工人代码类型为 Number(陆)——那告诉我们该多少中首 5人字符是数字类型,代表职员和工人代码;
  • 职工姓名类型为 Varchar(30)——那告诉大家前面包车型客车 三11位字符是发长字符类型,表示职员和工人姓名。

那一个元数据足以迚一步抽象为元-元数据(Meta-Metadata),表示元数据的背景。

澳门永利平台 7

 

商厦数据模型

 

澳门永利平台 8

澳门永利平台 9

澳门永利平台 10

BI元数据模型

在 BI 层面, IT/技巧元数据被分为两类,被叫做:BI
本事元数据、数据源元数据

澳门永利平台 11

澳门永利平台 12

  • 顶层 (领域或概念层)

在最顶层,业务的核心域能够平素运用于BI工夫元数据的表格和分析,继而被映射到多少源元数据反映的源系统中。

  • 中层 (实体层)

业务实体连接到才具实体,如数据表,立方体和表格等,它们从可用的源表或数量表单直接获取音信。

  • 底层 (元素层)

最细节的元数据存在于数据成分层。业务元数据中的业务术语映射到才具元数据的对应层,包涵数据表、报表及多维立方体的维度/衡量。业务用户普遍采纳那层元数据。

二、元数据–数据的数目

BI本领元数据

BI 技巧元数据蕴涵了 BI
环境中丌同层级的有所元数据,迚一步能够细分为四个项目:

  • 音讯整合 – ETL(数据收取,调换和装载)元数据
  • 新闻囤积 – 数据货仓元数据
  • 音讯公布 – 报表元数据

澳门永利平台 13

澳门永利平台 14

元数据(meta-data)是描述企业数量的有关数据,指在IT系统建设进度中所爆发的有关数据定义,目的定义,转变规则等连锁的重中之重数据,包蕴对数据的工作、结构、定义、存款和储蓄、安全等各方面对数码的叙述。

BIDS元数据管理方法论

一个概念优异的元数据管理产品应该保障音讯的高水平,同时能够灵活地扩展BI系统新的多少需要和数据源。BIDS作为元数据管理的缓解方案之1,提供了一套方法论Business
英特尔ligence for Decision Support
(BIDS™),该方法论由多少个模块组合,如下图:

澳门永利平台 15

 

元数据框架定义

元数据管理首主题在基于灵活、健壮的架构落成元数据的规范、集中国化学工业进出口总集团。框架定义涉及分析元数据的脚下情景、处理进程,并为元数据管理种类提供叁个支付蓝图,首要从深切目的、具体目标和高层供给八个地点来讲述:

  1. 深入目的|
    元数据管理种类的总体目标如下:

    • 规范的元数据和多少处理
    • 元数据管理的集中国化学工业进出口总公司
    • 元数据音讯去重
    • 适于变化的元数据架构
  2. 实际指标
    元数据管理系列的目的如下:

    • 制定元数据及数码标准
    • 集中国化学工业进出口总公司 BI 系统的田管和利用
    • 通过非冗余、非重复的元数据音讯坚实数据完整性、准确性
    • 压缩BI系统组件开拓、完成、完善及有限帮助的代价
    • 树立灵活的元数据架构,使BI架构顺应变化
  3. 高层供给
    元数据成立及管制的高层供给能够通过下表中的内容来加以驾驭。

序号

需求

1.

元数据标准化

1.1

企业内统一术语及沟通标准

使用元数据作为用户的唯一根据,确保所有用户使用一致的名词进行沟通、理解,以及解释业务问题。同时可以消除歧义,保证企业内信息一致性,便于知识和经验的共享。

1.2

无缝系统集成:

ETL过程,尤其是集成过程,依赖与多种多样的数据源和BI系统。标准化的元数据使得不同源系统的数据集成到BI系统时,数据元素的含义是统一的;此外,只有通过标准方法共享元数据的工具或应用程序才允许被集成到BI系统。

1.3

数据质量提升:

定义数据质量校验规则,是ETL元数据的有机组成部分。

2

元数据集中化

2.1

提升分析及与BI系统的交互:

分析涵盖一系列技术手段,包括从简单的报表查询,到OLAP分析,甚至复杂的数据挖掘,用户在很大程度上通过元数据层与这些技术进行交互,所有这些分析都需要由元数据驱动。元数据需向用户提供集中化的信息,诸如数据含义、名词术语和业务概念,以及他们和数据之间的关系。因此元数据可以支持准确而直观的查询,降低用户访问、评估、使用相关信息的代价。

2.2

数据完整性和准确性:

集中化的元数据应该是非冗余、非重复的。此外,数据的回溯性及一致性对高数据质量是很关键的。ETL过程需通过捕获数据继承(如:源、调度信息、时间戳等)来管理元数据回溯性,通过诸如checksum这样的方法来管理一致性。集中化所有这些信息,有助于及时地解决数据整合问题,及更好的管理数据的正确性。

3

降低BI系统管理代价

3.1

支持新应用开发:

元数据提供数据含义、结构和来源的相关信息,这有助于需求收集和设计阶段的产出控制,也能保证应用开发过程的可靠性。

3.2

自动化管理过程:

元数据应当驱动多种DW过程(如ETL、批处理报表),有关过程执行的信息(日志、DW 数据加载状态等)也应存储在资料库中,被管理员轻松访问。这些元数据驱动的过程能够实现BI管理自动化、减少人工干预,从而降低BI系统维护量。

3.3

周密的安全机制:

为了提供周密的安全机制,应该在元数据层管理ACL和用户信息。需要设计用户角色来控制不同部门、不同地域的用户对不同粒度的数据进行访问的权限,并通过审计跟踪过程对数据访问进行安全检测。

4

灵活的元数据架构

 

元数据的扩展性与适应性:

为了适应变化,元数据必须是可扩展的。如,频繁变化的语义层,应当独立于应用程序,存储在元数据中,一方面保证系统扩展的灵活性,另一方面,可以很轻易的添加新的元数据对象。而且,通用元数据模型还提供了大量的代码片段的可重用性。

  其它,还有须求从成品和项目四个范畴创立元数据管理组织,包涵元数据管理员、协调员、数据分析员及DBA等剧中人物。一旦该集体组建实现,通过跟职业和才具受益者的认识,就建立了高层元数据必要。

澳门永利平台 16

条件描述

  框架定义阶段完成后,下一步正是讲述元数据标准,主要总结以下活动和子活动:

  • 元数据现状清单:建立元数据清单,包罗:功效性音信供给、数据模型、进度模型、数据字典、业务术语字典、已有元数据环境、系统文书档案等

  • 元数据必要

    • 遵照的行当标准

    • 元数据模型须求:命名规范、结构、成分及涉嫌关系

    • 元数据接口供给:元数据资料库及其内容,桥接器、全体者、系统访问、元数据血缘关系

    • 元数据系统须要

    • 元数据报表供给

    • 平安必要

    • 更换管理要求

    • 扶植必要

    • 治水供给

诸如在假如场景中,大家统一筹划了地市表的数据模型(如上海教室煤黑框里面表示),地市表那一个实体的数据模型怎样开始展览定义正是元数据所关心的范围。

详细规划

设计阶段包罗显著以下内容:

  • 元数据正式

    • 开荒数据元标准
    • 数据元标准的能力性及跨作用性复查
    • 建立数据元设计规则及命名规范
  • 联网接口机制

    • 元数据获得API及桥接器
  • DW元数据方式

    • 元数据分类维度
    • 运用元数据维度设计元数据模型
    • 多少元定义进度
    • 布署管理
  • 一同(元数据发表)机制

    • 文本调换
    • 资料库API
    • 元数据服务
  • 元数据同步机制

    • 联合度
    • 复制调整和更新传播
    • 共享资料库下的复制调节

元数据足以说是商城的数目地图,它间接呈现了小卖部中有何样的数额,数据是什么存放的,例如,数据结构是如何样子,数据与业务之间的涉嫌是哪些,数据与数码里面包车型地铁涉嫌是什么样,数占领哪些的日喀则须要,数据有何样的储存需要。

元数据管理成熟度发展阶段

澳门永利平台 17

 

本着元数据的管理,对于价值观集团数量来讲是不行重大的一项管理挑战。因为古板厂商本领和保管观念上有所缺点和失误,从而导致了累累主题材料。由此,我们在开始展览过多价值观商家数目治理或然数额管理项目,相当于元数据管理方面时,平常会先从数据模型梳理发轫。

参考

  • The DAMA Guide to the Data Management Body of Knowledge
  • 音信集成:元数据管理全景

叁、主数据–公司黄金数据记录

主数据(main data)首倘若指经实例化的企业重大数据。

 

澳门永利平台 18

抑或回到大家的倘若场景,大家在上边设计达成数据模型设计的“城市表”中填入了对应的城墙数据,例如,香水之都、东京、斯德哥尔摩、奇瓦瓦等等。这个在都会表中填充的数目,正是组织中夏族民共和国地理协会的主数据,因为那一个多少是中华夏族民共和国地理协会以此企业的主要业务实体,它为团队的事情进行提供关乎环境,而且它大概在集团业务开始展览进度中被反复引用。针对这几个基本重点数据,组织和商铺无论从数量的品质、一致性、可用性、管理标准等方面都应当享有最严苛的数码要求。

那么一般来说,以下涉及集团老总的人、财、物的数码最有望纳入首席营业官数据管理的范畴,例如

集团产品及其相关音讯:包蕴集团相关产品、服务、版本、价格、标准操作等等

集团财务消息:归纳业务、预算、利益、合同、财务科目等等

公司有关利润相关者:如客户、供应商、合营伙伴、竞争对手等

商家团体架构:如员工、部门等

看得出,主数据正是店4被不一致运行场地反复引用关键的情况数据,它须要在厂家限制内维持中度壹致。它能够随着集团的COO活动而改动,例如,客户的加码,组织架构的调控,产品下线等;不过,主数据的变型频率应该是非常的低的。所以,公司运行进程发生进程数据,如生产进度发生种种如订购记录、消费记录等,一般不会纳入主数据的限制。当然,在不相同行当,不一样商铺对主数占领两样的观念和做法,正如大家与国内大型航空集团的实行相关数据项目时,也在为航班动态是还是不是主数据而纠结不已。

所以,有鉴于主数据对于公司的严重性,公司和组织须要对其主数据进行实用的管制:包蕴了解主数据使用需要,识别主数据来自及源头,梳理主数据上下游关系,数据整合和发表,进步主数据的多寡品质等。

四、参考数据–数据的字典

在本文引用的假诺案例中,我们将会小心到刚刚填写的地市那类数据有些列,如省份、城市项目等。借使未有缺乏上下文的环境,大家是无力回天领会其实际意思,这时候大家往往引进参考数据(reference
data)加以解释和通晓,如下图天灰标注所示。

 

澳门永利平台 19

参照数据是充实数据可读性、可维护性以及持续应用的机要数据。例如,你看看“性别”的那么些字段,很只怕是壹象征男性、二象征女性。在无数供销合作社中有诸如此类的约定俗成,而越来越多的参阅数据或然记录在开采人士和平运动营职员的大脑个中。但难点是要是这一个人离开,您系统里面包车型客车数据就成了一批未有注释的天书。

世家或许以为,那所谓参考数据不正是数码字典吗?对,我们在不少系统里头都会有如此和那么的多少字典。但是幸而出于那么些数量字典局只限于个别系统而并未有统一标准,从二个侧面直接培养了汪洋的数据孤岛。公司为了实行更有效能的数量整合、数据共享和数码解析利用,早先尝试对参考数据举行集团可能单位层面包车型客车整合和治本,利用参考数据集记录系统尝试为限制内的IT系统中的数据库提供联合的参考数据。

5、小结

主数据则是真心诚意的信用合作社职业数据,是信用合作社的第二业务数据。

参照数据则是对数据的演讲,针对1些数额范围和取值的数码表达,让芸芸众生轻巧读取相关的数额。

元数据是对数据的叙说,用于描述集团数目标装有新闻和多少,如协会、关系、安全需求等,除增加数量可读性外,也是继续数据管理的功底。

相似来讲,公司中那三类数据与其余数据的数据量、品质供给,更新频率、数据生命周期的关系大约如下图:

 

澳门永利平台 20

小编简单介绍:

梁铭图,DAMS架构师精英群专家,新炬互联网首席架构师。

怀有十年以上数据库运转、数据解析、数据库设计以及系统规划建设经验。

漫长为国内邮电通讯运行商的特大型IT系统实行系统软件维、数据架构划设想计、设计和奉行以及大型IT系统数据建立模型工作,在数码架构管理以及数据资金财产管理方面有着浓密的钻研。