从概念到管理,一文读懂元数据

安全 应用安全 新闻
如今,各行各业正在被“疯狂”的大数据所包围,企业需收集,归档,研究的数据量也日益增长。面对浩如烟海的数据,企业管理者应以什么为抓手来管理数据,充分挖掘数据的价值呢?答案就是“元数据”。

 如今,各行各业正在被“疯狂”的大数据所包围,企业需收集,归档,研究的数据量也日益增长。面对浩如烟海的数据,企业管理者应以什么为抓手来管理数据,充分挖掘数据的价值呢?答案就是“元数据”。

Gartner 曾在研究报告里指出,“元数据管理将是未来企业信息化的核心基础设施”,尤其在大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。

[[270468]]

“那么,究竟何为元数据,何为元数据管理?本文将为大家梳理元数据的概念,帮助企业理解元数据管理的作用。”

一、什么是元数据?

元数据被定义为:对数据及信息资源的描述性信息。简单来说就是“关于数据的数据”。

比如:在上网选购衣服时,网店上展示的一件件衣服就是数据。而其中,衣服的品牌、款式、尺寸、颜色、面料材质、适用年龄等就是元数据,这些元数据详细描述了这件衣服的具体信息,为你的购物选择提供参考。

在生活中,元数据的应用场景非常多,甚至可以说,从我们呱呱落地开始认识这个世界的时候,我们就与元数据密不可分,比如图书馆的藏书信息卡、个人的信息登记等都属于元数据的应用。

二、元数据有什么特点?

  • 元数据是关于数据的结构化的数据。
  • 元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。
  • 元数据是对信息包裹 (information package) 的编码的描述。
  • 元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。
  • 元数据不一定是数字形式。
  • 元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。
  • 元数据可来自不同的资源。
  • 在信息对象或系统的生命周期中自然增加元数据。
  • 元数据常规定义中的“数据”,是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。

三、元数据的作用

01、元数据是进行数据集成所必须的

我们知道,数据仓库***的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中:

一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库里。而另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力。

因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。

02、元数据可以帮助用户理解数据仓库的数据

系统用户不可能像数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。

元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。

03、元数据是保证数据质量的关键

企业数据集成完成之后,在使用的过程中,用户常常会对数据产生怀疑。这是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。

借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。

04、元数据可以支持需求变化

随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档远远不够。

元数据独立于平台,可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。

四、元数据管理功能

元数据管理为大数据平台绘制数据地图、统一数据口径、标明数据方位、分析数据关系、管理模型变更及精确到字段级别的影响分析,打通上下游数据继承关系断层,为数据质量维护和业务逻辑可视化打下坚实基础。

在这里我们主要对元数据管理中数据地图、血缘分析、影响分析功能进行深入了解。

01、数据地图

数据地图以拓扑图的形式对企业运营过程中的技术元数据与业务元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。

02、血缘分析

血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到目标分析对象,按照转化关系逐层扩展。

血缘分析直观的展示目标对象的产生过程,包括从哪些表转换而来,经历了哪些转换,从而帮助业务人员了解它在此过程中被赋予的含义,以及会受到的影响。

03、影响分析

影响分析描述了信息之间依赖性的细节,分析一个数据源发生变化时带来的影响。

影响分析反映了当前对象在企业系统各平台中,参与了哪些元数据的形成。用户可以借助影响分析观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。

五、结束语

大数据时代下,无法挖掘的数据将没有任何价值,换句话说,如果没有管理好元数据,收集和存储的数据都会失去意义,也就没有业务价值。

因此,企业信息化管理者只有重新拾起元数据,以元数据为抓手进行数据治理,逐步梳理企业数据、关系,加强管控,才能更好地管理企业数据资产。

责任编辑:华轩 来源: IT168网站
相关推荐

2022-05-04 17:43:28

元数据大数据

2022-10-20 08:01:23

2019-03-19 16:15:10

区块链架构设计编程语言

2022-08-27 10:37:48

电子取证信息安全

2022-06-16 08:01:06

云成本管理FinOps

2021-08-04 16:06:45

DataOps智领云

2023-12-22 19:59:15

2019-11-29 17:26:56

大数据分布式计算技术

2019-07-04 15:16:42

数据架构Flink数据仓库

2014-03-06 09:38:59

微软云计算Windows Azu

2018-04-03 13:08:31

2022-10-08 06:38:01

元宇宙NFT加密货币

2018-05-13 16:06:55

数据科学机器学习面试

2023-10-30 15:28:51

数据仓库

2022-07-26 00:00:03

语言模型人工智能

2022-07-05 06:30:54

云网络网络云原生

2021-12-29 18:00:19

无损网络网络通信网络

2023-05-20 17:58:31

低代码软件

2022-12-01 17:23:45

2023-11-27 17:35:48

ComponentWeb外层
点赞
收藏

51CTO技术栈公众号