摘自:选型宝
作者:彭文华
什么是元数据元数据(Meta-data)是描述数据的数据。如何理解这句话?以小学课文《翠鸟》为例,我告诉你这是一只翠鸟,如果你没见过翠鸟,你肯定无法理解翠鸟是个什么东西。但是如果是这样描述一下呢?
翠鸟喜欢停在水边的苇秆上,一双红色的小爪子紧紧地抓住苇秆。它的颜色非常鲜艳。头上的羽毛像橄榄色的头巾,绣满了翠绿色的花纹。背上的羽毛像浅绿色的外衣。腹部的羽毛像赤褐色的衬衫。它小巧玲珑,一双透亮灵活的眼睛下面,长着一张又尖又长的嘴。
上文在描述翠鸟,怎么描述的呢?从这几个方面:停在那儿、小爪子、颜色、头上的羽毛、背上的羽毛、腹部的羽毛、体型、眼睛、嘴。
同理,现在我告诉一个数字:,你除了对这个数字有比较确定的量化意义之外,也无法理解具体代表了什么含义。但是如果是这样描述一下呢?
这样是不是就很清楚了?的意思是:年统计的全国成年男性平均身高,该值的合理阈值是80-cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。
上表在描述这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述这个数据。我们把描述这个数据的其他数据称之为“元数据”。
当然,为了管理方便,我们同样还能将上述元数据进行归类:
与业务规则、流程相关的描述性数据,我们称之为业务元数据;
与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
与数据操作相关的描述性数据,我们称之为操作元数据;
与数据管理相关的描述性数据,我们称之为管理元数据。
元数据解决什么核心问题?
如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。
什么是主数据主数据(MasterData)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实MasterData翻译成“核心数据”可能会更合适,因此主数据也被成为“*金数据”。这么说吧,其实阿里的OneID就是主数据理念的结果。
对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从年开始建设,持续了12年,投入了5、6亿。
所以我们总结一下,主数据一共有以下种类:
与人相关的:用户、客户、公民、病人、供应商、学生等;
与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
与场相关的:地址库、楼盘字典、POI信息等;
与规则相关的:财务的账套等。
在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:
确定核心业务环节
识别主数据
定义和维护主数据匹配规则(代码规则、IDMapping)
建立及发布数据标准
主数据的后续维护及更新
——END——