统一数据、元数据和含义

如果您曾经从历史的角度回顾过人们所熟悉的发明及其诞生的过程,您就会注意到,它们大多建立在当时的想法和概念之上,但却以新的方式付诸实践。

遇到了一个问题,有人想出了一个新颖的方法来解决它。

我们面临的共同问题是我们快速向数字化社会转型的自然结果。

简而言之,我们都被数据淹没了。

任何认为自己可能走在时代前列的人可能都没有意识到眼前挑战的艰巨性。如果不是今天,那么很快就会到来。

我们解释和处理数据的能力还跟不上我们面临的整体形势。

不仅数据移动得快,我们对数据的理解也移动得快

理想情况下,我们应该灵活处理数据:能够尽快从数据转化为知识,再转化为洞察,最后采取行动。

尽管我们已经找到了共享海量数据的好方法,但我们还没有找到共享我们所知信息的好方法。

这需要对我们关心的数据进行形式化的定义、含义和解释——一种专门的语言

事实证明,解决这个问题的部分已经存在——并且已经在各种引人注目的现实环境中投入使用。

虽然许多组件可能对某些人来说很熟悉,但它们现在以新的方式被用于解决这些问题等等。

让我们从数据开始

数据库的简要历史可能如下所示:索引、关系、专用,然后是多模型。多模型作为一个类别在这里很有吸引力,因为它使用元数据以任何您想要的方式表示(具体化)数据:SQL 表、平面文件、图表、键值等。

相同的数据,多种观点。

这种灵活性使得多模型对于当今的三种模式具有吸引力:应用程序、平台和结构。

应用程序满足特定用户的特定需求(短期),而平台满足一致用户的共享需求(中等时间范围),企业结构旨在满足所有潜在用户(内部或外部)的所有潜在需求(较长时间范围)。

回到我们想要分享数据编码知识的愿望,虽然所有三种多模型数据库模式都很有用,但从结果的角度来看,“企业结构”模式显然更难实现,也更引人注目。

理想情况下,我们会使用多模型数据库,在大型组织的采用阶段根据需要支持和集成所有三种模式。有许多大型组织正是通过为所有三种模式标准化单一多模型数据库技术来实现这一点。

但首先如何创建元数据?

毫不奇怪,最难的部分是创建和改进用于描述数据的元数据。简单的标记并不难:这些数据来自哪里,我们什么时候得到的,约定的字段和格式等等。

但是,例如,你如何确定某些东西是 PII(个人身份信息)?

当数据被识别为此类信息时,应触发一套强制处理规则。此外,无法识别 PII 会产生可避免的风险。

更有趣的是:围绕 PII 的规则、定义和解释本身也在不断变化,而且变化速度通常很快。换句话说,我们对 PII 的了解以及它的含义始终在不断变化。

如果一致且统一地处理 PII 对您来说非常重要,那么您如何确保您当前有关处理具有潜在 PII 的数据的知识在整个组织及其合作伙伴生态系统中得到一致使用?

您必须首先编写一组规则,规定如何在您负责的任何形式的数据中识别 PII,并随着数据源和解释的变化而更新这些规则。
接下来,您将定义一组规则,用于在数据被识别为 PII 后对其进行处理。有些用途可以,有些则不行。这些规则也会发生变化。
最重要的是,您必须强制执行这些规则,以针对您负责的任何和所有数据使用,并能够在审计环境中证明这一点。人们使用数据的方式可能会发生变化,审计要求也会发生变化。
这三部分问题出现在很多情况下,PII 只是其中一个典型示例:

您如何对有关数据的知识进行编码?

您如何利用这些知识来识别和处理重要的数据?
最重要的是,如何确保数据以及有关数据的编码知识在各地得到统一使用?
那么如何以灵活、可信的方式做到这一点?

我们今天如何编码有关数据的知识
我们对数据知识进行编码的方式多种多样,从城市民间传说到精确的知识图谱。

在此期间,我们会发现一些熟悉的文物,例如研究人员笔记本、数据字典、词汇表、本体、元数据管理器等。

更好的方法是使用语义知识图谱来编码我们对数据的了解。SKG 是一种非常方便的方式,可以表示事实的非常深刻和专业的含义和解释:无论是数字的还是其他的。

SKG 已经成为知识和元数据管理学科的必需品,因为它们是一种丰富、灵活的表示形式,可以轻松封装和扩展现有的表示形式。

然而,这些东西都不是管理源数据的;它们管理源数据的 现在,该错误已从您的电话号码库中删除。而且,我们不得不每周 南非电子邮件数据库 刷新电话号码清单。由于我们通过专业人类键入事实,这就是为什么在我们的手机广泛库中获得一百%准确的结果,但可下载的更新,但是直到2024年8月Telecell智能手机广泛的品种绝对是这么多夜晚的指南之一。 各种编码描述。它们几乎总是与源数据本身脱节。它们通常也不会让软件评估数据并做出决策。

为此,必须根据手头的数据创建元数据。

我们今天如何创建元数据
为了解释任何形式的数据,必须创建有关数据的元数据,元数据创建得越丰富、越自动化越好。

我们拥有种类繁多的工具,可用于查看数据并创建丰富的自动化元数据。我们对社交信息流使用情绪分析,对视频使用图像识别,对物联网流使用模式识别,即使是简单的文本搜索,在获得信息后也能发挥巨大作用。

电子邮件列表

 

遗憾的是,在大多数企业环境中,从潜在有用数据自动创建元数据的情况都很糟糕。通常采用昂贵的编码专家和昂贵的领域专家来定义和创建数据的静态解释。

因此,这项工作并不经常进行,而且即使完成了,也需要持续关注。更好的技术将大有帮助。

语义人工智能使用自然语言处理 (NLP) 让领域专家使用他们最熟悉的专业语言直 Kaizen 团队将包装操作 OEE 提高了 66.5% 接与软件交谈。

语义人工智能无需通过编码专家来翻译复杂概念,因此本质上更加灵活和准确。如今,语义人工智能被广泛应用于各种需要专业数据解释的领域。

当今我们如何将数据和编码知识结合在一起

我们三部分问题的最后一部分是确保每次使用数据时,都会与已知的一切信息一起被 电话列表 使用。这可能是一个有用的定义、重要的概念、这些概念与其他概念的关系、有关安全或隐私的规则等等。

需要明确的是:没有关于数据的可用知识的数据用途有限,并且可能产生可避免的风险。此外,如果在使用数据的时间和地点(知情搜索、上下文应用程序、扎实分析等)无法随时获得关于数据的可用知识,那么这些数据的用途也有限。

似乎有许多智能技术团队都曾以各种形式遇到过这种“将数据与我们所知道的一切联系起来”的挑战,因为它出现在许多地方、以许多方式出现。

也许您个人对这样的努力很熟悉?

 

大多数人试图通过巧妙的软件将这三个功能组件整合起来,但由于纯粹的熵而失败。尽管他们有最好的意图,但他们的整合却无法敏捷,无法轻松跟上现实世界的步伐,因此该项目暂时被放弃。

然而,如果将数据和有关数据的知识(元数据)存储为一个单一实体,那么问题就迎刃而解,从而实现数据敏捷性。

当你更改元数据时,你会立即改变数据在使用的地方的解释方式。

理想情况下,您可以以元数据表示的语义知识图的形式创建“数据知识”,使用语义 AI 使用人们当今使用的任何专门语言更快、更有效地对有关数据的独特知识进行编码和解码。

这让我们想到了语义数据平台的想法,在这个平台上,活动数据、活动元数据和活动含义可以始终保持在一起。

滚动至顶部