在亚马逊DataZone中引入端到端数据血缘预览可视化 新闻博客
Amazon DataZone推出端到端数据血缘可视化预览
关键要点
Amazon DataZone推出了支持OpenLineage的新数据血缘功能,提供数据的端到端视图。数据血缘帮助用户可视化数据来源,追踪数据变化,进行根本原因分析,提高数据可信度。用户可通过Amazon DataZone API和OpenLineage事件来注入数据血缘信息。数据血缘功能适用于各种用户角色,包括市场分析师、数据工程师和管理员。Amazon DataZone是一个数据管理服务,旨在帮助组织内的数据生产者和消费者进行数据目录、发现、分析、共享和治理。工程师、数据科学家、产品经理、分析师和业务用户可以通过统一的数据门户轻松访问公司内的数据,从而发现、使用并协作获取数据驱动的洞察。
我很高兴地宣布,Amazon DataZone现已推出支持API的新数据血缘功能,并且与OpenLineage兼容,该功能可以提供数据随时间变化的端到端视图。数据血缘是Amazon DataZone内的新特性,帮助用户可视化和理解数据的来源,追踪变更管理,在报告数据错误时进行根本原因分析,并为数据从源到目标的运动问题做好准备。该功能提供了血缘事件的全面视图,这些事件由Amazon DataZone的目录自动捕获,同时也整合了其他在Amazon DataZone之外程序化捕获的事件,为特定资产串联在一起。
在需要验证特定数据在组织中的来源时,通常需要依赖手动文档或人际关系。这一手动过程既费时又容易导致不一致,进而降低了数据的可信度。Amazon DataZone中的数据血缘功能能够提高对数据的信任,帮助您理解数据是如何起源的、如何变化的,以及其在某一时刻的消耗情况。例如,可以通过程序设置数据血缘,实现从数据被捕获为原始文件存储在AWS S3开始,到通过AWS Glue进行ETL转换,直至数据被工具如Amazon QuickSight消费的完整过程。
借助Amazon DataZone的数据血缘功能,可以减少花费在映射数据资产及其关系、故障排查和开发管道上的时间,同时强化数据治理实践。数据血缘有助于用户将所有血缘信息集中在一个地方,并提供图形化视图,进而提高数据用户的工作效率,使其能够做出更明智的数据驱动决策,并及时识别数据问题的根本原因。
接下来,我将为您介绍如何在Amazon DataZone中开始使用数据血缘功能,以及数据血缘如何通过直观的展示连接增强Amazon DataZone的数据目录体验,使您在搜索或使用数据资产时能够做出明智的决策。

在Amazon DataZone中开始使用数据血缘
在预览阶段,我可以通过调用Amazon DataZone APIs或者发送与OpenLineage兼容的事件,程序性地将血缘信息注入到Amazon DataZone中,以捕获发生在Amazon DataZone之外的数据运动或变换。关于目录中资产的信息,Amazon DataZone会自动捕获其状态即库存或发布状态的血缘信息,并为生产者如数据工程师及消费者如数据分析师或数据工程师创建订阅,以便追踪谁在消费他们所生成的数据,或他们是否使用了正确的数据进行分析。
加速器官方版随着信息的发送,Amazon DataZone将开始填充血缘模型,并能够将通过API发送的标识符与已目录化的资产进行映射。随着新的血缘信息的发送,模型将在特定时间内创建资产可视化的版本,也允许用户导航至之前的版本。
我使用一个预配的Amazon DataZone域进行这一用例。我使用Amazon DataZone域来组织我的数据资产、用户和项目。接下来,我访问Amazon DataZone控制台,并选择查看域。我选择我的域SalesDomain,然后选择打开数据门户。
在我的域下,我有五个项目:一个针对数据生产者的项目SalesProject,以及四个针对数据消费者的项目MarketingTestProject、AdCampaignProject、SocialCampaignProject和WebCampaignProject。您可以访问Amazon DataZone现在正式发布在组织边界间协作数据项目以创建自己的域和所有核心组件。
我在搜索资产栏中输入“市场销售表”,然后访问市场销售表资产的详细页面。我选择血缘标签以可视化血缘,展示上下游节点。
现在,我可以深入查看那些资产的详细信息、流程或作业,并追溯到列级别的血缘。
通过数据血缘进行交互式可视化
我将通过与Amazon DataZone定期互动的不同角色的用户,展示图形界面,并说明数据血缘功能将如何给他们带来益处。
首先,假设我是一名市场分析师,需要确认数据资产的来源,以便自信地进行分析。我进入MarketingTestProject页面,选择血缘标签。我注意到血缘信息包括该资产在Amazon DataZone内部和外部的情况。标签已编目、已发布和请求访问代表了在目录内部发生的操作。我展开marketsales数据集条目,以查看数据的来源。
我现在对数据资产的来源感到放心,并确信它符合我的商业目的,从而能够顺利开展分析。
其次,假设我是一名数据工程师。我需要了解我的工作对依赖对象的影响,以避免意外变更。作为数据工程师,系统中所做的任何更改都不应破坏任何下游流程。通过查看血缘信息,我可以清晰看到谁订阅了该资产并具备访问权。通过这些信息,我可以告知项目团队即将进行的变更,这可能会影响他们的管道。当报告数据问题时,我可以调查每一个节点,并在其版本间切换,以深入了解随时间变化的内容,从而识别问题的根本原因,并及时修复。
最后,作为管理员或数据管理人员,我负责确保数据安全、标准化商业分类法、实施数据管理流程以及进行一般目录管理。我需要收集数据来源的详细信息,并了解在此过程中发生的变换。
例如,作为一名管理员,我需要回应审计师的问题,因此我向上遍历图形,查看数据来源,发现数据来自两个不同的来源:在线销售和实体店销售。这些来源各自有自己的管道,直到流程达到某个点并合并。
在浏览血缘图时,我可以展开列,确保在转换过程期间敏感列被排除,并及时向审计师提供详细响应。
参与预览
数据血缘功能在所有Amazon DataZone可用的区域中以预览形式提供。如需了解可以配置Amazon DataZone域的区域,请访问AWS按区域提供的服务。
数据血缘费用取决于存储使用量和API请求,这些费用已包含在Amazon DataZone的定价模型中。如需更多详细信息,请访问Amazon DataZone定价。
要了解更多关于Amazon DataZone中数据血缘的信息,请访问Amazon DataZone用户指南。
Esra
Esra Kayabali
Esra Kayabali是AWS的高级解决方案架构师,专注于分析,包括数据仓库、数据湖、大数据分析、批处理和实时数据流处理以及数据集成。她在软件开发和解决方案架构方面拥有十年以上的经验。她热衷于协作学习、知识分享,并指导社区迈进云技术的旅程。