Amazon EMR现已支持Apache Iceberg
摘要:Amazon EMR是一个托管集群平台,可简化在AWS上运行大数据框架的过程,以处理和分析海量数据。Amazon EMR6.5.0现已包含Apache Iceberg版本0.12。Apache Iceberg是一种开放的表格格式,专为巨大的PB级表格而设计。
Amazon EMR是一个托管集群平台,可简化在AWS上运行大数据框架的过程,以处理和分析海量数据。Amazon EMR6.5.0现已包含Apache Iceberg版本0.12。Apache Iceberg是一种开放的表格格式,专为巨大的PB级表格而设计。
Apache Iceberg为存储在数据湖中的数据提供了一种开源表格式,可帮助数据工程师管理复杂的挑战,例如在保持查询性能的同时管理不断变化的数据集。主要功能如下:
-
保持多个应用程序之间表的事务一致性,其中文件可以通过完全的读取隔离和多个并发写入的方式进行原子化的添加、删除或修改。
-
实施完整的模式演变以跟踪表随时间的变化。
-
发出时间旅行查询以查询历史数据并对更新之间的更改进行验证。
-
通过分区演化将表组织为灵活的分区布局,从而能够在查询和数据量发生变化时更新分区方案,而无需依赖物理目录。
-
将表回滚到以前的版本以快速纠正问题并将表恢复到已知的良好状态。
-
在大型数据集等的高性能查询中执行高级规划和筛选。
带有Apache Iceberg的Amazon
EMR版本6.5.0现已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、南美洲(圣保罗)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)、AWS
GovCloud(US)、Amazon Web Services 中国(北京区域)、Amazon Web
Services中国(宁夏)区域,未来几周将增加更多区域。