Amazon S3 表类数据存储服务
在 Amazon S3 中使用完全托管的 Apache Iceberg 表大规模存储表格数据
什么是 S3 表类数据存储服务?
Amazon S3 表类数据存储服务是完全托管的 Apache Iceberg 表,可自动化解管理数据湖和湖仓一体架构的运维负担。通过先进的压缩和维护策略,S3 表类数据存储服务可在数据量增长时自动优化查询性能。S3 表类数据存储服务可与任何兼容 Iceberg 的引擎配合使用,包括 Apache Spark、Trino、Amazon Athena、Amazon Redshift 及其他第三方工具,提供架构灵活性,并实现大规模存储表格数据的最简单方式。
优势
S3 表类数据存储服务通过压缩、快照管理和未引用文件删除,持续优化 Iceberg 表。自动复制可降低分布式团队的查询延迟,智能分层可将存储成本降低高达 80%。因此,数据团队可以专注于构建,而不是管理基础设施。
工作负载增长越多,Iceberg 表的维护和优化就越重要,也越难以跟上节奏。S3 表类数据存储服务自动保持表的高性能,因此随着数据增长,查询性能保持稳定,不会因数据增长而下降。数据由云中最持久的存储提供支持,默认设计提供 99.999999999%(11 个 9)的持久性和 99.99% 的可用性。
S3 表类数据存储服务基于 Apache Iceberg 开放标准构建,确保您的数据永远不会被锁定在单一计算引擎或供应商上。 S3 表类数据存储服务暴露 Iceberg REST Catalog API,因此它们可与兼容 Iceberg 的引擎(包括 Spark、Trino、Flink、Athena、Redshift、Snowflake 及其他第三方工具)配合使用,保护对现有工具的投资,同时实现长期灵活性。
管理 Iceberg 表的治理和安全可能既复杂又分散。S3 表类数据存储服务是一等 AWS 资源,内置表级访问控制、加密和生命周期管理,无需为每个表管理 S3 存储桶策略,从而简化复杂分析环境下的治理。
S3 表类数据存储服务提供针对分析优化的存储,与存储在通用 S3 存储桶中的 Iceberg 表相比,每秒事务处理数提高高达 10 倍。通过 MCP 支持,人工智能代理和大型语言模型可以与 S3 Tables 交互,使 AI 驱动的分析成为可能。与 AWS 分析服务的原生集成以及通过 Iceberg REST API 与第三方工具的兼容性意味着 S3 表类数据存储服务可以为新兴的人工智能工作流程提供支持。
使用案例
通过从 Parquet、Apache Hive 或 Hadoop 迁移到 Apache Iceberg 表来实现数据湖现代化,降低运维复杂性,同时构建可扩展、为 AI 就绪的数据湖,支持高级分析和人工智能/机器学习工作负载。
了解更多
使用 AWS 流式服务将数据从 IoT 传感器、事务系统和应用日志等来源直接流式传输到 Iceberg 表,通过自动后台优化使流式数据保持近实时可查询状态。
S3 表类数据存储服务与将 Iceberg 表存储在通用存储桶中相比,提供高达 10 倍的每秒事务处理量,使其非常适合大规模分析工作负载和需要高吞吐量的操作。
通过模型上下文协议(MCP)使用自然语言查询存储在 Iceberg 表中的数据,无需 SQL 专业知识即可进行临时探索。S3 表类数据存储服务支持多个用户和 AI 助手的并行访问,自动优化可保持查询性能。
了解更多
观看演示
了解 Amazon S3 表类数据存储服务、我们构建的原因及其工作原理
立即观看合作伙伴和集成
Daft
“Amazon S3 表类数据存储服务是 Daft 对 Apache Iceberg 支持的完美补充。通过利用其与 AWS Lake Formation 和 AWS Glue 的集成,我们能够毫不费力地将我们现有的 Iceberg 读写功能扩展到 S3 表类数据存储服务,同时利用其优化的性能。我们期待这项新服务的发展,我们很高兴能为 Python 数据工程和机器学习/人工智能生态系统提供一流的 S3 表类数据存储服务支持。”
Daft 首席执行官兼联合创始人 Sammy Sidhu
Dremio
“Dremio 很高兴为 Amazon S3 表类数据存储服务的正式发布提供支持。通过支持 Apache Iceberg REST Catalog(IRC)规范,S3 表类数据存储服务可确保与 Dremio 的无缝互操作性,使用户能够通过一个高性能的 SQL 引擎,查询在优化的 S3 表类数据存储服务存储桶中管理的 Apache Iceberg 表。这种合作凸显了开放标准在湖仓生态系统中的重要性,消除了集成的复杂性并加快了客户的采用。借助 Amazon S3 表类数据存储服务和 IRC 支持,组织获得了在人工智能时代构建统一湖仓架构所需的灵活性和选择权。”
Dremio 首席技术官 Rahim Bhojani
DuckDB Labs
“Amazon S3 表类数据存储服务与 DuckDB 使用开放文件格式实现数据分析普及化的愿景完全契合。AWS 和 DuckDB Labs 之间的合作使我们能够进一步扩展 DuckDB 对 Iceberg 的支持并开发与 S3 表类数据存储服务无缝集成功能。我们相信,共同秉承“开箱即用”理念的 DuckDB 和 S3 表类数据存储服务,结合成为一个强大的分析堆栈,可以处理各种工作负载,同时保持极低的准入门槛。”
DuckDB Labs 首席执行官 Hannes Mühleisen
HighByte
“Amazon S3 表类数据存储服务是一项强大的新功能,可优化分析工作负载的表格数据的管理、性能和存储。HighByte Intelligence Hub 与 Amazon S3 表类数据存储服务的直接集成使全球制造商可以轻松地为其工业数据构建一个开放的交易数据湖。S3 表类数据存储服务支持即时查询原始 Parquet 数据,使客户能够将情境化信息从边缘发送到云端,无需进行额外的处理或转换即可立即使用。这对我们共同客户的性能和成本优化产生了重大影响。”
HighByte 首席技术官 Aron Semle
PuppyGraph
“Amazon S3 长期以来一直是现代数据基础设施的基础,而 S3 表类数据存储服务的推出标志着一个重要的里程碑 — 让 Apache Iceberg 更接近成为数据和人工智能的通用标准。这项创新使组织能够在 S3 上利用高性能、开放的表格格式,在不重复数据的情况下实现多引擎分析。对于 PuppyGraph 客户来说,这意味着他们现在可以直接在他们的 S3 数据上运行实时图表查询,从而保持新的、可扩展的见解,而无需复杂的 ETL 开销。我们很高兴能参与这一演变,使图表分析与数据本身一样无缝。”
PuppyGraph 联合创始人兼首席执行官 Weimo Liu
RisingWave
“RisingWave 与 Amazon S3 表类数据存储服务的集成,使组织能够无缝利用 Amazon S3 中的 Apache Iceberg 表,从而增强其流式传输数据管道的功能。 无论您是要摄取原始数据、实时转换数据,还是要将结果回写到 S3,RisingWave 都可以将 Iceberg 表自然融入现有工作流,轻松满足您的需求。这种集成可以简化数据管理工作、降低运维复杂度,并为处理流式传输分析的团队提供顺畅的互操作性。”
RisingWave Labs 首席运营官 Rayees Pasha
Ryft
“Ryft 与 Amazon S3 表类数据存储服务的集成使团队能够将 Apache Iceberg 表作为完全自动化的湖仓一体架构进行运维。客户可获得工作负载感知的优化与治理、自动化的文件布局优化与压缩、托管的快照保留与恢复、Apache Iceberg 表的自动化合规性以及湖仓的全面可见性,所有这些都基于 Iceberg 原生存储。Ryft 和 S3 表类数据存储服务共同提供持续快速的查询、更低的存储成本和可靠的运维,无需手动调优或基于 cron 的维护。”
Ryft 首席执行官兼联合创始人 Yossi Reitblat
Snowflake
“我们很高兴能将 Snowflake 的强大功能带到 Amazon S3 表类数据存储服务中。这种合作使 Snowflake 客户能够使用其现有的 Snowflake 设置无缝读取和处理存储在 S3 表类数据存储服务中的数据,无需进行复杂的数据迁移或复制。通过将 Snowflake 世界一流的性能分析功能与 Amazon S3 表类数据存储服务高效存储 Apache Iceberg 表的功能相结合,组织可以轻松查询和分析存储在 Amazon S3 中的表格数据。”
Snowflake 合作伙伴解决方案工程全球总监 Rithesh Makkena
Starburst
“我们很高兴看到 Amazon S3 通过 S3 表类数据存储服务引入了对 Apache Iceberg 的内置支持,推动了 Iceberg Data Lakehouse 生态系统的发展。借助 S3 表类数据存储服务存储桶,我们期待与 AWS 合作,帮助我们的共同客户将 Open Lakehouse 涵盖多种分析和人工智能使用场景的强大功能带到 Amazon S3 中的数据。Open Lakehouse 由经过优化的 Trino(领先的开源 MPP SQL 引擎)驱动。”
Starburst 产品副总裁 Matt Fuller
StreamNative
“我们与 Amazon S3 表类数据存储服务的集成使实时、人工智能就绪的数据比以往任何时候都更加开放和易于访问。Ursa 基于 S3 构建的无领导架构已经降低了存储成本,与 S3 表类数据存储服务的直接集成又进一步提高了性能和效率。在人工智能驱动的领域,数据治理至关重要。在 StreamNative,我们致力于帮助企业将总拥有成本降低 90%,同时轻松且经济实惠地使用受管控的实时数据构建基于人工智能的应用程序。”
StreamNative 首席执行官兼联合创始人 Sijie Guo
常见问题
您应该使用 S3 表类数据存储服务,以简单、高性能且经济实惠的方式在 Amazon S3 中存储表格数据。S3 Tables 使您能够将结构化数据组织成表,然后使用标准 SQL 语句查询该数据,几乎无需设置。此外,S3 表类数据存储服务提供与 S3 本身相同的持久性、可用性、可扩展性和性能特征,并自动优化存储以最大限度地提高查询性能并最大限度地降低成本。借助 Intelligent-Tiering 存储类别,S3 表类数据存储服务可在不影响性能或增加运营开销的情况下,根据访问模式自动优化成本。
与将 Iceberg 表存储在通用 Amazon S3 存储桶中相比,S3 表类数据存储服务每秒事务数(TPS)最多可高 10 倍。S3 表类数据存储服务会自动对底层数据执行压缩操作,持续优化您的表以获得最佳的查询性能。根据您的工作负载和查询模式,您还可以从高级压缩策略中进行选择,例如排序压缩和 Z 序压缩,以进一步优化您的表。排序压缩根据指定的排序列组织数据,以提高过滤操作的查询性能;而 Z 序压缩则可优化跨多个维度的数据组织方式,当您需要同时跨多个列查询数据时,该策略是理想之选。
只需几个简单步骤即可开始使用 S3 表类数据存储服务,无需在 S3 之外搭建任何基础设施。首先,在 S3 控制台中创建表存储桶。通过控制台创建您的第一个表存储桶的过程中,与 AWS 分析服务的集成会自动完成,这使得 S3 能够自动将您账户和区域中的所有表存储桶和表填充到 AWS Glue Data Catalog 中。此后,S3 表类数据存储服务可通过 Amazon Athena、EMR 和 Redshift 等 AWS 查询引擎访问。接下来,您可以在 S3 控制台中点击操作,利用 Amazon Athena 创建表格。进入 Athena 后,您就可以快速开始填充新的表格并对其进行查询。
或者,您可以通过 AWS Glue Data Catalog 使用 REST Catalog 端点访问 S3 表类数据存储服务,这使您能够发现整个数据资产,包括所有表资源。您还可以直接连接到单个表存储桶端点,以发现该存储桶中的所有 S3 表类数据存储服务资源。这使您能够将 S3 表类数据存储服务与支持 Apache Iceberg REST Catalog 规范的任何应用程序或查询引擎结合使用。