Bảng Amazon S3
Lưu trữ dữ liệu dạng bảng ở quy mô lớn bằng các bảng Apache Iceberg được quản lý toàn phần trong Amazon S3
Bảng S3 là gì?
Bảng Amazon S3 là các bảng Apache Iceberg được quản lý toàn phần, giúp tự động hóa gánh nặng vận hành trong việc quản lý hồ dữ liệu và lakehouse. Thông qua các chiến lược nén và bảo trì nâng cao, Bảng Amazon S3 tự động tối ưu hóa hiệu năng truy vấn khi khối lượng dữ liệu tăng. Bảng Amazon S3 hoạt động với mọi công cụ tương thích với Iceberg, bao gồm Apache Spark, Trino, Amazon Athena, Amazon Redshift và các công cụ bên thứ ba khác, mang lại sự linh hoạt về kiến trúc và cách dễ dàng nhất để lưu trữ dữ liệu dạng bảng ở quy mô lớn.
Lợi ích
Bảng Amazon S3 liên tục tối ưu hóa bảng Iceberg thông qua hoạt động nén, quản lý ảnh chụp nhanh và loại bỏ tệp không được tham chiếu. Tự động sao chép giúp giảm độ trễ truy vấn cho các nhóm phân tán, còn phân bậc thông minh giúp giảm chi phí lưu trữ lên đến 80%. Nhờ đó, các nhóm dữ liệu có thể tập trung xây dựng thay vì quản lý hạ tầng.
Khối lượng công việc càng tăng thì việc bảo trì và tối ưu hóa bảng Iceberg càng quan trọng, đồng thời càng khó theo kịp. Bảng S3 tự động duy trì hiệu năng cho bảng, nhờ đó truy vấn vẫn ổn định khi dữ liệu tăng thay vì bị suy giảm theo quy mô dữ liệu. Dữ liệu được hỗ trợ bởi dịch vụ lưu trữ bền bỉ nhất trên đám mây, được thiết kế để cung cấp độ bền 99,999999999% (11 số 9) và độ sẵn sàng 99,99% theo mặc định.
Được xây dựng trên tiêu chuẩn mở Apache Iceberg, Bảng Amazon S3 bảo đảm dữ liệu của bạn không bao giờ bị khóa vào một công cụ điện toán hoặc nhà cung cấp duy nhất. Bảng Amazon S3 cung cấp API Danh mục Iceberg REST, nên có thể hoạt động với các công cụ tương thích với Iceberg, bao gồm Spark, Trino, Flink, Athena, Redshift, Snowflake và các công cụ bên thứ ba khác, giúp bảo toàn khoản đầu tư vào công cụ hiện có trong khi vẫn hỗ trợ sự linh hoạt lâu dài.
Việc quản lý hoạt động quản trị và bảo mật bảng Iceberg có thể phức tạp và rời rạc. Bảng S3 là tài nguyên AWS hạng nhất, có sẵn khả năng kiểm soát truy cập ở cấp bảng, mã hóa và quản lý vòng đời, giúp loại bỏ nhu cầu quản lý chính sách vùng lưu trữ S3 cho từng bảng và đơn giản hóa hoạt động quản trị cho các môi trường phân tích phức tạp.
Bảng S3 cung cấp khả năng lưu trữ được tối ưu hóa cho phân tích, với số giao dịch mỗi giây cao hơn tới 10 lần so với bảng Iceberg được lưu trữ trong các vùng lưu trữ S3 đa dụng. Với khả năng hỗ trợ MCP, tác tử AI và LLM có thể tương tác với Bảng Amazon S3, qua đó hỗ trợ phân tích dựa trên AI. Các tích hợp gốc với dịch vụ AWS Analytics và khả năng tương thích với công cụ bên thứ ba thông qua API REST Iceberg cho phép Bảng Amazon S3 hỗ trợ các quy trình làm việc mới nổi dựa trên AI.
Cách hoạt động của Bảng S3
Trường hợp sử dụng
Hiện đại hóa hồ dữ liệu bằng cách di chuyển từ Parquet, Apache Hive hoặc Hadoop sang bảng Apache Iceberg, giúp giảm độ phức tạp trong vận hành, đồng thời xây dựng hồ dữ liệu sẵn sàng cho AI ở quy mô lớn để hỗ trợ khối lượng công việc phân tích nâng cao và AI/ML.
Tìm hiểu thêm
Truyền dữ liệu trực tiếp vào bảng Iceberg từ các nguồn như cảm biến IoT, hệ thống giao dịch và bản ghi ứng dụng bằng dịch vụ AWS Streaming, với tính năng tự động tối ưu hóa trong nền giúp dữ liệu truyền liên tục có thể truy vấn gần theo thời gian thực.
Bảng Amazon S3 mang lại số giao dịch mỗi giây cao hơn tới 10 lần so với việc lưu trữ bảng Iceberg trong các vùng lưu trữ đa dụng, nên rất phù hợp với khối lượng công việc phân tích quy mô lớn và các hoạt động cần thông lượng cao.
Truy vấn dữ liệu được lưu trữ trong bảng Iceberg bằng ngôn ngữ tự nhiên thông qua Giao thức ngữ cảnh mô hình (MCP), cho phép khám phá dữ liệu tức thời mà không cần kiến thức chuyên môn về SQL. Bảng S3 hỗ trợ nhiều người dùng và trợ lý AI truy cập đồng thời, đồng thời tự động tối ưu hóa để duy trì hiệu năng truy vấn.
Tìm hiểu thêm
Xem bản minh họa
Đối tác và tích hợp
Daft
"Bảng Amazon S3 là sự bổ sung hoàn hảo cho sự hỗ trợ của Daft dành cho Apache Iceberg. Bằng cách tận dụng các tích hợp với AWS Lake Formation và AWS Glue, chúng tôi có thể dễ dàng mở rộng khả năng đọc và ghi Iceberg hiện có của mình lên Bảng S3 trong khi tận dụng hiệu năng tối ưu của nó. Chúng tôi mong chờ sự phát triển của dịch vụ mới này và chúng tôi rất vui mừng được cung cấp hỗ trợ Bảng S3 tốt nhất trong lớp cho hệ sinh thái Kỹ thuật Dữ liệu Python & ML/AI."
Sammy Sidhu, Giám đốc điều hành & Đồng sáng lập - Daft
Dremio
"Dremio rất hân hạnh được hỗ trợ cung cấp rộng rãi cho Bảng Amazon S3. Bằng cách hỗ trợ đặc tả Apache Iceberg REST Catalog (IRC), S3 Tables đảm bảo khả năng tương tác liền mạch với Dremio, cho phép người dùng hưởng lợi từ công cụ SQL hiệu năng cao có khả năng truy vấn các bảng Apache Iceberg được quản lý trong các vùng lưu trữ bảng S3 được tối ưu hóa. Sự hợp tác này củng cố tầm quan trọng của các tiêu chuẩn mở trong hệ sinh thái kho hồ, loại bỏ việc tích hợp phức tạp và đẩy nhanh việc áp dụng khách hàng. Với Bảng Amazon S3 và hỗ trợ IRC, các tổ chức có được sự linh hoạt và lựa chọn cần thiết để xây dựng kiến trúc hồ thống nhất trong kỷ nguyên AI."
Rahim Bhojani, Giám đốc công nghệ – Dremio
DuckDB Labs
"Bảng Amazon S3 phù hợp hoàn hảo với tầm nhìn của DuckDB về dân chủ hóa phân tích dữ liệu bằng cách sử dụng các định dạng tệp mở. Sự hợp tác giữa AWS và DuckDB Labs cho phép chúng tôi mở rộng hơn nữa khả năng hỗ trợ Iceberg trong DuckDB và phát triển tích hợp liền mạch với bảng S3. Chúng tôi tin rằng tâm lý sử dụng pin chung của DuckDB và bảng S3 kết hợp thành một ngăn xếp phân tích mạnh mẽ có thể xử lý nhiều khối lượng công việc trong khi vẫn duy trì rào cản gia nhập cực thấp."
Hannes Mühleisen, Giám đốc điều hành - DuckDB Labs
HighByte
"Bảng Amazon S3 là một tính năng mới mạnh mẽ giúp tối ưu hóa việc quản lý, hiệu năng và lưu trữ dữ liệu dạng bảng cho khối lượng công việc phân tích. Tích hợp trực tiếp của HighByte Intelligence Hub với Bảng Amazon S3 giúp các nhà sản xuất toàn cầu dễ dàng xây dựng một hồ dữ liệu giao dịch mở cho dữ liệu công nghiệp của họ. Bảng S3 cho phép truy vấn ngay lập tức dữ liệu Parquet thô, cho phép khách hàng gửi thông tin ngữ cảnh từ biên đến đám mây để sử dụng ngay lập tức mà không cần xử lý hoặc chuyển đổi thêm. Điều này có tác động lớn đến cả hiệu năng và tối ưu hóa chi phí cho các khách hàng chung của chúng tôi."
Aron Semle, Giám đốc công nghệ – HighByte
PuppyGraph
"Amazon S3 từ lâu đã là nền tảng của cơ sở hạ tầng dữ liệu hiện đại và sự ra mắt của Bảng S3 đánh dấu một bước tiến quan trọng - đưa Apache Iceberg đến gần hơn để trở thành tiêu chuẩn phổ quát cho dữ liệu và AI. Sự đổi mới này cho phép các tổ chức tận dụng các định dạng bảng mở, hiệu năng cao trên S3, cho phép phân tích đa công cụ mà không cần sao chép dữ liệu. Đối với khách hàng của PuppyGraph, điều đó có nghĩa là giờ đây họ có thể chạy các truy vấn đồ thị thời gian thực trực tiếp trên dữ liệu S3 của họ, duy trì thông tin chi tiết mới mẻ, có thể mở rộng mà không phải tốn chi phí ETL phức tạp. Chúng tôi rất vui mừng được trở thành một phần của sự phát triển này, giúp phân tích đồ thị trở nên liền mạch như chính dữ liệu."
Weimo Liu, Đồng sáng lập & Giám đốc điều hành – PuppyGraph
RisingWave
"Phần tích hợp của RisingWave với Bảng Amazon S3 giúp các tổ chức dễ dàng tận dụng bảng Apache Iceberg trong Amazon S3, qua đó nâng cao năng lực quy trình dữ liệu truyền liên tục. Dù bạn đang nạp dữ liệu thô, chuyển đổi dữ liệu theo thời gian thực hay ghi kết quả trở lại S3, RisingWave giúp việc làm việc với bảng Iceberg trở nên dễ dàng như một phần mở rộng tự nhiên trong quy trình làm việc của bạn. Phần tích hợp này đơn giản hóa việc quản lý dữ liệu, giảm độ phức tạp trong vận hành và mang lại khả năng tương tác trơn tru cho các nhóm làm việc với phân tích phát trực tuyến."
Rayees Pasha, Giám đốc sản phẩm – Phòng thí nghiệm RisingWave
Ryft
"Phần tích hợp của Ryft với Bảng Amazon S3 cho phép các nhóm vận hành bảng Apache Iceberg như một kho hồ hoàn toàn tự chủ. Khách hàng có được khả năng tối ưu hóa và quản trị theo khối lượng công việc, tự động tối ưu hóa bố cục tệp và nén, quản lý lưu giữ và khôi phục ảnh chụp nhanh, tự động nén cho bảng Apache Iceberg và khả năng hiển thị đầy đủ trong kho hồ của mình – tất cả đều trên nền tảng lưu trữ gốc Iceberg. Cùng nhau, Ryft và Bảng Amazon S3 mang lại truy vấn luôn nhanh, chi phí lưu trữ thấp hơn và hoạt động vận hành đáng tin cậy mà không cần tinh chỉnh thủ công hay bảo trì dựa trên cron."
Yossi Reitblat, Giám đốc điều hành & Đồng sáng lập – Ryft
Snowflake
"Chúng tôi rất vui mừng được mang sự kỳ diệu của Snowflake đến Bảng Amazon S3. Sự hợp tác này cho phép khách hàng của Snowflake đọc và xử lý liền mạch dữ liệu được lưu trữ trong Bảng S3 bằng cách sử dụng các thiết lập Snowflake hiện có của họ, loại bỏ nhu cầu di chuyển hoặc sao chép dữ liệu phức tạp. Bằng cách kết hợp khả năng phân tích hiệu năng tầm cỡ thế giới của Snowflake với việc lưu trữ các bảng Apache Iceberg hiệu quả của bảng Amazon S3, các tổ chức có thể dễ dàng truy vấn và phân tích dữ liệu dạng bảng được lưu trữ trong Amazon S3."
Rithesh Makkena, Giám đốc Toàn cầu về Kỹ thuật Giải pháp Đối tác - Snowflake
Starburst
"Chúng tôi rất vui mừng khi thấy Amazon S3 giới thiệu hỗ trợ tích hợp cho Apache Iceberg với Bảng S3, thúc đẩy hệ sinh thái Hồ dữ liệu Iceberg Open. Với vùng lưu trữ bảng S3, chúng tôi mong muốn được hợp tác với AWS để giúp các khách hàng chung của chúng tôi mang sức mạnh của Hồ Open Lakehouse, được hỗ trợ bởi Trino được tối ưu hóa – công cụ SQL MPP mã nguồn mở hàng đầu, trên các trường hợp phân tích và sử dụng AI đa dạng cho dữ liệu trong Amazon S3."
Matt Fuller, Phó Chủ tịch, Sản phẩm - Starburst
StreamNative
"Sự tích hợp của chúng tôi với Bảng Amazon S3 giúp dữ liệu theo thời gian thực, sẵn sàng cho AI trở nên cởi mở và dễ truy cập hơn bao giờ hết. Kiến trúc không dẫn đầu của Ursa trên S3 đã giảm chi phí lưu trữ và tích hợp trực tiếp với Bảng S3 giúp cải thiện hiệu năng và hiệu quả hơn nữa. Trong một thế giới do AI điều khiển, quản trị dữ liệu là rất quan trọng. Tại StreamNative, chúng tôi cam kết giúp các doanh nghiệp giảm 90% TCO đồng thời tạo ra dễ dàng và giá cả phải chăng để xây dựng các ứng dụng dựa trên AI với dữ liệu được quản lý thời gian thực."
Sijie Guo, Giám đốc điều hành & Đồng sáng lập - StreamNative
Câu hỏi thường gặp
Bạn nên sử dụng Bảng S3 để lưu trữ dữ liệu dạng bảng trong Amazon S3 một cách đơn giản, hiệu quả và tiết kiệm chi phí. Bảng S3 cung cấp cho bạn khả năng sắp xếp dữ liệu có cấu trúc thành các bảng và sau đó truy vấn dữ liệu đó bằng cách sử dụng câu lệnh SQL tiêu chuẩn, hầu như không cần thiết lập. Ngoài ra, Bảng S3 cung cấp các đặc tính độ bền, độ sẵn sàng, khả năng điều chỉnh quy mô và hiệu năng tương tự như chính S3 và tự động tối ưu hóa kho lưu trữ của bạn để tối đa hóa hiệu năng truy vấn và giảm thiểu chi phí. Với lớp lưu trữ phân bậc thông minh, Bảng S3 tự động tối ưu hóa chi phí dựa trên mẫu truy cập mà không ảnh hưởng đến hiệu năng hoặc làm tăng chi phí vận hành.
Bảng S3 mang lại số giao dịch mỗi giây (TPS) cao hơn tới 10 lần so với việc lưu trữ bảng Iceberg trong các vùng lưu trữ Amazon S3 đa dụng. Bảng S3 tự động nén dữ liệu bên dưới để liên tục tối ưu hóa bảng nhằm đạt hiệu năng truy vấn tối ưu. Tùy vào khối lượng công việc và mẫu truy vấn, bạn cũng có thể chọn các chiến lược nén nâng cao như nén theo thứ tự sắp xếp và nén theo thứ tự z để tối ưu hóa thêm cho các bảng của mình. Nén theo thứ tự sắp xếp tổ chức dữ liệu dựa trên các cột đã chỉ định để cải thiện hiệu năng truy vấn cho các thao tác có bộ lọc, trong khi nén theo thứ tự z tối ưu hóa cách tổ chức dữ liệu trên nhiều chiều, rất phù hợp khi bạn cần truy vấn dữ liệu trên nhiều cột cùng lúc.
Bạn có thể bắt đầu sử dụng Bảng Amazon S3 chỉ trong vài bước đơn giản mà không cần thiết lập bất kỳ cơ sở hạ tầng nào bên ngoài S3. Trước tiên, hãy tạo một vùng lưu trữ bảng trong bảng điều khiển S3. Khi bạn tạo vùng lưu trữ bảng đầu tiên thông qua bảng điều khiển, quá trình tích hợp với các dịch vụ AWS Analytics sẽ tự động diễn ra. Nhờ đó, S3 có thể tự động điền tất cả vùng lưu trữ bảng và bảng trong tài khoản cũng như Khu vực của bạn vào Danh mục dữ liệu AWS Glue. Sau đó, Bảng S3 có thể được các công cụ truy vấn AWS như Amazon Athena, EMR và Redshift truy cập. Tiếp theo, bạn có thể nhấp để tạo bảng bằng Amazon Athena từ bảng điều khiển S3. Khi ở trong Athena, bạn có thể nhanh chóng bắt đầu điền dữ liệu vào các bảng mới và truy vấn các bảng đó.
Ngoài ra, bạn có thể truy cập Bảng Amazon S3 bằng điểm cuối Danh mục Iceberg REST thông qua Danh mục dữ liệu AWS Glue, cho phép bạn khám phá toàn bộ hệ sinh thái dữ liệu của mình, bao gồm tất cả tài nguyên bảng. Bạn cũng có thể kết nối trực tiếp với điểm cuối của từng vùng lưu trữ bảng để khám phá tất cả tài nguyên Bảng Amazon S3 trong vùng lưu trữ đó. Điều này cho phép bạn sử dụng Bảng Amazon S3 với bất kỳ ứng dụng hoặc công cụ truy vấn nào hỗ trợ đặc tả Danh mục Apache Iceberg REST.