Passer au contenu principal

Amazon S3

Tableaux Amazon S3

Stockez des données tabulaires à grande échelle avec des tables Apache Iceberg entièrement gérées dans Amazon S3

Que sont les tableaux S3 ?

Les tableaux Amazon S3 sont des tables Apache Iceberg entièrement gérées qui automatisent la charge opérationnelle liée à la gestion des lacs de données et des lakehouses. Grâce à des stratégies avancées de compactage et de maintenance, les tableaux S3 optimisent automatiquement les performances des requêtes à mesure que les volumes de données augmentent. Les tableaux S3 fonctionnent avec n’importe quel moteur compatible Iceberg, y compris Apache Spark, Trino, Amazon Athena, Amazon Redshift et d’autres outils tiers, ce qui offre une flexibilité architecturale et constitue le moyen le plus simple de stocker des données tabulaires à grande échelle.

Avantages

    Les tableaux S3 optimisent en permanence les tables Iceberg grâce au compactage, à la gestion des instantanés et à la suppression des fichiers non référencés. La réplication automatique réduit la latence des requêtes pour les équipes distribuées, et Intelligent-Tiering réduit les coûts de stockage jusqu’à 80 %. Par conséquent, les équipes chargées des données peuvent se concentrer sur le développement plutôt que sur la gestion de l’infrastructure.

    Plus les charges de travail augmentent, plus la maintenance et l’optimisation des tables Iceberg sont importantes, et plus il devient difficile de suivre le rythme. Les tableaux S3 maintiennent automatiquement les performances des tables, de sorte que les requêtes restent cohérentes à mesure que vos données augmentent, au lieu de se dégrader. Les données sont soutenues par le stockage le plus durable du cloud, conçu pour offrir par défaut une durabilité de 99,999999999 % (11 neuf) et une disponibilité de 99,99 %.

    Conçues sur la base de la norme ouverte Apache Iceberg, les tableaux S3 garantissent que vos données ne sont jamais verrouillées sur un seul moteur de calcul ou fournisseur. Les tableaux S3 exposent l’API REST du catalogue Iceberg, ce qui leur permet de fonctionner avec des moteurs compatibles Iceberg, notamment Spark, Trino, Flink, Athena, Redshift, Snowflake et d’autres outils tiers, préservant ainsi votre investissement dans les outils existants tout en garantissant une flexibilité à long terme.

    La gestion de la gouvernance et de la sécurité des tableaux Iceberg peut s’avérer complexe et fragmentée. Les tableaux S3 sont des ressources AWS de premier ordre intégrant un contrôle d’accès au niveau de la table, un chiffrement et une gestion du cycle de vie, ce qui élimine la nécessité de gérer les stratégies de compartiment S3 pour chaque table et simplifie la gouvernance dans les environnements analytiques complexes.

    Les tableaux S3 offrent un stockage optimisé pour l’analytique, avec jusqu’à 10 fois plus de transactions par seconde par rapport aux tables Iceberg stockées dans des compartiments S3 à usage général. Grâce à la prise en charge du MCP, les agents d’IA et les LLM peuvent interagir avec les tableaux S3, rendant ainsi possible l’analytique pilotée par l’IA. Les intégrations natives avec les services d’analytique AWS et la compatibilité avec des outils tiers via l’API REST Iceberg permettent aux tableaux S3 d’alimenter les nouveaux flux de travail basés sur l’IA. 

Cas d’utilisation

    Modernisez vos lacs de données en migrant depuis Parquet, Apache Hive ou Hadoop vers des tables Apache Iceberg, ce qui réduit la complexité opérationnelle tout en créant des lacs de données évolutifs et prêts pour l’IA, capables de prendre en charge d’analytique avancée et des charges de travail d’apprentissage en IA/ML.

    En savoir plus

    Diffusez des données directement dans des tables Iceberg à partir de sources telles que des capteurs IoT, des systèmes de transaction et des journaux d’application à l’aide des services de streaming AWS, avec une optimisation automatique en arrière-plan qui permet de consulter les données diffusées en temps quasi réel.

    En savoir plus

    Les tableaux S3 offrent jusqu’à 10 fois plus de transactions par seconde par rapport au stockage des tables Iceberg dans des compartiments à usage général, ce qui les rend parfaitement adaptées aux charges de travail analytiques à grande échelle et aux opérations nécessitant un débit élevé.

     

    Interrogez les données stockées dans les tables Iceberg en langage naturel via le protocole de contextualisation des modèles (MCP), ce qui permet une exploration ad hoc sans expertise SQL. Les tableaux S3 prennent en charge l’accès simultané de plusieurs utilisateurs et assistants IA, avec une optimisation automatique qui maintient les performances des requêtes.

    En savoir plus

Regardez une démonstration

Découvrez les tableaux Amazon S3, pourquoi nous l’avons conçu et comment ils fonctionnent
Regarder maintenant

Partenaires et intégrations

Daft

« Les tableaux Amazon S3 sont le complément parfait à la prise en charge d’Apache Iceberg par Daft. En tirant parti de ses intégrations avec AWS Lake Formation et AWS Glue, nous avons pu étendre sans effort nos fonctionnalités de lecture et d’écriture Iceberg existantes aux tableaux S3 tout en tirant parti de ses performances optimisées. Nous attendons avec impatience l’évolution de ce nouveau service et sommes ravis de fournir la meilleure prise en charge des tableaux S3 pour l’écosystème Python Data Engineering et ML/IA. » 

Sammy Sidhu, PDG et cofondateur, Daft

Missing alt text value

Dremio

« Dremio a le plaisir de soutenir la disponibilité générale des tableaux Amazon S3. En prenant en charge la spécification Apache Iceberg REST Catalog (IRC), les tableaux S3 garantissent une interopérabilité fluide avec Dremio, permettant aux utilisateurs de bénéficier d’un moteur SQL performant capable d’interroger des tables Apache Iceberg gérées dans des compartiments de tableaux S3 optimisés. Cette collaboration renforce l’importance des normes ouvertes dans l’écosystème des lacs, en éliminant la complexité de l’intégration et en accélérant l’adoption par les clients. Grâce aux tableaux Amazon S3 et au support IRC, les entreprises bénéficient de la flexibilité et du choix nécessaires pour créer une architecture Lakehouse unifiée à l’ère de l’IA. »

Rahim Bhojani, directeur technique – Dremio

Missing alt text value

DuckDB Labs

« Les tableaux Amazon S3 s’inscrivent parfaitement dans la vision de DuckDB visant à démocratiser l’analytique des données à l’aide de formats de fichiers ouverts. La collaboration entre AWS et DuckDB Labs nous permet d’étendre encore la prise en charge d’Iceberg dans DuckDB et de développer une intégration fluide avec les tableaux S3. Nous pensons que la logique de batteries partagées de DuckDB et des tableaux S3 se combine en une pile analytique puissante qui peut gérer un large éventail de charges de travail tout en maintenant une barrière d’entrée incroyablement faible. »

Hannes Mühleisen, Chief Executive Officer chez DuckDB Labs

Missing alt text value

HighByte

« Les tableaux Amazon S3 sont une nouvelle fonctionnalité puissante qui optimise la gestion, les performances et le stockage des données tabulaires pour les charges de travail analytiques. L’intégration directe de HighByte Intelligence Hub aux tableaux Amazon S3 permet aux fabricants mondiaux de créer facilement un lac de données transactionnel ouvert pour leurs données industrielles. Les tableaux S3 permettent d’interroger instantanément les données brutes Parquet, ce qui permet aux clients d’envoyer des informations contextualisées de la périphérie vers le cloud pour une utilisation immédiate sans traitement ni transformation supplémentaire. Cela a un impact majeur sur les performances et l’optimisation des coûts pour nos clients communs. »

Aron Semle, Chief Technology Officer chez HighByte

Missing alt text value

PuppyGraph

« Amazon S3 constitue depuis longtemps la base de l’infrastructure de données moderne, et le lancement des tableaux S3 marque une étape importante : Apache Iceberg est sur le point de devenir la norme universelle en matière de données et d’IA. Cette innovation permet aux entreprises de tirer parti de formats de table ouverts performants sur S3, permettant ainsi une analytique multimoteur sans duplication des données. Pour les clients de PuppyGraph, cela signifie qu’ils peuvent désormais exécuter des requêtes orientées graphes en temps réel directement sur leurs données S3, en conservant des informations actualisées et évolutives sans les frais liés à un processus ETL complexe. Nous sommes ravis de participer à cette évolution, en rendant l’analytique de graphes aussi fluide que les données elles-mêmes. »

Weimo Liu, cofondateur et PDG, PuppyGraph

Missing alt text value

RisingWave

« L’intégration de RisingWave avec les tableaux Amazon S3 permet aux organisations d’exploiter de manière transparente les tables Apache Iceberg dans Amazon S3, améliorant ainsi leurs capacités de pipeline de données en streaming. Que vous ingériez des données brutes, les transformiez en temps réel ou réinscriviez les résultats dans S3, RisingWave facilite l’utilisation des tables Iceberg comme une extension naturelle de votre flux de travail. Cette intégration simplifie la gestion des données, réduit la complexité opérationnelle et permet une interopérabilité fluide pour les équipes travaillant avec l’analyse en streaming. »

Rayees Pasha, CPO chez RisingWave Labs

Missing alt text value

Ryft

« L’intégration de Ryft avec les tableaux Amazon S3 permet aux équipes d’exploiter les tables Apache Iceberg comme un lakehouse entièrement autonome. Les clients bénéficient d’une optimisation et d’une gouvernance adaptées à la charge de travail, d’une optimisation et d’un compactage automatisés de la structure des fichiers, d’une conservation et d’une restauration gérées des instantanés, d’une conformité automatisée pour les tables Apache Iceberg et d’une visibilité totale sur leur lakehouse, le tout sur un stockage natif Iceberg. Ensemble, Ryft et les tableaux S3 offrent des requêtes toujours rapides, des coûts de stockage réduits et des opérations fiables sans réglage manuel ni maintenance basée sur des tâches cron. »

Yossi Reitblat, PDG et cofondateur – Ryft

Missing alt text value

Snowflake

« Nous sommes ravis d’apporter la magie de Snowflake aux tableaux Amazon S3. Cette collaboration permet aux clients de Snowflake de lire et de traiter de manière fluide les données stockées dans les tableaux S3 en utilisant leurs configurations Snowflake existantes, éliminant ainsi le besoin de migrations ou de duplications de données complexes. En combinant les capacités d’analytique des performances de pointe de Snowflake avec le stockage efficace des tables Apache Iceberg par les tableaux Amazon S3, les organisations peuvent facilement interroger et analyser les données tabulaires stockées dans Amazon S3. »

Rithesh Makkena, Global Director of Partner Solutions Engineering chez Snowflake

Missing alt text value

Starburst

« Nous sommes ravis de voir Amazon S3 introduire la prise en charge intégrée d’Apache Iceberg avec les tableaux S3, faisant ainsi progresser l’écosystème Iceberg Open Data Lakehouse. Avec les compartiments de tableaux S3, nous sommes impatients de collaborer avec AWS pour aider nos clients communs à tirer parti de la puissance d’un Open Lakehouse, alimenté par Trino optimisé, un moteur MPP SQL open source de premier plan, à travers divers cas d’utilisation de l’analytique et de l’IA aux données d’Amazon S3. » 

Matt Fuller, Vice President, Product, Starburst

Missing alt text value

StreamNative

« Notre intégration avec les tableaux Amazon S3 rend les données en temps réel, prêtes pour l’IA, plus ouvertes et accessibles que jamais. L’architecture leader d’Ursa sur S3 réduit déjà les coûts de stockage, et l’intégration directe avec les tableaux S3 améliore encore les performances et l’efficacité. Dans un monde piloté par l’IA, la gouvernance des données est cruciale. Chez StreamNative, nous nous engageons à aider les entreprises à réduire leur coût total de possession de 90 % tout en leur permettant de créer facilement et à moindre coût des applications basées sur l’IA avec des données gouvernées en temps réel. »

Sijie Guo, PDG et cofondateur, StreamNative

Missing alt text value

Questions fréquentes (FAQ)

    Vous devez utiliser S3 Tables pour disposer d’un moyen simple, performant et économique de stocker des données tabulaires dans Amazon S3. S3 Tables vous permet d’organiser vos données structurées dans des tables, puis d’interroger ces données à l’aide d’instructions SQL standard, pratiquement sans aucune configuration. En outre, S3 Tables offre les mêmes caractéristiques de durabilité, de disponibilité, de capacité de mise à l’échelle et de performance que S3 lui-même, et optimise automatiquement votre stockage pour maximiser les performances des requêtes et minimiser les coûts. Grâce à la classe de stockage Intelligent-Tiering, les tables S3 optimisent automatiquement les coûts en fonction des modèles d’accès, sans impact sur les performances ni surcharge opérationnelle.

    Les tableaux S3 offrent jusqu’à 10 fois plus de transactions par seconde (TPS) par rapport au stockage des tables Iceberg dans des compartiments Amazon S3 à usage général. Les tableaux S3 effectuent automatiquement la compaction des données sous-jacentes afin d’optimiser en permanence vos tableaux pour des performances de requête optimales. En fonction de votre charge de travail et de vos modèles de requêtes, vous pouvez également choisir parmi des stratégies de compactage avancées, telles que le compactage par tri et le compactage par ordre z, afin d’optimiser davantage vos tables. Le compactage par tri organise les données en fonction de colonnes spécifiées afin d’améliorer les performances des requêtes pour les opérations filtrées, tandis que le compactage par ordre z optimise l’organisation des données sur plusieurs dimensions, ce qui le rend idéal lorsque vous devez interroger simultanément des données sur plusieurs colonnes.

    Vous pouvez commencer à utiliser S3 Tables en quelques étapes simples, sans avoir à installer d’infrastructure en dehors de S3. Tout d’abord, créez un compartiment de tables dans la console S3. Lors de la création de votre premier compartiment de tables via la console, l’intégration aux services d’analytique AWS se fait automatiquement, ce qui permet à S3 de renseigner automatiquement tous les compartiments de tables et les tableaux de votre compte et de votre région dans le Catalogue de données AWS Glue. Par la suite, S3 Tables est désormais accessible aux moteurs de requêtes AWS tels qu’Amazon Athena, EMR et Redshift. Vous pouvez ensuite cliquer pour créer un tableau à l’aide d’Amazon Athena depuis la console S3. Une fois dans Athena, vous pouvez rapidement commencer à remplir de nouvelles tables et à les interroger.

    Vous pouvez également accéder à S3 Tables à l’aide du point de terminaison du catalogue REST Iceberg via le Catalogue de données AWS Glue, qui vous permet de découvrir l’intégralité de votre patrimoine de données, y compris toutes les ressources des tables. Vous pouvez également vous connecter directement à un point de terminaison de compartiment de tables individuel pour découvrir toutes les ressources S3 Tables de ce compartiment. Cela vous permet d’utiliser S3 Tables avec n’importe quelle application ou n’importe quel moteur de requête prenant en charge la spécification du catalogue REST Apache Iceberg.