Fonctionnalités de S3 Tables Services connexes

Utilisation d’Amazon S3 Tables et des compartiments de tables

Amazon S3 Tables fournit un stockage S3 optimisé pour les charges de travail d’analytique, avec des fonctionnalités conçues pour améliorer en permanence les performances des requêtes et réduire les coûts de stockage des tables. La solution S3 Tables est spécialement conçue pour stocker des données tabulaires, telles que des transactions d’achat quotidiennes, des données de capteur diffusées en continu ou des impressions publicitaires. Les données tabulaires représentent des données en colonnes et en lignes, comme dans une table de base de données.

Les données figurant dans S3 Tables sont stockées dans un nouveau type de compartiment : un compartiment de tables, qui stocke les tables en tant que sous-ressources. Les seaux de table permettent de ranger les tables dans Apache Iceberg . À l'aide d'instructions SQL standard, vous pouvez interroger vos tables à l'aide de moteurs de requête compatibles Iceberg, tels qu'Amazon Athena, Amazon Redshift et Apache Spark.

Rubriques

Fonctionnalités de S3 Tables

Stockage spécialement conçu pour les tables

Les compartiments de tables S3 sont spécialement conçus pour les tables. Les compartiments de tables offrent un plus grand nombre de transactions par seconde (TPS) et un meilleur débit de requêtes par rapport aux tables autogérées dans les compartiments S3 à usage général. Les compartiments de tables offrent les mêmes durabilité, disponibilité et capacité de mise à l’échelle que les autres types de compartiments Amazon S3.

Support intégré pour Apache Iceberg

Les tables de vos seaux de table sont stockées dans Apache Icebergformat. Vous pouvez interroger ces tables à l'aide du SQL standard dans les moteurs de requête qui prennent en charge Iceberg. Iceberg possède de nombreuses fonctionnalités pour optimiser les performances des requêtes, notamment l'évolution du schéma et l'évolution des partitions.

Avec Iceberg, vous pouvez modifier l'organisation de vos données afin qu'elles puissent évoluer au fil du temps sans avoir à réécrire vos requêtes ou à reconstruire vos structures de données. Iceberg est conçu pour garantir la cohérence et la fiabilité des données grâce à sa prise en charge des transactions. Pour vous aider à corriger des problèmes ou à effectuer des requêtes d’historique, vous pouvez suivre l’évolution des données dans le temps et les restaurer à des versions antérieures.

Optimisation des tables automatisée

Pour optimiser vos tables pour les requêtes, S3 effectue en permanence des opérations de maintenance automatiques, telles que le compactage, la gestion des instantanés et la suppression des fichiers non référencés. Ces opérations améliorent les performances des tables en compactant de petits objets dans des fichiers moins nombreux et plus volumineux. Les opérations de maintenance réduisent également vos coûts de stockage en nettoyant les objets non utilisés. Cette maintenance automatisée rationalise le fonctionnement des lacs de données à grande échelle en réduisant le besoin de maintenance manuelle des tables. Pour chaque table et compartiment de tables, vous pouvez personnaliser les configurations de maintenance.

Gestion des accès et sécurité

Vous pouvez gérer l’accès à la fois aux compartiments de tables et aux tables individuelles à l’aide d’ AWS Identity and Access Management (IAM) et des politiques de contrôle des services dans AWS Organizations. S3 Tables utilise un espace de noms de service différent de celui d’Amazon S3 : l’espace de noms s3tables. Par conséquent, vous pouvez concevoir des politiques spécifiques pour le service S3 Tables et ses ressources. Vous pouvez concevoir des politiques pour accorder l’accès à des tables individuelles, à toutes les tables d’un espace de noms de tables ou à des compartiments de tables entiers. Tous les paramètres de blocage de l’accès public Amazon S3 sont toujours activés pour les compartiments de tables et ne peuvent pas être désactivés.

Intégration aux services AWS d'analyse

Vous pouvez intégrer automatiquement vos compartiments de table Amazon S3 à Amazon SageMaker Lakehouse via la console S3. Cette intégration permet aux services AWS d'analyse de découvrir et d'accéder automatiquement aux données de votre table via le AWS Glue Data Catalog. Après l'intégration, vous pouvez utiliser vos tables à l'aide de services d'analyse tels qu'Amazon Athena, Amazon Redshift QuickSight, etc. Pour plus d'informations sur le fonctionnement de l'intégration, consultezUtilisation d'Amazon S3 Tables avec des services AWS d'analyse.

Services connexes

Vous pouvez utiliser les éléments suivants Services AWS avec les tables S3 pour prendre en charge vos applications d'analyse spécifiques.

Amazon Athena : Athena est un service de requête interactif qui permet d’analyser les données directement dans Amazon S3 à l’aide du langage SQL standard. Vous pouvez également utiliser Athena pour effectuer des analyses de données de manière interactive en utilisant Apache Spark sans avoir à planifier, configurer ou gérer les ressources. Quand tu cours Apache Spark applications sur Athena, vous soumettez Spark codez pour le traitement et recevez les résultats directement.
AWS Glue— AWS Glue est un service d'intégration de données sans serveur qui vous permet de découvrir, de préparer, de déplacer et d'intégrer des données provenant de sources multiples. Vous pouvez l'utiliser AWS Glue pour l'analyse, l'apprentissage automatique (ML) et le développement d'applications. AWS Glue inclut également des outils supplémentaires de productivité et d'exploitation des données pour la création, l'exécution de tâches et la mise en œuvre de flux de travail commerciaux.
Amazon EMR — Amazon EMR est une plate-forme de cluster gérée qui simplifie l'exécution de frameworks de mégadonnées, tels que Apache Hadoop and Apache Spark, AWS pour traiter et analyser de grandes quantités de données.
Amazon Redshift : Amazon Redshift est un service d’entrepôt de données d’une capacité de plusieurs pétaoctets dans le cloud. Vous pouvez utiliser Amazon Redshift Serverless pour accéder aux données et les analyser sans avoir à recourir à toutes les configurations d'un entrepôt de données provisionné. Les ressources sont automatiquement provisionnées et la capacité de l’entrepôt des données est intelligemment mise à l’échelle afin d’offrir des performances rapides, même pour les charges de travail les plus exigeantes et les plus imprévisibles. Vous ne payez pas de frais lorsque l’entrepôt des données est inactif, vous ne payez donc que ce que vous utilisez. Vous pouvez charger des données et commencer à effectuer des requêtes immédiatement dans l’éditeur de requête Amazon Redshift v2 ou dans votre outil d’informatique décisionnelle (BI) préféré.
QuickSight— QuickSight est un service d'analyse commerciale permettant de créer des visualisations, d'effectuer des analyses ad hoc et d'obtenir rapidement des informations commerciales à partir de vos données. QuickSight découvre facilement AWS les sources de données et fournit des performances de requête rapides et réactives à l'aide du moteur de calcul QuickSight ultrarapide, parallèle, en mémoire (SPICE).
AWS Lake Formation— Lake Formation est un service géré qui rationalise le processus de configuration, de sécurisation et de gestion de vos lacs de données. Lake Formation vous aide à détecter vos sources de données, puis à cataloguer, nettoyer et transformer les données. Avec Lake Formation, vous pouvez gérer un contrôle d’accès précis des données de vos lacs de données sur Amazon S3 et de leurs métadonnées dans le AWS Glue Data Catalog.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Opérations d’API des compartiments de répertoires

Didacticiel : Premiers pas avec S3 Tables