Trabalhar com a funcionalidade Tabelas do Amazon S3 e com buckets de tabela
A funcionalidade Tabelas do Amazon S3 fornece armazenamento do S3 otimizado para workloads de analytics, com recursos projetados para melhorar continuamente a performance das consultas e reduzir os custos de armazenamento de tabelas. A funcionalidade Tabelas do S3 foi criada especificamente para armazenar dados tabulares, como transações de compras diárias, dados de sensores de streaming ou impressões de anúncios. Os dados tabulares representam dados em colunas e linhas, como em uma tabela de banco de dados.
Os dados na funcionalidade Tabelas do S3 são armazenados em um novo tipo de bucket: um bucket de tabela, que armazena tabelas como sub-recursos. Os buckets de tabela oferecem suporte ao armazenamento de tabelas no formato Apache Iceberg. Usando instruções SQL padrão, você pode consultar as tabelas com mecanismos de consulta compatíveis com Iceberg, como Amazon Athena, Amazon Redshift e Apache Spark.
Tópicos
Recursos da funcionalidade Tabelas do S3
- Armazenamento de tabelas com propósito específico
-
Os buckets de tabela do S3 são projetados especificamente para tabelas. Os buckets de tabela fornecem quantidades mais altas de transações por segundo (TPS) e melhor throughput de consultas em comparação com as tabelas autogerenciadas em buckets de uso geral do S3. Os buckets de tabela oferecem a mesma durabilidade, disponibilidade e escalabilidade de outros tipos de bucket do Amazon S3.
- Suporte integrado para o Apache Iceberg
-
As tabelas nos buckets de tabela são armazenadas no formato Apache Iceberg
. Você pode consultar essas tabelas usando SQL padrão em mecanismos de consulta compatíveis com Iceberg. O Iceberg tem uma variedade de recursos para otimizar a performance das consultas, incluindo evolução de esquemas e evolução de partições. Com o Iceberg, você pode alterar a maneira como os dados são organizados para que possam evoluir com o tempo sem que precise reescrever as consultas ou reconstruir as estruturas de dados. O Iceberg foi projetado para ajudar a garantir a consistência e a confiabilidade dos dados por meio de suporte às transações. Para ajudar você a corrigir problemas ou realizar consultas de viagem no tempo, é possível acompanhar como os dados mudam ao longo do tempo e reverter para versões históricas.
- Otimização automatizada de tabelas
-
Para otimizar as tabelas para consulta, o S3 executa continuamente operações automáticas de manutenção, como compactação, gerenciamento de snapshots e remoção de arquivos não referenciados. Essas operações aumentam a performance da tabela ao compactar objetos menores em menos arquivos maiores. As operações de manutenção também reduzem os custos de armazenamento ao limpar objetos não utilizados. Essa manutenção automatizada simplifica a operação de data lakes em grande escala, reduzindo a necessidade de manutenção manual das tabelas. Para cada tabela e bucket de tabela, você pode personalizar as configurações de manutenção.
- Gerenciamento de acesso e segurança
-
Você pode gerenciar o acesso tanto para buckets de tabela quanto para tabelas individuais com o AWS Identity and Access Management (IAM) e as políticas de controle de serviço no AWS Organizations. A funcionalidade Tabelas do S3 usa um namespace de serviço diferente do Amazon S3: o namespace s3tables. Portanto, é possível criar políticas especificamente para a funcionalidade Tabelas do S3 e seus recursos. Você pode criar políticas para conceder acesso a tabelas individuais, a todas as tabelas em um namespace de tabelas ou a buckets de tabela inteiros. Todas as configurações da funcionalidade Bloqueio de Acesso Público do Amazon S3 estão sempre habilitadas para buckets de tabela e não podem ser desabilitadas.
- Integração com os serviços de analytics da AWS
-
É possível integrar automaticamente os buckets de tabela do Amazon S3 ao Amazon SageMaker Lakehouse por meio do console do S3. Essa integração permite que os serviços de analytics da AWS descubram e acessem dados de tabela automaticamente por meio do AWS Glue Data Catalog. Depois da integração, é possível trabalhar com as tabelas usando serviços de analytics, como o Amazon Athena, o Amazon Redshift, o QuickSight e outros. Para ter mais informações sobre como a integração funciona, consulte Usar tabelas do Amazon S3 com serviços de analytics da AWS.
Serviços relacionados
Você pode usar os Serviços da AWS a seguir com a funcionalidade Tabelas do S3 para oferecer suporte a aplicações de analytics específicas.
-
Amazon Athena: o Athena é um serviço de consultas interativas que você pode usar para analisar dados no Amazon S3 usando SQL padrão. Você também pode usar o Athena para executar análises de dados de maneira interativa usando o Apache Spark sem a necessidade de planejamento, configuração ou gerenciamento de recursos. Ao executar aplicações do Apache Spark no Athena, você envia o código Spark para processamento e recebe os resultados de forma direta.
-
AWS Glue: o AWS Glue é um serviço de integração de dados com tecnologia sem servidor que permite que você descubra, prepare, migre e integre dados de várias fontes. Você pode usar o AWS Glue para analytics, machine learning (ML) e desenvolvimento de aplicações. O AWS Glue também inclui outras ferramentas de produtividade e operações de dados para criação, execução de trabalhos e implementação de fluxos de trabalho de negócios.
-
Amazon EMR: o Amazon EMR é uma plataforma de cluster gerenciada que simplifica a execução de frameworks de big data, como Apache Hadoop e Apache Spark, na AWS a fim de processar e analisar grandes volumes de dados.
-
Amazon Redshift: o Amazon Redshift é um serviço de data warehouse na escala de petabytes na nuvem. Você pode usar o Amazon Redshift sem servidor para acessar e analisar dados sem todas as configurações de um data warehouse provisionado. Os recursos são provisionados automaticamente e a capacidade do data warehouse escala de maneira inteligente para oferecer performance rápida até mesmo às workloads mais exigentes e imprevisíveis. O tempo em que o data warehouse fica ocioso não é cobrado, portanto você paga apenas pelo que usa. Você pode carregar dados e começar a consultar imediatamente no editor de consultas v2 do Amazon Redshift ou na sua ferramenta de business intelligence (BI) favorita.
-
QuickSight: o QuickSight é um serviço de analytics de negócios para criar visualizações, executar análises ad hoc e extrair rapidamente insights dos dados. O QuickSight descobre facilmente as fontes de dados da AWS e oferece uma performance de consultas rápida e responsiva usando o SPICE (mecanismo de cálculo superrápido, paralelo e em memória) do QuickSight.
-
AWS Lake Formation: o Lake Formation é um serviço gerenciado que simplifica o processo de configuração, proteção e gerenciamento de data lakes. O Lake Formation ajuda a descobrir suas fontes de dados para catalogar, limpar e transformar os dados. Com o Lake Formation, você pode gerenciar um controle de acesso refinado para os dados de um data lake no Amazon S3 e seus metadados no AWS Glue Data Catalog.