Accelerazione della scoperta dei dati con S3 Metadata - Amazon Simple Storage Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accelerazione della scoperta dei dati con S3 Metadata

Amazon S3 Metadata accelera il reperimento dei dati acquisendo automaticamente i metadati per gli oggetti nei bucket per uso generico e memorizzandoli in tabelle Apache Iceberg di sola lettura e completamente gestite che possono essere interrogate. Queste tabelle di sola lettura sono chiamate tabelle di metadati. Quando gli oggetti vengono aggiunti, aggiornati e rimossi dai bucket per uso generico, S3 Metadata aggiorna automaticamente le tabelle di metadati corrispondenti per riflettere le ultime modifiche.

Per impostazione predefinita, S3 Metadata fornisce tre tipi di metadati:

  • I metadati definiti dal sistema, come l'ora di creazione dell'oggetto e la classe di storage

  • Metadati personalizzati, come tag e metadati definiti dall'utente, inclusi durante il caricamento degli oggetti

  • Metadati dell'evento, ad esempio quando un oggetto viene aggiornato o eliminato, e chi Account AWS ha effettuato la richiesta

Per informazioni dettagliate sui dati memorizzati nelle tabelle di metadati, consulta Schema delle tabelle di metadati S3.

Con S3 Metadata, è possibile trovare, memorizzare e interrogare facilmente i metadati per gli oggetti S3 in modo da preparare rapidamente i dati per l'utilizzo nelle analisi aziendali, nel recupero dei contenuti, nell'addestramento di modelli di intelligenza artificiale e machine learning (AI/ML) e altro ancora.

Le tabelle di metadati sono archiviate in bucket di tabelle S3, che forniscono uno storage ottimizzato per i dati tabellari. Per interrogare facilmente i metadati, puoi integrare il tuo table bucket con. AWS Glue Data Catalog Dopo aver integrato il tuo table bucket con AWS Glue Data Catalog, puoi interrogare direttamente le tabelle di metadati con motori di query come Amazon Athena, Amazon EMR, Amazon Apache Spark Redshift e. Trino È inoltre possibile interrogare le tabelle di metadati con qualsiasi altra applicazione che supporti il formato Apache Iceberg. Per creare dashboard dalle tue tabelle di metadati, usa Amazon. QuickSight

Per i prezzi di S3 Metadata, consulta Prezzi di Amazon S3.

Come funzionano le tabelle di metadati

Le tabelle dei metadati sono gestite da Amazon S3 e non possono essere modificate da alcun principale IAM al di fuori di Amazon S3 stesso (è tuttavia possibile eliminare le tabelle di metadati). Di conseguenza, le tabelle dei metadati sono di sola lettura, per garantire che riflettano correttamente il contenuto del bucket.

Per far sì che le tabelle di metadati Apache Iceberg funzionino al meglio, Amazon S3 esegue attività di manutenzione periodica sulle tabelle, come la compattazione e la rimozione dei file non referenziati. Queste attività di manutenzione aiutano a minimizzare i costi di archiviazione delle tabelle di metadati e a ottimizzare le prestazioni delle query. La manutenzione della tabella avviene automaticamente, senza bisogno di opt-in o di una gestione continua da parte dell'utente. Tuttavia, se necessario, è possibile configurare queste attività di manutenzione delle tabelle. Per ulteriori informazioni, consulta Manutenzione dei bucket di tabelle.

Nota

S3 Metadata è progettato per aggiungere continuamente alla tabella dei metadati le modifiche apportate al bucket per uso generico. Ogni aggiornamento crea un'istantanea, nuova versione della tabella dei metadati. A causa della natura di sola lettura della tabella dei metadati, non è possibile eliminare i record della tabella dei metadati. Inoltre, non è possibile utilizzare la funzionalità di scadenza delle istantanee delle tabelle S3 per far scadere le vecchie istantanee della tabella di metadati.

Per ridurre al minimo i costi, è possibile eliminare periodicamente la configurazione delle tabelle di metadati e le tabelle di metadati, per poi ricrearle. Per ulteriori informazioni, consultare Cancellazione di configurazioni delle tabelle di metadati e Cancellazione di tabelle di metadati.

Per generare e memorizzare i metadati degli oggetti in una tabella di metadati gestita da S3, si crea una configurazione della tabella di metadati per il bucket per uso generico. Amazon S3 è progettato per aggiornare continuamente la tabella dei metadati in modo da riflettere le ultime modifiche ai dati finché la configurazione è attiva sul bucket.

Per creare una configurazione di tabelle di metadati, è necessario assicurarsi di disporre delle autorizzazioni AWS Identity and Access Management (IAM) necessarie per creare e gestire tabelle di metadati. Per ulteriori informazioni, consulta Impostazione delle autorizzazioni per la configurazione delle tabelle di metadati. È inoltre necessario creare o specificare un bucket S3 per memorizzare la tabella dei metadati. Questo bucket da tavolo deve trovarsi nella stessa Regione AWS area del bucket per uso generico. Per ulteriori informazioni sulla creazione di bucket di tabelle, consulta Creazione di bucket di tabelle.

Nota

S3 Metadata non si applica agli oggetti già presenti nel bucket per uso generico prima della creazione della configurazione della tabella dei metadati. In altre parole, S3 Metadata acquisisce i metadati solo per gli eventi di modifica (come caricamenti, aggiornamenti e cancellazioni) che si verificano dopo la creazione della configurazione della tabella dei metadati.

Per monitorare gli aggiornamenti della configurazione della tabella dei metadati, si può usare AWS CloudTrail. Per ulteriori informazioni, consulta Azioni a livello di bucket di Amazon S3 tracciate mediante registrazione CloudTrail .