Prepara i tuoi set di dati di allenamento per la messa a punto e il pre-addestramento continuo

Per preparare set di dati di addestramento e convalida per il modello personalizzato, create .jsonl dei file, in cui ogni riga è un oggetto JSON corrispondente a un record. Prima di poter iniziare un lavoro di personalizzazione del modello, è necessario almeno preparare un set di dati di addestramento. I file creati devono essere conformi al formato del metodo e del modello di personalizzazione scelti. I record in esso contenuti devono essere conformi ai requisiti di dimensione in base al modello.

Per informazioni sui requisiti del modello, vedere. Requisiti del modello per i set di dati di formazione e convalida Per visualizzare le quote predefinite applicabili ai set di dati di formazione e convalida utilizzati per personalizzare diversi modelli, consulta la sezione Somma delle quote dei record di formazione e convalida negli endpoint Amazon Bedrock e nelle quote nel. Riferimenti generali di AWS

Il supporto di un set di dati di convalida e il formato del set di dati di formazione e convalida dipendono dai seguenti fattori.

Il tipo di lavoro di personalizzazione di fine tuning (perfezionamento o pre-formazione continua).
Le modalità di input e output dei dati.

Per informazioni sulla regolazione fine dei modelli, vedere Amazon Nova Modelli di regolazione fine. Amazon Nova

Argomenti

Modalità supportate per la messa a punto e la formazione preliminare continua

Le sezioni seguenti descrivono le diverse funzionalità di messa a punto e pre-addestramento supportate da ciascun modello, organizzate in base alle relative modalità di input e output. Per informazioni sulla messa a punto dei modelli, vedere Modelli di messa a puntoAmazon Nova. Amazon Nova

Text-to-Text modelli

Text-to-Text i modelli possono essere ottimizzati per varie attività basate su testo, incluse applicazioni conversazionali e non conversazionali. Per informazioni sulla preparazione dei dati per la messa a punto dei modelli, vedere. Text-to-Text Preparare i dati per la messa a punto dei modelli text-to-text

I seguenti modelli non conversazionali sono ottimizzati per attività come riepilogo, traduzione e risposta a domande:

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct

I seguenti modelli conversazionali sono progettati per interazioni a turno singolo e multiplo. Se un modello utilizza l'API Converse, il set di dati di ottimizzazione deve seguire il formato dei messaggi dell'API Converse e includere messaggi di sistema, utente e assistente. Per alcuni esempi, consulta Preparare i dati per la messa a punto dei modelli text-to-text. Per ulteriori informazioni sulle operazioni dell'API Converse, consulta. Effettua una conversazione con le operazioni dell'ConverseAPI

Haiku antropico di Claude 3
MetaLlama 3.2 1B Instruct(Formato API Converse)
MetaLlama 3.2 3B Instruct(Formato API Converse)
MetaLlama 3.2 11B InstructVision (formato API Converse)
MetaLlama 3.2 90B InstructVision (formato API Converse)

Text-Image-to-Text & Text-to-Image modello s

I seguenti modelli supportano la regolazione fine per la generazione di immagini e l'elaborazione di testo e immagini. Questi modelli elaborano o generano immagini sulla base di input testuali o generano testo in base a input sia testuali che di immagini. Per informazioni sulla preparazione dei dati per la messa a punto e la modellazione dei modelli Text-Image-to-Text, vedere. Text-to-Image Preparare i dati per la messa a punto dei modelli di elaborazione di immagini e testo

Amazon Titan Image Generator G1 V1
MetaLlama 3.2 11B InstructVisione
MetaLlama 3.2 90B InstructVisione

Dall'immagine agli incorporamenti

I seguenti modelli supportano l'ottimizzazione per attività come la classificazione e il recupero. Questi modelli generano rappresentazioni numeriche (incorporamenti) a partire da input di immagini. Per informazioni sulla preparazione dei dati per la messa Image-to-Embeddings a punto dei modelli, vedere. Prepara i dati per ottimizzare la generazione di immagini e i modelli di incorporamento

Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1

Formazione preliminare continua: Text-to-Text

I seguenti modelli possono essere utilizzati per la formazione preliminare continua. Questi modelli supportano la formazione preliminare continua su dati specifici del dominio per migliorare le conoscenze di base. Per informazioni sulla preparazione dei dati per la formazione preliminare continua per i modelli, vedere. Text-to-Text Prepara i set di dati per la formazione preliminare continua

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Modelli e regioni supportati per la messa a punto e la formazione preliminare continua

Requisiti del modello per i set di dati di formazione e convalida