Pubblicata il 21 maggio 2025
Il riassunto è una delle attività di IA più comuni e importanti che utilizzano i modelli linguistici di grandi dimensioni (LLM). I riepiloghi offrono un mezzo fondamentale per comprendere rapidamente contenuti estesi, da articoli lunghi e log di chat densi a numerose recensioni, risparmiando tempo, migliorando la produttività e consentendo di prendere decisioni più rapide e meglio informate.
Esistono molti tipi di riepiloghi, con diversi livelli di dettaglio e aspettative di formattazione. Per soddisfare le aspettative dei vari tipi di riepilogo, Chrome ha collaborato con Google Cloud per migliorare l'output di Gemini Nano.
Abbiamo ottimizzato Gemini Nano con Low Rank Adaptation (LoRA) per migliorare l'esperienza e la qualità dell'output, per tutti gli stili e le lunghezze dei riepiloghi. Inoltre, abbiamo implementato valutazioni automatiche e con valutatore automatico su diversi aspetti della qualità dei riepiloghi, tra cui oggettività, copertura, formato e leggibilità.
Abbiamo visualizzato come si presenta questa differenza nella pratica. Puoi sperimentare questa implementazione e dare un'occhiata a una demo in tempo reale che confronta gli output di Gemini Nano e Gemini Nano con LoRA.
Che cos'è l'API Summarizer?
Spiegazione | Web | Estensioni | Stato di Chrome | Intenzione |
---|---|---|---|---|
MDN | Visualizza | Intent to Ship |
L'API Summarizer condensa i contenuti di testo lunghi in riepiloghi brevi e facili da leggere. L'API è integrata in Chrome e utilizza Gemini Nano per eseguire l'inferenza.
Siti diversi potrebbero richiedere riepiloghi con vari stili e lunghezze. Ad esempio, se hai un sito di notizie, potresti offrire un elenco puntato dei punti chiave dei tuoi articoli. In alternativa, gli utenti che sfogliano le recensioni dei prodotti potrebbero beneficiare di un breve e rapido riepilogo del sentiment delle recensioni. Per dimostrare come funziona, abbiamo riassunto la pagina di Wikipedia sui corgi gallesi impostando la lunghezza su short
.
Tipo di riepilogo | Output |
headline |
## Welsh Corgi: una storia di cani da pastore e reali |
key-points |
* Il Corgi gallese è un piccolo cane da pastore originario del Galles. * Esistono due razze principali: Pembroke e Cardigan Welsh Corgi. * Il Pembroke è più popolare ed è stato associato alla famiglia reale britannica. |
tldr |
Il Corgi gallese, un piccolo cane da pastore con una lunga storia in Galles e nella famiglia reale britannica, è disponibile in due varietà: Pembroke e Cardigan, entrambi noti per i loro musi simili a quelli delle volpi, le zampe corte e l'istinto di pastore. |
teaser |
Scopri la storia del Corgi gallese, dalle sue umili origini come cane da pastore per i contadini gallesi alla sua ascesa come simbolo della famiglia reale britannica. |
Puoi fare esperimenti con altre pagine utilizzando la Summarizer API Playground.
Sperimenta con la messa a punto fine
Il perfezionamento è disponibile solo come flag in Chrome Canary, a partire dalla versione 138.0.7180.0
. Per utilizzare questo modello:
- Apri Chrome Canary.
- Vai a
chrome://flags/#summarization-api-for-gemini-nano
- Seleziona Attivata con adattamento.
- Riavvia il browser.
- Apri la console di DevTools e inserisci
Summarizer.availability()
. Viene avviato il download del LoRA supplementare.
Al termine del download, puoi iniziare a fare esperimenti.
Valutazione delle prestazioni del riepilogatore
Abbiamo misurato il miglioramento delle prestazioni di Gemini Nano ottimizzato principalmente utilizzando due metodi di valutazione, automatico e autorater. La messa a punto consente a un modello di eseguire meglio attività specifiche, ad esempio:
- Tradurre meglio il testo medico.
- Genera immagini in uno stile artistico specifico.
- Capire un nuovo gergo.
In questo caso, volevamo soddisfare meglio le aspettative di ciascun tipo di riepilogo.
Valutazione automatica
La valutazione automatica utilizza un software per giudicare la qualità dell'output di un modello. Abbiamo utilizzato questa tecnica per cercare errori di formattazione, ripetizione di frasi e presenza di caratteri non inglesi nei riepiloghi dell'input in inglese.
Errori di formattazione: controlliamo se le risposte di riepilogo rispettano le istruzioni di formattazione del prompt. Ad esempio, per lo stile di punti chiave brevi, verifichiamo se ogni elenco puntato inizia con un asterisco (
*
) e che il numero di elenchi puntati non superi i 3.Ripetizione di frasi: controlliamo se la stessa frase viene ripetuta in una singola risposta di riepilogo, in quanto indica una risposta di scarsa qualità.
Caratteri non inglesi: controlliamo se la risposta include caratteri non inglesi quando l'input deve essere in inglese.
Link ipertestuale nell'output: viene controllato se la risposta contiene link ipertestuali in formato Markdown o in testo normale che non esistono nell'input.
Abbiamo valutato due stili di input: articoli estratti e log di chat.
Titolo | TLDR | Key-Points | Teaser | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Errori di formato | 13,54% / 7,05% | 41,07% / 4,61% | 12,58% / 6,36% | 51,17% / 6,74% |
Ripetizione di frasi | 0,07% / 0,07% | 0,21% / 0,0% | 0,10% / 0,10% | 0,10% / 0,03% |
Errori in lingue diverse dall'inglese | 3,95% / 0,03% | 1,38% / 0,0% | 2,41% / 0,03% | 1,44% / 0,0% |
Link ipertestuali | 0,07% / 0,0% | 0,14% / 0,0% | 0,14% / 0,0% | 0,34% / 0,0% |
Headline | TLDR | Key-Points | Teaser | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Errore di formato | 13,17% / 0,24% | 22,92% / 0,18% | 4,43% / 0,09% | 29,64% / 3,51% |
Ripetizione di frasi | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,03% / 0,0% |
Errore in lingua diversa dall'inglese | 0,15% / 0,0% | 0,15% / 0,0% | 0,03% / 0,0% | 0,06% / 0,0% |
Link ipertestuali | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% |
Dopo aver perfezionato Gemini Nano, abbiamo registrato una significativa riduzione del tasso di errore del formato in diversi tipi di riepilogo, sia per gli articoli che per i log di chat.
Valutazione dello strumento di valutazione automatica
Abbiamo utilizzato Gemini 1.5 Pro per la valutazione dell'autovalutatore, per giudicare la qualità dell'output di Gemini Nano. Poiché ogni riepilogo ha uno scopo diverso, i criteri e il valore dei criteri erano diversi per i diversi tipi di riepilogo. Tutti i tipi di riepilogo sono stati valutati per:
- Copertura: il riepilogo rispecchia con precisione lo scopo essenziale dell'input?
- Oggettività: il riepilogo è veritiero? Il riassunto introduce nuove informazioni non esplicitamente dichiarate o implicite nel testo?
- Formato: il riepilogo è formattato con sintassi Markdown valida? Il riepilogo rispetta la lunghezza massima delle frasi, come richiesto?
- Chiarezza: il riepilogo è ripetitivo? Il riepilogo trasmette con precisione il messaggio principale con il minor numero possibile di parole?
Poiché questi tipi di riepilogo hanno scopi diversi, a tipi di riepilogo specifici si applicano metriche aggiuntive:
- Coinvolgimento: (
headline
): il riepilogo è immediatamente comprensibile per un pubblico generale? Il riepilogo utilizza un tono coinvolgente e accattivante per un pubblico generale? - Concisione (
tldr
): il riassunto è chiaro, conciso e immediatamente comprensibile per una persona con un'attenzione molto breve? Riassume efficacemente il messaggio principale in una forma facilmente comprensibile per una lettura rapida? - Stimolo (
teaser
): il riepilogo suscita efficacemente curiosità e invita il lettore a voler saperne di più leggendo il testo integrale? Utilizza un linguaggio coinvolgente e che suggerisce contenuti interessanti?
Abbiamo confrontato l'output del modello base e del modello con LoRa, affiancati, utilizzando lo strumento di valutazione automatica. I punteggi dell'autoregolatore sono stati mediati tra 0 e 1, valore poi valutato in base al valore di soglia.
Per garantire un risultato ben fondato, abbiamo ridotto la varianza dei dati e attenuato il bias di posizione.
- Riduzione della varianza dei dati: abbiamo calcolato la media dei punteggi di tre output indipendenti per input, poiché le esecuzioni indipendenti possono avere risultati leggermente diversi. Abbiamo calcolato la media delle uscite sia per il modello di base sia per Gemini Nano ottimizzato. Anche se le differenze nei punteggi tra i vari output erano solo leggermente diverse, le medie ci aiutano a comprendere in modo più affidabile grandi insiemi di dati.
Ridurre il pregiudizio di posizione: per evitare di dare la preferenza al valore del riepilogo condiviso per primo con il valutatore, abbiamo valutato i risultati due volte, poi abbiamo calcolato la media dei punteggi finali.
- Abbiamo valutato il modello con LoRA, quindi il modello di base.
- Poi abbiamo annullato l'ordine. Abbiamo valutato il modello di base, seguito dal modello con LoRA.
- Abbiamo calcolato la media dei punteggi finali.
Breve Medio Lunga Base / con LoRA Base / con LoRA Base / con LoRA LoRA first 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95% Modello di base in primo piano 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35% Versione C (media) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65% Tasso di conversione per il tipo di riepilogo key-points
. Valori più alti corrispondono a risultati migliori.
Sebbene la differenza nel punteggio per gli output dello stesso modello fosse solo leggermente diversa, le medie ci aiutano a comprendere in modo più affidabile grandi set di dati.
Su 500 articoli, Gemini Nano ottimizzato ha avuto un rendimento significativamente migliore rispetto al modello di base.
Headline | TLDR | Key-Points | Teaser | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Breve | 74,74% / 89,12% | 55,76% / 89,50% | 71,02% / 89,18% | 53,47% / 87,14% |
Media | 73,10% / 87,89% | 41,82% / 81,21% | 69,59% / 84,08% | 48,98% / 86,74% |
Lungo | 60,99% / 89,32% | 50,51% / 84,85% | 63,47% / 82,65% | 62,65% / 87,55% |
Lo stesso è accaduto nella nostra valutazione di 500 log di chat: Gemini Nano ottimizzato ha superato il modello di base.
Headline | TLDR | Key-Points | Teaser | |
Base / con LoRA | Base / con LoRA | Base / con LoRA | Base / con LoRA | |
Breve | 70,59% / 96,15% | 66,27% / 97,79% | 81,60% / 97,40% | 67,48% / 96,14% |
Medio | 76,67% / 95,13% | 56,02% / 94,98% | 82,60% / 97,20% | 50,41% / 96,95% |
Lunga | 59,03% / 94,32% | 65,86% / 95,58% | 75,00% / 97,60% | 70,94% / 97,16% |
Questi risultati dimostrano che il nostro perfezionamento ha migliorato la qualità complessiva del riepilogo.
Riepiloghi migliori con LoRa
Tradizionalmente, l'ottimizzazione viene eseguita regolando i parametri del modello. I modelli di IA moderna sono enormi, quindi questa operazione è lenta, costosa e richiede lo stoccaggio di una copia nuova di zecca del modello.
Invece di modificare tutti i parametri, che ne dici di aggiungere piccoli elementi aggiuntivi che indirizzino il modello nella direzione che vogliamo? Le loro dimensioni ridotte consentono un addestramento molto più rapido. Questo è il principio fondamentale dell'adattamento a basso ranking (LoRA). Con LoRA, alcuni componenti del modello rimangono invariati, spesso definiti come blocco dei parametri. Viene poi introdotto un insieme di dati più piccolo con piccole correzioni, concentrando gli sforzi di addestramento su questi elementi aggiunti.
In genere, infatti, puoi addestrare anche solo il 2% dei parametri originali con LoRa e comunque notare cambiamenti significativi nei risultati.
Perché funziona? Molti comportamenti (ad esempio nuovi stili, attività o conoscenze) possono essere incorporati senza modificare ogni parametro del modello. Queste modifiche possono essere expressed as small patterns or directions within the model's existing knowledge. LoRA acquisisce in modo efficiente questi pattern senza modificare il modello originale.
Dai un'occhiata ad alcuni esempi che confrontano il modello di base Gemini Nano con i risultati dopo l'aggiunta di LoRA.
Abbiamo chiesto a Gemini Nano di creare un breve titolo che "catturi l'attenzione e comunichi l'essenza dei contenuti" nell'articolo di Wikipedia sul Parco nazionale del Joshua Tree.
Gemini Nano | Gemini Nano con LoRA |
Il paesaggio e la storia unici del Parco nazionale del Joshua Tree | Joshua Tree: il parco nazionale in California a cavallo tra i deserti e sede di alberi iconici |
Poi abbiamo chiesto a Gemini Nano di creare un breve teaser per l'articolo su Ratatouille. "Scrivi una sola frase invitante che incoraggi gli utenti a leggere il testo completo."
Gemini Nano | Gemini Nano con LoRA |
La ratatouille è un amato piatto provenzale francese a base di verdure in umido, spesso con pomodori e aglio. Le sue origini risalgono al XVIII secolo e la sua preparazione si è evoluta nel tempo, con alcuni chef che mettono in risalto i sapori delle singole verdure, mentre altri preferiscono una consistenza più uniforme e più morbida. Oltre alle sue origini francesi, la ratatouille ha ispirato piatti simili in varie cucine di tutto il mondo, tra cui la piperade della Spagna e il tian del Mediterraneo. Il film "Ratatouille" (2007) ha contribuito a far conoscere ulteriormente il piatto, mettendo in evidenza la sua versatilità culinaria e la sua risonanza emotiva. | La ratatouille, un piatto provenzale francese di verdure in umido, ha una ricca storia culinaria, che si è evoluta da un semplice stufato a un capolavoro culinario moderno che ha affascinato il pubblico di tutto il mondo. |
Demo sull'inferenza in tempo reale
Abbiamo creato un'interfaccia che mostra il confronto degli output tra Gemini Nano e Gemini Nano con LoRA.
Abbiamo chiesto a Gemini Nano di creare un riepilogo tldr
con una lunghezza di short
per l'articolo sul
pesce luna. Ricorda
che tldr
e short
richiedono una risposta in una frase "di facile lettura".
Grazie all'implementazione della messa a punto fine, Gemini Nano può generare meglio un riepilogo che segue le istruzioni specifiche.
Coinvolgere e condividere feedback
Non vediamo l'ora di ricevere il tuo feedback su come i tuoi riepiloghi sono stati interessati dal perfezionamento di Gemini Nano.
- Fai esperimenti con il modello aggiornato in Chrome Canary.
- Scopri di più sull'API Summarizer.
- Se hai un feedback sull'implementazione di Chrome, invia una segnalazione di bug o una richiesta di funzionalità.
Scopri tutte le API di IA integrate che utilizzano modelli, inclusi i modelli linguistici di grandi dimensioni, nel browser.
-
Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out, pagine 74-81, Barcellona, Spagna. Association for Computational Linguistics. ↩
-
Kishore Papineni, Salim Roukos, Todd Ward e Wei-Jing Zhu. 2002. BLEU: un metodo per la valutazione automatica della traduzione automatica. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter, Naman Bansal e Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. In Findings of the Association for Computational Linguistics: ACL 2022, pagine 1547-1560, Dublino, Irlanda. Association for Computational Linguistics. ↩
-
Daniel Deutsch e Dan Roth. 2021. Informazioni sul grado in cui le metriche sulla qualità dei contenuti misurano la qualità delle informazioni dei riepiloghi. In Proceedings of the 25th Conference on Computational Natural Language Learning, pagine 300-309, online. Association for Computational Linguistics. ↩