TRADUZIONE AUTOMATICA E POST-EDITING
Disclaimer
Traduzione automatica – 1
• La situazione attuale
• Modelli di traduzione automatica: principali differenze
• Uso della traduzione automatica
La situazione attuale
Traduzione automatica
La situazione attuale
• La traduzione automatica è una realtà
• Tecnologia matura
• Opposizione di linguisti, docenti, professionisti e imprenditori
• La traduzione automatica è uno strumento di traduzione
• La conoscenza aumenta la fiducia e migliora l’uso e lo strumento
Sondaggio di Common Sense Advisory
Chi di voi…?
Modelli
Traduzione automatica
Analisi
morfologica
Analisi
sintattica
Analisi
semantica
Analisi
morfologica
Analisi
sintattica
Analisi
semantica
Testo sorgente
Testo d’arrivo
Knowledge base
Analisi contrastiva
Traduzione umana
Modelli di traduzione automatica
Sistemi a regole
(RbMT)
Traduzione diretta o
per unità
Traduzione a
interlingua
Traduzione sintattica o
T-sistemi
Sistemi
probabilistici/stocastici
(data driven)
Traduzione automatica
a esempi
(EbMT)
Traduzione automatica
statistica
(SMT)
Modelli a regole (RbMT)
• Traduzione diretta o per unità
• Ogni unità testuale è analizzata e scomposta dal punto di vista morfologico fino a
individuare il suo corrispondente diretto nella lingua di arrivo
• Traduzione sintattica
• Basata sull’analisi morfosintattica, il trasferimento della struttura sintattica della lingua di
partenza in quella di arrivo e la rigenerazione
• Traduzione a interlingua
• Il passaggio da una lingua ad un’altra è filtrato dalla presenza di una rappresentazione
intermedia secondo una serie di livelli astratti di rappresentazione morfologica,
sintattica e semantica
Caratteristiche dei modelli a regole
• Approccio analitico
• Rappresentazione grammaticale della lingua
• Assoluta dipendenza dai dizionari bilingue
Criticità della RbMT
• Pronomi personali, pronomi dimostrativi, aggettivi possessivi,
anafore
• Testi dialogici
• Polirematiche e collocazioni
• Espressioni idiomatiche
• Disambiguazione
Modelli probabilistici
• Traduzione a esempi
• Approccio basato sull’accesso a corpora paralleli per rilevare strutture già tradotte da
utilizzare come “calchi”
• Traduzione statistica
• Uso di parametri statistici per l’attribuzione dell’ordine delle parole e del migliore
candidato per la traduzione per confronto di candidati simili nei corpora di riferimento
Traduzione a esempi (EbMT)
• Corpus bilingue
• Riscontro di analogie
• Combinazione di segmenti
• Approssimazione
• Algoritmi di fuzzy matching
• Strategia empirica
• Criterio probabilistico
• Analisi statistica delle collocazioni all’interno dei segmenti e di questi nel corpus
• Calcolo a forza bruta
Modelli di apprendimento
• Traduttivo
• Parole, sequenze e collocazioni con la maggiore probabilità di corrispondenza
nel corpus della lingua di destinazione
• Monolingue
• Maggiore probabilità di corrispondenza nelle combinazioni
Problemi di EbMT e SMT
• Corpora paralleli
• Analisi difficoltosa
• Le difficoltà aumentano al crescere dei corpora
• Memorie di traduzione invece dei corpora
• Accurata segmentazione
• Problemi di allineamento
• Nonsense – Word salad
• Disambiguazione
• Espressioni idiomatiche
Modelli ibridi
• Combinazione di sistemi a regole e statistici
• Campo sempre in evoluzione
MTM (MT + TM)
• Ambiente CAT con connettori a diversi motori specialistici e non
• Trados
• MemoQ
• Memsource
• Smartling
• MateCAT
• SmartCAT
• WordFast
• XTM
MTM (MT + TM)
MTM (MT + TM)
Langue&parole   traduzione automatica e post-editing 2015 finale
Principali fornitori di tecnologia MT
• Asiaonline
• KantanMT
• Tauyou
• Microsoft
• Globalese
• Sovee
• Pangea MT
• LetsMT (Tilde)
• CrossLang
• Iconic Machine
• SDL BeGlobal
• SDL XMT
• SDL Language Cloud
• Demo – registrazioni di webinar disponibili sul sito TAUS [www.taus.net]
Uso della traduzione automatica
Traduzione automatica
Come usare la traduzione automatica
Unrestricted
texts
High
quality
Restricted input
Low quality
Impractical
Interactive
Fully
automatic
Obiettivi
• Utilità
• Leggibilità
• Precisione e accuratezza
• Usabilità
• Accessibilità
• Problem solving
• Informativo
• Coerenza
• Sicurezza
• Stile
Applicazioni della traduzione automatica
• eSolution
• Produttività
• Intelligence
• Comunicazioni
Brand
Marketing
Interfacce utente
Documentazione utente
Assistenza e supporto
Documentazione interna
Messaggistica
User Generated Content
Nuovi mercati
Mercati tradizionali
Traduzione automatica
Traduzione umana
Adozione della traduzione automatica
Motore interno
• Possibile integrazione in
ambiente di produzione
• Alto TCO
• Hardware, software e personale
dedicati
• Elevata incidenza sui ricavi
• Ampia personalizzazione
• Competenze specifiche
• Connettori
• TMS
• CAT
Motore esterno
• Difficile integrazione in
ambiente di produzione
• Ridotto TCO
• Manutenzione semplificata
• Bassa incidenza sui ricavi
• Ridotta flessibilità
• Maggiori costi di integrazione e
personalizzazione
• Problemi di confidenzialità
Langue&parole   traduzione automatica e post-editing 2015 finale
Risorse
Philip Koehn, Statistical Machine Translation – Capitoli 1, 6, 8
ONLINE
Letture
• ALPAC report: http://www.nap.edu/openbook.php?record_id=9547
• TAUS http://www.taus.net
• Mary Hearne and Andy Way, Statistical Machine Translation: A guide
for linguists and translators
http://www.computing.dcu.ie/~away/CA446/SMTforLinguists.pdf
Motori generali disponibili online
• Babelfish https://www.babelfish.com/
• Systran http://www.systranet.com/translate/
• Google https://translate.google.com/
• Bing https://www.bing.com/translator/
• Free ProMT http://www.online-translator.com/
• Free LetsMT https://readymt.tilde.com/
Linguaggi controllati e pre-editing
Traduzione automatica
- Che cos’è il pre-editing?
- Che cosa sono i linguaggi controllati?
• Controlled languages or Controlled natural languages (CNL)
are natural languages adapted specifically to machine
translation systems with a purposefully limited set of lexical
items and applicable grammatical and syntactic structures.
• Fonte: Knowledge Base di TAUS
• Ideale per favorire la comprensione di un testo
• Ideale per una migliore qualità della traduzione automatica
CLOUTTM
• Scrivere per tradurre
• CLOUT - Controlled Language Optimized for Uniform Translation.
• Regole sviluppate dal Prof. Uwe Muegge.
CLOUTTM
• Controlled Language Rule 1:
• Write sentences that are shorter
than 25 words
• Controlled Language Rule 2:
• Write sentences that express only
one idea.
• Controlled Language Rule 3:
• Write the same sentence if you want
to express the same content.
• Controlled language rule 4:
• Write sentences that are
grammatically complete.
• Controlled language rule 5:
• Write sentences that have a
simple grammatical structure.
• Controlled language rule 6:
• Write sentences in the active
form.
CLOUTTM
• Controlled language rule 7:
• Write sentences that repeat the
noun instead of using a pronoun.
• Controlled language rule 8:
• Write sentences that use articles to
identify nouns.
• Controlled language rule 9:
• Write sentences that use words
from a general dictionary.
• Controlled language rule 10:
• Write sentences that use only
words with correct spelling.
Vantaggi e svantaggi
Esperimento
• Write sentences that are shorter than
25 words.
• Write:
• The author performs the following
tasks:
• Collect the necessary information.
• Analyze and evaluate the information.
• Write a structured draft.
• Do not write:
• Authors will approach any writing
project by collecting the necessary
information first, and after carefully
analyzing and evaluating it, they will
create a structured draft.
• Scrivere frasi che sono più corti di
25 parole.
• Scrivi:
• L'autore svolge i seguenti compiti:
• Raccogliere le informazioni
necessarie.
• Analizzare e valutare le
informazioni.
• Scrivi un progetto strutturato.
• Non scrivere:
• Gli autori potranno rivolgersi a
qualsiasi progetto di scrittura
attraverso la raccolta delle
informazioni necessarie prima, e
dopo un'attenta analisi e la
valutazione di esso, si creerà un
progetto strutturato.
Bibliografia
• CLOUT - http://www.muegge.cc/controlled-language.htm
• Cristina Valenza, Linguaggi controllati. Il caso italiano:
http://www.libreriauniversitaria.it/tesi/autore/valenza-cristina.htm
(tesi di laurea)
Simplified English
• A closer look at STE: http://www.tcworld.info/rss/article/a-close-
look-at-simplified-technical-english/
• Multilingual, 2009, Writing for Translation:
https://www.multilingual.com/downloads/screenSupp107.pdf
Post-editing
Traduzione automatica
• A process of modification rather than revision. (Loffler‐Laurian 1985)
• The correction of machine translation output by human
linguists/editors. (Veale and Way 1997)
• Repairing texts. (Krings, 2001)
• The process of checking the output of a machine translation program
for errors and making appropriate amendments.
(Mossop, 2001)
• To edit, modify and/or correct pre-translated text that has been
processed by an MT system from a source language into (a) target
language(s). (Allen, 2003)
• The process of improving a machine‐generated
translation with a minimum of manual labor. (TAUS, 2010)
Fonte: Sharon O’Brien, Ana Guerberof Arenas
Definizione di post‐editing
• Il PEMT sostituisce di fatto le due fasi principali del TEP
• PEMT e revisione sono due attività distinte, affini, ma non simili
• Diverso impegno
• Revisione  analisi contrastiva, sforzo cognitivo
• PEMT  rapidità
• Competenze diverse
• Revisione  coppia linguistica, traduzione, dominio
• PEMT  dominio, lingua di arrivo, traduzione automatica
Post-editing e TEP
Prerequisiti
(rispetto alla traduzione)
• Maggiore produttività
• Maggiore rapidità
• Minore digitazione
• Minori ricerche
Impegno richiesto
• Metodo
• A regole
• Dizionario
• Regole
• Livello di personalizzazione
• A dati
• Qualità dell’originale
• Dati linguistici
• Volume
• Dominio
• Tecnologia
• Tecnologie diverse potrebbero presentare limitazioni
nell’uso con strumenti diversi
• Coppia
• I risultati con combinazioni diverse non sono tra loro confrontabili
• Tipologia testuale
• Dominio
• Metodo di traduzione automatica
• A regole
• Parole e termini errati
• Combinazioni errate
• Mancata disambiguazione
• A dati
• Parole mancanti
• Capitalizzazione
• Punteggiatura
• Scarsa fluidità
Problemi nel post-editing
Tipi di post-editing
• Convenzionale
• Interattivo
• ISO/DIS 18587 - un caso a parte
• Gist
• Leggero (Light post-editing / Rapid post-editing)
• Traduzione accettabile (comprensibile
• Completo (Full post-editing)
• Addestramento del motore
• Finale
• Traduzione finita
Livelli di post-editing
Esempi di livelli di post-editing
• Originale inglese
• According to the privileges that have been set for each metadata, a
maximum of four sections can be consulted, as shown below.
• MT raw output
• Secondo i privilegi impostati per ciascuna metadata, un massimo di
quattro sezioni può essere consultato, come mostrato di seguito
• Light/Rapid post-editing
• Secondo i privilegi impostati per ciascuno dei metadati, un massimo
di quattro sezioni può essere consultato, come mostrato di seguito.
• Full post-editing
• A seconda dei privilegi impostati per ciascuno dei metadati, è
possibile consultare un massimo di quattro sezioni, come riportato
di seguito.
Esempi di livelli di post-editing
• Originale in inglese
The system provides a broad community of users with easy and timely
access to available spatial data and thematic maps from
multidisciplinary sources, that may in the end support informed
decision making.
• MT raw output
Il sistema fornisce una vasta comunita di utenti con accesso facile e
tempestivo ai dati territoriali disponibili e cartine tematiche da fonti
multidisciplinari, che possono nel supporto end informato processo
decisionale.
Esempi di livelli di post-editing
• MT raw output
Il sistema fornisce una vasta comunita di utenti con accesso facile e
tempestivo ai dati territoriali disponibili e cartine tematiche da fonti
multidisciplinari, che possono nel supporto end informato processo
decisionale.
• Light/Rapid Post-editing
Il sistema fornisce a una vasta comunità di utenti un accesso facile e
tempestivo ai dati territoriali disponibili e cartine tematiche da fonti
multidisciplinari, a supporto di un informato processo decisionale.
• Full post-editing
Il sistema permette a una vasta comunità di utenti di accedere in modo
facile e tempestivo ai dati territoriali disponibili e a cartine tematiche
provenienti da fonti multidisciplinari, per consentire di assumere
decisioni informate.
Esempi di livelli di post-editing
• Originale inglese
At that moment it was decided to develop the program as a Free and
Open Source Software to allow the whole geospatial users community
to benefit from the development results and to contribute to the
further advancement of the software.
• MT raw output
In quel momento si e deciso di sviluppare il programma come Source
Software Libero e Open per consentire l'intera comunita di utenti
geospaziali di beneficiare dei risultati di sviluppo e contribuire
all'ulteriore avanzamento del software.
Esempi di livelli di post-editing
• MT raw output
In quel momento si e deciso di sviluppare il programma come Source Software
Libero e Open per consentire l'intera comunita di utenti geospaziali di
beneficiare dei risultati di sviluppo e contribuire all'ulteriore avanzamento del
software.
• Light/Rapid post-editing
In quel momento, si è deciso di sviluppare il programma come software libero
e open source per consentire all'intera comunità di utenti geospaziali di
beneficiare dei risultati dello sviluppo e contribuire all'ulteriore avanzamento
del software.
• Full post-editing
A quel punto, si è deciso di sviluppare il programma come software libero e
open source per consentire all'intera comunità di utenti geo-spaziali di godere
dei risultati e contribuire all'ulteriore avanzamento del software.
Ora tocca a voi!
• Originale inglese
• To quickly find an article in the Microsoft Knowledge Base, you can
search by using keywords and query words. This article lists keywords
and query words that you can use in your searches. You can also find
keywords and query words by looking in the "Keywords" and
"Additional query words" sections that are found in some articles
• MT raw ouput
• Per trovare rapidamente un articolo della Microsoft Knowledge Base,
è possibile cercare utilizzando le parole chiave e le parole della
ricerca. In questo articolo sono elencate le parole chiave e le parole
della ricerca che è possibile utilizzare nelle ricerche. È inoltre
possibile trovare le parole chiave e le parole della ricerca, cercando di
"Parole chiave" e "Le informazioni in" sezioni che si trovano in alcuni
articoli.
Ora tocca a voi!
• Originale inglese
The transport and protective packing has been selected from materials
which are environmentally friendly for disposal and can normally be
recycled. Ensure that any plastic, wrappings, bags etc. are disposed of
safely and kept out of the reach of babies and young children. Danger
of suffocation. Rather than just throwing these materials away,
please recycle them
• MT raw output
Il trasporto e l'imballaggio protettivo è stato selezionato da materiali
che sono ecologici per lo smaltimento e normalmente può essere
riciclato. Garantire che qualsiasi plastica, involucri, borse ecc, sono
smaltiti in modo sicuro e tenuto fuori dalla portata dei bambini e
bambini piccoli. Pericolo di soffocamento. Piuttosto che buttare
questi materiali di distanza, si prega di riciclare
Ora tocca a voi!
• Originale inglese
For cosmetics manufacturers, safety is the guiding principle in
everything they do across their operations, their research and
development and their innovation. They check each product’s
formulation, how it might be used in all reasonably foreseeable
conditions, its packaging and labelling (including any warning or
instructions for use) and its disposal.
• MT raw output
Per i produttori di cosmetici, la sicurezza è il principio guida in tutto ciò
che fanno attraverso le loro attività, la loro ricerca e sviluppo e la loro
innovazione. Controllano la formulazione di ogni prodotto, come
potrebbe essere utilizzato in tutte le condizioni ragionevolmente
prevedibili, l'imballaggio e l'etichettatura (incluso qualsiasi avviso o
istruzioni per l'uso) e la sua dismissione.
Ora tocca a voi!
• Gli oli essenziali sono ampiamente distribuiti nel mondo
vegetale, e il loro ruolo è molto grande. Le più importanti
funzioni fisiologiche includono: Gli oli essenziali sono i
metaboliti attivi dei processi metabolici che si verificano nel
corpo dell'impianto. A sostegno di questa tesi suggerisce
terpenoid alta reattività e composti aromatici, che sono i
principali componenti degli oli essenziali. Oli essenziali per
evaporazione avvolgono la pianta una sorta di "cuscinetto",
riducendo il trasferimento di calore dell'aria, che
contribuisce alla prevenzione piante da eccessivo calore
durante il giorno e la notte di ipotermia, nonché la
regolazione della traspirazione.
Ora tocca a voi!
• Sostanze polifenoliche sono caratterizzati dall'avere uno o
più gruppi ossidrilici legati ad un anello aromatico. Poi, sono
fenoli, ma possono presentare uno o più gruppi ossidrilici e
più di un anello aromatico. Solitamente polifenoli sono
sostanze naturali presenti nelle piante, come i flavonoidi,
tannini, lignani, derivati dell'acido caffeico, tra gli altri. Molte
di queste sostanze sono classificate come antiossidanti
naturali e hanno proprietà terapeutiche, sono presenti in
alimenti e piante medicinali.
Ora tocca a voi!
• Pascolo, pastella, acqua e terra aspra e nelle zone in cui
alimentazione del bestiame coltivazioni tale scopo profondo
è il nome dato alla zona che viene utilizzato con. Una parte
del irregolarità a causa di acqua piovana si perde attraverso
il deflusso superficiale e infiltrazione. Questo terreno
superficiale, sabbiosi o ghiaiosi, asciutto tranne che durante
la stagione delle piogge e la capacità di trattenere l'acqua
bassa. In generale, l'acqua non è sufficiente per le piante, la
vegetazione è rada e breve, e quindi devono cancellare la
vegetazione.
Metriche automatiche
• BLEU (Bilingual Evaluation Understudy)
• Translation Error Rate (TER)
• Word error rate (WER)
• Requisiti utente
• Livelli di qualità attesa
• Volatilità
• Volume
• Destinazione d’uso
• Tempi di consegna
Parametri per il post‐editing
• Tipo di motore
• Tipo di testo
• Indicazioni sul livello di qualità del motore e su quello atteso
• Richiedere sempre un campione
Specifiche
• Chiare e concise
• Strumenti
• Attenersi alla guida di stile
• Osservare il glossario
• Non riscrivere se non strettamente necessario
• Non trattenersi troppo su un segmento o un problema
• Non porsi problemi stilistici se non espressamente richiesto
• Non effettuare ricerche terminologiche non necessarie
• Apportare solo le modifiche strettamente necessarie
Istruzioni per il post-editing
Istruzioni per il post-editing
• Esempio di istruzioni per un progetto di post-editing completo
• La qualità attesa è “finale”
• Il testo non deve contenere cancellazioni o omissioni, e sono richiesti precisione assoluta
e zero errori di traduzione rispetto al testo originale, osservanza delle regole
grammaticali e ortografiche della lingua di destinazione e rispetto del glossario in
dotazione.
• Apportare il minor numero possibile di modifiche
• Limitarsi a correggere gli errori
• Attenersi al glossario
• In caso di errori terminologici usare l’equivalente nel glossario
• Non apportare modifiche seguendo i propri gusti
• Non riscrivere il testo, a meno di non dover correggere dei controsensi
• Non cercare di “migliorare” il testo
• I motori non sono tutti uguali
• La qualità del prodotto grezzo di un motore non è confrontabile con
quella di un altro
• Le prestazioni di un motore su combinazioni linguistiche diverse non
sono tra loro confrontabili
• Gli errori possono non seguire lo stesso schema tra un segmento e un
altro
Attenzione
Aspetti generali
• Metodo
• Tipologia testuale
• Testo generico/specialistico
• Con/senza dati linguistici
• Qualità
• Testo originale (traducibilità)
• Risultato
• Qualità attesa
• Formati
Remunerazione
• A tempo
• Produttività
• Variabile da un editor a un altro
• Risposte a questionari di QA
• Raffinamento del motore
• Calcolo tempi di lavoro
• Fogli elettronici e applicazioni
Griglia negoziale
Sempre
• Chiedere e fornire un campione prima di negoziare un incarico
• Definire un livello di produttività ragionevole e soddisfacente
• Condurre un progetto pilota
• Padronanza della lingua di destinazione
• Competenza specifica nel dominio
• Capacità di attenersi alla guida di stile, al glossario e alle altre
istruzioni operative
• Conoscenza della lingua del testo originale
• Conoscenze di base dei metodi della traduzione automatica
• Assenza di pregiudizio verso la traduzione automatica
Profilo del post-editor – monolingue/bilingue
• Modelli ancora in fieri
• Attualmente legati alla produttività
• Stesso schema usato per fuzzy match
• 85%-94%
• Modelli a volume inapplicabili
• Traduzione automatica e fuzzy match prevedono interventi molto diversi tra loro
• I fuzzy match oltre l’85% sono segmenti essenzialmente corretti
• Richiedono minimi interventi
• Il risultato di una traduzione automatica può contenere errori e imprecisioni
• Anche un post-editing “leggero” può rivelarsi impegnativo
• Base oraria
Retribuzione
Langue&parole   traduzione automatica e post-editing 2015 finale

More Related Content

PDF
Introduzione agli strumenti CAT per STL Formazione
PDF
CAT tool a confronto
PPT
Guida completa a OmegaT: tecniche, trucchi e consigli per traduttori e projec...
PDF
Introduzione alla localizzazione web
PDF
OmegaT: vera alternativa libera e gratuita ai CAT commerciali?
PPT
OmegaT 3.0
PDF
Il controllo qualità con strumenti open source nella traduzione
PDF
Faccio cose. Vedo gente. Localizzo siti.
Introduzione agli strumenti CAT per STL Formazione
CAT tool a confronto
Guida completa a OmegaT: tecniche, trucchi e consigli per traduttori e projec...
Introduzione alla localizzazione web
OmegaT: vera alternativa libera e gratuita ai CAT commerciali?
OmegaT 3.0
Il controllo qualità con strumenti open source nella traduzione
Faccio cose. Vedo gente. Localizzo siti.

What's hot (6)

PPTX
Corporate Translation Management By Soget
PPT
Less is more? OmegaT: vantaggi e svantaggi di un approccio essenziale e open ...
PPSX
Presentazione tesi - Francesca Germani
PPTX
Nuove soluzioni per creare documentazioni e siti web multilingue di successo
PDF
Cose un cat_tool
PDF
Corso SDL TRADOS STUDIO 2017 Professional
Corporate Translation Management By Soget
Less is more? OmegaT: vantaggi e svantaggi di un approccio essenziale e open ...
Presentazione tesi - Francesca Germani
Nuove soluzioni per creare documentazioni e siti web multilingue di successo
Cose un cat_tool
Corso SDL TRADOS STUDIO 2017 Professional
Ad

Similar to Langue&parole traduzione automatica e post-editing 2015 finale (8)

PPTX
CAT Tools for dummies - Corso online organizzato da Langue & Parole 2017
PPTX
Living Lab: dall’Italiano parlato alla LIS
PDF
Dialogare con le macchine in linguaggio naturale... Finalmente! Ma ci voleva ...
ODP
La Traduzione dal parlato al parlato
PPT
Corso SDL Trados
PPTX
Gabriele Glinni "Excursus sul mondo della traduzione specialistica"
PDF
tuxtrans - workshop interattivo
PPT
"Colorless green ideas sleep furiously."
CAT Tools for dummies - Corso online organizzato da Langue & Parole 2017
Living Lab: dall’Italiano parlato alla LIS
Dialogare con le macchine in linguaggio naturale... Finalmente! Ma ci voleva ...
La Traduzione dal parlato al parlato
Corso SDL Trados
Gabriele Glinni "Excursus sul mondo della traduzione specialistica"
tuxtrans - workshop interattivo
"Colorless green ideas sleep furiously."
Ad

More from Isabella Massardo (10)

PDF
Alan Turing e il principio di realtà
PDF
Artigiani slide massardo
PDF
"I fiori blu" tradotto con la traduzione automatica? Ma nemmeno per sogno.......
PPTX
Zijn onze surfdagen voorbij final std
PPTX
KTV - Introductie tot post-editing voor vertalers 20 april 2017 final
PDF
The quest for the translation unicorn
PDF
Standards, technology and europe
PDF
The state of post editing
PPTX
DCT - PEMT
PPTX
TAUS Knowledge Base: Communicating Translation Automation
Alan Turing e il principio di realtà
Artigiani slide massardo
"I fiori blu" tradotto con la traduzione automatica? Ma nemmeno per sogno.......
Zijn onze surfdagen voorbij final std
KTV - Introductie tot post-editing voor vertalers 20 april 2017 final
The quest for the translation unicorn
Standards, technology and europe
The state of post editing
DCT - PEMT
TAUS Knowledge Base: Communicating Translation Automation

Langue&parole traduzione automatica e post-editing 2015 finale

  • 1. TRADUZIONE AUTOMATICA E POST-EDITING
  • 3. Traduzione automatica – 1 • La situazione attuale • Modelli di traduzione automatica: principali differenze • Uso della traduzione automatica
  • 5. La situazione attuale • La traduzione automatica è una realtà • Tecnologia matura • Opposizione di linguisti, docenti, professionisti e imprenditori • La traduzione automatica è uno strumento di traduzione • La conoscenza aumenta la fiducia e migliora l’uso e lo strumento
  • 6. Sondaggio di Common Sense Advisory
  • 10. Modelli di traduzione automatica Sistemi a regole (RbMT) Traduzione diretta o per unità Traduzione a interlingua Traduzione sintattica o T-sistemi Sistemi probabilistici/stocastici (data driven) Traduzione automatica a esempi (EbMT) Traduzione automatica statistica (SMT)
  • 11. Modelli a regole (RbMT) • Traduzione diretta o per unità • Ogni unità testuale è analizzata e scomposta dal punto di vista morfologico fino a individuare il suo corrispondente diretto nella lingua di arrivo • Traduzione sintattica • Basata sull’analisi morfosintattica, il trasferimento della struttura sintattica della lingua di partenza in quella di arrivo e la rigenerazione • Traduzione a interlingua • Il passaggio da una lingua ad un’altra è filtrato dalla presenza di una rappresentazione intermedia secondo una serie di livelli astratti di rappresentazione morfologica, sintattica e semantica
  • 12. Caratteristiche dei modelli a regole • Approccio analitico • Rappresentazione grammaticale della lingua • Assoluta dipendenza dai dizionari bilingue
  • 13. Criticità della RbMT • Pronomi personali, pronomi dimostrativi, aggettivi possessivi, anafore • Testi dialogici • Polirematiche e collocazioni • Espressioni idiomatiche • Disambiguazione
  • 14. Modelli probabilistici • Traduzione a esempi • Approccio basato sull’accesso a corpora paralleli per rilevare strutture già tradotte da utilizzare come “calchi” • Traduzione statistica • Uso di parametri statistici per l’attribuzione dell’ordine delle parole e del migliore candidato per la traduzione per confronto di candidati simili nei corpora di riferimento
  • 15. Traduzione a esempi (EbMT) • Corpus bilingue • Riscontro di analogie • Combinazione di segmenti • Approssimazione • Algoritmi di fuzzy matching • Strategia empirica • Criterio probabilistico • Analisi statistica delle collocazioni all’interno dei segmenti e di questi nel corpus • Calcolo a forza bruta
  • 16. Modelli di apprendimento • Traduttivo • Parole, sequenze e collocazioni con la maggiore probabilità di corrispondenza nel corpus della lingua di destinazione • Monolingue • Maggiore probabilità di corrispondenza nelle combinazioni
  • 17. Problemi di EbMT e SMT • Corpora paralleli • Analisi difficoltosa • Le difficoltà aumentano al crescere dei corpora • Memorie di traduzione invece dei corpora • Accurata segmentazione • Problemi di allineamento • Nonsense – Word salad • Disambiguazione • Espressioni idiomatiche
  • 18. Modelli ibridi • Combinazione di sistemi a regole e statistici • Campo sempre in evoluzione
  • 19. MTM (MT + TM) • Ambiente CAT con connettori a diversi motori specialistici e non • Trados • MemoQ • Memsource • Smartling • MateCAT • SmartCAT • WordFast • XTM
  • 20. MTM (MT + TM)
  • 21. MTM (MT + TM)
  • 23. Principali fornitori di tecnologia MT • Asiaonline • KantanMT • Tauyou • Microsoft • Globalese • Sovee • Pangea MT • LetsMT (Tilde) • CrossLang • Iconic Machine • SDL BeGlobal • SDL XMT • SDL Language Cloud • Demo – registrazioni di webinar disponibili sul sito TAUS [www.taus.net]
  • 24. Uso della traduzione automatica Traduzione automatica
  • 25. Come usare la traduzione automatica Unrestricted texts High quality Restricted input Low quality Impractical Interactive Fully automatic
  • 26. Obiettivi • Utilità • Leggibilità • Precisione e accuratezza • Usabilità • Accessibilità • Problem solving • Informativo • Coerenza • Sicurezza • Stile
  • 27. Applicazioni della traduzione automatica • eSolution • Produttività • Intelligence • Comunicazioni
  • 28. Brand Marketing Interfacce utente Documentazione utente Assistenza e supporto Documentazione interna Messaggistica User Generated Content Nuovi mercati Mercati tradizionali Traduzione automatica Traduzione umana
  • 29. Adozione della traduzione automatica Motore interno • Possibile integrazione in ambiente di produzione • Alto TCO • Hardware, software e personale dedicati • Elevata incidenza sui ricavi • Ampia personalizzazione • Competenze specifiche • Connettori • TMS • CAT Motore esterno • Difficile integrazione in ambiente di produzione • Ridotto TCO • Manutenzione semplificata • Bassa incidenza sui ricavi • Ridotta flessibilità • Maggiori costi di integrazione e personalizzazione • Problemi di confidenzialità
  • 31. Risorse Philip Koehn, Statistical Machine Translation – Capitoli 1, 6, 8 ONLINE Letture • ALPAC report: http://www.nap.edu/openbook.php?record_id=9547 • TAUS http://www.taus.net • Mary Hearne and Andy Way, Statistical Machine Translation: A guide for linguists and translators http://www.computing.dcu.ie/~away/CA446/SMTforLinguists.pdf Motori generali disponibili online • Babelfish https://www.babelfish.com/ • Systran http://www.systranet.com/translate/ • Google https://translate.google.com/ • Bing https://www.bing.com/translator/ • Free ProMT http://www.online-translator.com/ • Free LetsMT https://readymt.tilde.com/
  • 32. Linguaggi controllati e pre-editing Traduzione automatica
  • 33. - Che cos’è il pre-editing? - Che cosa sono i linguaggi controllati? • Controlled languages or Controlled natural languages (CNL) are natural languages adapted specifically to machine translation systems with a purposefully limited set of lexical items and applicable grammatical and syntactic structures. • Fonte: Knowledge Base di TAUS • Ideale per favorire la comprensione di un testo • Ideale per una migliore qualità della traduzione automatica
  • 34. CLOUTTM • Scrivere per tradurre • CLOUT - Controlled Language Optimized for Uniform Translation. • Regole sviluppate dal Prof. Uwe Muegge.
  • 35. CLOUTTM • Controlled Language Rule 1: • Write sentences that are shorter than 25 words • Controlled Language Rule 2: • Write sentences that express only one idea. • Controlled Language Rule 3: • Write the same sentence if you want to express the same content. • Controlled language rule 4: • Write sentences that are grammatically complete. • Controlled language rule 5: • Write sentences that have a simple grammatical structure. • Controlled language rule 6: • Write sentences in the active form.
  • 36. CLOUTTM • Controlled language rule 7: • Write sentences that repeat the noun instead of using a pronoun. • Controlled language rule 8: • Write sentences that use articles to identify nouns. • Controlled language rule 9: • Write sentences that use words from a general dictionary. • Controlled language rule 10: • Write sentences that use only words with correct spelling.
  • 38. Esperimento • Write sentences that are shorter than 25 words. • Write: • The author performs the following tasks: • Collect the necessary information. • Analyze and evaluate the information. • Write a structured draft. • Do not write: • Authors will approach any writing project by collecting the necessary information first, and after carefully analyzing and evaluating it, they will create a structured draft. • Scrivere frasi che sono più corti di 25 parole. • Scrivi: • L'autore svolge i seguenti compiti: • Raccogliere le informazioni necessarie. • Analizzare e valutare le informazioni. • Scrivi un progetto strutturato. • Non scrivere: • Gli autori potranno rivolgersi a qualsiasi progetto di scrittura attraverso la raccolta delle informazioni necessarie prima, e dopo un'attenta analisi e la valutazione di esso, si creerà un progetto strutturato.
  • 39. Bibliografia • CLOUT - http://www.muegge.cc/controlled-language.htm • Cristina Valenza, Linguaggi controllati. Il caso italiano: http://www.libreriauniversitaria.it/tesi/autore/valenza-cristina.htm (tesi di laurea) Simplified English • A closer look at STE: http://www.tcworld.info/rss/article/a-close- look-at-simplified-technical-english/ • Multilingual, 2009, Writing for Translation: https://www.multilingual.com/downloads/screenSupp107.pdf
  • 41. • A process of modification rather than revision. (Loffler‐Laurian 1985) • The correction of machine translation output by human linguists/editors. (Veale and Way 1997) • Repairing texts. (Krings, 2001) • The process of checking the output of a machine translation program for errors and making appropriate amendments. (Mossop, 2001) • To edit, modify and/or correct pre-translated text that has been processed by an MT system from a source language into (a) target language(s). (Allen, 2003) • The process of improving a machine‐generated translation with a minimum of manual labor. (TAUS, 2010) Fonte: Sharon O’Brien, Ana Guerberof Arenas Definizione di post‐editing
  • 42. • Il PEMT sostituisce di fatto le due fasi principali del TEP • PEMT e revisione sono due attività distinte, affini, ma non simili • Diverso impegno • Revisione  analisi contrastiva, sforzo cognitivo • PEMT  rapidità • Competenze diverse • Revisione  coppia linguistica, traduzione, dominio • PEMT  dominio, lingua di arrivo, traduzione automatica Post-editing e TEP
  • 43. Prerequisiti (rispetto alla traduzione) • Maggiore produttività • Maggiore rapidità • Minore digitazione • Minori ricerche
  • 44. Impegno richiesto • Metodo • A regole • Dizionario • Regole • Livello di personalizzazione • A dati • Qualità dell’originale • Dati linguistici • Volume • Dominio • Tecnologia • Tecnologie diverse potrebbero presentare limitazioni nell’uso con strumenti diversi • Coppia • I risultati con combinazioni diverse non sono tra loro confrontabili • Tipologia testuale • Dominio
  • 45. • Metodo di traduzione automatica • A regole • Parole e termini errati • Combinazioni errate • Mancata disambiguazione • A dati • Parole mancanti • Capitalizzazione • Punteggiatura • Scarsa fluidità Problemi nel post-editing
  • 46. Tipi di post-editing • Convenzionale • Interattivo • ISO/DIS 18587 - un caso a parte
  • 47. • Gist • Leggero (Light post-editing / Rapid post-editing) • Traduzione accettabile (comprensibile • Completo (Full post-editing) • Addestramento del motore • Finale • Traduzione finita Livelli di post-editing
  • 48. Esempi di livelli di post-editing • Originale inglese • According to the privileges that have been set for each metadata, a maximum of four sections can be consulted, as shown below. • MT raw output • Secondo i privilegi impostati per ciascuna metadata, un massimo di quattro sezioni può essere consultato, come mostrato di seguito • Light/Rapid post-editing • Secondo i privilegi impostati per ciascuno dei metadati, un massimo di quattro sezioni può essere consultato, come mostrato di seguito. • Full post-editing • A seconda dei privilegi impostati per ciascuno dei metadati, è possibile consultare un massimo di quattro sezioni, come riportato di seguito.
  • 49. Esempi di livelli di post-editing • Originale in inglese The system provides a broad community of users with easy and timely access to available spatial data and thematic maps from multidisciplinary sources, that may in the end support informed decision making. • MT raw output Il sistema fornisce una vasta comunita di utenti con accesso facile e tempestivo ai dati territoriali disponibili e cartine tematiche da fonti multidisciplinari, che possono nel supporto end informato processo decisionale.
  • 50. Esempi di livelli di post-editing • MT raw output Il sistema fornisce una vasta comunita di utenti con accesso facile e tempestivo ai dati territoriali disponibili e cartine tematiche da fonti multidisciplinari, che possono nel supporto end informato processo decisionale. • Light/Rapid Post-editing Il sistema fornisce a una vasta comunità di utenti un accesso facile e tempestivo ai dati territoriali disponibili e cartine tematiche da fonti multidisciplinari, a supporto di un informato processo decisionale. • Full post-editing Il sistema permette a una vasta comunità di utenti di accedere in modo facile e tempestivo ai dati territoriali disponibili e a cartine tematiche provenienti da fonti multidisciplinari, per consentire di assumere decisioni informate.
  • 51. Esempi di livelli di post-editing • Originale inglese At that moment it was decided to develop the program as a Free and Open Source Software to allow the whole geospatial users community to benefit from the development results and to contribute to the further advancement of the software. • MT raw output In quel momento si e deciso di sviluppare il programma come Source Software Libero e Open per consentire l'intera comunita di utenti geospaziali di beneficiare dei risultati di sviluppo e contribuire all'ulteriore avanzamento del software.
  • 52. Esempi di livelli di post-editing • MT raw output In quel momento si e deciso di sviluppare il programma come Source Software Libero e Open per consentire l'intera comunita di utenti geospaziali di beneficiare dei risultati di sviluppo e contribuire all'ulteriore avanzamento del software. • Light/Rapid post-editing In quel momento, si è deciso di sviluppare il programma come software libero e open source per consentire all'intera comunità di utenti geospaziali di beneficiare dei risultati dello sviluppo e contribuire all'ulteriore avanzamento del software. • Full post-editing A quel punto, si è deciso di sviluppare il programma come software libero e open source per consentire all'intera comunità di utenti geo-spaziali di godere dei risultati e contribuire all'ulteriore avanzamento del software.
  • 53. Ora tocca a voi! • Originale inglese • To quickly find an article in the Microsoft Knowledge Base, you can search by using keywords and query words. This article lists keywords and query words that you can use in your searches. You can also find keywords and query words by looking in the "Keywords" and "Additional query words" sections that are found in some articles • MT raw ouput • Per trovare rapidamente un articolo della Microsoft Knowledge Base, è possibile cercare utilizzando le parole chiave e le parole della ricerca. In questo articolo sono elencate le parole chiave e le parole della ricerca che è possibile utilizzare nelle ricerche. È inoltre possibile trovare le parole chiave e le parole della ricerca, cercando di "Parole chiave" e "Le informazioni in" sezioni che si trovano in alcuni articoli.
  • 54. Ora tocca a voi! • Originale inglese The transport and protective packing has been selected from materials which are environmentally friendly for disposal and can normally be recycled. Ensure that any plastic, wrappings, bags etc. are disposed of safely and kept out of the reach of babies and young children. Danger of suffocation. Rather than just throwing these materials away, please recycle them • MT raw output Il trasporto e l'imballaggio protettivo è stato selezionato da materiali che sono ecologici per lo smaltimento e normalmente può essere riciclato. Garantire che qualsiasi plastica, involucri, borse ecc, sono smaltiti in modo sicuro e tenuto fuori dalla portata dei bambini e bambini piccoli. Pericolo di soffocamento. Piuttosto che buttare questi materiali di distanza, si prega di riciclare
  • 55. Ora tocca a voi! • Originale inglese For cosmetics manufacturers, safety is the guiding principle in everything they do across their operations, their research and development and their innovation. They check each product’s formulation, how it might be used in all reasonably foreseeable conditions, its packaging and labelling (including any warning or instructions for use) and its disposal. • MT raw output Per i produttori di cosmetici, la sicurezza è il principio guida in tutto ciò che fanno attraverso le loro attività, la loro ricerca e sviluppo e la loro innovazione. Controllano la formulazione di ogni prodotto, come potrebbe essere utilizzato in tutte le condizioni ragionevolmente prevedibili, l'imballaggio e l'etichettatura (incluso qualsiasi avviso o istruzioni per l'uso) e la sua dismissione.
  • 56. Ora tocca a voi! • Gli oli essenziali sono ampiamente distribuiti nel mondo vegetale, e il loro ruolo è molto grande. Le più importanti funzioni fisiologiche includono: Gli oli essenziali sono i metaboliti attivi dei processi metabolici che si verificano nel corpo dell'impianto. A sostegno di questa tesi suggerisce terpenoid alta reattività e composti aromatici, che sono i principali componenti degli oli essenziali. Oli essenziali per evaporazione avvolgono la pianta una sorta di "cuscinetto", riducendo il trasferimento di calore dell'aria, che contribuisce alla prevenzione piante da eccessivo calore durante il giorno e la notte di ipotermia, nonché la regolazione della traspirazione.
  • 57. Ora tocca a voi! • Sostanze polifenoliche sono caratterizzati dall'avere uno o più gruppi ossidrilici legati ad un anello aromatico. Poi, sono fenoli, ma possono presentare uno o più gruppi ossidrilici e più di un anello aromatico. Solitamente polifenoli sono sostanze naturali presenti nelle piante, come i flavonoidi, tannini, lignani, derivati dell'acido caffeico, tra gli altri. Molte di queste sostanze sono classificate come antiossidanti naturali e hanno proprietà terapeutiche, sono presenti in alimenti e piante medicinali.
  • 58. Ora tocca a voi! • Pascolo, pastella, acqua e terra aspra e nelle zone in cui alimentazione del bestiame coltivazioni tale scopo profondo è il nome dato alla zona che viene utilizzato con. Una parte del irregolarità a causa di acqua piovana si perde attraverso il deflusso superficiale e infiltrazione. Questo terreno superficiale, sabbiosi o ghiaiosi, asciutto tranne che durante la stagione delle piogge e la capacità di trattenere l'acqua bassa. In generale, l'acqua non è sufficiente per le piante, la vegetazione è rada e breve, e quindi devono cancellare la vegetazione.
  • 59. Metriche automatiche • BLEU (Bilingual Evaluation Understudy) • Translation Error Rate (TER) • Word error rate (WER)
  • 60. • Requisiti utente • Livelli di qualità attesa • Volatilità • Volume • Destinazione d’uso • Tempi di consegna Parametri per il post‐editing
  • 61. • Tipo di motore • Tipo di testo • Indicazioni sul livello di qualità del motore e su quello atteso • Richiedere sempre un campione Specifiche
  • 62. • Chiare e concise • Strumenti • Attenersi alla guida di stile • Osservare il glossario • Non riscrivere se non strettamente necessario • Non trattenersi troppo su un segmento o un problema • Non porsi problemi stilistici se non espressamente richiesto • Non effettuare ricerche terminologiche non necessarie • Apportare solo le modifiche strettamente necessarie Istruzioni per il post-editing
  • 63. Istruzioni per il post-editing • Esempio di istruzioni per un progetto di post-editing completo • La qualità attesa è “finale” • Il testo non deve contenere cancellazioni o omissioni, e sono richiesti precisione assoluta e zero errori di traduzione rispetto al testo originale, osservanza delle regole grammaticali e ortografiche della lingua di destinazione e rispetto del glossario in dotazione. • Apportare il minor numero possibile di modifiche • Limitarsi a correggere gli errori • Attenersi al glossario • In caso di errori terminologici usare l’equivalente nel glossario • Non apportare modifiche seguendo i propri gusti • Non riscrivere il testo, a meno di non dover correggere dei controsensi • Non cercare di “migliorare” il testo
  • 64. • I motori non sono tutti uguali • La qualità del prodotto grezzo di un motore non è confrontabile con quella di un altro • Le prestazioni di un motore su combinazioni linguistiche diverse non sono tra loro confrontabili • Gli errori possono non seguire lo stesso schema tra un segmento e un altro Attenzione
  • 65. Aspetti generali • Metodo • Tipologia testuale • Testo generico/specialistico • Con/senza dati linguistici • Qualità • Testo originale (traducibilità) • Risultato • Qualità attesa • Formati Remunerazione • A tempo • Produttività • Variabile da un editor a un altro • Risposte a questionari di QA • Raffinamento del motore • Calcolo tempi di lavoro • Fogli elettronici e applicazioni Griglia negoziale
  • 66. Sempre • Chiedere e fornire un campione prima di negoziare un incarico • Definire un livello di produttività ragionevole e soddisfacente • Condurre un progetto pilota
  • 67. • Padronanza della lingua di destinazione • Competenza specifica nel dominio • Capacità di attenersi alla guida di stile, al glossario e alle altre istruzioni operative • Conoscenza della lingua del testo originale • Conoscenze di base dei metodi della traduzione automatica • Assenza di pregiudizio verso la traduzione automatica Profilo del post-editor – monolingue/bilingue
  • 68. • Modelli ancora in fieri • Attualmente legati alla produttività • Stesso schema usato per fuzzy match • 85%-94% • Modelli a volume inapplicabili • Traduzione automatica e fuzzy match prevedono interventi molto diversi tra loro • I fuzzy match oltre l’85% sono segmenti essenzialmente corretti • Richiedono minimi interventi • Il risultato di una traduzione automatica può contenere errori e imprecisioni • Anche un post-editing “leggero” può rivelarsi impegnativo • Base oraria Retribuzione