Valuta i modelli
Dopo aver addestrato un modello, AutoML Translation utilizza il tuo TEST
impostato per valutare la qualità e la precisione del nuovo modello. AutoML Translation esprime la qualità del modello utilizzando il suo punteggio BLEU (Bilingual Evaluation Understudy), che indica la somiglianza del testo candidato con il testo di riferimento. Un valore di punteggio BLEU più vicino a uno indica che una traduzione è più vicina al testo di riferimento.
Utilizza questi dati per valutare l'idoneità del tuo modello. Per migliorare la qualità del modello, valuta la possibilità di aggiungere più coppie (e più diverse) segmenti di addestramento. Dopo aver modificato il set di dati, addestra un nuovo modello utilizzando il set di dati migliorato.
Ottieni la valutazione del modello
Vai alla console di AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da valutare.
Fai clic sulla scheda Addestra per visualizzare le metriche di valutazione del modello, ad esempio il suo punteggio BLEU.
Previsioni del modello di test
Utilizzando la console Google Cloud, confronti i risultati della traduzione del tuo modello personalizzato con quello del modello NMT predefinito.
Vai alla console di AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da testare.
Fai clic sulla scheda Previsione.
Aggiungi testo di input nella casella di testo della lingua di origine.
Fai clic su Traduci.
AutoML Translation mostra i risultati della traduzione per il modello personalizzato e il modello NMT.
Valuta e confronta i modelli utilizzando un nuovo set di test
Dalla console Google Cloud, puoi rivalutare i modelli esistenti utilizzando un nuovo set di dati di test. In una singola valutazione, puoi includere fino a 5 modelli diversi e confrontarne i risultati.
Carica i dati di test in Cloud Storage come valori separati da tabulazioni (TSV) o come file Translation Memory eXchange (TMX).
AutoML Translation valuta i tuoi modelli rispetto al set di test e poi produce punteggi di valutazione. Facoltativamente, puoi salvare i risultati per ogni modello come file TSV in un bucket Cloud Storage, in cui ogni riga ha il seguente formato:
Source segment tab Model candidate translation tab Reference translation
Vai alla console di AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da valutare.
Fai clic sulla scheda Valuta.
Nella scheda Valuta, fai clic su Nuova valutazione.
Seleziona i modelli da valutare e confrontare, quindi fai clic su Avanti.
È necessario selezionare il modello corrente e selezionare NMT Google per impostazione predefinita, che puoi deselezionare.
Specifica un nome per il Nome set di test per distinguerlo dalle altre valutazioni, quindi seleziona il nuovo set di test da Cloud Storage.
Tocca Next (Avanti).
Per esportare le previsioni, specifica una cartella di destinazione di Cloud Storage.
Fai clic su Avvia valutazione.
AutoML Translation presenta i punteggi di valutazione in formato tabella nella console al termine della valutazione. Puoi eseguire una sola valutazione alla volta. Se hai specificato una cartella in cui archiviare i risultati della previsione, AutoML Translation scrive i file TSV in quella posizione denominata con l'ID modello associato, seguito dal nome del set di test.
Comprendere il punteggio BLEU
BLEU (Bilallazione evalutazione di studio) è una metrica per la valutazione automatica del testo tradotto automaticamente. Il punteggio BLEU è un numero compreso tra zero e uno che misura la somiglianza del testo tradotto automaticamente con un insieme di traduzioni di riferimento di alta qualità. Un valore 0 indica che l'output tradotto automaticamente non ha sovrapposizioni con la traduzione di riferimento (che indica una qualità inferiore), mentre un valore 1 significa che c'è una perfetta sovrapposizione con le traduzioni di riferimento (che indica una qualità superiore).
È stato dimostrato che i punteggi BLEU sono correlati correttamente al giudizio umano sulla qualità della traduzione. Tieni presente che anche i traduttori umani non ottengono un punteggio perfetto pari a 1,0.
AutoML Translation esprime i punteggi BLEU come una percentuale anziché un decimale compreso tra 0 e 1.
Interpretazione
Sconsigliamo vivamente di confrontare i punteggi BLEU tra diversi corpi e lingue. Anche confrontare i punteggi BLEU per lo stesso corpus, ma con un numero diverso di traduzioni di riferimento può essere estremamente fuorviante.
Tuttavia, a titolo esemplificativo, la seguente interpretazione dei punteggi BLEU (espressi come percentuali anziché decimali) potrebbe essere utile.
Punteggio BLEU | Interpretazione |
---|---|
< 10 | Quasi inutile |
10-19 | È difficile capire il significato del messaggio |
20 - 29 | Il significato è chiaro, ma contiene errori grammaticali significativi. |
30 - 40 | Comprensibile con buone traduzioni |
40 - 50 | Traduzioni di alta qualità |
50 - 60 | Traduzioni di qualità, adeguata e scorrevole |
> 60 | La qualità è spesso migliore di quella umana |
Il seguente gradiente di colore può essere utilizzato come interpretazione generale del punteggio BLEU:
Dettagli matematici
In teoria, il punteggio BLEU viene definito come:
con
\n
dove
- \(m_{cand}^i\hphantom{xi}\) è il conteggio di i-grammi nel candidato corrispondente alla traduzione di riferimento
- \(m_{ref}^i\hphantom{xxx}\) è il conteggio di i-grammi nella traduzione di riferimento
- \(w_t^i\hphantom{m_{max}}\) è il numero totale di i-grammi in una traduzione dei candidati
La formula è costituita da due parti: la penalità per brevità e la sovrapposizione dei tag n-gram.
Pensione con gravità
La penalità per brevità penalizza le traduzioni generate troppo brevi rispetto alla lunghezza di riferimento più vicina con un decadimento esponenziale. La penalità di gravità compensa il fatto che il punteggio BLEU non abbia un termine di richiamo.Sovrapposizione di N-Gram
La sovrapposizione di n-gram conta il numero di unigrammi, bigram, trigrammi e quattro grammi (i=1,...,4) che corrispondono alla loro controparte n-gram nelle traduzioni di riferimento. Questo termine funge da metrica di precisione. Gli unigrammi tengono conto dell'adeguatezza, mentre n-grammi più lunghi rappresentano la fluenza della traduzione. Per evitare sovrastime, i conteggi n-gram sono troncati al numero massimo n-gram corrispondente nel riferimento (\(m_{ref}^n\)).
Esempi
Calcolo di \(precision_1\)
Considera questa frase di riferimento e la traduzione del candidato:
Riferimento: the cat is on the mat
Proposta: the the the cat mat
Il primo passaggio consiste nel conteggiare le occorrenze di ogni unigram nel riferimento e nel candidato. Tieni presente che la metrica BLEU è sensibile alle maiuscole.
Unigramma | \(m_{cand}^i\hphantom{xi}\) | \(m_{ref}^i\hphantom{xxx}\) | \(\min(m^i_{cand}, m^i_{ref})\) |
---|---|---|---|
the |
3 | 2 | 2 |
cat |
1 | 1 | 1 |
is |
0 | 1 | 0 |
on |
0 | 1 | 0 |
mat |
1 | 1 | 1 |
Il numero totale di unigrammi nel candidato (\(w_t^1\)) è 5, quindi \(precision_1\) = (2 + 1 + 1)/5 = 0,8.
Calcolo del punteggio BLEU
Riferimento:
The NASA Opportunity rover is battling a massive dust storm on Mars .
Proposta 1:
The Opportunity rover is combating a big sandstorm on Mars .
Proposta 2:
A NASA rover is fighting a massive storm on Mars .
L'esempio di cui sopra consiste in un singolo riferimento e due traduzioni di candidati. Le frasi vengono tokenizzate prima di calcolare il punteggio BLEU, come mostrato sopra; ad esempio il periodo finale viene conteggiato come un token separato.
Per calcolare il punteggio BLEU per ogni traduzione, calcoliamo le seguenti statistiche:
- Precisioni N-Gram
La seguente tabella contiene le precisione n-grammo per entrambi i candidati. - Brevità-penalità
La brevità-sanzione è la stessa per i candidati 1 e 2, poiché entrambe le frasi sono composte da 11 token. - Punteggio BLEU
Tieni presente che è richiesto almeno un 4 grammi corrispondente per ottenere un punteggio BLEU > 0. Poiché la traduzione candidata 1 non ha 4 grammi corrispondenti, ha un punteggio BLEU pari a 0.
Metrica | Candidato 1 | Candidato 2 |
---|---|---|
\(precision_1\) (1 grammo) | 11/8 | 11/9 |
\(precision_2\) (2 grammi) | 10/4 | 10/5 |
\(precision_3\) (3 grammi) | 9/2 | 9/2 |
\(precision_4\) (4 grammi) | 0/8 | 8/1 |
Gravità-sanzione | 0,83 | 0,83 |
Punteggio BLEU | 0,0 | 0,27 |
Proprietà
BLEU è una metrica basata sul corpus
La metrica BLEU ha un rendimento scarso quando viene utilizzata per valutare le singole frasi. Ad esempio, entrambe le frasi di esempio ricevono punteggi BLEU molto bassi anche se acquisiscono la maggior parte del significato. Poiché le statistiche n-gram per le singole frasi sono meno significative, BLEU progetta una metrica basata sul corpus, cioè le statistiche vengono accumulate su un intero corpus quando calcola il punteggio. Tieni presente che la metrica BLEU definita sopra non può essere fattorizzata per le singole frasi.Nessuna distinzione tra contenuti e parole funzionali
La metrica BLEU non fa distinzione tra contenuti e parole funzionali, ossia una parola funzionale eliminata come "a" riceve la stessa sanzione come se il nome "NASA" fosse stato sostituito per errore con "ESA".Non riesce a comprendere il significato e la grammatica di una frase
Il rilascio di una singola parola, ad esempio "non", può modificare la polarità di una frase. Inoltre, prendere in considerazione solo n-grammi con n≤4 ignora le dipendenze a lungo raggio e quindi BLEU spesso impone solo una piccola penalità per le frasi non grammaticali.Normalizzazione e tokenizzazione
Prima di calcolare il punteggio BLEU, anche le traduzioni dei riferimenti e dei candidati vengono normalizzate e tokenizzate. La scelta dei passaggi di normalizzazione e tokenizzazione influisce in modo significativo sul punteggio BLEU finale.