Prova Gemini 1.5 Pro, il nostro modello multimodale più avanzato in Vertex AI, e scopri cosa puoi creare con una finestra contestuale di 1 milione di token.

Speech-to-Text

Trasforma il parlato in testo con l'IA di Google

Converti l'audio in trascrizioni di testo e integra il riconoscimento vocale nelle applicazioni grazie ad API facili da usare.

Ottieni fino a 60 minuti al mese di trascrizione e analisi dell'audio gratis.* I nuovi clienti ricevono anche fino a 300 $ di crediti gratuiti per provare Speech-to-Text e altri prodotti Google Cloud.

Inizia a trascrivere Contatta il team di vendita

*Si applica solo all'elaborazione dell'audio con l'API Speech-to-Text V1.

Funzionalità

IA di Speech avanzata

Speech-to-Text può utilizzare Chirp, il modello di base di Google Cloud per la sintesi vocale, addestrato con milioni di ore di dati audio e miliardi di frasi di testo. Ciò è in contrasto con le tecniche tradizionali di riconoscimento vocale che si concentrano su grandi quantità di dati supervisionati specifici per lingua. Queste tecniche migliorano il riconoscimento e la trascrizione di più lingue parlate e accenti.

Supporto per 125 lingue e varianti

Crea per una base utenti globale con un ampio supporto linguistico. Trascrivi dati audio brevi, lunghi e persino in streaming. Speech-to-Text offre inoltre agli utenti traduzioni e riconoscimento più precisi e globali con Chirp, la nuova generazione di modelli vocali universali. Chirp è stato creato utilizzando l'addestramento autonomo su milioni di ore di audio e 28 miliardi di frasi di testo in più di 100 lingue.

Trascrivi audio breve, lungo o in streaming

Visualizza la guida

Modelli preaddestrati o personalizzabili per la trascrizione

Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione di video, ottimizzati per i requisiti di qualità specifici del dominio. Personalizza, sperimenta, crea e gestisci facilmente risorse personalizzate con la UI Speech-to-Text.

Conformità alle normative e alla sicurezza pronte all'uso

L'API Speech-to-Text v2 offre ai clienti Business ed Enterprise ulteriori requisiti normativi e di sicurezza, fin dal primo avvio. La residenza dei dati consente di chiamare modelli di trascrizione tramite un servizio completamente regionalizzato che sfrutta le regioni di Google Cloud come Singapore e Belgio. Il riconoscimento intraprendente elimina la necessità di account di servizio dedicati per l'autenticazione e l'autorizzazione. I log per la generazione e la trascrizione delle risorse sono resi facilmente disponibili nella console Google Cloud. L'API Speech-to-Text v2 offre una crittografia di livello aziendale con chiavi di crittografia gestite dal cliente per tutte le risorse, oltre alla trascrizione batch.

Riconoscimento vocale e trascrizione basati sull'IA

Speech-to-Text utilizza l'adattamento del modello per migliorare l'accuratezza delle parole usate di frequente, ampliare il vocabolario disponibile per la trascrizione e migliorare la trascrizione da audio rumorosi. L'adattamento del modello consente agli utenti di personalizzare Speech-to-Text per riconoscere parole o frasi specifiche più spesso rispetto ad altre opzioni che altrimenti potrebbero essere suggerite. Ad esempio, potresti indirizzare Speech-to-Text a trascrivere "distinto" piuttosto che "d'istinto".

Riconoscimento vocale di audio in streaming

Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).

Adattamento vocale

Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.

Speech-to-Text on-prem

Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.

Riconoscimento multicanale

Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.

Resistenza al rumore

Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore cancellazione del rumore.

Modelli specifici del dominio

Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.

Filtro dei contenuti

Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.

Valutazione delle trascrizioni

Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione.

Punteggiatura automatica (beta)

Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni, ad esempio fornendo virgole, punti interrogativi e punti.

Speaker diarization

Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.

Come funziona

Speech-to-Text prevede tre metodi principali per eseguire il riconoscimento vocale: sincrono, asincrono e in streaming. Ogni metodo restituisce risultati testuali a seconda che sia necessaria la trascrizione in fase di post-elaborazione, periodicamente o in tempo reale. In breve, inserisci i dati audio e ricevi una risposta testuale.

Visualizza la documentazione

Aggiungi la conversione della voce in testo all'app

Scopri come aggiungere Speech-to-Text alle app esistenti.

Demo

Testa l'API Speech-to-Text

Crea rapidamente una trascrizione audio a partire dal caricamento di un file o parlando direttamente nel microfono.

Utilizzi comuni

Trascrivi audio

Crea una trascrizione audio

Scopri come utilizzare l'API Speech-to-Text dalla console Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio breve, lungo e in streaming.

Inizia a utilizzare Speech-to-Text

Tutorial, guide rapide e lab

Crea una trascrizione audio

Scopri come utilizzare l'API Speech-to-Text dalla console Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio breve, lungo e in streaming.

Inizia a utilizzare Speech-to-Text

Aggiungi sottotitoli ai video usando l'IA

Crea sottotitoli per i video utilizzando l'IA

Trascrivi audio e video per includere i sottotitoli codificati. Aggiungi sottotitoli ai contenuti esistenti o in tempo reale ai contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella di YouTube per i sottotitoli dei video. Questo tutorial mostra come utilizzare l'API Speech-to-Text e l'API Translation dei servizi IA di Google Cloud per aggiungere sottotitoli ai video e fornire sottotitoli localizzati in altre lingue.

Guarda il tutorial sui sottotitoli automatici

Tutorial, guide rapide e lab

Crea sottotitoli per i video utilizzando l'IA

Trascrivi audio e video per includere i sottotitoli codificati. Aggiungi sottotitoli ai contenuti esistenti o in tempo reale ai contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella di YouTube per i sottotitoli dei video. Questo tutorial mostra come utilizzare l'API Speech-to-Text e l'API Translation dei servizi IA di Google Cloud per aggiungere sottotitoli ai video e fornire sottotitoli localizzati in altre lingue.

Guarda il tutorial sui sottotitoli automatici

Aggiungi Speech-to-Text alle app

Come aggiungere Speech-to-Text alle app

Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.

Guarda il video di esempio

Trascrizione avanzata basata sull'interfaccia utente di IA e API di Google

Aggiungi il controllo vocale alle app

Tutorial, guide rapide e lab

Come aggiungere Speech-to-Text alle app

Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.

Guarda il video di esempio

Aggiungi il controllo vocale alle app

Traduci l'audio in testo

Lingua, voce, testo e traduzione con le API Google Cloud

In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.

Inizia il corso

Tutorial, guide rapide e lab

Lingua, voce, testo e traduzione con le API Google Cloud

In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.

Inizia il corso

Prezzi

Come funzionano i prezzi di Speech-to-Text	I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.
Versione API	Servizio e funzionalità	Prezzi
API Speech-to-Text V1	La versione 1 offre la residenza dei dati solo per più regioni. I modelli includono short, long, telefonia e video. La versione 1 non include l'audit log. I nuovi clienti ricevono 300 $ di crediti gratuiti e 60 minuti al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.	0,024 $ al minuto
API Speech-to-Text V2	La versione 2 offre la residenza dei dati per regioni singole e multiple. I modelli includono short, long, telefonia, video e Chirp. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.	0,016 $ al minuto

Come funzionano i prezzi di Speech-to-Text

I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.

Versione API

Servizio e funzionalità

Prezzi

API Speech-to-Text V1

La versione 1 offre la residenza dei dati solo per più regioni. I modelli includono short, long, telefonia e video. La versione 1 non include l'audit log. I nuovi clienti ricevono 300 $ di crediti gratuiti e 60 minuti al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.

0,024 $

al minuto

API Speech-to-Text V2

La versione 2 offre la residenza dei dati per regioni singole e multiple. I modelli includono short, long, telefonia, video e Chirp. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.

0,016 $

al minuto

Visualizza i dettagli dei prezzi di Speech-to-Text.

Come funzionano i prezzi di Speech-to-Text

I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.

API Speech-to-Text V1

Servizio e funzionalità

La versione 1 offre la residenza dei dati solo per più regioni. I modelli includono short, long, telefonia e video. La versione 1 non include l'audit log. I nuovi clienti ricevono 300 $ di crediti gratuiti e 60 minuti al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.

Prezzi

0,024 $

al minuto

API Speech-to-Text V2

Servizio e funzionalità

La versione 2 offre la residenza dei dati per regioni singole e multiple. I modelli includono short, long, telefonia, video e Chirp. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.

Prezzi

0,016 $

al minuto

Visualizza i dettagli dei prezzi di Speech-to-Text.

Calcolatore prezzi

Stima i costi mensili di Speech-to-Text, inclusi i prezzi e le tariffe specifici per regione.

Stima i costi

Preventivo personalizzato

Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.

Richiedi un preventivo

Inizia la tua proof of concept

I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare Speech-to-Text e altri prodotti Google Cloud

Inizia gratuitamente

Speech-to-Text

Trasforma il parlato in testo con l'IA di Google

Caratteristiche principali del prodotto

IA di Speech avanzata

Supporto per 125 lingue e varianti

Modelli preaddestrati o personalizzabili per la trascrizione

Conformità alle normative e alla sicurezza pronte all'uso

Riconoscimento vocale e trascrizione basati sull'IA

Riconoscimento vocale di audio in streaming

Adattamento vocale

Speech-to-Text on-prem

Riconoscimento multicanale

Resistenza al rumore

Modelli specifici del dominio

Filtro dei contenuti

Valutazione delle trascrizioni

Punteggiatura automatica (beta)

Speaker diarization

Testa l'API Speech-to-Text

Trascrivi audio

Crea una trascrizione audio

Tutorial, guide rapide e lab

Crea una trascrizione audio

Aggiungi sottotitoli ai video usando l'IA

Crea sottotitoli per i video utilizzando l'IA

Tutorial, guide rapide e lab

Crea sottotitoli per i video utilizzando l'IA

Aggiungi Speech-to-Text alle app

Come aggiungere Speech-to-Text alle app

Tutorial, guide rapide e lab

Come aggiungere Speech-to-Text alle app

Traduci l'audio in testo

Lingua, voce, testo e traduzione con le API Google Cloud

Tutorial, guide rapide e lab

Lingua, voce, testo e traduzione con le API Google Cloud

Calcolatore prezzi

Preventivo personalizzato

Inizia la tua proof of concept

I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare Speech-to-Text e altri prodotti Google Cloud

Hai un progetto di grandi dimensioni?

Speech-to-Text on-prem

Nozioni di base su Speech-to-Text

Esempi di codice Speech-to-Text