Status Quo e tendenze nel riconoscimento vocale automatico
Contenuto di questo articolo
- Cos'è il riconoscimento vocale?
- Studio scientifico: tasso di successo del riconoscimento vocale automatico al 67,6%
- Campi di applicazione del riconoscimento vocale automatico
- Storia del riconoscimento vocale automatico
- Funzionalità dei sistemi Speech-to-Text
- Opportunità e sfide del riconoscimento vocale automatico
- Principali fornitori per il riconoscimento automatico del parlato
Puoi anche trovare molti altri consigli utili nel nostro eBook Registrazione, battitura, analisi - Guida alla conduzione dell'intervista e alla trascrizione.
Il libro è disponibile come download gratuito: Ora tutto ciò che riguarda Trascrizione & Co ora!
Cos'è il riconoscimento vocale?
Le macchine che interagiscono con le persone fanno parte di quasi tutti i buoni film di fantascienza. Più di sessant'anni fa, Arthur C. Clarke, nel suo romanzo "2001 - Odissea nello spazio", filmato da Stanley Kubrick, creò la visione del computer HAL, che comunicava linguisticamente con le persone a bordo dell'astronave come una cosa normale.
Anche se le macchine oggi hanno già alcune delle capacità di HAL - come giocare a scacchi o navigare una nave spaziale - siamo ancora lontani da una comunicazione intelligente, significativa e bidirezionale tra esseri umani e macchine.
Il software di riconoscimento vocale si riferisce a speciali programmi per computer o app che riconoscono la lingua parlata e la convertono automaticamente in testo scritto. convertire. Il discorso viene analizzato in termini di parole pronunciate, significato e caratteristiche del parlante per ottenere il risultato più accurato possibile. Questo non va confuso con il riconoscimento vocale, che è un metodo biometrico per identificare le persone dalla loro voce.
Con l'aiuto di software di riconoscimento vocale il discorso è automaticamente convertito in testo - è possibile tra altoparlante-dipendente e indipendente dall'altoparlante riconoscimento vocale può essere distinto
Nel frattempo, il riconoscimento vocale può essere utilizzato per controllare il PC, scrivere e-mail o navigare in Internet. Numerosi altoparlanti con controllo vocale integrato, come Alexa di Amazon o Google Home, utilizzano anche questa tecnologia. Inoltre, ora è incluso come standard nella maggior parte degli smartphone.
Si fa una distinzione tra due tipi di riconoscimento vocale:
- Riconoscimento vocale indipendente dall'altoparlante: qui, qualsiasi voce può essere riconosciuta ed elaborata, rendendo possibile a chiunque il funzionamento del dispositivo. Anche se questo tipo di applicazione si rivolge a un ampio gruppo target, il vocabolario disponibile è limitato.
- Riconoscimento vocale dipendente dal parlante: con questa variante, il programma viene addestrato per la lingua individuale del rispettivo utente, per cui si possono imparare abbreviazioni e frasi specifiche. Il vocabolario è quindi molto più esteso.
Da un punto di vista tecnico, ci sono due modi possibili di gestire questo processo. O avviene direttamente sul dispositivo dell'utente, per cui il risultato è disponibile quasi immediatamente (front-end), o l'implementazione avviene su un server separato, indipendente dal dispositivo dell'utente (back-end).
Un ruolo importante in questo processo è naturalmente svolto dal Qualità del Registrazione del suono. Molti altoparlanti, il rumore di fondo o una distanza troppo grande dal microfono hanno un'influenza negativa sul risultato. A causa di queste limitazioni e di altre difficoltà, come il comportamento individuale del parlante o il dialetto, una trascrizione completamente automatizzata non è (ancora) possibile senza errori ed è quindi qualitativamente inferiore alla trascrizione manuale umana. In ogni caso, quindi, un umano Post-correzione necessariaè necessario se si vuole raggiungere un certo livello di qualità. Tuttavia, in condizioni ottimali e con un addestramento preliminare basato sulla voce dell'utente, i risultati sono già buoni. Ci sono già numerosi utenti, soprattutto tra i gruppi professionali come i medici o gli avvocati.
Per l'automatico La qualità della registrazione è della registrazione è particolarmente importante - Le sfide sono molti altoparlanti, rumore di fondo e le deviazioni dal pronuncia standard. Generalmente la correzione umana è necessario.
Il leader del mercato in questo campo è il produttore Nuance Communications con la sua serie di programmi "Dragon". L'ultima versione Dragon Professional Individual 15 offre una funzione di trascrizione oltre al controllo vocale del PC, anche per qualsiasi numero di altoparlanti. Sono supportati i seguenti formati:
mp3, .aif, .aiff, .wav, .mp4, .m4a e .m4v |
Il leader del mercato in questo campo è Dragon - Dragon Professional 15 offre ampie funzioni per trascrizione
I produttori promettono che anche i segni di punteggiatura non dettati sono impostati automaticamente. Tuttavia, i test dimostrano che questo non funziona affatto senza errori, soprattutto nelle interviste con molto rumore di fondo. Inoltre, il programma non può assegnare altoparlanti . Con una sola persona, sulla quale Voce su cui il software è stato preventivamente addestrato, i risultati sono molto migliori. Tuttavia, bisogna sempre tenere a mente che un allenamento esteso sulla propria voce richiede molto lavoro. Questa soluzione non è molto pratica per una conversazione o un'intervista di gruppo, poiché ogni parlante dovrebbe avere una licenza per utilizzare il programma e il sistema dovrebbe imparare le voci di ogni singolo intervistato.
Il programma non può assegnazione degli altoparlanti e dovrebbe essere addestrato alla propria voce per essere addestrati alla propria voce
Di conseguenza, il software è relativamente costoso a 399€. Può essere usato con Windows 7 o superiore o con MacOS. Va notato, tuttavia, che la funzione di trascrizione è inclusa solo nella versione "Professional". La versione più economica "Home" offre solo il riconoscimento e il controllo vocale. Inoltre, il software può essere utilizzato solo con dispositivi di dettatura certificati da Nuance. D'altra parte, l'applicazione "Dragon Anywhere" permette l'uso mobile delle funzioni su uno smartphone.
Nel frattempo, anche altre grandi aziende come Google hanno scoperto questo mercato per se stesse e, oltre agli altoparlanti a controllo vocale, offrono anche soluzioni per le trascrizioni automatiche. Con l'aiuto di Google Discorso sulla nuvola API, il discorso può anche essere convertito in testo. Inoltre, le reti neurali e l'apprendimento automatico sono utilizzati per migliorare costantemente i risultati.
Un'alternativa è offerta da Google Cloud Discorso - qui l'oratore l'assegnazione degli altoparlanti è in fase di test
In conclusione, si può dire che il software non vale ancora la pena a causa del prezzo elevato e dei molti errori con più altoparlanti o leggero rumore. Senza imparare in anticipo i modelli di discorso delle persone, non si possono ottenere risultati soddisfacenti. Inoltre, c'è il successivo elevato sforzo di correzione. A Assegnazione degli altoparlanti la correzione deve essere effettuata anche manualmente. Questo non può ancora essere fatto dall'IA. A Google, tra gli altri, questa funzione è in fase di test; anche qui, l'assegnazione degli altoparlanti è ancora troppo imprecisa. Anche l'impostazione automatica delle marche temporali non è possibile; anche questa funzione è ancora in fase di test (per esempio a f4).
Senza modelli di discorso pre-addestrati lo sforzo di correzione è di solito molto alto alto - un incarico da oratore deve ancora essere fatto manualmente manualmente
Studio scientifico: il riconoscimento vocale è accurato al 67,6%
abtipper.de ha intrapreso uno studio scientifico nel 2019 e 2020 per valutare le prestazioni dei sette sistemi di riconoscimento vocale attualmente disponibili per il mondo di lingua tedesca. Oltre ai grandi fornitori come Google e Alexa, sono stati esaminati anche alcuni fornitori di nicchia più piccoli.
Il test ha esaminato quanto sia alto il tasso di riconoscimento delle parole in una normale registrazione di conversazione con due persone, cioè una tipica situazione di intervista. Un umano raggiunge un tasso del 96-99% in una trascrizione audio manuale, a seconda dell'area tematica e della sua esperienza. Questo significa che per 100 parole, ci sono di solito 1-4 errori nella trascrizione umana.
Il miglior sistema di riconoscimento vocale ha raggiunto un valore del 67,6%. Ciò significa che attualmente 2/3 delle parole sono riconosciute correttamente. Tuttavia, anche alcuni dei sistemi più grandi sono attualmente molto al di sotto di questo valore, con il sistema di Bing che si comporta peggio.
Panoramica della qualità (in percentuale) delle trascrizioni generate dalla macchina, come risultati di uno studio scientifico:
Qualità delle trascrizioni prodotte
Tutto sommato, però, la trascrizione automatica non raggiunge ancora il livello di una trascrizione creata manualmente. Per una prima impressione, ecco un esempio di trascrizione di un'intervista (con due interlocutori) con intelligenza artificiale. Questo è stato creato da uno dei programmi di trascrizione attualmente più popolari, Google Cloud Speech-to-Text.
Risultato esemplare di un riconoscimento sparch:
Intervista a Anette Bronder alla Hannover Messe
(estratto da: https://www.youtube.com/watch?v=Es-CIO9dEwA, accesso 08.05.2019)
"La digitalizzazione e il networking giocano un ruolo importante anche alla Hannover Messe di quest'anno Industrie Telekom è presente per la terza volta con unostand e mostra esempi molto concreti di applicazioni il motto è "Rendere semplice la digitalizzazione" Signora Bronder cosa intende effettivamente con "rendere semplice" possiamo fare un esempio sì ottima parola chiave consegnata rendere semplice ha detto poco fa la fiera si tiene per la terza volta sul tema della digitalizzazione qui alla Hannover Messe.Credo che sia giunto il momento di passare dal laboratorio alla pratica e che possiamo aspettarcelo .Vorrei sottolineare,tuttavia, chequest'anno èimportante per noi dire che non siamo tecnologia e soluzioni , maoffriamo l'Internet delle cose come pacchetto di servizi e per la prima volta siamo in grado difornire connettività attraverso la nostra buona rete, soluzioni cloud, soluzionidi sicurezza , fino asingole soluzioni dettagliate nell'ambito dell'analitica"
Qui si può notare ancora una volta che l'"AI"non è una tecnologia o una soluzione, che "AI" non è un'attribuzione di altoparlante. Anche la punteggiatura non viene presa in considerazione.
Nel complesso, si può dire che il riconoscimento vocale automatizzato è attualmente adatto a due campi di applicazione:
- Per i dettati (ad esempio di avvocati o medici): per queste registrazioni con di solito un solo parlante che è sempre lo stesso e un'ottima qualità audio, oltre a un vocabolario limitato, uno strumento può essere addestrato molto bene alla voce e al vocabolario corrispondente e quindi fornire buoni risultati.
- Se i requisiti di qualità della trascrizione sono bassi, l'uso può anche avere senso. Questo è il caso, per esempio, della digitalizzazione degli archivi radiofonici dove l'obiettivo è la ricercabilità e quindi non sono necessarie trascrizioni perfette. Con una quantità di materiale spesso estremamente grande, la trascrizione manuale è esclusa fin dall'inizio in tali applicazioni per ragioni di economia.
Per tutti gli altri scopi, ad esempio le interviste, il riconoscimento vocale automatico non è purtroppo ancora adatto al livello tecnico attuale. Tuttavia, ci si possono aspettare ulteriori sviluppi nei prossimi anni e decenni.
Ordina la tua trascrizione ora su abtipper.de!
Il risultato mostra che, soprattutto in situazioni con più parlanti, i sistemi di riconoscimento vocale automatico lasciano ancora molto a desiderare. Per la trascrizione, sono solo per casi d'uso molto specifici (ad esempio la digitalizzazione di archivi che altrimenti non sarebbe finanziariamente conveniente). La situazione è diversa, tuttavia, per le registrazioni con un solo parlante (ad esempio un tipico dettato). Qui, i sistemi attualmente raggiungono già valori intorno all'85% e possono quindi essere già utilizzati sensatamente per alcune applicazioni pratiche.
Ci sono già alcune indagini comparabili per il riconoscimento di comandi già noti (ad esempio Alexa Skills). Tuttavia, questi riflettono una situazione di discorso innaturale con argomenti e comandi conosciuti in precedenza. La qualità del riconoscimento vocale libero senza un vocabolario artificialmente limitato è stata ora studiata scientificamente da abtipper.de per la prima volta per l'area di lingua tedesca.
Campi di applicazione del riconoscimento vocale automatizzato
Già oggi, ci sono numerose aree pratiche di utilizzo per le trascrizioni audio. Oltre all'aumento esponenziale dell'uso del riconoscimento vocale negli smartphone, ad esempio per comporre rapidamente brevi messaggi ed e-mail o per controllare i sistemi di assistenza vocale come Siri di Apple, Alexa di Amazon o Bing di Microsoft, le tecnologie di trascrizione vocale sono ormai indispensabili anche nei call center e negli ospedali.
Infatti, dal 2018, noi di abtipper.de siamo riusciti a diventare il primo fornitore in Germania a offrire trascrizioni attraverso l'intelligenza artificiale:
Nella trascrizione con intelligenza artificiale, la trascrizione è fatta attraverso l'uso del riconoscimento vocale automatizzato.
Grazie al nostro sistema di riconoscimento vocale sviluppato appositamente per le trascrizioni, le registrazioni con poche persone che parlano chiaramente e una qualità del suono impeccabile ottengono risultati particolarmente buoni.
Anche se la qualità della trascrizione con l'intelligenza artificiale non raggiunge ancora quella della trascrizione manuale, ci sono molti campi di applicazione per i quali è particolarmente adatta. Questo è particolarmente vero per la digitalizzazione di grandi quantità di dati dove la trascrizione manuale non varrebbe il prezzo.
Clicca qui per un esempio di un'intelligenza artificiale creata Trascrizione.
Procedura di trascrizione con intelligenza artificiale: con questo tipo di trascrizione si possono ottenere risultati accettabili solo se si rispettano i criteri di cui sopra. Per questo motivo, controlliamo prima tutti gli invii corrispondenti da parte dei nostri esperti. Se, per esempio, una buona trascrizione non può essere prodotta a causa del dialetto, del rumore di fondo o di troppe persone che parlano, sarete informati di questo, comprese le ragioni dettagliate, entro 6 fino a un massimo di 24 ore. Siete quindi liberi di scegliere un altro tipo di trascrizione.
Con questo tipo di trascrizione, vi offriamo di creare due minuti del vostro file come trascrizione di prova, gratuitamente e senza impegno, in modo che possiate controllare il risultato di questo nuovo tipo di trascrizione. Potete quindi decidere per il caso specifico se la qualità soddisfa le vostre esigenze o se una trascrizione manuale sarebbe più appropriata. Per farlo, si prega di effettuare un ordine e annotare nel campo dei commenti che si desidera la trascrizione di prova gratuita.
Ordina subito la tua trascrizione di intelligenza artificiale da abtipper!
La storia del riconoscimento vocale automatico - una rassegna

La ricerca sui sistemi di riconoscimento vocale è iniziata nei primi anni '60, ma non ha dato risultati promettenti. I primi sistemi sviluppati dall'IBM permettevano di riconoscere singole parole in condizioni di laboratorio, ma a causa della mancanza di conoscenze tecniche nel nuovo campo di ricerca dell'epoca, non hanno fatto progressi significativi - questo emerge anche da un rapporto presentato nel 1969 dall'ingegnere statunitense John Pierce, esperto nel campo della tecnologia ad alta frequenza, delle telecomunicazioni e dell'acustica come capo del Bell Group.

Non è stato fino alla metà degli anni '80 che la ricerca ha guadagnato nuovo slancio con la scoperta della differenziabilità degli omofoni per mezzo di test contestuali. Compilando statistiche sulla frequenza di certe combinazioni di parole e valutandole sistematicamente, è stato possibile dedurre automaticamente quale si intendeva nel caso di parole dal suono simile.
Una pietra miliare importante fu la presentazione di un nuovo sistema di riconoscimento vocale da parte di IBM nel 1984, che era in grado di capire 5.000 singole parole inglesi e convertirle in testo con l'aiuto della cosiddetta "statistica dei trigrammi". Tuttavia, all'epoca, il processo di riconoscimento richiedeva diversi minuti di elaborazione su un computer mainframe industriale ed era quindi praticamente inutilizzabile. Al contrario, un sistema sviluppato poco dopo da Dragon Systems era molto più avanzato e poteva essere utilizzato su un PC portatile.

Negli anni seguenti, IBM ha lavorato intensamente per migliorare il suo software di riconoscimento vocale. Così, nel 1993, fu introdotto il primo sistema di riconoscimento vocale sviluppato per il mercato di massa e disponibile in commercio, l'IBM Personal Dictation System.
Nel 1997, sia la versione successiva IBM ViaVoice che la versione 1.0 del software Dragon NaturallySpeaking apparvero. Mentre l'ulteriore sviluppo di IBM ViaVoice fu interrotto dopo pochi anni, Dragon NaturallySpeaking divenne il software di riconoscimento vocale più usato per i PC Windows. Dal 2005, il software è stato prodotto e distribuito da Nuance Communications.
Nel 2008, con l'acquisizione di Philips Speech Recognition Systems, Nuance ha ottenuto anche i diritti del kit di sviluppo software SpeechMagic, il cui uso è particolarmente diffuso nel settore sanitario.
Nel 2007, la società Siri Inc. è stata fondata e acquistata da Apple nell'aprile 2010. Con l'introduzione dell'iPhone 4s nel 2011, l'assistente vocale automatico Siri è stato presentato al pubblico per la prima volta e da allora è stato continuamente sviluppato. Presentazione di Siri:
La funzionalità dietro i sistemi Speech-to-Text
I moderni sistemi di riconoscimento vocale sono diventati una parte indispensabile della nostra vita quotidiana. Ma come funzionano veramente?
Il principio di base della trascrizione è molto semplice: quando parliamo, espiriamo aria attraverso i nostri polmoni. A seconda della composizione delle sillabe parlate, impostiamo l'aria in determinati modelli di vibrazione, che vengono riconosciuti dal software di riconoscimento vocale e convertiti in un file audio. Questo viene poi diviso in piccole parti e ricercato specificamente per i suoni conosciuti. Tuttavia, poiché non tutti i suoni vengono riconosciuti, è necessario un passo intermedio.
Utilizzando il cosiddetto "Metodo di Markov nascosto", il software di riconoscimento vocale calcola quale suono è probabile che segua un altro e quale a sua volta potrebbe seguirlo. In questo modo, viene creato un elenco di possibili parole con le quali, in una seconda esecuzione, si verifica ciò che è successo prima con le lettere: il computer analizza la probabilità con cui una certa parola segue un'altra - dopo "vado a..." viene "casa" piuttosto che "doccia" o "pausa". Ma il computer può saperlo solo se conosce molte frasi pronunciate e sa con quale frequenza e in quale contesto le parole ricorrono.

Un tale compito di calcolo supera di molte volte le capacità di elaborazione di un telefono cellulare tascabile. Può essere risolto solo utilizzando il cloud computing, cioè esternalizzando le operazioni di calcolo difficili a grandi computer stazionari. Il cellulare stesso registra semplicemente il comando vocale, lo converte in un file audio, lo invia via Internet al centro informatico e lo fa analizzare lì. Il risultato viene poi rimandato allo smartphone via internet.
Gli enormi database di file vocali e di testo già pronunciati e correttamente trascritti da esseri umani, conservati tramite il cloud computing, sono il vero segreto del successo dei nuovi riconoscitori vocali. Un buon software di riconoscimento vocale non può essere semplicemente programmato come un nuovo gioco per computer o un driver per stampante. "L'arte sta nell'ottenere buoni dati e nell'integrarli in modo ottimale nel processo di apprendimento" - afferma Joachim Stegmann, responsabile del dipartimento Future Telecommunication presso i Laboratori di Innovazione Telekom.
Per un software di riconoscimento vocale veramente buono e accurato, è necessario anche un numero particolarmente grande di registrazioni di discorsi quotidiani, in modo da poter registrare anche dialetti, errori di pronuncia, voci borbottate e in falsetto. Gli oratori dovrebbero anche differire demograficamente - ci dovrebbe essere un numero uguale di bambini, uomini, donne, vecchi e giovani così come persone di diverse origini regionali tra di loro. In pratica, per esempio, si usano trascrizioni di discorsi nel Bundestag, manoscritti letti ad alta voce o registrazioni di trasmissioni radiofoniche.
Opportunità e sfide nello sviluppo del riconoscimento vocale automatico
Sistemi di riconoscimento vocale ben funzionanti promettono di rendere la nostra vita quotidiana molto più facile. Nei campi di applicazione professionali, in futuro potrebbero automatizzare soprattutto la trascrizione del linguaggio parlato - per esempio, la registrazione di verbali o la spesso laboriosa trascrizione manuale di discorsi, interviste o video. Stanno diventando sempre più diffusi anche nella sfera privata, sia per il funzionamento a comando vocale dello smartphone in auto, sia per richiamare le ricerche su Google o per far funzionare applicazioni per la casa intelligente come accendere e spegnere le luci o abbassare il riscaldamento.
La grande sfida nel riconoscimento vocale elettronico, tuttavia, è che nessuno pronuncia sempre un termine esattamente allo stesso modo in ogni situazione. A volte l'utente è stanco, a volte frenetico, a volte rumoroso, a volte tranquillo, a volte concentrato, a volte ubriaco, a volte arrabbiato, a volte con un raffreddore. Pertanto, è molto difficile per il software riconoscere le parole cercando sequenze di suoni congruenti.
Soprattutto le persone anziane o in movimento sono difficili da capire per i sistemi. I rumori di fondo rendono il riconoscimento ancora più difficile - Microsoft sta quindi già lavorando al nuovo software "CRIS", che dovrebbe consentire la configurazione individuale dei rumori di fondo e del vocabolario più frequenti e permettere così anche l'uso in aree di produzione rumorose o in case di riposo.
Nel frattempo, i sistemi attuali raggiungono tassi di riconoscimento di circa il 99 per cento quando si dettano testi continui su personal computer e quindi soddisfano i requisiti della pratica per molti campi di applicazione, ad esempio per testi scientifici, corrispondenza commerciale o slip legali. Tuttavia, il loro uso è limitato quando l'autore ha costantemente bisogno di nuove parole e forme di parole che non possono essere riconosciute dal software in un primo momento. Anche se è possibile aggiungere queste parole manualmente, semplicemente non è efficiente se si verificano solo una volta in testi dello stesso parlante.

I più importanti fornitori di sistemi di riconoscimento vocale automatico
Come per molte tecnologie moderne, nuovi fornitori stanno spuntando come funghi nel campo della trascrizione audio.
Il leader del mercato nel riconoscimento e nella trascrizione automatica del parlato è Nuance con il suo software Dragon NaturallySpeaking. L'uso della tecnologia Deep Learning permette al software di essere utilizzato anche in ambienti con forte rumore di fondo. Attraverso un addestramento mirato su un altoparlante specifico, una precisione fino al 99% nella conversione discorso-testo può essere raggiunta con solo pochi minuti di "tempo di lettura" investito. Nuance, nel frattempo, sta lavorando alla prossima generazione di elettronica per auto che in futuro permetterà la scrittura accurata di testi complicati tramite input vocale, l'uso di social network e l'interrogazione di motori di ricerca senza distogliere l'attenzione del conducente dalla strada.
Utilizzando la stessa tecnologia, ma molto più conosciuta di Nuance, è probabilmente Siri, l'assistente vocale personale che è stato disponibile per gli utenti Apple dal rilascio dell'iPhone 4s. Il software può essere avviato con il comando "Hey Siri" e quindi non richiede quasi nessuna operazione manuale. Tuttavia, è adatto solo in misura limitata come software di riconoscimento vocale per dettare intere lettere o testi più lunghi, poiché il discorso non viene registrato continuamente e il testo digitale viene emesso continuamente. Siri salva alcune frasi parlate fino a quando non vengono inviate al server di traduzione centrale con un comando "Done" o smette di registrare il testo per la trasmissione quando si raggiunge la memoria massima. Finché il testo digitale non è stato ritrasmesso, la dettatura deve fermarsi. Questa trasmissione presenta dei rischi per la sicurezza delle informazioni; inoltre, se la trasmissione viene interrotta, per esempio in un punto morto del GSM, il testo dettato viene perso.
Paragonabile a Siri di Apple, Microsoft gestisce l'assistente virtuale Cortana sul suo Windows Phone 8.1. che utilizza la ricerca Bing! così come le informazioni personali memorizzate sullo smartphone per fornire all'utente raccomandazioni personalizzate. Un'estensione delle funzioni al controllo intelligente di elettrodomestici come frigoriferi, tostapane o termostati attraverso la tecnologia dell'Internet delle cose è già prevista. Con il suo software di riconoscimento vocale, il cosiddetto "Computational Network Toolkit", Microsoft è stata anche in grado di fissare una pietra miliare storica nell'ottobre 2016: Con l'aiuto della tecnologia Deep Learning, il software è stato in grado di raggiungere un tasso di errore di solo il 5,9% nei test comparativi tra umani e macchine - lo stesso tasso di errore delle sue controparti umane. Il software ha così raggiunto per la prima volta l'uguaglianza tra uomini e macchine.
Google ha anche aperto un'interfaccia di programmazione per i servizi cloud in versione beta nel marzo 2016. La Cloud Speech API traduce il testo parlato in testo scritto e riconosce circa 80 lingue e varianti linguistiche. L'API può già fornire il testo come un flusso durante il riconoscimento e filtra automaticamente il rumore di fondo. Attualmente è disponibile solo per gli sviluppatori.
Più recentemente, Amazon ha anche annunciato il rilascio del nuovo servizio"Amazon Lex" per lo sviluppo di interfacce di conversazione con voce e testo. Si basa sulla tecnologia per il riconoscimento automatico del discorso e la comprensione del linguaggio naturale che utilizza anche Amazon Alexa. Gli sviluppatori possono utilizzare il nuovo servizio per costruire e testare assistenti vocali intelligenti - i cosiddetti bot - in futuro.
E il sistema cognitivo IBM Watson, che ha segnato l'alba dell'era del cognitive computing nel 2011, fa uso di reti neurali, apprendimento automatico e strumenti di analisi del testo, in particolare il riconoscimento vocale, per imparare da solo. Nel frattempo, anche l'ironia, le metafore e i giochi di parole non sono più un ostacolo per IBM Watson.
Conclusione
Negli ultimi anni, la tecnologia si è sviluppata rapidamente, supportata in particolare dal cloud computing e dall'elaborazione automatizzata di quantità estremamente grandi di dati che questo rende possibile come base per i sistemi intelligenti. Con l'aiuto di un software professionale di riconoscimento vocale, la trascrizione automatica è già possibile oggi con quasi nessun errore.
I sistemi di riconoscimento vocale puri di per sé, tuttavia, sono solo l'inizio. La vera interazione tra esseri umani e macchine - come profetizzato nei film di fantascienza - richiede macchine che non solo riproducono informazioni, ma possono capire i contesti e prendere decisioni intelligenti.
Ordina subito la tua trascrizione di intelligenza artificiale da abtipper!
Altre domande e risposte
I sistemi di riconoscimento vocale automatico funzionano fondamentalmente tutti allo stesso modo.
In poche parole, il nucleo è sempre un grande database in cui sono memorizzate molte possibili varianti della pronuncia di una o più parole con il testo corrispondente. Quando una nuova registrazione viene inserita nel sistema, esso confronta il suono con il database e produce il testo che più probabilmente corrisponde a quella registrazione.
Più grande e meglio mantenuto è questo database, migliore sarà ilriconoscimento vocale. Inoltre, il Qualità della registrazione gioca un ruolo importante nel raggiungimento di un buon tasso di riconoscimento.
Trascrizione con un Riconoscimento vocale è possibile.
gamba di dettatura da una persona con una pronuncia chiara, senza dialetto e senza rumore di fondo, un livello di qualità di circa il 90% può essere raggiunto con il riconoscimento vocale. Questo è appena al di sotto del normale livello di trascrizione umana di circa il 95%. Se manca uno di questi prerequisiti e in quasi tutte le interviste o Conversazioni di gruppo Gli attuali sistemi di riconoscimento vocale non sono ancora in grado di generare testi comprensibili.
Secondo gli attuali studi scientifici, il riconoscimento vocale nelle interviste raggiunge attualmente un livello di solo circa il 65%, il che porta a testi largamente incomprensibili.
Ora ci sono molti fornitori di riconoscimento automatico del parlato.
I sistemi differiscono in termini di
- tasso di riconoscimento (quante parole sono riconosciute correttamente)
- ortografia e punteggiatura
- formato (ad esempio con o senza assegnazione del parlante)
- usabilità (usabilità come programma, app o solo tramite interfaccia API)
- prezzo e modello di fatturazione
Google Speech-to-Text e Nuance (Dragon ) ottengono buoni risultati per la lingua tedesca. Nel complesso, i migliori sistemi raggiungono attualmente un tasso di riconoscimento di circa il 67% in buone condizioni, cioè circa 67 parole vengono riconosciute correttamente per 100 parole. Un manuale Trascrizione Il sistema ha un tasso di riconoscimento di circa il 97%.