Situación y tendencias del reconocimiento automático del habla

Reconocimiento automático del habla

Contenido de este artículo


Voz a textoTambién puede encontrar muchos más consejos útiles en nuestro libro electrónico Grabación, mecanografía y análisis - Guía para la realización de entrevistas y transcripciones.

El libro está disponible para su descarga gratuita: Ahora todo sobre Transcripción & Co ahora!


¿Qué es el reconocimiento de voz?

Volver al índice

Reconocedor de voz

Las máquinas que interactúan con las personas forman parte de casi todas las buenas películas de ciencia ficción. Hace más de sesenta años, Arthur C. Clarke, en su novela "2001 - Una odisea del espacio", filmada por Stanley Kubrick, creó la visión del ordenador HAL, que se comunicaba lingüísticamente con las personas a bordo de la nave espacial como algo natural.

Aunque las máquinas actuales ya tienen algunas de las capacidades de HAL -como jugar al ajedrez o navegar por una nave espacial-, aún estamos muy lejos de una comunicación inteligente, significativa y bidireccional entre humanos y máquinas.

El software de reconocimiento de voz se refiere a programas informáticos especiales o aplicaciones que reconocen el lenguaje hablado y lo convierten automáticamente en texto escrito. convertir. El discurso se analiza en función de las palabras habladas, el significado y las características del hablante para conseguir un resultado lo más preciso posible. No hay que confundirlo con el reconocimiento de voz, es decir, un procedimiento biométrico para identificar a las personas por su voz.

Con la ayuda de software de reconocimiento de voz el discurso es automáticamente convertido en texto - es posible entre los que dependen del altavoz y el altavoz independiente reconocimiento de voz se puede distinguir

Mientras tanto, el reconocimiento de voz puede utilizarse para controlar el PC, escribir correos electrónicos o navegar por Internet. Numerosos altavoces con control de voz integrado, como Alexa de Amazon o Google Home, también utilizan esta tecnología. Además, ahora se incluye de serie en la mayoría de los smartphones.

Se distingue entre Dos tipos de reconocimiento de voz:

  • Reconocimiento de voz independiente del hablante: aquí se puede reconocer y procesar cualquier voz, lo que permite que cualquier persona pueda manejar el dispositivo. Aunque este tipo de aplicaciones se dirigen a un público amplio, el vocabulario disponible es limitado.
  • Reconocimiento del habla en función del hablante: con esta variante, el programa se entrena para el idioma individual del usuario respectivo, con lo que se pueden aprender abreviaturas y frases específicas. Por tanto, el vocabulario es mucho más amplio.

Desde el punto de vista técnico, hay dos formas posibles de gestionar este proceso. O bien tiene lugar directamente en el dispositivo del usuario, por lo que el resultado está disponible casi inmediatamente (front-end), o bien la implementación tiene lugar en un servidor separado, independiente del dispositivo del usuario (back-end).

Un papel importante en este proceso es, por supuesto, el Calidad de la Grabación de sonido. Muchos altavoces, el ruido de fondo o una distancia demasiado grande del micrófono influyen negativamente en el resultado. Debido a estas limitaciones y a otras dificultades, como el comportamiento individual de los hablantes o el dialecto, no es posible (todavía) una transcripción completamente automatizada y sin errores, por lo que es cualitativamente inferior a la transcripción manual humana. En cualquier caso, por lo tanto, un humano Es necesariauna corrección posterior es necesario si se quiere alcanzar un determinado nivel de calidad. Sin embargo, en condiciones óptimas y con un entrenamiento previo basado en la voz del usuario, los resultados ya son buenos. Ya hay numerosos usuarios, sobre todo entre grupos profesionales como médicos o abogados.

Para el automático La calidad de la grabación es de la grabación es especialmente importante - Los retos son muchos altavoces, ruido de fondo y las desviaciones de la pronunciación estándar. Generalmente la corrección humana es necesario.

El líder del mercado en este campo es el fabricante Nuance Communications con su serie de programas "Dragon". La última versión Dragon Professional Individual 15 ofrece una función de transcripción además del control por voz del PC, también para cualquier número de altavoces. Se admiten los siguientes formatos:

mp3, .aif, .aiff, .wav, .mp4, .m4a y .m4v

El líder del mercado en este campo es Dragon - Dragon Profesional 15 ofrece amplias funciones para transcripción

Los fabricantes prometen que incluso los signos de puntuación no dictados se fijan automáticamente. Sin embargo, las pruebas demuestran que no funciona sin errores en absoluto, especialmente en entrevistas con mucho ruido de fondo. Además, el programa no puede asignar un interlocutor . Con una sola persona, en cuya Voz el software ha sido entrenado de antemano, los resultados son mucho mejores. Sin embargo, siempre hay que tener en cuenta que un entrenamiento exhaustivo de la propia voz requiere mucho trabajo. Esta solución no es muy práctica para una conversación o entrevista en grupo, ya que cada orador tendría que tener una licencia para utilizar el programa y el sistema tendría que aprender las voces de cada interlocutor.

El programa no puede asignación de oradores y debe ser entrenado a su propia voz para formarse con su propia voz

En consecuencia, el software es comparativamente caro: 399 euros. Se puede utilizar con Windows 7 o superior o con MacOS. Sin embargo, hay que tener en cuenta que la función de transcripción sólo está incluida en la versión "Profesional". La versión "Home", más barata, sólo ofrece reconocimiento y control de voz. Además, el software sólo puede utilizarse con dispositivos de dictado certificados por Nuance. Por otro lado, la aplicación "Dragon Anywhere" permite el uso móvil de las funciones en un smartphone.

Mientras tanto, otras grandes empresas, como Google, también han descubierto este mercado y, además de los altavoces controlados por voz, también ofrecen soluciones para la transcripción automática. Con la ayuda de Google Discurso en la nube API, la voz también se puede convertir en texto. Además, se utilizan redes neuronales y aprendizaje automático para mejorar constantemente los resultados.

Una alternativa la ofrece Google Cloud Discurso - aquí el orador la asignación de oradores está en fase de prueba

En conclusión, se puede decir que el software aún no merece la pena debido al elevado precio y a los numerosos errores con múltiples altavoces o ligeros ruidos. Si no se aprenden de antemano los patrones de habla de las personas, no se pueden conseguir resultados satisfactorios. Además, hay que tener en cuenta el elevado esfuerzo de corrección posterior. A Asignación de oradores La corrección debe realizarse también manualmente. Esto todavía no puede hacerlo la IA. En Google, entre otros, esta función está en fase de prueba; también en este caso la asignación de altavoces es todavía demasiado imprecisa. Tampoco es posible el ajuste automático de las marcas de tiempo; esta función también está aún en fase de prueba (por ejemplo, en f4).

Sin patrones de habla pre-entrenados el esfuerzo de corrección suele ser muy elevado alto - una asignación de altavoces debe seguir haciéndose manualmente manualmente


Estudio científico: el reconocimiento de voz tiene una precisión del 67,6%. 

Volver al índice

abtipper.de emprendió un estudio científico en 2019 y 2020 para evaluar el rendimiento de los siete sistemas de reconocimiento del habla disponibles actualmente para el mundo germanohablante. Además de grandes proveedores como Google y Alexa, también se examinaron varios proveedores de nicho más pequeños.

La prueba examinó la tasa de reconocimiento de palabras en una grabación de una conversación normal con dos personas, es decir, una situación típica de entrevista. Un humano alcanza un porcentaje del 96-99% en una transcripción manual de audio, dependiendo del área temática y de su experiencia. Esto significa que para 100 palabras, suele haber entre 1 y 4 errores en la transcripción humana.

El mejor sistema de reconocimiento de voz alcanzó un valor del 67,6%. Esto significa que actualmente 2/3 de las palabras se reconocen correctamente. Sin embargo, incluso algunos de los sistemas más grandes están actualmente muy por debajo de este valor, siendo el sistema de Bing el que peor funciona.

Resumen de la calidad (en porcentaje) de las transcripciones generadas por máquinas, como resultado de un estudio científico:

 

Calidad de las transcripciones realizadas

Reconocimiento automático del habla

 

Sin embargo, la transcripción automática aún no alcanza el nivel de una transcripción manual. Para tener una primera impresión, he aquí un ejemplo de transcripción de una entrevista (con dos interlocutores) con inteligencia artificial. Fue creado por uno de los programas de transcripción más populares actualmente, Google Cloud Speech-to-Text.

Resultado ejemplar de un reconocimiento de Sparch:
Entrevista a Anette Bronder en la Hannover Messe
(extracto de: https://www.youtube.com/watch?v=Es-CIO9dEwA, consultado el 08.05.2019)

"La digitalización y la conexión en red también desempeñan un papel importante esteaño en la Hannover MesseIndustrie Telekom está representada por tercera vez con unstand y muestra ejemplos muy concretos de aplicaciones el lema es "Making digitisation simple" Sra. Bronder ¿qué quiere decir realmente con "making it simple" podemos ponernos un ejemplo sí muy buena palabra clave entregada make it simple acaba de decir la feria se celebra por tercera vez sobre el tema de la digitalización aquí en laHannover Messe.Creo que ha llegado el momento de pasar dellaboratorio a la práctica, y que podemos esperar que así sea.Sinembargo , me gustaría señalar queeste año es importante para nosotros decir que no estamos tecnología y soluciones que tenemos, peroestamos ofreciendo laInternet de las Cosas como un paquete de servicios por primera vez estamos en condiciones deofrecer conectividad a través de nuestra buena red de soluciones en la nube soluciones de seguridad hastasoluciones individuales detalladas en el análisis"

Aquí se puede ver una vez más que "AI"no esuna tecnología o una solución, que no se hace ninguna atribución de hablante por "IA". Aquí tampoco se tiene en cuenta la puntuación.

En general, puede decirse que el reconocimiento automático del habla es adecuado actualmente para dos campos de aplicación:

  • Para los dictados (por ejemplo, de abogados o médicos): Para estas grabaciones con un único interlocutor que suele ser siempre el mismo y una excelente calidad de audio, además de un vocabulario limitado, una herramienta puede entrenarse muy bien a la voz y el vocabulario correspondientes y ofrecer así buenos resultados.
  • Si los requisitos de calidad de la transcripción son bajos, su uso también puede tener sentido. Este es el caso, por ejemplo, de la digitalización de archivos radiofónicos, en los que el objetivo es la facilidad de búsqueda y, por tanto, no son necesarias transcripciones perfectas. Con una cantidad de material a menudo muy grande, la transcripción manual se descarta desde el principio en este tipo de aplicaciones por razones de economía.

Para todos los demás fines, como las entrevistas, el reconocimiento automático del habla no es, por desgracia, adecuado al nivel técnico actual. Sin embargo, es posible que se produzcan nuevos avances en los próximos años y décadas.


Pida su transcripción ahora en abtipper.de! 

 

El resultado muestra que, especialmente en situaciones con múltiples hablantes, los sistemas de reconocimiento automático del habla siguen dejando mucho que desear. En el caso de la transcripción, sólo se destinan a casos de uso muy específicos (por ejemplo, la digitalización de archivos que, de otro modo, no sería rentable). Sin embargo, la situación es diferente para las grabaciones con un solo interlocutor (por ejemplo, un dictado típico). En este caso, los sistemas ya alcanzan actualmente valores en torno al 85% y, por tanto, ya pueden utilizarse de forma razonable para algunas aplicaciones prácticas.

Ya existen algunas encuestas comparables para el reconocimiento de comandos previamente conocidos (por ejemplo, Alexa Skills). Sin embargo, éstas reflejan una situación de habla no natural con temas y órdenes previamente conocidos. La calidad del reconocimiento del habla libre sin un vocabulario limitado artificialmente ha sido investigada científicamente por abtipper.de por primera vez para el área del idioma alemán.


Campos de aplicación del reconocimiento automático del habla

Volver al índice

Hoy en día, las transcripciones de audio tienen numerosos usos prácticos. Además del aumento exponencial del uso del reconocimiento de voz de los teléfonos inteligentes, por ejemplo para redactar rápidamente mensajes cortos y correos electrónicos o para controlar sistemas de asistencia por voz como Siri de Apple, Alexa de Amazon o Bing de Microsoft, las tecnologías de transcripción de voz son ahora también indispensables en los centros de llamadas y los hospitales.

De hecho, desde 2018, en abtipper.de hemos conseguido convertirnos en el primer proveedor de Alemania que ofrece transcripciones mediante inteligencia artificial:

En la transcripción con inteligencia artificial, la transcripción se realiza mediante el uso del reconocimiento automático del habla.

Gracias a nuestro sistema de reconocimiento de voz especialmente desarrollado para las transcripciones, las grabaciones con pocos hablantes que hablan claramente y con una calidad de sonido impecable consiguen resultados especialmente buenos.

Aunque la calidad de la transcripción mediante inteligencia artificial aún no alcanza la de la transcripción manual, hay muchos campos de aplicación para los que resulta especialmente adecuada. Esto es especialmente cierto en el caso de la digitalización de grandes cantidades de datos en los que la transcripción manual no valdría la pena.

Pulse aquí para ver un ejemplo de transcripción creada por la inteligencia artificial. Transcripción.

Procedimiento de transcripción con inteligencia artificial: Sólo se pueden obtener resultados aceptables con este tipo de transcripción si se cumplen los criterios anteriores. Por ello, primero comprobamos todos los envíos correspondientes de nuestros expertos. Si, por ejemplo, no se puede realizar una buena transcripción debido al dialecto, al ruido de fondo o al exceso de oradores, se le informará de ello, incluyendo los motivos detallados, en un plazo de 6 a 24 horas como máximo. A continuación, puede elegir otro tipo de transcripción.

Con este tipo de transcripción, le ofrecemos crear dos minutos de su archivo como transcripción de prueba, de forma gratuita y sin compromiso, para que pueda comprobar el resultado de este nuevo tipo de transcripción. A continuación, podrá decidir para el caso concreto si la calidad se ajusta a sus necesidades o si sería más adecuada una transcripción manual. Para ello, haga un pedido y anote en el campo de comentarios que desea la transcripción de prueba gratuita.

Pida ya su transcripción de inteligencia artificial a abtipper


La historia del reconocimiento automático del habla - una revisión

Volver al índice

John Pierce, pionero del reconocimiento de voz
John Pierce, pionero del reconocimiento de voz

La investigación sobre los sistemas de reconocimiento del habla comenzó a principios de los años 60, pero no dio resultados prometedores. Los primeros sistemas desarrollados por IBM permitieron reconocer palabras individuales en condiciones de laboratorio, pero debido a la falta de conocimientos técnicos en el nuevo campo de investigación de la época, no supusieron ningún avance significativo; así se desprende de un informe presentado en 1969 por el ingeniero estadounidense John Pierce, experto en el campo de la tecnología de alta frecuencia, las telecomunicaciones y la acústica como jefe del Grupo Bell.

 

IBM Shoebox para el reconocimiento de voz
El IBM Shoebox de los años 60 podía reconocer 16 palabras. (Fuente: IBM)

No fue hasta mediados de la década de 1980 cuando la investigación cobró un nuevo impulso con el descubrimiento de la diferenciabilidad de los homófonos mediante pruebas contextuales. Recopilando estadísticas sobre la frecuencia de ciertas combinaciones de palabras y evaluándolas sistemáticamente, era posible deducir automáticamente a cuál se refería en el caso de palabras de sonido similar.

Un hito importante fue la presentación de un nuevo sistema de reconocimiento de voz por parte de IBM en 1984, que era capaz de entender 5.000 palabras individuales en inglés y convertirlas en texto con la ayuda de la llamada "estadística de trigramas". Sin embargo, en aquella época, el proceso de reconocimiento requería varios minutos de procesamiento en un ordenador central industrial, por lo que era prácticamente inutilizable. En cambio, un sistema desarrollado poco después por Dragon Systems era mucho más avanzado y podía utilizarse en un PC portátil.

 

IBM es pionera en la conversión de voz a texto
Extracto de la película publicitaria para el reconocimiento de voz de IBM 1984 (Fuente: IBM)

En los años siguientes, IBM trabajó intensamente en la mejora de su software de reconocimiento de voz. Así, en 1993, se presentó el primer sistema de reconocimiento de voz desarrollado para el mercado de masas y disponible comercialmente, el IBM Personal Dictation System.

En 1997, aparecieron la versión sucesora de IBM ViaVoice y la versión 1.0 del software Dragon NaturallySpeaking. Aunque el desarrollo de IBM ViaVoice se interrumpió al cabo de unos años, Dragon NaturallySpeaking se convirtió en el software de reconocimiento de voz más utilizado para los PC con Windows. Desde 2005, el software es producido y distribuido por Nuance Communications.

En 2008, con la adquisición de Philips Speech Recognition Systems, Nuance también obtuvo los derechos del kit de desarrollo de software SpeechMagic, cuyo uso está especialmente extendido en el sector sanitario.

En 2007 se fundó la empresa Siri Inc., que fue comprada por Apple en abril de 2010. Con la introducción del iPhone 4s en 2011, se presentó al público por primera vez el asistente de voz automático Siri, que no ha dejado de desarrollarse desde entonces. Presentación de Siri:

 


   

La funcionalidad de los sistemas de voz a texto

Volver al índice

Los modernos sistemas de reconocimiento de voz se han convertido en una parte indispensable de nuestra vida cotidiana. Pero, ¿cómo funcionan realmente?

El principio básico de la transcripción es muy sencillo: cuando hablamos, exhalamos aire por los pulmones. Dependiendo de la composición de las sílabas habladas, ponemos el aire en determinados patrones de vibración, que son reconocidos por el software de reconocimiento de voz y convertidos en un archivo de sonido. A continuación, se divide en pequeñas partes y se busca específicamente los sonidos conocidos. Sin embargo, como no se reconocen todos los sonidos, es necesario un paso intermedio.

Mediante el llamado "método de Markov oculto", el software de reconocimiento de voz calcula qué sonido es probable que siga a otro y cuál, a su vez, podría ir después. De este modo, se crea una lista de posibles palabras con las que, en una segunda pasada, ocurre lo mismo que antes con las letras: el ordenador analiza la probabilidad con la que una determinada palabra sigue a otra - después de "voy a..." viene "casa" en lugar de "ducha" o "descanso". Pero el ordenador sólo puede saber esto si conoce muchas frases habladas y con qué frecuencia y en qué contexto aparecen las palabras.

Modelo de Markov oculto para el reconocimiento del habla
Ilustración del funcionamiento del modelo de Markov oculto

Esta tarea informática supera varias veces la capacidad de procesamiento de un teléfono móvil de bolsillo. Sólo puede resolverse utilizando la computación en nube, es decir, externalizando las operaciones informáticas difíciles a grandes ordenadores fijos. El propio teléfono móvil se limita a grabar la orden de voz, convertirla en un archivo de sonido, enviarla por Internet al centro informático y analizarla allí. El resultado se envía a continuación al smartphone a través de Internet.

Las enormes bases de datos de archivos de voz y texto ya hablados y transcritos correctamente por humanos, que se conservan a través de la computación en nube, son el verdadero secreto del éxito de los nuevos reconocedores del habla. Así que un buen software de reconocimiento del habla no puede programarse simplemente como un nuevo juego de ordenador o un controlador de impresora. "El arte consiste en hacerse con buenos datos e integrarlos de forma óptima en el proceso de aprendizaje", afirma Joachim Stegmann, jefe del departamento de Telecomunicaciones del Futuro de los Laboratorios de Innovación de Telekom.

Para que el software de reconocimiento del habla sea realmente bueno y preciso, también es necesario un número especialmente elevado de grabaciones del habla cotidiana, de modo que también se puedan registrar los dialectos, los errores del habla, los murmullos y las voces en falsete. Los oradores también deben ser diferentes desde el punto de vista demográfico: debe haber el mismo número de niños, hombres, mujeres, ancianos y jóvenes, así como personas de diferentes orígenes regionales entre ellos. En la práctica, se utilizan, por ejemplo, transcripciones de discursos en el Bundestag, manuscritos leídos en voz alta o grabaciones de emisiones de radio.


Oportunidades y retos en el desarrollo del reconocimiento automático del habla

Volver al índice

El buen funcionamiento de los sistemas de reconocimiento de voz promete facilitarnos la vida cotidiana. En los campos de aplicación profesionales, podrían automatizar en el futuro sobre todo la transcripción del lenguaje hablado, por ejemplo, la grabación de actas o la transcripción manual, a menudo laboriosa, de discursos, entrevistas o vídeos. También se están extendiendo cada vez más en el ámbito privado, ya sea para controlar por voz el smartphone en el coche, llamar a las búsquedas de Google o manejar aplicaciones domésticas inteligentes como encender y apagar las luces o bajar la calefacción.

Sin embargo, el gran reto del reconocimiento electrónico del habla es que nadie pronuncia siempre un término exactamente igual en cada situación. A veces el usuario está cansado, a veces agitado, a veces ruidoso, a veces tranquilo, a veces concentrado, a veces borracho, a veces enfadado, a veces resfriado. Por lo tanto, es muy difícil que el software reconozca las palabras buscando secuencias de sonidos congruentes.

Especialmente las personas mayores o en movimiento son difíciles de entender para los sistemas. Los ruidos de fondo dificultan aún más el reconocimiento. Por ello, Microsoft ya está trabajando en el nuevo software "CRIS", que debería permitir la configuración individual de los ruidos de fondo y el vocabulario que se producen con frecuencia y, por lo tanto, permitir también su uso en zonas de producción ruidosas o en residencias de ancianos.

Entretanto, los sistemas actuales alcanzan tasas de reconocimiento de aproximadamente el 99 por ciento al dictar textos continuos en ordenadores personales y, por tanto, cumplen los requisitos de la práctica para muchos ámbitos de aplicación, por ejemplo, para textos científicos, correspondencia comercial o escritos jurídicos. Sin embargo, su uso es limitado cuando el autor necesita constantemente nuevas palabras y formas de palabras que no pueden ser reconocidas por el software en un primer momento. Aunque es posible añadir estas palabras manualmente, simplemente no es eficiente si sólo aparecen una vez en los textos del mismo hablante.

Puntos de referencia para el reconocimiento del habla
Referencia de los sistemas de reconocimiento de voz para el inglés (Fuente: Economist)

 

Los principales proveedores de sistemas de reconocimiento automático del habla

Volver al índice

Al igual que ocurre con muchas tecnologías modernas, están surgiendo nuevos proveedores en el campo de la transcripción de audio.

El líder del mercado en reconocimiento y transcripción automática de voz es Nuance con su software Dragon NaturallySpeaking. El uso de la tecnología Deep Learning permite utilizar el software incluso en entornos con fuerte ruido de fondo. Mediante un entrenamiento dirigido a un hablante específico, se puede conseguir una precisión de hasta el 99% en la conversión de voz a texto con sólo unos minutos de "tiempo de lectura" invertido. Nuance, por su parte, está trabajando en la próxima generación de sistemas electrónicos para el coche, que en el futuro permitirán escribir con precisión textos complicados mediante la introducción de la voz, utilizar las redes sociales y consultar los motores de búsqueda sin desviar la atención del conductor de la carretera.

Utilizando la misma tecnología, pero mucho más conocida que Nuance, es probablemente Siri, el asistente personal de voz que ha estado disponible para los usuarios de Apple desde el lanzamiento del iPhone 4s. El software puede iniciarse con el comando "Hey Siri" y, por tanto, no requiere casi ninguna operación manual. Sin embargo, sólo es adecuado hasta cierto punto como software de reconocimiento de voz para dictar cartas enteras o textos más largos, ya que la voz no se graba continuamente y el texto digital se emite de forma continua. Siri guarda algunas frases habladas hasta que se envían al servidor central de traducción con un comando "Listo" o deja de grabar texto para su transmisión cuando se alcanza la memoria máxima. Hasta que el texto digital se haya retransmitido, el dictado debe hacer una pausa. Esta transmisión plantea riesgos para la seguridad de la información; además, si la transmisión se interrumpe, por ejemplo en un punto muerto del GSM, el texto dictado se pierde.

Comparado con Siri de Apple, Microsoft cuenta con el asistente virtual Cortana en su Windows Phone 8.1. que utiliza la búsqueda de Bing! así como la información personal almacenada en el smartphone para ofrecer al usuario recomendaciones personalizadas. Ya está prevista la ampliación de las funciones al control inteligente de electrodomésticos como frigoríficos, tostadoras o termostatos a través de la tecnología del Internet de las Cosas. Con su software de reconocimiento de voz, el llamado "Computational Network Toolkit", Microsoft también fue capaz de marcar un hito histórico en octubre de 2016: Con la ayuda de la tecnología Deep Learning, el software fue capaz de lograr una tasa de error de solo el 5,9% en las pruebas comparativas entre humanos y máquinas, la misma tasa de error que sus homólogos humanos. Así, el software ha logrado por primera vez la igualdad entre humanos y máquinas.

Google también abrió una interfaz de programación para servicios en la nube como versión beta en marzo de 2016. La API de Cloud Speech traduce el texto hablado en texto escrito y reconoce unos 80 idiomas y variantes lingüísticas. La API ya puede entregar el texto como un flujo durante el reconocimiento y filtra automáticamente el ruido de fondo. Actualmente sólo está disponible para los desarrolladores.

Recientemente, Amazon también anunció el lanzamiento del nuevo servicio"Amazon Lex" para el desarrollo de interfaces conversacionales con voz y texto. Se basa en la tecnología de reconocimiento automático de voz y comprensión del lenguaje natural que también utiliza Amazon Alexa. Los desarrolladores podrán utilizar el nuevo servicio para construir y probar asistentes de voz inteligentes -los llamados bots- en el futuro.

Y el sistema cognitivo Watson de IBM, que marcó el inicio de la era de la computación cognitiva en 2011, hace uso de redes neuronales, aprendizaje automático y herramientas de análisis de texto, en particular el reconocimiento de voz, para aprender por sí mismo. Mientras tanto, incluso la ironía, las metáforas y los juegos de palabras ya no son un obstáculo para IBM Watson.


Conclusión:

Volver al índice

En los últimos años, la tecnología se ha desarrollado rápidamente, apoyada en particular por la computación en la nube y el procesamiento automatizado de cantidades extremadamente grandes de datos que esto hace posible como base para los sistemas inteligentes. Con la ayuda de programas profesionales de reconocimiento de voz, hoy ya es posible la transcripción automática sin apenas errores.

Sin embargo, los sistemas de reconocimiento del habla en sí mismos son sólo el principio. La verdadera interacción entre humanos y máquinas -como se profetiza en las películas de ciencia ficción- requiere máquinas que no sólo reproduzcan información, sino que puedan comprender contextos y tomar decisiones inteligentes.


Pida ya su transcripción de inteligencia artificial a abtipper


Otras preguntas y respuestas

✅ ¿Cómo funciona el reconocimiento de voz?

Los sistemas de reconocimiento automático del habla funcionan básicamente de la misma manera.

En pocas palabras, el núcleo es siempre una gran base de datos en la que se almacenan muchas variantes posibles de la pronunciación de una o varias palabras con el texto correspondiente. Cuando se introduce una nueva grabación en el sistema, éste compara el sonido con la base de datos y emite el texto que más probablemente coincida con esa grabación.

Cuanto más grande y mejor mantenida sea esta base de datos, mejor será el reconocimiento del habla. Además, el Calidad de grabación desempeña un papel importante para lograr un buen índice de reconocimiento.

✅ ¿Puedes transcribir con reconocimiento de voz?

Transcripción con un Reconocimiento de voz es posible.

pierna de dictado de una persona con pronunciación clara, sin dialecto y sin ruido de fondo, se puede alcanzar un nivel de calidad de aproximadamente el 90% con el reconocimiento de voz. Esta cifra está justo por debajo del nivel de transcripción humano habitual , que es de aproximadamente el 95%. Si falta uno de estos requisitos previos y en casi todas las entrevistas o Conversaciones en grupo Los sistemas actuales de reconocimiento de voz aún no son capaces de generar textos comprensibles.

Según los estudios científicos actuales, el reconocimiento del habla en las entrevistas alcanza actualmente un nivel de sólo un 65% aproximadamente, lo que da lugar a textos en gran medida incomprensibles.

✅ ¿Qué proveedor tiene el mejor reconocimiento de voz?

Ahora hay muchos proveedores para un reconocimiento automático del habla.

Los sistemas difierenen cuanto a
- tasa de reconocimiento (cuántas palabras se reconocen correctamente)
- ortografía y puntuación
- formato (por ejemplo, con o sin asignación de locutor)
- usabilidad (usabilidad como programa, aplicación o sólo a través de la interfaz API)
- precio y modelo de facturación

Google Speech-to-Text y Nuance (Dragon ) obtienen buenos resultados para el idioma alemán. En general, los mejores sistemas alcanzan actualmente una tasa de reconocimiento de aproximadamente el 67% en buenas condiciones, es decir, aproximadamente 67 palabras son reconocidas correctamente por 100 palabras. Un manual Transcripción tiene una tasa de reconocimiento de aproximadamente el 97%.

Empezamos su proyecto hoy mismo: