Situation et tendances de la reconnaissance automatique de la parole

Reconnaissance automatique de la parole

Contenu de cet article


De la voix au texteVous pouvez également trouver de nombreux autres conseils utiles dans notre eBook Enregistrer, taper, analyser - Guide de l'entretien et de la transcription.

Le livre est disponible en téléchargement gratuit: Maintenant, tout ce qui concerne Transcription & Co maintenant !


Qu'est-ce que la reconnaissance vocale ?

Retour à la table des matières

Reconnaissance vocale

Les machines qui interagissent avec les gens font partie de presque tous les bons films de science-fiction. Il y a plus de soixante ans, Arthur C. Clarke, dans son roman "2001 - L'Odyssée de l'espace", filmé par Stanley Kubrick, a créé la vision de l'ordinateur HAL, qui communiquait linguistiquement avec les personnes à bord du vaisseau spatial comme une évidence.

Bien que les machines d'aujourd'hui possèdent déjà certaines des capacités de HAL - comme jouer aux échecs ou naviguer dans un vaisseau spatial - nous sommes encore loin d'une communication intelligente, significative et bidirectionnelle entre humains et machines.

Les logiciels de reconnaissance vocale sont des programmes informatiques spéciaux ou des applications qui reconnaissent le langage parlé et le convertissent automatiquement en texte écrit. convertir. La parole est analysée en termes de mots, de sens et de caractéristiques du locuteur afin d'obtenir le résultat le plus précis possible. À ne pas confondre avec la reconnaissance vocale, c'est-à-dire une procédure biométrique permettant d'identifier les personnes par leur voix.

Avec l'aide de logiciel de reconnaissance vocale le discours est automatiquement converti en texte - il est possible de entre la dépendance à l'égard du locuteur et indépendant des enceintes reconnaissance vocale peuvent être distingués

En attendant, la reconnaissance vocale peut être utilisée pour contrôler le PC, écrire des e-mails ou surfer sur Internet. De nombreuses enceintes avec commande vocale intégrée, comme Alexa d'Amazon ou Google Home, utilisent également cette technologie. En outre, il est désormais inclus en standard dans la plupart des smartphones.

Une distinction est faite entre Deux types de reconnaissance vocale:

  • Reconnaissance vocale indépendante du locuteur : toute voix peut être reconnue et traitée, ce qui permet à n'importe qui de faire fonctionner l'appareil. Bien que ce type d'application soit destiné à un large groupe cible, le vocabulaire disponible est limité.
  • Reconnaissance vocale en fonction du locuteur : cette variante permet d'entraîner le programme à la langue individuelle de l'utilisateur, ce qui permet d'apprendre des abréviations et des phrases spécifiques. Le vocabulaire est donc beaucoup plus étendu.

D'un point de vue technique, il y a deux façons possibles de gérer ce processus. Soit elle a lieu directement sur l'appareil de l'utilisateur, le résultat étant alors disponible presque immédiatement (front-end), soit la mise en œuvre a lieu sur un serveur distinct, indépendant de l'appareil de l'utilisateur (back-end).

Un rôle majeur dans ce processus est, bien entendu, le Qualité de la Enregistrement sonore. De nombreux haut-parleurs, un bruit de fond ou une trop grande distance par rapport au microphone ont une influence négative sur le résultat. En raison de ces limitations et d'autres difficultés, telles que le comportement individuel du locuteur ou le dialecte, une transcription entièrement automatisée n'est pas (encore) possible sans erreurs et elle est donc qualitativement inférieure à la transcription manuelle humaine. Dans tous les cas, donc, un humain Post-correction nécessaireest nécessaire si l'on veut atteindre un certain niveau de qualité. Cependant, dans des conditions optimales et avec un entraînement préalable basé sur la voix de l'utilisateur, les résultats sont déjà bons. Les utilisateurs sont déjà nombreux, notamment parmi les groupes professionnels tels que les médecins ou les avocats.

Pour l'automatique La qualité de l'enregistrement est de l'enregistrement est particulièrement important - Les défis sont nombreux haut-parleurs, bruit de fond et les écarts par rapport à la prononciation standard. Généralement la correction humaine est nécessaire.

Le leader du marché dans ce domaine est le fabricant Nuance Communications avec sa série de programmes "Dragon". La dernière version Dragon Professional Individual 15 offre une fonction de transcription en plus de la commande vocale du PC, également pour un nombre quelconque d'intervenants. Les formats suivants sont pris en charge :

mp3, .aif, .aiff, .wav, .mp4, .m4a et .m4v

Le leader du marché dans ce domaine est Dragon - Dragon Professional 15 offre des fonctions étendues pour transcription

Les fabricants promettent que même les signes de ponctuation non dictés sont définis automatiquement. Cependant, les tests montrent que cela ne fonctionne pas du tout sans erreur, surtout dans les entretiens avec beaucoup de bruit de fond. En outre, le programme ne peut pas attribuer un haut-parleur . Avec une seule personne, sur laquelle Voix sur lesquels le logiciel a été formé au préalable, les résultats sont bien meilleurs. Cependant, il faut toujours garder à l'esprit qu'un entraînement poussé sur sa propre voix demande beaucoup de travail. Cette solution n'est pas très pratique pour une conversation de groupe ou une interview, car chaque intervenant devrait avoir une licence pour utiliser le programme et le système devrait apprendre les voix de chaque interlocuteur individuel.

Le programme ne peut pas l'affectation des intervenants et devrait être formé à votre propre voix pour être formé à votre propre voix

En conséquence, le logiciel est relativement cher, à 399 €. Il peut être utilisé avec Windows 7 ou supérieur ou avec MacOS. Il convient toutefois de noter que la fonction de transcription n'est incluse que dans la version "Professional". La version "Home", moins chère, ne propose que la reconnaissance et le contrôle de la parole. En outre, le logiciel ne peut être utilisé qu'avec des appareils de dictée certifiés par Nuance. D'autre part, l'application "Dragon Anywhere" permet une utilisation mobile des fonctions sur un smartphone.

Entre-temps, d'autres grandes entreprises telles que Google ont également découvert ce marché pour elles-mêmes et, outre les haut-parleurs à commande vocale, proposent également des solutions de transcription automatique. Avec l'aide de Google Discours sur les nuages API, la parole peut également être convertie en texte. En outre, les réseaux neuronaux et l'apprentissage automatique sont utilisés pour améliorer constamment les résultats.

Une alternative est offerte par Google Cloud Discours - ici l'orateur l'affectation des conférenciers est en phase de test

En conclusion, on peut dire que le logiciel ne vaut pas encore la peine d'être utilisé en raison de son prix élevé et des nombreuses erreurs avec des haut-parleurs multiples ou un léger bruit. Si l'on n'apprend pas à l'avance les schémas d'élocution des personnes, on ne peut obtenir de résultats satisfaisants. À cela s'ajoute l'effort de correction élevé qui s'ensuit. A Attribution de la parole La correction doit également être effectuée manuellement. Cela ne peut pas encore être fait par l'IA. Chez Google, entre autres, cette fonction est en phase de test ; là aussi, l'affectation des locuteurs est encore trop imprécise. Le réglage automatique des horodateurs n'est pas non plus possible ; cette fonction est également encore en phase de test (par exemple, à f4).

Sans modèles de discours pré-entraînés l'effort de correction est généralement très élevé haut - une mission de conférencier doit toujours être fait manuellement manuellement


Étude scientifique : la reconnaissance vocale est précise à 67,6 %. 

Retour à la table des matières

abtipper.de a entrepris une étude scientifique en 2019 et 2020 pour évaluer les performances des sept systèmes de reconnaissance vocale actuellement disponibles pour le monde germanophone. Outre les grands fournisseurs tels que Google et Alexa, un certain nombre de petits fournisseurs de niche ont également été examinés.

Le test a permis d'évaluer le taux de reconnaissance des mots dans l'enregistrement d'une conversation normale avec deux personnes, c'est-à-dire une situation d'entretien typique. Un humain atteint un taux de 96-99% dans une transcription audio manuelle, en fonction du domaine et de son expérience. Cela signifie que pour 100 mots, il y a généralement 1 à 4 erreurs dans la transcription humaine.

Le meilleur système de reconnaissance vocale a obtenu une valeur de 67,6%. Cela signifie qu'actuellement 2/3 des mots sont reconnus correctement. Cependant, même certains des systèmes les plus importants sont actuellement bien en dessous de cette valeur, le système de Bing étant le moins performant.

Vue d'ensemble de la qualité (en pourcentage) des transcriptions générées par une machine, comme résultat d'une étude scientifique :

 

Qualité des transcriptions produites

Reconnaissance automatique de la parole

 

Dans l'ensemble, cependant, la transcription automatique n'atteint pas encore le niveau d'une transcription manuelle. Pour une première impression, voici un exemple de transcription d'une interview (avec deux intervenants) avec une intelligence artificielle. Il a été créé par l'un des programmes de transcription les plus populaires actuellement, Google Cloud Speech-to-Text.

Exemple de résultat d'une reconnaissance de l'épargne :
Interview d'Anette Bronder à la foire de Hanovre
(extrait de : https://www.youtube.com/watch?v=Es-CIO9dEwA, consulté le 08.05.2019)

"Cette année encore, la numérisation et la mise en réseau jouent un rôle important à la Foire de Hanovre Industrie. Telekom y estreprésentée pour la troisième fois avec un stand et présente des exemples d'application très concrets - le slogan est "Simplifier la numérisation" Madame Bronder, qu'entendez-vous par "simplifier lanumérisation " ?Je pense que le moment est venu de passer du laboratoire à la pratique, il faut s'attendre à ce quele site Allemagne m'attende aussi avec des solutions explicites pour les PME mais aussi pour les grands clients, qui sont applicables et standardisées, il m'a offert le premier kit de démarrage.Kit avec le matériel et les capteurs où nous rendons le thème de la collecte des données que les données évaluent déjà très simple pour la cliente quelles autres technologies et solutions la Telekom vient encore présenter ici toute quantité je voudrais cependant souligner qu'il est important pour nous de dire cette année ne serait pas la technologie et les solutions nous avons le statut mais nous offrons le thème de l'Internet des objets comme paquet de services pour la toute première fois nous sommes enmesure de fournir la connectivité via notre bon réseau solutions de cloud solutions de sécurité jusqu'aux solutions de détail individuelles dans l'"Analytics"

On voit ici encore une fois, qu'aucune attribution de locuteur n'est effectuée par "KI". La ponctuation n'est pas non plus prise en compte ici.

Dans l'ensemble, on peut dire que la reconnaissance automatique de la parole est actuellement adaptée à deux domaines d'application :

  • Pour les dictées (p. ex. d'avocats ou de médecins) : pour ces enregistrements où il n'y a généralement qu'un seul locuteur qui est toujours le même et où la qualité audio est excellente, en plus d'un vocabulaire limité, un outil peut être très bien entraîné à la voix et au vocabulaire correspondants et ainsi fournir de bons résultats.
  • Si les exigences en matière de qualité de transcription sont faibles, l'utilisation peut également être judicieuse. C'est le cas, par exemple, de la numérisation des archives radiophoniques où l'objectif est la facilité de recherche et où des transcriptions parfaites ne sont donc pas nécessaires. Avec une quantité de matériel souvent extrêmement importante, la transcription manuelle est exclue d'emblée dans ces applications pour des raisons d'économie.

Pour tous les autres usages, par exemple les entretiens, la reconnaissance vocale automatisée n'est malheureusement pas encore adaptée au niveau technique actuel. Cependant, on peut s'attendre à de nouveaux développements dans les années et décennies à venir.


Commandez votre transcription maintenant à abtipper.de ! 

 

Le résultat montre que, surtout dans les situations où il y a plusieurs locuteurs, les systèmes de reconnaissance automatique de la parole laissent encore beaucoup à désirer. En ce qui concerne la transcription, ils ne sont destinés qu'à des cas d'utilisation très spécifiques (par exemple, la numérisation d'archives qui ne seraient pas financièrement rentables autrement). La situation est toutefois différente pour les enregistrements avec un seul locuteur (par exemple, une dictée typique). Dans ce cas, les systèmes actuels atteignent déjà des valeurs d'environ 85% et peuvent donc déjà être utilisés de manière raisonnable pour certaines applications pratiques.

Il existe déjà des enquêtes comparables pour la reconnaissance de commandes déjà connues (par exemple, Alexa Skills). Cependant, ils reflètent une situation de discours non naturelle avec des sujets et des commandes connus auparavant. La qualité de la reconnaissance vocale libre sans vocabulaire artificiellement limité a été étudiée scientifiquement par abtipper.de pour la première fois pour la zone linguistique allemande.


Domaines d'application de la reconnaissance automatique de la parole

Retour à la table des matières

Aujourd'hui déjà, les domaines d'utilisation pratique des transcriptions audio sont nombreux. Outre l'augmentation exponentielle de l'utilisation de la reconnaissance vocale sur les smartphones, par exemple pour composer rapidement des messages courts et des courriels ou pour contrôler des systèmes d'assistance vocale tels que Siri d'Apple, Alexa d'Amazon ou Bing de Microsoft, les technologies de transcription vocale sont désormais également indispensables dans les centres d'appels et les hôpitaux.

En effet, depuis 2018, chez abtipper.de, nous avons réussi à devenir le premier prestataire en Allemagne à proposer des transcriptions grâce à l'intelligence artificielle :

Dans le cas de la transcription par intelligence artificielle, la transcription est effectuée par le biais de la reconnaissance automatique de la parole.

Grâce à notre système de reconnaissance vocale spécialement développé pour les transcriptions, les enregistrements avec peu de locuteurs parlant clairement et une qualité sonore irréprochable obtiennent des résultats particulièrement bons.

Même si la qualité de la transcription par l'intelligence artificielle n'atteint pas encore tout à fait celle de la transcription manuelle, il existe de nombreux domaines d'application pour lesquels elle est particulièrement adaptée. Cela est particulièrement vrai pour la numérisation de grandes quantités de données pour lesquelles la transcription manuelle ne vaudrait pas la peine.

Cliquez ici pour voir un exemple de transcription créée par une intelligence artificielle. Transcription.

Procédure pour la transcription avec intelligence artificielle : Des résultats acceptables ne peuvent être obtenus avec ce type de transcription que si les critères ci-dessus sont respectés. Par conséquent, nous vérifions d'abord toutes les soumissions correspondantes par nos experts. Si, par exemple, il n'est pas possible de produire une bonne transcription en raison d'un dialecte, d'un bruit de fond ou d'un trop grand nombre d'intervenants, vous en serez informé, avec les raisons détaillées, dans un délai de 6 à 24 heures maximum. Vous êtes alors libre de choisir un autre type de transcription.

Avec ce type de transcription, nous vous proposons de créer deux minutes de votre fichier comme transcription test, gratuitement et sans engagement, afin que vous puissiez vérifier le résultat de ce nouveau type de transcription. Vous pouvez ensuite décider, pour chaque cas particulier, si la qualité répond à vos exigences ou si une transcription manuelle serait plus appropriée. Pour ce faire, veuillez passer une commande et indiquer dans le champ de commentaires que vous souhaitez bénéficier de la transcription d'essai gratuite.

Commandez dès maintenant votre transcription d'intelligence artificielle auprès d'abtipper !


L'histoire de la reconnaissance automatique de la parole - une revue

Retour à la table des matières

John Pierce, pionnier de la reconnaissance vocale
John Pierce, pionnier de la reconnaissance vocale

La recherche sur les systèmes de reconnaissance vocale a débuté au début des années 1960, mais n'a pas donné de résultats prometteurs. Les premiers systèmes développés par IBM ont permis de reconnaître des mots individuels dans des conditions de laboratoire, mais en raison d'un manque de connaissances techniques dans le nouveau domaine de recherche de l'époque, ils n'ont pas permis de réaliser de progrès significatifs - c'est ce qui ressort également d'un rapport présenté en 1969 par l'ingénieur américain John Pierce, expert dans le domaine de la technologie des hautes fréquences, des télécommunications et de l'acoustique en tant que responsable du Bell Group.

 

IBM Shoebox pour la reconnaissance vocale
L'IBM Shoebox des années 1960 pouvait reconnaître 16 mots. (Source : IBM)

Ce n'est qu'au milieu des années 1980 que la recherche a pris un nouvel élan avec la découverte de la différenciabilité des homophones au moyen de tests contextuels. En compilant des statistiques sur la fréquence de certaines combinaisons de mots et en les évaluant systématiquement, il a été possible de déduire automatiquement laquelle était visée dans le cas de mots à consonance similaire.

Une étape importante a été la présentation d'un nouveau système de reconnaissance vocale par IBM en 1984, capable de comprendre 5 000 mots anglais individuels et de les convertir en texte à l'aide de ce qu'on appelle les "statistiques de trigrammes". Toutefois, à l'époque, le processus de reconnaissance nécessitait plusieurs minutes de traitement sur un ordinateur central industriel et était donc pratiquement inutilisable. En revanche, un système développé seulement un peu plus tard par Dragon Systems était beaucoup plus avancé et pouvait être utilisé sur un PC portable.

 

IBM, pionnier de la conversion de la parole en texte
Extrait du film publicitaire pour la reconnaissance vocale d'IBM 1984 (Source : IBM)

Au cours des années suivantes, IBM a travaillé intensivement à l'amélioration de son logiciel de reconnaissance vocale. Ainsi, en 1993, le premier système de reconnaissance vocale développé pour le marché de masse et disponible dans le commerce, l'IBM Personal Dictation System, a été introduit.

En 1997, la version successeur d'IBM ViaVoice et la version 1.0 du logiciel Dragon NaturallySpeaking sont apparues. Alors que le développement d'IBM ViaVoice a été interrompu après quelques années, Dragon NaturallySpeaking est devenu le logiciel de reconnaissance vocale le plus utilisé pour les PC Windows. Depuis 2005, le logiciel est produit et distribué par Nuance Communications.

En 2008, avec l'acquisition de Philips Speech Recognition Systems, Nuance a également obtenu les droits sur le kit de développement logiciel SpeechMagic, dont l'utilisation est particulièrement répandue dans le secteur de la santé.

En 2007, la société Siri Inc. a été fondée et rachetée par Apple en avril 2010. Avec l'introduction de l'iPhone 4s en 2011, l'assistant vocal automatique Siri a été présenté au public pour la première fois et n'a cessé d'être développé depuis. Présentation de Siri :

 


   

La fonctionnalité des systèmes Speech-to-Text

Retour à la table des matières

Les systèmes modernes de reconnaissance vocale sont devenus un élément indispensable de notre vie quotidienne. Mais comment fonctionnent-ils réellement ?

Le principe de base de la transcription est très simple : lorsque nous parlons, nous expirons de l'air par nos poumons. En fonction de la composition des syllabes prononcées, nous plaçons l'air dans certains schémas de vibration, qui sont reconnus par le logiciel de reconnaissance vocale et convertis en fichier son. Celui-ci est ensuite divisé en petites parties et fait l'objet d'une recherche spécifique de sons connus. Cependant, comme tous les sons ne sont pas reconnus, une étape intermédiaire est nécessaire.

Grâce à la "méthode de Markov cachée", le logiciel de reconnaissance vocale calcule quel son est susceptible d'en suivre un autre et lequel pourrait à son tour venir après. De cette manière, on obtient une liste de mots possibles avec lesquels se produit, lors d'un deuxième passage, ce qui se passait auparavant avec les lettres : l'ordinateur analyse la probabilité qu'un mot donné en suive un autre - après "Je vais à...", il y a plus de chances que ce soit "maison" que "douche" ou "pause". Mais l'ordinateur ne peut savoir cela que s'il connaît un grand nombre de phrases parlées et s'il sait combien de fois les mots apparaissent et dans quel contexte.

Modèle de Markov caché pour la reconnaissance de la parole
Illustration du fonctionnement du modèle de Markov caché

Une telle tâche informatique dépasse de loin les capacités de traitement d'un téléphone mobile de poche. Il ne peut être résolu qu'en utilisant l'informatique en nuage, c'est-à-dire en externalisant les opérations informatiques difficiles vers de grands ordinateurs fixes. Le téléphone mobile lui-même enregistre simplement la commande vocale, la convertit en un fichier sonore, l'envoie via Internet au centre informatique où il est analysé. Le résultat est ensuite renvoyé au smartphone via l'internet.

Les énormes bases de données de fichiers vocaux et textuels déjà prononcés et correctement transcrits par l'homme, conservées via le cloud computing, sont le véritable secret derrière le succès des nouveaux systèmes de reconnaissance vocale. Un bon logiciel de reconnaissance vocale ne peut donc pas être programmé comme un nouveau jeu informatique ou un pilote d'imprimante. "L'art consiste à obtenir de bonnes données et à les intégrer de manière optimale dans le processus d'apprentissage" - selon Joachim Stegmann, directeur du département Future Telecommunication au sein des Telekom Innovation Laboratories.

Pour un logiciel de reconnaissance vocale vraiment bon et précis, un nombre particulièrement important d'enregistrements de la parole quotidienne est également nécessaire, de sorte que les dialectes, les erreurs d'élocution, les voix marmonnées et les voix de fausset puissent également être enregistrés. Les intervenants doivent également être différents sur le plan démographique - il doit y avoir parmi eux un nombre égal d'enfants, d'hommes, de femmes, de personnes âgées et de jeunes, ainsi que des personnes d'origines régionales différentes. Dans la pratique, on utilise par exemple des transcriptions de discours prononcés au Bundestag, des manuscrits lus à haute voix ou des enregistrements d'émissions de radio.


Opportunités et défis dans le développement de la reconnaissance automatique de la parole

Retour à la table des matières

Des systèmes de reconnaissance vocale performants promettent de rendre notre vie quotidienne beaucoup plus facile. Dans les domaines d'application professionnels, ils pourraient notamment automatiser à l'avenir la transcription du langage parlé - par exemple, l'enregistrement de procès-verbaux ou la transcription manuelle souvent laborieuse de discours, d'interviews ou de vidéos. Ils sont également de plus en plus répandus dans la sphère privée, qu'il s'agisse de commander vocalement le smartphone dans la voiture, d'appeler des recherches sur Google ou de faire fonctionner des applications domestiques intelligentes telles que l'allumage et l'extinction des lumières ou la baisse du chauffage.

Le grand défi de la reconnaissance vocale électronique, cependant, est que personne ne prononce toujours un terme exactement de la même manière dans toutes les situations. L'utilisateur est parfois fatigué, parfois agité, parfois bruyant, parfois calme, parfois concentré, parfois ivre, parfois en colère, parfois enrhumé. Il est donc très difficile pour un logiciel de reconnaître des mots en recherchant des séquences de sons congruents.

Les personnes âgées ou les personnes en déplacement sont particulièrement difficiles à comprendre pour les systèmes. Les bruits de fond rendent la reconnaissance encore plus difficile. C'est pourquoi Microsoft travaille déjà sur le nouveau logiciel "CRIS", qui devrait permettre de configurer individuellement les bruits de fond et le vocabulaire les plus fréquents et donc de l'utiliser également dans des zones de production bruyantes ou dans des maisons de retraite.

Entre-temps, les systèmes actuels atteignent des taux de reconnaissance d'environ 99 % lors de la dictée de textes continus sur des ordinateurs personnels et répondent ainsi aux exigences de la pratique dans de nombreux domaines d'application, par exemple pour les textes scientifiques, la correspondance commerciale ou les mémoires juridiques. Cependant, leur utilisation est limitée lorsque l'auteur a constamment besoin de nouveaux mots et formes de mots qui ne peuvent pas être reconnus par le logiciel au départ. Bien qu'il soit possible d'ajouter ces mots manuellement, ce n'est tout simplement pas efficace s'ils n'apparaissent qu'une seule fois dans les textes du même locuteur.

Critères de référence pour la reconnaissance vocale
Benchmark des systèmes de reconnaissance vocale pour l'anglais (Source : Economist)

 

Les principaux fournisseurs de systèmes de reconnaissance automatique de la parole

Retour à la table des matières

Comme c'est le cas pour de nombreuses technologies modernes, de nouveaux fournisseurs se multiplient dans le domaine de la transcription audio.

Le leader du marché de la reconnaissance et de la transcription automatiques de la parole est Nuance avec son logiciel Dragon NaturallySpeaking. L'utilisation de la technologie Deep Learning permet au logiciel d'être utilisé même dans des environnements avec un fort bruit de fond. Grâce à un entraînement ciblé sur un locuteur spécifique, il est possible d'obtenir une précision allant jusqu'à 99 % dans la conversion parole-texte avec seulement quelques minutes de "temps de lecture" investi. Nuance, quant à elle, travaille sur la prochaine génération d'électronique embarquée qui permettra à l'avenir d'écrire avec précision des textes compliqués par saisie vocale, d'utiliser les réseaux sociaux et d'interroger les moteurs de recherche sans détourner l'attention du conducteur de la route.

Utilisant la même technologie, mais bien plus connu que Nuance, on trouve probablement Siri, l'assistant vocal personnel dont disposent les utilisateurs d'Apple depuis la sortie de l'iPhone 4s. Le logiciel peut être lancé avec la commande "Hey Siri" et ne nécessite donc presque aucune opération manuelle. Cependant, il ne convient que dans une certaine mesure comme logiciel de reconnaissance vocale pour dicter des lettres entières ou des textes plus longs, car la parole n'est pas enregistrée en continu et le texte numérique est émis en continu. Siri enregistre quelques phrases prononcées jusqu'à ce qu'elles soient envoyées au serveur central de traduction avec une commande "Done" ou arrête d'enregistrer le texte pour le transmettre lorsque la mémoire maximale est atteinte. Tant que le texte numérique n'a pas été retransmis, la dictée doit faire une pause. Cette transmission présente des risques pour la sécurité des informations ; en outre, si la transmission est interrompue, par exemple dans un point mort GSM, le texte dicté est perdu.

Comparable au Siri d'Apple, Microsoft exploite l'assistant virtuel Cortana sur son Windows Phone 8.1. qui utilise la recherche Bing ! ainsi que les informations personnelles stockées sur le smartphone pour fournir à l'utilisateur des recommandations personnalisées. Une extension des fonctions au contrôle intelligent des appareils ménagers tels que les réfrigérateurs, les grille-pain ou les thermostats grâce à la technologie de l'internet des objets est déjà prévue. Avec son logiciel de reconnaissance vocale, appelé "Computational Network Toolkit", Microsoft a également pu poser un jalon historique en octobre 2016 : Grâce à la technologie Deep Learning, le logiciel a pu atteindre un taux d'erreur de seulement 5,9 % lors de tests comparatifs entre humains et machines, soit le même taux d'erreur que ses homologues humains. Le logiciel a ainsi réalisé pour la première fois l'égalité entre les humains et les machines.

Google a également ouvert une interface de programmation pour les services cloud en version bêta en mars 2016. L'API Cloud Speech traduit le texte parlé en texte écrit et reconnaît environ 80 langues et variantes de langues. L'API peut déjà fournir le texte sous forme de flux pendant la reconnaissance et filtre automatiquement les bruits de fond. Il n'est actuellement disponible que pour les développeurs.

Plus récemment, Amazon a également annoncé le lancement du nouveau service"Amazon Lex" pour le développement d'interfaces conversationnelles avec la voix et le texte. Il est basé sur la technologie de reconnaissance automatique de la parole et de compréhension du langage naturel qu'utilise également Amazon Alexa. Les développeurs peuvent utiliser ce nouveau service pour créer et tester des assistants vocaux intelligents, appelés "bots", à l'avenir.

Et le système cognitif Watson d'IBM, qui a marqué l'aube de l'ère de l'informatique cognitive en 2011, utilise des réseaux neuronaux, des outils d'apprentissage automatique et d'analyse de texte, notamment la reconnaissance vocale, pour apprendre par lui-même. En attendant, même l'ironie, les métaphores et les jeux de mots ne sont plus un obstacle pour IBM Watson.


Conclusion

Retour à la table des matières

Ces dernières années, la technologie a connu un développement rapide, soutenu notamment par l'informatique en nuage et le traitement automatisé de très grandes quantités de données qu'elle rend possible comme base des systèmes intelligents. Avec l'aide d'un logiciel professionnel de reconnaissance vocale, la transcription automatique est déjà possible aujourd'hui, quasiment sans erreur.

Les systèmes de reconnaissance vocale pure ne sont toutefois qu'un début. La véritable interaction entre les humains et les machines - telle que prophétisée dans les films de science-fiction - nécessite des machines qui ne se contentent pas de reproduire des informations, mais qui peuvent comprendre les contextes et prendre des décisions intelligentes.


Commandez dès maintenant votre transcription d'intelligence artificielle auprès d'abtipper !


Autres questions et réponses

✅ Comment fonctionne la reconnaissance vocale ?

Les systèmes de reconnaissance automatique de la parole fonctionnent tous fondamentalement de la même manière.

En termes simples, le noyau est toujours une grande base de données dans laquelle de nombreuses variantes possibles de la prononciation d'un ou plusieurs mots sont stockées avec le texte correspondant. Lorsqu'un nouvel enregistrement est introduit dans le système, celui-ci compare le son avec la base de données et produit le texte le plus susceptible de correspondre à cet enregistrement.

Plus cette base de données est importante et bien entretenue, meilleure sera la reconnaissance vocale. En outre, le Qualité d'enregistrement joue un rôle majeur dans l'obtention d'un bon taux de reconnaissance.

✅ Pouvez-vous transcrire avec la reconnaissance vocale ?

Transcription avec un Reconnaissance vocale est possible.

leg de la dictée d'une personne ayant une prononciation claire, sans dialecte et sans bruit de fond, un niveau de qualité d'environ 90% peut être atteint avec la reconnaissance vocale. Ce chiffre est à peine inférieur au niveau habituel de transcription humaine, qui est d'environ 95 %. Si l'une de ces conditions préalables fait défaut, et dans presque tous les entretiens ou Conversations de groupe Les systèmes actuels de reconnaissance vocale ne sont pas encore capables de générer des textes compréhensibles.

Selon les études scientifiques actuelles, la reconnaissance vocale dans les entretiens n'atteint actuellement qu'un niveau d'environ 65%, ce qui se traduit par des textes largement incompréhensibles.

✅ Quel fournisseur possède la meilleure reconnaissance vocale ?

Il existe désormais un très grand nombre de fournisseurs pour un reconnaissance automatique de la parole.

Les systèmes diffèrent en termesde
- taux de reconnaissance (combien de mots sont correctement reconnus)
- orthographe et ponctuation
- format (par exemple, avec ou sans affectation de locuteur)
- convivialité (utilisation en tant que programme, application ou uniquement via une interface API)
- prix et modèle de facturation

Google Speech-to-Text et Nuance (Dragon ) obtiennent de bons résultats pour la langue allemande. Globalement, les meilleurs systèmes atteignent actuellement un taux de reconnaissance d'environ 67% dans de bonnes conditions, c'est-à-dire qu'environ 67 mots sont reconnus correctement pour 100 mots. Un manuel Transcription a un taux de reconnaissance d'environ 97%.

Nous démarrons votre projet dès aujourd'hui :