Status Quo & Trends in Automatische Spraakherkenning

Geautomatiseerde spraakherkenning

Inhoud van dit artikel


Stem naar tekstU vindt nog veel meer nuttige tips in ons eBook Opnemen, uittypen, analyseren - gids voor interviewen en transcriptie.

Het boek is beschikbaar als gratis download: Nu is alles over Transcriptie & Co nu!


Wat is spraakherkenning?

Terug naar de inhoudsopgave

Spraakherkenner

Machines die met mensen communiceren zijn een onderdeel van bijna elke goede science fiction film. Meer dan zestig jaar geleden creëerde Arthur C. Clarke in zijn roman "2001 - A Space Odyssey", verfilmd door Stanley Kubrick, het visioen van de computer HAL, die als vanzelfsprekend linguïstisch communiceerde met de mensen aan boord van het ruimteschip.

Hoewel machines vandaag de dag al een aantal van de mogelijkheden van HAL bezitten - zoals schaken of een ruimteschip besturen - zijn we nog ver verwijderd van intelligente, zinvolle en bidirectionele communicatie tussen mens en machine.

Spraakherkenningssoftware verwijst naar speciale computerprogramma's of apps die gesproken taal herkennen en automatisch omzetten in geschreven tekst. omzetten. De spraak wordt geanalyseerd in termen van gesproken woorden, betekenis en sprekerskenmerken om een zo nauwkeurig mogelijk resultaat te bereiken. Dit mag niet worden verward met stemherkenning, d.w.z. een biometrische procedure om mensen aan de hand van hun stem te identificeren.

Met de hulp van spraakherkenningsoftware spraak wordt automatisch omgezet in tekst - het is mogelijk om tussen luidsprekerafhankelijke en luidspreker-onafhankelijk spraakherkenning kunnen worden onderscheiden

Intussen kan spraakherkenning worden gebruikt om de PC te bedienen, e-mails te schrijven of op het Internet te surfen. Ook tal van luidsprekers met geïntegreerde spraakbediening, zoals Alexa van Amazon of Google Home, maken gebruik van deze technologie. Bovendien zit het nu standaard in de meeste smartphones.

Er wordt een onderscheid gemaakt tussen Twee soorten spraakherkenning:

  • Spraakherkenning onafhankelijk van de spreker: Hier kan elke stem worden herkend en verwerkt, zodat iedereen het toestel kan bedienen. Hoewel dit type toepassing gericht is op een brede doelgroep, is de beschikbare woordenschat beperkt.
  • Spraakherkenning afhankelijk van de spreker: Bij deze variant wordt het programma getraind voor de individuele taal van de betreffende gebruiker, waarbij specifieke afkortingen en zinsdelen kunnen worden aangeleerd. De woordenschat is dus veel uitgebreider.

Vanuit technisch oogpunt zijn er twee mogelijke manieren om dit proces af te handelen. Ofwel gebeurt dit rechtstreeks op het toestel van de gebruiker, waarbij het resultaat bijna onmiddellijk beschikbaar is (front-end), ofwel gebeurt de uitvoering op een afzonderlijke server, onafhankelijk van het toestel van de gebruiker (back-end).

Een belangrijke rol in dit proces is, uiteraard, de Kwaliteit van de Geluidsopname. Veel luidsprekers, achtergrondlawaai of een te grote afstand tot de microfoon hebben een negatieve invloed op het resultaat. Als gevolg van deze beperkingen en andere moeilijkheden, zoals individueel sprekersgedrag of dialect, is een volledig geautomatiseerde transcriptie (nog) niet mogelijk zonder fouten en dus kwalitatief inferieur aan menselijke handmatige transcriptie. In ieder geval, dus, een mens Post-correctie noodzakelijkis noodzakelijk om een bepaald kwaliteitsniveau te bereiken. Onder optimale omstandigheden en met voorafgaande training op basis van de stem van de gebruiker, zijn de resultaten echter al goed. Er zijn reeds talrijke gebruikers, vooral onder beroepsgroepen zoals artsen of advocaten.

Voor automatische De kwaliteit van de opname is van de opname is bijzonder belangrijk - Uitdagingen zijn veel sprekers, achtergrondgeluid en afwijkingen van de standaard uitspraak. Over het algemeen menselijke correctie is nodig.

De marktleider op dit gebied is de fabrikant Nuance Communications met zijn "Dragon"-programmaserie. De laatste versie Dragon Professional Individueel 15 biedt een transcriptiefunctie naast de spraakbesturing van de PC, ook voor een willekeurig aantal luidsprekers. De volgende formaten worden ondersteund:

mp3, .aif, .aiff, .wav, .mp4, .m4a en .m4v

De marktleider op dit gebied is Dragon - Dragon Professional 15 biedt uitgebreide functies voor transcriptie

De fabrikanten beloven dat zelfs niet-gedicteerde leestekens automatisch worden ingesteld. Uit tests blijkt echter dat dit helemaal niet foutloos werkt, vooral bij interviews met veel achtergrondlawaai. Bovendien kan het programma geen spreker aan wijzen. Met een enkele persoon, op wiens Stem de software van tevoren is getraind, zijn de resultaten veel beter. Men moet echter altijd voor ogen houden dat uitgebreide training van de eigen stem veel werk vergt. Deze oplossing is niet erg praktisch voor een groepsgesprek of een interview, aangezien elke spreker een licentie zou moeten hebben om het programma te mogen gebruiken en het systeem de stemmen van elke afzonderlijke gesprekspartner zou moeten leren.

Het programma kan niet sprekerstoewijzing en moet worden getraind op je eigen stem voor getraind worden op je eigen stem

De software is dan ook relatief duur: 399 euro. Het kan worden gebruikt met Windows 7 of hoger of met MacOS. Er zij echter op gewezen dat de transcriptiefunctie alleen in de "Professional"-versie is opgenomen. De goedkopere "Home"-versie biedt alleen spraakherkenning en bediening. Bovendien kan de software alleen worden gebruikt met dicteerapparatuur die door Nuance is gecertificeerd. Anderzijds maakt de "Dragon Anywhere"-app mobiel gebruik van de functies op een smartphone mogelijk.

Intussen hebben andere grote bedrijven zoals Google deze markt ook voor zichzelf ontdekt en bieden zij naast spraakgestuurde luidsprekers ook oplossingen aan voor geautomatiseerde transcripties. Met de hulp van Google Wolk Spraak API, spraak kan ook in tekst worden omgezet. Bovendien wordt gebruik gemaakt van neurale netwerken en machinaal leren om de resultaten voortdurend te verbeteren.

Een alternatief wordt geboden door Google Cloud Speech - hier de spreker de sprekerstoewijzing bevindt zich in de testfase

Concluderend kan worden gesteld dat de software nog niet de moeite waard is vanwege de hoge prijs en de vele fouten met meerdere luidsprekers of lichte ruis. Zonder de spraakpatronen van de personen vooraf te leren, kunnen geen bevredigende resultaten worden bereikt. Bovendien is er de daaropvolgende hoge correctie-inspanning. A Sprekersopdracht correctie moet ook handmatig worden uitgevoerd. Dit kan nog niet door de AI gedaan worden. Onder meer bij Google bevindt deze functie zich in de testfase; ook hier is de sprekerstoewijzing nog te onnauwkeurig. De automatische instelling van tijdstempels is evenmin mogelijk; ook deze functie bevindt zich nog in de testfase (b.v. bij f4).

Zonder voorgetrainde spraakpatronen de correctie-inspanning is meestal zeer hoog hoog - een sprekers opdracht moet nog steeds handmatig worden gedaan handmatig


Wetenschappelijke studie: spraakherkenning is 67,6% accuraat 

Terug naar de inhoudsopgave

abtipper.de heeft in 2019 en 2020 een wetenschappelijke studie uitgevoerd om de prestaties te beoordelen van de zeven spraakherkenningssystemen die momenteel beschikbaar zijn voor de Duitstalige wereld. Naast grote aanbieders zoals Google en Alexa, werd ook een aantal kleinere niche-aanbieders onderzocht.

De test onderzocht hoe hoog de woordherkenningsgraad is in een normale gespreksopname met twee personen, d.w.z. een typische interviewsituatie. Een mens haalt een percentage van 96-99% bij een handmatige audiotranscriptie, afhankelijk van het vakgebied en zijn of haar ervaring. Dit betekent dat er voor 100 woorden meestal 1-4 fouten in de menselijke transcriptie zitten.

Het beste spraakherkenningssysteem haalde een waarde van 67,6%. Dit betekent dat momenteel 2/3 van de woorden correct wordt herkend. Maar zelfs enkele van de grotere systemen zitten momenteel ver onder deze waarde, waarbij het systeem van Bing het slechtst presteert.

Overzicht van de kwaliteit (in procenten) van machinaal gegenereerde transcripties, als resultaat van een wetenschappelijke studie:

 

Kwaliteit van de afschriften

Automatische spraakherkenning

 

Al bij al haalt de machinale transcriptie echter nog niet het niveau van een manueel gemaakte transcriptie. Om een eerste indruk te krijgen, volgt hier een voorbeeld van de transcriptie van een interview (met twee sprekers) met kunstmatige intelligentie. Deze is gemaakt door een van de momenteel populairste transcriptieprogramma's, Google Cloud Speech-to-Text.

Voorbeeldig resultaat van een sparchherkenning:
Interview Anette Bronder op de Hannover Messe
(fragment uit: https://www.youtube.com/watch?v=Es-CIO9dEwA, bekeken op 08.05.2019)

"Digitalisering en netwerking spelen ook ditjaar op de Hannover Messe Industrie Telekom is voor de derde keer vertegenwoordigd met eenstand en toont zeer concrete voorbeelden van toepassingen het motto is "Making digitisation simple" Mevrouw Bronder wat bedoelt u eigenlijk met "making it simple" kunnen we onszelf een voorbeeld geven ja heel goed trefwoord geleverd make it simple u zei net dat de beurs hier op deHannover Messevoor de derde keer over het onderwerp digitalisering wordt gehouden.Ik denk dat de tijd nu rijp is om van hetlaboratorium naar de praktijk over tegaan .Ik wil er echter op wijzen dat hetvoor ons belangrijk isom dit jaar te zeggen dat wij niet over technologie en oplossingen beschikken, maar datwij hetinternet der dingen voor het eerst als dienstenpakket aanbieden. Wij zijn in staat omconnectiviteit te leveren via ons goede netwerk cloud-oplossingen beveiligingsoplossingen tot en metindividuele detailoplossingen op het gebied van analytics"

Hier blijkt eens te meer dat "AI"geen technologie of oplossing is, dat er geen spreker wordt aangesproken door "AI". Ook met de interpunctie wordt hier geen rekening gehouden.

In het algemeen kan worden gesteld dat geautomatiseerde spraakherkenning momenteel geschikt is voor twee toepassingsgebieden:

  • Voor dictaten (b.v. van advocaten of artsen): Voor deze opnamen met meestal slechts één spreker die altijd dezelfde is en een uitstekende geluidskwaliteit, naast een beperkte woordenschat, kan een hulpmiddel zeer goed worden getraind op de overeenkomstige stem en woordenschat en dus goede resultaten opleveren.
  • Als de eisen voor de kwaliteit van de transcriptie laag zijn, kan het gebruik ook zinvol zijn. Dit is bijvoorbeeld het geval bij de digitalisering van radioarchieven, waar doorzoekbaarheid het doel is en perfecte transcripties dus niet nodig zijn. Bij een vaak zeer grote hoeveelheid materiaal is handmatige transcriptie bij dergelijke toepassingen om economische redenen van meet af aan uitgesloten.

Voor alle andere doeleinden, b.v. interviews, is geautomatiseerde spraakherkenning op het huidige technische niveau helaas nog niet geschikt. In de komende jaren en decennia kunnen hier echter wellicht verdere ontwikkelingen worden verwacht.


Bestel uw transcriptie nu bij abtipper.de! 

 

Het resultaat toont aan dat, vooral in situaties met meerdere sprekers, geautomatiseerde spraakherkenningssystemen nog veel te wensen overlaten. Voor transcriptie zijn zij alleen voor zeer specifieke gebruiksgevallen bestemd (b.v. digitalisering van archieven die anders financieel niet lonend zouden zijn). De situatie is echter anders voor opnamen met slechts één spreker (b.v. een typisch dictaat). Hier bereiken de systemen momenteel reeds waarden rond 85% en kunnen zij dus reeds zinvol worden gebruikt voor sommige praktische toepassingen.

Er bestaan al enkele vergelijkbare onderzoeken voor de herkenning van eerder bekende commando's (bv. Alexa Skills). Deze weerspiegelen echter een onnatuurlijke spreeksituatie met vooraf bekende onderwerpen en commando's. De kwaliteit van vrije spraakherkenning zonder een kunstmatig beperkte woordenschat is nu voor het eerst wetenschappelijk onderzocht door abtipper.de voor het Duitse taalgebied.


Toepassingsgebieden van geautomatiseerde spraakherkenning

Terug naar de inhoudsopgave

Reeds vandaag zijn er talrijke praktische toepassingsgebieden voor audiotranscriptie. Naast de exponentiële toename van het gebruik van spraakherkenning op smartphones, bijvoorbeeld voor het snel opstellen van korte berichten en e-mails of voor het aansturen van spraakassistentiesystemen zoals Apple's Siri, Amazons Alexa of Microsofts Bing, zijn spraaktranscriptietechnologieën nu ook onmisbaar in callcenters en ziekenhuizen.

Sinds 2018 zijn we er bij abtipper.de zelfs in geslaagd om als eerste aanbieder in Duitsland transcripties via kunstmatige intelligentie aan te bieden:

Bij transcriptie met behulp van kunstmatige intelligentie gebeurt de transcriptie met behulp van automatische spraakherkenning.

Dankzij ons spraakherkenningssysteem, dat speciaal voor transcripties is ontwikkeld, worden bijzonder goede resultaten bereikt met opnamen met weinig, duidelijk sprekende sprekers en een onberispelijke geluidskwaliteit.

Ook al is de kwaliteit van de transcriptie door kunstmatige intelligentie nog niet helemaal gelijk aan die van de handmatige transcriptie, toch zijn er talrijke toepassingsgebieden waarvoor zij bijzonder geschikt is. Dit geldt met name voor de digitalisering van grote hoeveelheden gegevens waarbij handmatige transcriptie de prijs niet waard zou zijn.

Klik hier voor een voorbeeld van een door kunstmatige intelligentie gecreëerd transcript. Transcript.

Procedure voor transcriptie met kunstmatige intelligentie: Met dit type transcriptie kunnen alleen aanvaardbare resultaten worden bereikt als aan de bovenstaande criteria is voldaan. Daarom controleren wij eerst alle inzendingen van onze deskundigen. Als bijvoorbeeld door dialect, achtergrondlawaai of te veel sprekers geen goede transcriptie kan worden gemaakt, wordt u daarvan binnen 6 tot maximaal 24 uur op de hoogte gesteld, met gedetailleerde opgaaf van redenen. U bent dan vrij om een ander transcriptietype te kiezen.

Bij dit type transcriptie bieden wij u aan gratis en vrijblijvend twee minuten van uw bestand als testtranscriptie te maken, zodat u het resultaat van dit nieuwe type transcriptie kunt controleren. U kunt dan voor het specifieke geval beslissen of de kwaliteit aan uw eisen voldoet, dan wel of een handmatige transcriptie geschikter zou zijn. Om dit te doen, gelieve een bestelling te plaatsen en in het commentaarveld te noteren dat u de gratis proeftranscriptie wenst.

Bestel nu uw kunstmatige intelligentie transcriptie bij abtipper!


De geschiedenis van automatische spraakherkenning - een overzicht

Terug naar de inhoudsopgave

John Pierce, pionier van de spraakherkenning
John Pierce, pionier van de spraakherkenning

Het onderzoek naar spraakherkenningssystemen begon in het begin van de jaren zestig, maar leverde geen veelbelovende resultaten op. De eerste door IBM ontwikkelde systemen maakten het mogelijk afzonderlijke woorden te herkennen onder laboratoriumomstandigheden, maar door een gebrek aan technische kennis op het toen nieuwe onderzoeksterrein leverden zij geen noemenswaardige vooruitgang op - dit bleek ook uit een rapport dat in 1969 werd gepresenteerd door de Amerikaanse ingenieur John Pierce, die als hoofd van de Bell Group een expert was op het gebied van hoogfrequentietechnologie, telecommunicatie en akoestiek.

 

IBM Shoebox voor spraakherkenning
De IBM Shoebox uit de jaren zestig kon 16 woorden herkennen. (Bron: IBM)

Pas in het midden van de jaren tachtig kreeg het onderzoek een nieuwe impuls met de ontdekking van de differentieerbaarheid van homofonen door middel van contextuele tests. Door statistieken op te stellen over de frequentie van bepaalde woordcombinaties en deze systematisch te evalueren, kon automatisch worden afgeleid welke woordcombinatie werd bedoeld in het geval van gelijkluidende woorden.

Een belangrijke mijlpaal was de presentatie van een nieuw spraakherkenningssysteem door IBM in 1984, dat in staat was 5.000 afzonderlijke Engelse woorden te begrijpen en in tekst om te zetten met behulp van zogenaamde "trigramstatistieken". In die tijd vergde het herkenningsproces echter enkele minuten verwerkingstijd op een industriële mainframecomputer en was het dus praktisch onbruikbaar. Een systeem dat iets later door Dragon Systems werd ontwikkeld, was daarentegen veel geavanceerder en kon op een draagbare PC worden gebruikt.

 

IBM als pionier voor spraak-naar-tekst
Fragment voor reclamefilm voor IBM-spraakherkenning 1984 (Bron: IBM)

In de daaropvolgende jaren werkte IBM intensief aan de verbetering van zijn spraakherkenningssoftware. Zo werd in 1993 het eerste spraakherkenningssysteem dat voor de massamarkt was ontwikkeld en in de handel verkrijgbaar was, het IBM Personal Dictation System, geïntroduceerd.

In 1997 verschenen zowel de opvolger van IBM ViaVoice als versie 1.0 van de Dragon NaturallySpeaking software. Terwijl de verdere ontwikkeling van IBM ViaVoice na een paar jaar werd stopgezet, werd Dragon NaturallySpeaking de meest gebruikte spraakherkenningssoftware voor Windows PC's. Sinds 2005 wordt de software geproduceerd en gedistribueerd door Nuance Communications.

In 2008 verwierf Nuance met de overname van Philips Speech Recognition Systems ook de rechten op de SpeechMagic software development kit, waarvan het gebruik bijzonder wijdverbreid is in de gezondheidszorgsector.

In 2007 werd het bedrijf Siri Inc. opgericht, dat in april 2010 door Apple werd gekocht. Met de introductie van de iPhone 4s in 2011 werd de automatische spraakassistent Siri voor het eerst aan het publiek voorgesteld en is sindsdien voortdurend verder ontwikkeld. Presentatie van Siri:

 


   

De functionaliteit achter Speech-to-Text-systemen

Terug naar de inhoudsopgave

Moderne spraakherkenningssystemen zijn een onmisbaar onderdeel van ons dagelijks leven geworden. Maar hoe werken ze eigenlijk?

Het basisprincipe van transcriptie is heel eenvoudig: als we spreken, ademen we lucht uit via onze longen. Afhankelijk van de samenstelling van de gesproken lettergrepen, zetten wij de lucht in bepaalde trillingspatronen, die door de spraakherkenningssoftware worden herkend en omgezet in een geluidsbestand. Dit wordt dan in kleine stukjes verdeeld en specifiek gezocht naar bekende geluiden. Omdat echter niet alle geluiden worden herkend, is een tussenstap noodzakelijk.

Met behulp van de zogenaamde "Verborgen Markov Methode" berekent de spraakherkenningssoftware welke klank waarschijnlijk op een andere volgt en welke op zijn beurt erna zou kunnen komen. Op die manier ontstaat een lijst van mogelijke woorden waarmee in een tweede run gebeurt wat eerder met de letters gebeurde: de computer analyseert de waarschijnlijkheid waarmee een bepaald woord op een ander volgt - na "ik ga naar..." komt "huis" in plaats van "douche" of "pauze". Maar de computer kan dit alleen weten als hij veel gesproken zinnen kent en weet hoe vaak en in welke context de woorden voorkomen.

Verborgen Markov-model voor spraakherkenning
Illustratie van de werking van het verborgen markovmodel

Een dergelijke rekentaak overtreft vele malen de verwerkingscapaciteit van een mobiele telefoon van zakformaat. Dit kan alleen worden opgelost door gebruik te maken van cloud computing, d.w.z. het uitbesteden van moeilijke rekenoperaties aan stationaire grote computers. De mobiele telefoon zelf neemt het spraakcommando gewoon op, zet het om in een geluidsbestand, stuurt het via het internet naar het computercentrum en laat het daar analyseren. Het resultaat wordt vervolgens via het internet teruggestuurd naar de smartphone.

De enorme databanken van reeds door mensen gesproken en correct getranscribeerde spraak- en tekstbestanden, die via cloud computing worden bijgehouden, zijn het echte geheim achter het succes van de nieuwe spraakherkenners. Goede spraakherkenningssoftware kan dus niet zomaar worden geprogrammeerd zoals een nieuw computerspel of printerstuurprogramma. "De kunst is om goede gegevens te bemachtigen en die optimaal te integreren in het leerproces" - zegt Joachim Stegmann, hoofd van de afdeling Future Telecommunication van de Telekom Innovation Laboratories.

Voor echt goede en nauwkeurige spraakherkenningssoftware is ook een bijzonder groot aantal opnamen van alledaagse spraak nodig, zodat ook dialecten, spraakfouten, gemompel en falsetstemmen kunnen worden opgenomen. De sprekers moeten ook demografisch verschillen - er moeten evenveel kinderen, mannen, vrouwen, ouderen als jongeren en mensen van verschillende regionale afkomst bij zijn. In de praktijk worden bijvoorbeeld transcripties van toespraken in de Bundestag, voorgelezen manuscripten of opnames van radio-uitzendingen gebruikt.


Kansen en uitdagingen bij de ontwikkeling van automatische spraakherkenning

Terug naar de inhoudsopgave

Goed functionerende spraakherkenningssystemen beloven ons dagelijks leven veel gemakkelijker te maken. Op professionele toepassingsgebieden zouden zij in de toekomst met name de transcriptie van gesproken taal kunnen automatiseren - bijvoorbeeld de opname van notulen of de vaak moeizame handmatige transcriptie van toespraken, interviews of video's. Ook in de privésfeer raken ze steeds meer verspreid, of het nu gaat om spraakgestuurde bediening van de smartphone in de auto, het opvragen van Google-zoekopdrachten of het bedienen van smart home-toepassingen zoals het aan- en uitschakelen van de verlichting of het lager zetten van de verwarming.

De grote uitdaging bij elektronische spraakherkenning is echter dat niemand een term altijd precies hetzelfde uitspreekt in elke situatie. Soms is de gebruiker moe, soms hectisch, soms luidruchtig, soms stil, soms geconcentreerd, soms dronken, soms boos, soms verkouden. Daarom is het voor software erg moeilijk om woorden te herkennen door te zoeken naar congruente klankreeksen.

Vooral oudere mensen of mensen die zich verplaatsen zijn moeilijk te begrijpen voor de systemen. Achtergrondgeluiden maken de herkenning nog moeilijker - Microsoft werkt daarom al aan de nieuwe software "CRIS", die individuele configuratie van veel voorkomende achtergrondgeluiden en woordenschat mogelijk moet maken en zo ook gebruik in lawaaierige produktieruimten of in bejaardentehuizen mogelijk moet maken.

De huidige systemen halen intussen een herkenningspercentage van ongeveer 99% bij het dicteren van ononderbroken teksten op personal computers en voldoen dus aan de eisen van de praktijk voor vele toepassingsgebieden, b.v. voor wetenschappelijke teksten, bedrijfscorrespondentie of juridische briefwisseling. Het gebruik ervan is echter beperkt wanneer de auteur voortdurend nieuwe woorden en woordvormen nodig heeft die in eerste instantie niet door de software kunnen worden herkend. Hoewel het mogelijk is deze woorden handmatig toe te voegen, is dit eenvoudigweg niet efficiënt wanneer zij slechts eenmaal voorkomen in teksten van dezelfde spreker.

Benchmarks voor spraakherkenning
Benchmark van spraakherkenningssystemen voor Engels (Bron: Economist)

 

De belangrijkste aanbieders van automatische spraakherkenningssystemen

Terug naar de inhoudsopgave

Zoals met veel moderne technologieën het geval is, schieten nieuwe aanbieders op het gebied van audiotranscriptie als paddestoelen uit de grond.

De marktleider op het gebied van automatische spraakherkenning en transcriptie is Nuance met haar Dragon NaturallySpeaking software. Dankzij het gebruik van Deep Learning-technologie kan de software zelfs worden gebruikt in omgevingen met veel achtergrondlawaai. Door gerichte training op een specifieke spreker kan een nauwkeurigheid tot 99% bij de omzetting van spraak naar tekst worden bereikt met slechts een paar minuten geïnvesteerde "leestijd". Nuance werkt intussen aan de volgende generatie elektronica voor in de auto, die in de toekomst het nauwkeurig schrijven van ingewikkelde teksten via spraakinvoer, het gebruik van sociale netwerken en het bevragen van zoekmachines mogelijk zal maken zonder de aandacht van de bestuurder van de weg af te leiden.

Gebruikmakend van dezelfde technologie, maar veel bekender dan Nuance, is waarschijnlijk Siri, de persoonlijke spraakassistent die sinds de release van de iPhone 4s beschikbaar is voor Apple-gebruikers. De software kan worden gestart met het commando "Hey Siri" en vereist dus vrijwel geen handmatige bediening. Het is echter slechts in beperkte mate geschikt als spraakherkenningssoftware voor het dicteren van hele brieven of langere teksten, aangezien de spraak niet continu wordt opgenomen en de digitale tekst continu wordt uitgevoerd. Siri slaat een paar gesproken zinnen op totdat ze met een "klaar"-opdracht naar de centrale vertaalserver worden gestuurd of stopt met het opnemen van tekst voor verzending wanneer het maximale geheugen is bereikt. Totdat de digitale tekst opnieuw is verzonden, moet het dicteren worden gepauzeerd. Deze transmissie houdt risico's in voor de informatiebeveiliging; bovendien gaat de gedicteerde tekst verloren als de transmissie wordt onderbroken, bijvoorbeeld in een GSM dead spot.

Vergelijkbaar met Apple's Siri heeft Microsoft op zijn Windows Phone 8.1. de virtuele assistent Cortana, die gebruik maakt van de zoekfunctie Bing! en van persoonlijke informatie die op de smartphone is opgeslagen, om de gebruiker gepersonaliseerde aanbevelingen te doen. Een uitbreiding van de functies tot de slimme bediening van huishoudtoestellen zoals koelkasten, broodroosters of thermostaten via de technologie van het internet der dingen is reeds gepland. Met zijn spraakherkenningssoftware, de zogeheten "Computational Network Toolkit", wist Microsoft in oktober 2016 ook een historische mijlpaal te bereiken: Met behulp van Deep Learning-technologie kon de software een foutenpercentage van slechts 5,9% halen in vergelijkende tests tussen mensen en machines - hetzelfde foutenpercentage als zijn menselijke tegenhangers. De software heeft dus voor het eerst de gelijkheid tussen mens en machine bereikt.

Google opende in maart 2016 ook een programmeerinterface voor clouddiensten als bètaversie. De Cloud Speech API vertaalt gesproken tekst in geschreven tekst en herkent ongeveer 80 talen en taalvarianten. De API kan de tekst al tijdens de herkenning als een stream aanleveren en filtert automatisch achtergrondruis weg. Het is momenteel alleen beschikbaar voor ontwikkelaars.

Onlangs kondigde Amazon ook de lancering aan van de nieuwe dienst"Amazon Lex" voor de ontwikkeling van conversatie-interfaces met spraak en tekst. Het is gebaseerd op de technologie voor automatische spraakherkenning en natuurlijk taalbegrip die ook Amazon Alexa gebruikt. Ontwikkelaars kunnen de nieuwe dienst gebruiken om in de toekomst intelligente spraakassistenten - zogenaamde bots - te bouwen en te testen.

En het cognitieve systeem IBM Watson, dat in 2011 het tijdperk van de cognitieve computer inluidde, maakt gebruik van neurale netwerken, machinaal leren en tekstanalyse-instrumenten, met name spraakherkenning, om zelf te leren. Intussen zijn zelfs ironie, metaforen en woordspelingen geen obstakel meer voor IBM Watson.


Conclusie

Terug naar de inhoudsopgave

De laatste jaren heeft de technologie zich snel ontwikkeld, met name ondersteund door cloud computing en de geautomatiseerde verwerking van extreem grote hoeveelheden gegevens die daardoor mogelijk wordt als basis voor intelligente systemen. Met behulp van professionele spraakherkenningssoftware is automatische transcriptie vandaag al mogelijk met bijna geen fouten.

Zuivere spraakherkenningssystemen op zich zijn echter nog maar het begin. Echte interactie tussen mens en machine - zoals voorspeld in science-fiction films - vereist machines die niet alleen informatie kunnen reproduceren, maar ook contexten kunnen begrijpen en intelligente beslissingen kunnen nemen.


Bestel nu uw kunstmatige intelligentie transcriptie bij abtipper!


Verdere vragen en antwoorden

✅ Hoe werkt spraakherkenning?

Automatische spraakherkenningssystemen werken in principe allemaal op dezelfde manier.

Simpel gezegd is de kern altijd een grote database waarin vele mogelijke varianten van de uitspraak van een of meer woorden zijn opgeslagen met de bijbehorende tekst. Wanneer vervolgens een nieuwe opname in het systeem wordt ingevoerd, vergelijkt het systeem het geluid met de database en geeft het de tekst weer die het meest waarschijnlijk met die opname overeenkomt.

Hoe groter en beter onderhouden deze database is, hoe beter de spraakherkenning zal zijn. Bovendien, de Opnamekwaliteit speelt een belangrijke rol bij het bereiken van een goed herkenningspercentage.

Kunt u transcriberen met spraakherkenning?

Transcriptie met een Spraakherkenning mogelijk is.

leg van dictaat van een persoon met een duidelijke uitspraak, zonder dialect en zonder achtergrondlawaai, kan met spraakherkenning een kwaliteitsniveau van ca. 90% worden bereikt. Dit is maar net onder het gebruikelijke menselijke transcriptieniveau van ca. 95%. Als één van deze voorwaarden ontbreekt en in bijna alle gesprekken of Groepsgesprekken De huidige spraakherkenningssystemen zijn nog niet in staat begrijpelijke teksten te genereren.

Volgens de huidige wetenschappelijke studies haalt de spraakherkenning bij interviews momenteel een niveau van slechts ongeveer 65%, wat leidt tot grotendeels onbegrijpelijke teksten.

✅ Welke provider heeft de beste spraakherkenning?

Er zijn nu veel aanbieders van automatische spraakherkenning.

De systemen verschillen in termen van
- herkenningspercentage (hoeveel woorden worden correct herkend)
- spelling en interpunctie
- formaat (bv. met of zonder sprekerstoewijzing)
- bruikbaarheid (bruikbaarheid als programma, app of alleen via API-interface)
- prijs en factureringsmodel

Google Speech-to-Text en Nuance (Dragon ) behalen goede resultaten voor de Duitse taal. In het algemeen halen de beste systemen momenteel een herkenningspercentage van ongeveer 67% onder goede omstandigheden, d.w.z. dat voor 100 woorden ongeveer 67 woorden correct worden herkend. Een handleiding Transcriptie systeem heeft een herkenningspercentage van ongeveer 97%.

We starten uw project vandaag nog: Vraag een offerte aan