Status quo & trends in automatische spraakherkenning

Geautomatiseerde spraakherkenning

Inhoud van dit artikel


Spraak naar tekstViele weitere nützliche Tipps finden Sie auch in unserem eBook Opnemen, typen, analyseren - een gids voor het afnemen van interviews en transcripties.

Das Buch gibt es als kostenloser Download: Jetzt alles zu Transkription & Co erfahren!


Wat is spraakherkenning?

Terug naar de inhoudsopgave

Spraakherkenner

Machines die met mensen communiceren komen in bijna elke goede sciencefictionfilm voor. Meer dan zestig jaar geleden creëerde Arthur C. Clarke in zijn roman "2001 - A Space Odyssey", die door Stanley Kubrick werd verfilmd, het visioen van de computer HAL, die met de mensen aan boord van het ruimteschip communiceerde door als vanzelfsprekend taal te gebruiken.

Hoewel machines al enkele van de mogelijkheden van HAL hebben - zoals schaken of het navigeren van een ruimteschip - zijn we nog ver verwijderd van intelligente, zinvolle en bidirectionele communicatie tussen mensen en machines.

Spraakherkenningssoftware verwijst naar speciale computerprogramma's of apps die gesproken taal herkennen en automatisch omzetten in geschreven tekst. in geschreven tekst. De spraak wordt geanalyseerd op gesproken woorden, betekenis en kenmerken van de spreker om een zo nauwkeurig mogelijk resultaat te bereiken. Dit moet niet verward worden met stemherkenning, wat een biometrisch proces is dat gebruikt wordt om mensen te identificeren op basis van hun stem.

Met behulp van spraakherkenningssoftware wordt gesproken taal automatisch omgezet in tekst - met de optie tussen spreker-afhankelijk en sprekeronafhankelijke spraakherkenning kan worden onderscheiden

Spraakherkenning kan nu worden gebruikt om een pc te bedienen, e-mails te schrijven of op het internet te surfen. Talloze luidsprekers met geïntegreerde stembediening, zoals Alexa van Amazon of Google Home, maken ook gebruik van deze technologie. Bovendien zit het nu standaard in de meeste smartphones.

Er wordt onderscheid gemaakt tussen twee soorten spraakherkenning:

  • Sprekeronafhankelijke spraakherkenning: Elke stem kan worden herkend en verwerkt, waardoor iedereen het apparaat kan bedienen. Hoewel dit type toepassing gericht is op een brede doelgroep, is de beschikbare woordenschat beperkt.
  • Spraakherkenning afhankelijk van de spreker: In deze variant wordt het programma getraind voor de individuele taal van de betreffende gebruiker, waardoor specifieke afkortingen en zinnen kunnen worden geleerd. De woordenschat is daardoor veel uitgebreider.

Vanuit technisch oogpunt zijn er twee mogelijke manieren om met dit proces om te gaan. Of het vindt direct plaats op het apparaat van de gebruiker, waarbij het resultaat vrijwel direct beschikbaar is (front-end), of de implementatie vindt plaats op een aparte server, onafhankelijk van het apparaat van de gebruiker (back-end).

Een belangrijke rol in dit proces wordt natuurlijk gespeeld door de kwaliteit van de geluidsopname. Veel sprekers, achtergrondlawaai of een te grote afstand tot de microfoon hebben een negatieve invloed op het resultaat. Door deze beperkingen en andere moeilijkheden, zoals het gedrag van individuele sprekers of dialect, is volledig geautomatiseerde transcriptie (nog) niet foutloos mogelijk en daarom van mindere kwaliteit dan menselijke handmatige transcriptie. In elk geval is een menselijke correctie noodzakelijkom een bepaald kwaliteitsniveau te bereiken. Onder optimale omstandigheden en met voorafgaande training op basis van de stem van de gebruiker zijn de resultaten echter al goed. Er zijn al veel gebruikers, vooral onder beroepsgroepen zoals artsen en advocaten.

Voor automatisch is de kwaliteit van de opname van de opname is bijzonder belangrijk - De uitdagingen zijn veel sprekers, achtergrondlawaai en afwijkingen van de standaard uitspraak. Over het algemeen is menselijke correctie achteraf noodzakelijk.

De marktleider op dit gebied is de fabrikant Nuance Communications met zijn "Dragon"-programmaserie. De nieuwste versie Dragon Professional Individual 15 biedt niet alleen spraakbesturing van de pc, maar ook een transcriptiefunctie, zelfs voor een willekeurig aantal sprekers. De volgende formaten worden ondersteund:

mp3, .aif, .aiff, .wav, .mp4, .m4a en .m4v

De marktleider op dit gebied is Dragon - Dragon Professional 15 biedt uitgebreide functies voor transcriptie

De fabrikanten beloven dat zelfs niet-gedicteerde leestekens automatisch worden ingesteld. Tests hebben echter aangetoond dat dit niet foutloos werkt, vooral bij interviews met veel achtergrondgeluid. Bovendien kan het programma geen sprekers toewijzen . In het geval van één persoon wiens stem de software vooraf op getraind is, zijn de resultaten veel beter. Je moet er echter altijd rekening mee houden dat uitgebreide training op je eigen stem veel werk vereist. Deze oplossing is niet erg praktisch voor een groepsdiscussie of interview, aangezien elke spreker een licentie zou moeten hebben om het programma te gebruiken en het systeem de stemmen van elke individuele geïnterviewde zou moeten leren.

Het programma kan geen luidsprekeropdracht en moet getraind worden voor een goed resultaat eigen stem voor een goed resultaat

De software is dan ook relatief duur: €399. Het kan worden gebruikt met Windows 7 of MacOS. De transcriptiefunctie zit echter alleen in de "Professional" versie. De goedkopere "Home" versie biedt alleen spraakherkenning en controle. Bovendien kan de software alleen worden gebruikt met door Nuance gecertificeerde dicteerapparaten. De "Dragon Anywhere" app maakt mobiel gebruik van de functies op een smartphone mogelijk.

Ondertussen hebben andere grote bedrijven zoals Google deze markt ook ontdekt en bieden ze oplossingen voor geautomatiseerde transcriptie naast spraakgestuurde luidsprekers. Met de hulp van Google Cloud Spraak API kan spraak ook worden omgezet in tekst. Neurale netwerken en machine learning worden ook gebruikt om de resultaten voortdurend te verbeteren.

Google Cloud biedt een alternatief Spraak - hier is de spreker spreker toewijzing is in de testfase

Concluderend kan gezegd worden dat de software nog niet de moeite waard is vanwege de hoge prijs en de vele fouten bij meerdere sprekers of lichte achtergrondruis. Er kunnen geen bevredigende resultaten worden bereikt zonder de spraakpatronen van de mensen van tevoren te leren kennen. Daarbij komt nog de hoge correctie-inspanning. A sprekerstoewijzing moet ook handmatig worden uitgevoerd. Dit kan nog niet door de AI worden gedaan. Deze functie bevindt zich momenteel in de testfase bij onder andere Google en ook hier is de sprekerstoewijzing nog te onnauwkeurig. Het automatisch instellen van tijdstempels is ook niet mogelijk; ook deze functie bevindt zich nog in de testfase (bijv. bij f4).

Zonder eerder getrainde spraakpatronen is de correctie-inspanning meestal erg hoog - een sprekerstoewijzing moet nog steeds handmatig worden uitgevoerd handmatig worden uitgevoerd


Wetenschappelijk onderzoek: spraakherkenning is 67,6% nauwkeurig 

Terug naar de inhoudsopgave

abtipper.de heeft in 2019 en 2020 een wetenschappelijk onderzoek uitgevoerd naar de prestaties van de zeven spraakherkenningssystemen die momenteel beschikbaar zijn voor de Duitstalige wereld. Naast grote aanbieders zoals Google en Alexa werden ook een aantal kleinere nicheaanbieders geanalyseerd.

De test onderzocht hoe hoog de woordherkenningsgraad is in een normale gespreksopname met twee mensen, d.w.z. een typische interviewsituatie. Afhankelijk van het onderwerp en hun ervaring haalt een mens een percentage van 96-99% in een handmatige audiotranscriptie. Dit betekent dat voor elke 100 woorden er meestal 1-4 fouten in de menselijke transcriptie zitten.

Het beste spraakherkenningssysteem behaalde een waarde van 67,6%. Dit betekent dat 2/3 van de woorden op dit moment correct wordt herkend. Maar zelfs enkele van de grotere systemen zitten momenteel ver onder deze waarde, waarbij het systeem van Bing het slechtst presteert.

Overzicht van de kwaliteit (in procenten) van machinaal gegenereerde transcripties, als resultaten van een wetenschappelijk onderzoek:

 

Kwaliteit van gemaakte transcripties

Automatische spraakherkenning

 

Al met al haalt machinale transcriptie echter over het algemeen nog niet het niveau van een handmatig gemaakte transcriptie. Voor een eerste indruk volgt hier een voorbeeld van de transcriptie van een interview (met twee vrouwelijke sprekers) met behulp van kunstmatige intelligentie. Deze is gemaakt door een van de bekendste transcriptieprogramma's van dit moment, Google Cloud Speech-to-Text.

Voorbeeldig resultaat van een taalherkenning:
Interview Anette Bronder op de Hannover Messe
(fragment uit: https://www.youtube.com/watch?v=Es-CIO9dEwA, bekeken op 08.05.2019)

"Digitalisering en netwerken spelen ook dit jaar weer een belangrijke rol op de HannoverMesse Industrie Deutsche Telekom is voor dederde keer vertegenwoordigd met een stand en laat zeer concrete toepassingsvoorbeelden zien het motto is "Making digitalisation easy" Mevrouw Bronder wat bedoelt u eigenlijk met "making it easy" kunnen we u een voorbeeld geven ja heel goed trefwoord leverde voor mij "making it easy" u zei net dat de beurs hier op de Hannover Messevoor de derde keer wordt gehouden over het onderwerp digitalisering .Ik denk dat hetnu tijd is om vanhet lab naar de echte wereld te gaan, en dat is wat we nu kunnen verwachten ,en ik wacht erook op dat Duitsland als locatie met oplossingen komt die expliciet voor het MKB, maar ook voor grote klanten toepasbaar en gestandaardiseerd zijn.Ik wil erop wijzendat het voor ons belangrijk is om dit jaar niet te zeggen technologie en oplossingen die we hebben status, maar we bieden het Internet of Things als een dienstenpakket voor de allereerste keer zijn we in staat om connectiviteit te leveren via ons goede netwerk cloud-oplossingen beveiligingsoplossingen tot aan individuele gedetailleerde oplossingen in analytics"

Hier kan weer worden geziendat "AI" niet betekent "AI", dat er geen spreker wordt aangewezen door de "AI". Ook met de interpunctie wordt hier geen rekening gehouden.

In het algemeen kan gezegd worden dat geautomatiseerde spraakherkenning momenteel geschikt is voor twee toepassingsgebieden:

  • Voor dictaten (bijv. van advocaten of artsen): Voor deze opnames met meestal maar één spreker en een uitstekende geluidskwaliteit, en een beperkte woordenschat, kan een tool heel goed getraind worden voor de overeenkomstige stem en woordenschat en dus goede resultaten leveren.
  • Het kan ook nuttig zijn als de kwaliteitseisen voor transcriptie laag zijn. Dit is bijvoorbeeld het geval bij de digitalisering van radioarchieven, waar doorzoekbaarheid het doel is en daarom geen perfecte transcriptie vereist is. Met een vaak extreem grote hoeveelheid materiaal is handmatige transcriptie bij dergelijke toepassingen om economische redenen vanaf het begin uitgesloten.

Helaas is geautomatiseerde spraakherkenning op het huidige technische niveau nog niet geschikt voor alle andere doeleinden, zoals interviews. In de komende jaren en decennia kunnen hier echter verdere ontwikkelingen worden verwacht.


Bestel nu je transcriptie bij abtipper.de! 

 

Het resultaat toont aan dat geautomatiseerde spraakherkenningssystemen nog veel te wensen overlaten, vooral in situaties met meerdere sprekers. Voor transcriptie zijn ze alleen geschikt voor zeer specifieke toepassingen (bijv. digitalisering van archieven die anders financieel niet haalbaar zouden zijn). De situatie is echter anders voor opnames met slechts één spreker (bijv. een typisch dictaat). Hier halen de systemen momenteel al waarden van rond de 85% en kunnen ze dus al zinvol worden gebruikt voor sommige praktische toepassingen.

Er zijn al enkele vergelijkbare onderzoeken voor het herkennen van eerder bekende commando's (bijv. Alexa-vaardigheden). Deze weerspiegelen echter een onnatuurlijke spraaksituatie met eerder bekende onderwerpen en commando's. De kwaliteit van vrije spraakherkenning zonder een kunstmatig beperkte woordenschat is nu voor het eerst wetenschappelijk geanalyseerd door abtipper.de voor de Duitstalige wereld.


Toepassingsgebieden voor automatische spraakherkenning

Terug naar de inhoudsopgave

Er zijn al talloze praktische toepassingen voor audiotranscriptie. Naast de exponentiële toename van het gebruik van spraakherkenning op smartphones, bijvoorbeeld om snel tekstberichten en e-mails op te stellen of om stembegeleidingssystemen zoals Siri van Apple, Alexa van Amazon of Bing van Microsoft te bedienen, zijn spraaktranscriptietechnologieën ook onmisbaar geworden in callcenters en ziekenhuizen.

Bij abtipper.de zijn we zelfs de eerste aanbieder in Duitsland die sinds 2018 transcripties met behulp van kunstmatige intelligentie aanbieden:

In het geval van transcriptie door kunstmatige intelligentie wordt de transcriptie uitgevoerd met behulp van geautomatiseerde spraakherkenning.

Dankzij ons spraakherkenningssysteem dat speciaal is ontwikkeld voor transcripties, worden bijzonder goede resultaten behaald met opnames met weinig, duidelijk sprekende sprekers en een perfecte geluidskwaliteit.

Hoewel de kwaliteit van transcriptie met behulp van kunstmatige intelligentie nog niet helemaal gelijk is aan die van handmatige transcriptie, zijn er veel toepassingsgebieden waarvoor het bijzonder geschikt is. Dit geldt met name voor de digitalisering van grote hoeveelheden gegevens waarbij handmatige transcriptie qua prijs niet de moeite waard zou zijn.

Klik hier voor een voorbeeld van een transcript gemaakt door kunstmatige intelligentie transcript.

Procedure voor transcriptie met kunstmatige intelligentie: met dit type transcriptie kunnen alleen acceptabele resultaten worden behaald als aan de bovenstaande criteria wordt voldaan. Daarom controleren we eerst alle relevante inzendingen met onze experts. Als er bijvoorbeeld door dialect, achtergrondgeluid of te veel sprekers geen goed transcript kan worden geproduceerd, wordt u binnen 6 tot maximaal 24 uur op de hoogte gesteld, inclusief een gedetailleerde uitleg. U bent dan vrij om een ander type transcriptie te kiezen.

Bij dit type transcriptie bieden we u aan om gratis en vrijblijvend twee minuten van uw bestand te maken als proeftranscriptie, zodat u het resultaat van dit nieuwe type transcriptie kunt controleren. U kunt dan voor het specifieke geval beslissen of de kwaliteit aan uw eisen voldoet of dat een handmatige transcriptie geschikter zou zijn. Plaats hiervoor een bestelling en vermeld in het opmerkingenveld dat u een gratis proeftranscriptie wilt.

Bestel nu je transcriptie door kunstmatige intelligentie bij abtipper!


De geschiedenis van automatische spraakherkenning - een terugblik

Terug naar de inhoudsopgave

John Pierce, pionier op het gebied van spraakherkenning
John Pierce, pionier op het gebied van spraakherkenning

Het onderzoek naar spraakherkenningssystemen begon vroeg in de jaren 1960, maar leverde geen veelbelovende resultaten op. De eerste door IBM ontwikkelde systemen maakten het mogelijk om afzonderlijke woorden te herkennen onder laboratoriumomstandigheden, maar leverden geen significante vooruitgang op door een gebrek aan technische kennis op het nieuwe onderzoeksgebied in die tijd - dit bleek ook uit een rapport dat in 1969 werd gepresenteerd door de Amerikaanse ingenieur John Pierce, een expert op het gebied van hoge-frequentietechnologie, telecommunicatie en akoestiek als hoofd van de Bell Group.

 

IBM Shoebox voor spraakherkenning
De IBM Shoebox uit de jaren 1960 kon 16 woorden herkennen. (Bron: IBM)

Pas halverwege de jaren 1980 kreeg het onderzoek een nieuwe impuls door de ontdekking van de differentieerbaarheid van homofonen met behulp van contexttests. Door statistieken over de frequentie van bepaalde woordcombinaties te verzamelen en systematisch te analyseren, was het mogelijk om automatisch af te leiden welk woord bedoeld werd als woorden op elkaar leken.

Een belangrijke mijlpaal hierbij was de introductie van een nieuw spraakherkenningssysteem door IBM in 1984, dat in staat was om 5.000 individuele Engelse woorden te begrijpen en om te zetten in tekst met behulp van zogenaamde "trigramstatistieken". Het herkenningsproces vereiste echter enkele minuten verwerkingstijd op een industriële mainframecomputer en was daarom praktisch onbruikbaar. Een systeem dat iets later door Dragon Systems werd ontwikkeld en op een draagbare PC kon worden gebruikt, was daarentegen veel geavanceerder.

 

IBM als pionier voor spraak-naar-tekst
Fragment uit een reclame uit 1984 voor IBM spraakherkenning (bron: IBM)

In de daaropvolgende jaren werkte IBM intensief aan het verbeteren van de spraakherkenningssoftware. In 1993 werd het eerste spraakherkenningssysteem dat voor de massamarkt was ontwikkeld en commercieel verkrijgbaar was, het IBM Personal Dictation System, geïntroduceerd.

In 1997 werden zowel de opvolger IBM ViaVoice als versie 1.0 van de Dragon NaturallySpeaking software uitgebracht. Terwijl de verdere ontwikkeling van IBM ViaVoice na een paar jaar werd stopgezet, werd Dragon NaturallySpeaking de meest gebruikte spraakherkenningssoftware voor Windows-pc's. De software wordt sinds 2005 geproduceerd en gedistribueerd door Nuance Communications.

Met de overname van Philips Spraakherkenningssystemen in 2008 verwierf Nuance ook de rechten op de SpeechMagic software development kit, die met name in de gezondheidszorg veel wordt gebruikt.

Siri Inc. werd opgericht in 2007 en overgenomen door Apple in april 2010. Met de lancering van de iPhone 4s in 2011 werd de automatische spraakassistent Siri voor het eerst aan het publiek voorgesteld en sindsdien wordt hij voortdurend verder ontwikkeld. Presentatie van Siri:

 


   

De functionaliteit achter de spraak-naar-tekstsystemen

Terug naar de inhoudsopgave

Moderne spraakherkenningssystemen zijn een integraal onderdeel geworden van ons dagelijks leven. Maar hoe werken ze eigenlijk?

Het basisprincipe van transcriptie is heel eenvoudig: als we spreken, ademen we lucht uit via onze longen. Afhankelijk van de samenstelling van de gesproken lettergrepen zorgt dit ervoor dat de lucht in bepaalde patronen gaat trillen, die door de spraakherkenningssoftware worden herkend en omgezet in een geluidsbestand. Dit wordt vervolgens opgedeeld in kleine delen en doorzocht op herkende geluiden. Omdat echter niet alle geluiden worden herkend, is er een tussenstap nodig.

Met behulp van de zogenaamde "verborgen Markov-methode" berekent de spraakherkenningssoftware welk geluid waarschijnlijk op een ander volgt en welk geluid erna zou kunnen komen. Op deze manier wordt er een lijst met mogelijke woorden gemaakt, waarmee in een tweede run hetzelfde gebeurt als eerder met de letters: de computer analyseert de waarschijnlijkheid waarmee een bepaald woord op een ander volgt - na "ik ga naar..." komt "naar huis" in plaats van "douche" of "pauze". De computer kan dit echter alleen weten als hij een groot aantal gesproken zinnen kent en weet hoe vaak en in welke context de woorden voorkomen.

Verborgen Markov-model voor spraakherkenning
Illustratie van de werking van het verborgen Markovmodel

Een computertaak als deze gaat de verwerkingscapaciteit van een mobiele telefoon van zakformaat vele malen te boven. Het kan alleen worden opgelost door gebruik te maken van cloud computing, d.w.z. het uitbesteden van moeilijke rekenbewerkingen aan grote stationaire computers. De mobiele telefoon zelf neemt het spraakcommando gewoon op, zet het om in een geluidsbestand, stuurt het via internet naar het rekencentrum en laat het daar analyseren. Het resultaat wordt dan via het internet teruggestuurd naar de smartphone.

De enorme databases van spraak- en tekstbestanden die al gesproken en correct getranscribeerd zijn door mensen, die opgeslagen zijn via cloud computing, zijn het echte geheim achter het succes van de nieuwe spraakherkenners. Goede spraakherkenningssoftware kan niet simpelweg op dezelfde manier worden geprogrammeerd als een nieuw computerspel of printerstuurprogramma. "De kunst is om goede gegevens te verkrijgen en deze optimaal te integreren in het leerproces," zegt Joachim Stegmann, hoofd van de afdeling Future Telecommunication bij Telekom Innovation Laboratories.

Echt goede en accurate spraakherkenningssoftware vereist ook een bijzonder groot aantal opnames van alledaagse spraak, zodat dialecten, spraakfouten, mompelen en falsetstemmen ook kunnen worden vastgelegd. De sprekers moeten ook demografisch verschillen - er moet een gelijk aantal kinderen, mannen, vrouwen, ouderen en jongeren zijn, evenals mensen met verschillende regionale achtergronden. In de praktijk worden bijvoorbeeld transcripties van parlementaire toespraken, voorgelezen manuscripten of opnames van radioprogramma's gebruikt.


Kansen en uitdagingen in de ontwikkeling van automatische spraakherkenning

Terug naar de inhoudsopgave

Goed werkende spraakherkenningssystemen beloven ons dagelijks leven veel gemakkelijker te maken. In professionele toepassingen zouden ze in de toekomst de transcriptie van gesproken taal kunnen automatiseren - bijvoorbeeld het opnemen van notulen of de vaak bewerkelijke handmatige transcriptie van toespraken, interviews of video's. Ze worden ook steeds populairder in de privésfeer, of het nu gaat om spraakgestuurde bediening van smartphones in de auto, het oproepen van Google-zoekopdrachten of het bedienen van smart home-toepassingen zoals het in- en uitschakelen van het licht of het lager zetten van de verwarming.

De grote uitdaging met elektronische spraakherkenning is echter dat niemand een term altijd op precies dezelfde manier uitspreekt in elke situatie. Soms is de gebruiker moe, soms hectisch, soms luid, soms stil, soms geconcentreerd, soms dronken, soms boos, soms verkouden. Het is daarom erg moeilijk voor software om woorden te herkennen door te zoeken naar congruente toonreeksen.

Vooral oudere mensen of mensen die in beweging zijn, zijn voor de systemen moeilijk te begrijpen. Achtergrondgeluiden maken herkenning nog moeilijker - Microsoft werkt daarom al aan de nieuwe "CRIS"-software, waarmee veel voorkomende achtergrondgeluiden en woordenschat individueel geconfigureerd kunnen worden, zodat ze ook gebruikt kunnen worden in lawaaierige productieomgevingen of in bejaardentehuizen.

De huidige systemen halen nu herkenningspercentages van ongeveer 99 procent bij het dicteren van doorlopende tekst op pc's en voldoen daarmee aan de praktische eisen voor veel toepassingsgebieden, bijvoorbeeld voor wetenschappelijke teksten, zakelijke correspondentie of juridische briefings. Het gebruik ervan bereikt zijn grenzen als de betreffende auteur voortdurend nieuwe woorden en woordvormen nodig heeft die in eerste instantie niet door de software worden herkend. Het handmatig toevoegen van deze woorden en woordvormen is mogelijk, maar niet efficiënt als ze slechts één keer voorkomen in teksten van dezelfde spreker.

Benchmarks voor spraakherkenning
Benchmark van spraakherkenningssystemen voor Engels (Bron: Economist)

 

De belangrijkste leveranciers van automatische spraakherkenningssystemen

Terug naar de inhoudsopgave

Zoals bij veel moderne technologieën, schieten nieuwe aanbieders als paddenstoelen uit de grond op het gebied van audiotranscriptie.

Nuance is marktleider op het gebied van automatische spraakherkenning en transcriptie met haar Dragon NaturallySpeaking software. Door het gebruik van deep learning-technologie kan de software zelfs worden gebruikt in omgevingen met veel achtergrondgeluid. Door gerichte training op een specifieke spreker kan een nauwkeurigheid tot 99% worden bereikt bij de conversie van spraak naar tekst met slechts een paar minuten geïnvesteerde "leestijd". Ondertussen werkt Nuance aan de volgende generatie elektronica voor in de auto, die het in de toekomst mogelijk moet maken om via spraakinvoer nauwkeurig ingewikkelde teksten te schrijven, sociale netwerken te gebruiken en zoekmachines te raadplegen zonder de aandacht van de bestuurder van de weg af te leiden.

Gebruik makend van dezelfde technologie, maar veel bekender dan Nuance, is er waarschijnlijk Siri, de persoonlijke spraakassistent die beschikbaar is voor Apple gebruikers sinds de release van de iPhone 4s. De software kan worden gestart met het commando "Hey Siri" en vereist dus bijna geen handmatige bediening. Het is echter maar beperkt geschikt als spraakherkenningssoftware voor het dicteren van hele brieven of langere teksten, omdat het niet continu spraak opneemt en continu digitale tekst uitvoert. Siri slaat een paar gesproken zinnen op totdat ze naar de centrale vertaalserver worden gestuurd met een commando "Gereed" of annuleert de tekstopname voor verzending wanneer het maximale geheugen is bereikt. Het dicteren moet pauzeren totdat de digitale tekst opnieuw is verzonden. Deze overdracht brengt risico's met zich mee voor de informatiebeveiliging. Bovendien gaat de gedicteerde tekst verloren als de overdracht wordt onderbroken, bijvoorbeeld in een GSM dode zone.

Net als Apple's Siri heeft Microsoft de virtuele assistent Cortana op zijn Windows Phone 8.1. Deze maakt gebruik van de Bing! zoekfunctie en persoonlijke informatie die is opgeslagen op de smartphone om de gebruiker gepersonaliseerde aanbevelingen te doen. Er zijn al plannen om de functies uit te breiden naar de slimme bediening van huishoudelijke apparaten zoals koelkasten, broodroosters en thermostaten met behulp van Internet of Things technologie. Microsoft bereikte in oktober 2016 ook een historische mijlpaal met zijn spraakherkenningssoftware, de Computational Network Toolkit: Met behulp van deep learning-technologie was de software in staat om een foutpercentage van slechts 5,9% te behalen in vergelijkende tests tussen mensen en machines - hetzelfde foutpercentage als zijn menselijke tegenhangers. De software heeft dus voor het eerst pariteit bereikt tussen mensen en machines.

Google opende in maart 2016 ook een programmeerinterface voor clouddiensten als bètaversie. De Cloud Speech API vertaalt gesproken tekst naar geschreven tekst en herkent ongeveer 80 talen en taalvarianten. De API kan de tekst leveren als een stream terwijl deze wordt herkend en filtert automatisch achtergrondgeluiden weg. Het is momenteel alleen beschikbaar voor ontwikkelaars.

Amazon kondigde onlangs ook de nieuwe dienst"Amazon Lex" aan voor de ontwikkeling van conversatie-interfaces met spraak en tekst. Deze is gebaseerd op de technologie voor automatische spraakherkenning en het begrijpen van natuurlijke taal die Amazon Alexa ook gebruikt. Ontwikkelaars kunnen de nieuwe dienst gebruiken om intelligente spraakassistenten - zogenaamde bots - te bouwen en te testen.

En het IBM Watson cognitieve systeem, dat in 2011 het tijdperk van cognitive computing inluidde, maakt gebruik van neurale netwerken, machine learning en tekstanalyse tools, in het bijzonder spraakherkenning, om zelf te leren. Ondertussen zijn zelfs ironie, metaforen en woordspelingen geen obstakel meer voor IBM Watson.


Fazit

Terug naar de inhoudsopgave

In de afgelopen jaren heeft de technologie zich snel ontwikkeld, met name ondersteund door cloud computing en de geautomatiseerde verwerking van extreem grote hoeveelheden gegevens die dit mogelijk maakt als basis voor intelligente systemen. Met behulp van professionele spraakherkenningssoftware is automatische transcriptie vandaag de dag al mogelijk met vrijwel geen fouten.

Zuivere spraakherkenningssystemen zijn echter nog maar het begin. Echte interactie tussen mens en machine - zoals voorspeld in sciencefictionfilms - vereist machines die niet alleen informatie reproduceren, maar ook contexten begrijpen en intelligente beslissingen kunnen nemen.


Bestel nu je transcriptie door kunstmatige intelligentie bij abtipper!


Verdere vragen en antwoorden

Hoe werkt spraakherkenning?

De systemen voor automatische spraakherkenning werken in principe allemaal op dezelfde manier.

Simpel gezegd is de kern altijd een grote database waarin veel mogelijke varianten van de uitspraak van een of meer woorden zijn opgeslagen met de bijbehorende tekst. Wanneer een nieuwe opname in het systeem wordt ingevoerd, vergelijkt het het geluid met de database en voert het de tekst uit die het meest waarschijnlijk met deze opname overeenkomt.

Hoe groter en beter deze database is, hoe beter de spraakherkenning zal zijn. Verder is natuurlijk de opnamekwaliteit een grote rol bij het bereiken van een goede herkenningsgraad.

Is het mogelijk om te transcriberen met spraakherkenning?

De transcriptie met een spraakherkenning is mogelijk.

Met een dictaat van een persoon met een duidelijke uitspraak, zonder dialect en zonder achtergrondruis kan met spraakherkenning een kwaliteitsniveau van ongeveer 90% worden bereikt. Dit is maar net onder het gebruikelijke menselijke transcriptieniveau van ongeveer 95%. Als een van deze voorwaarden ontbreekt en in bijna alle interviews of groepsgesprekken zijn de huidige spraakherkenningssystemen nog niet in staat om begrijpelijke teksten te genereren.

Volgens huidige wetenschappelijke studies bereikt spraakherkenning in interviews momenteel slechts een niveau van ongeveer 65%, wat resulteert in grotendeels onbegrijpelijke teksten.

Welke provider heeft de beste spraakherkenning?

Er is nu een groot aantal aanbieders van automatische spraakherkenning.

De systemen verschillen op het gebied van
- herkenningspercentage (hoeveel woorden worden correct herkend)
- spelling en interpunctie
- formaat (bijv. met of zonder sprekerstoewijzing)
- bruikbaarheid (bruikbaarheid als programma, app of alleen via API-interface)
- prijs en factureringsmodel

Google Speech-to-Text en Nuance (Dragon) behalen goede resultaten voor de Duitse taal. Over het geheel genomen halen de beste systemen momenteel een herkenningspercentage van ongeveer 67% onder goede omstandigheden, d.w.z. ongeveer 67 van de 100 woorden worden correct herkend. Een handmatige transcriptie heeft een herkenningspercentage van ongeveer 97%.

We beginnen vandaag nog met je project: