Status quo &tendenser i automatisk talegenkendelse
Indholdet af denne artikel
- Hvad er talegenkendelse?
- Videnskabelig undersøgelse: Hitrate for automatisk talegenkendelse på 67,6%
- Anvendelsesfelter for automatisk talegenkendelse
- Historien om automatisk talegenkendelse
- Sådan fungerer tale-til-tekst-systemer
- Muligheder og udfordringer ved automatisk talegenkendelse
- Nøgleudbydere af automatisk talegenkendelse
Mange flere nyttige tips kan også findes i vores e-bog Optagelse, indtastning, analyse – guide til at gennemføre interviews og transskriptioner.
Bogen er tilgængelig som en gratis download:Find ud af alt om transskription &Co nu!
Hvad er talegenkendelse?
Tilbage til indholdsfortegnelsen
Maskiner, der interagerer med mennesker, er en del af næsten alle gode science fiction-film. For mere end tres år siden designede Arthur C. Clarke visionen om computeren HAL i sin roman "2001 – A Space Odyssey", filmet af Stanley Kubrick, der kommunikerede sprogligt med folkene om bord på rumskibet som en selvfølge.
Selvom maskiner i dag allerede har nogle af hal's evner - såsom at spille skak eller navigere et rumskib - vi er stadig langt fra intelligent, meningsfuld og tovejs kommunikation mellem menneske og maskine.
Talegenkendelsessoftware refererer til specielle computerprogrammer eller apps, der genkender talt tale og automatisk konverterer dentil skriftlig tekst. Sproget analyseres i form af talte ord, betydning og højttaleregenskaber for at opnå det mest nøjagtige resultat muligt. Dette må ikke forveksles med stemmegenkendelse, dvs. en biometrisk metode til at identificere personer baseret på deres stemme.
Ved hjælp af talegenkendelsessoftware konverteres tale tale automatisk til tekst – der kan skelnes mellem højttalerafhængig og højttaler-uafhængig talegenkendelse
I mellemtiden kan pc'en styres ved hjælp af talegenkendelse, du kan skrive e-mails gennem det eller surfe på internettet. Talrige højttalere med integreret stemmestyring, såsom .B. Alexa fra Amazon eller Google Home, bruger også denne teknologi. Derudover er det nu inkluderet som standard i de fleste smartphones.
Der skelnes mellem to typer talegenkendelse:
- Talegenkendelse af talere: Enhver stemme kan genkendes og behandles, og driften af enheden er derfor mulig for alle. Selv om denne type anvendelse er rettet mod en bred målgruppe, er det eksisterende ordforråd begrænset her.
- Talegenkendelse, der er afhængig af taler: I denne variant trænes programmet på den respektive brugers individuelle sprog, hvorved specifikke forkortelser og sætninger kan læres. Som følge heraf er ordforrådet meget mere omfattende.
Fra et teknisk synspunkt er der to mulige måder at håndtere denne proces på. Enten foregår det direkte på brugerens respektive enhed, hvorved resultatet er næsten øjeblikkeligt (front-end), eller implementeringen finder sted på en separat server, uanset brugerens enhed (back-end).
Selvfølgelig spiller kvaliteten af lydoptagelsenen stor rolle i denne proces. Mange højttalere, støj eller for høj afstand til mikrofonen har en negativ effekt på resultatet. På grund af disse begrænsninger og andre vanskeligheder, såsom .B individuelle højttaleradfærd eller dialekt, er en helt automatiseret transskription ikke (endnu) mulig uden fejl og er derfor kvalitativt ringere end menneskelig manuel transskription. Under alle omstændigheder er det derfor nødvendigt med en menneskelig korrektion, hvis der skal opnås et vist kvalitetsniveau. Men under optimale forhold og med tidligere træning baseret på brugerens stemme er resultaterne allerede gode. Især blandt faggrupper som læger eller advokater er der allerede mange brugere.
For automatisk talegenkendelse er kvaliteten af optagelsen særlig vigtig – udfordringer er forbundet med mange højttalere, støj og afvigelser fra standard udtalen. Generelt kræves en menneskelig korrektion.
Markedslederen på dette område er producenten Nuance Communications med programserien "Dragon". Den nyeste version Dragon Professional Individual 15 tilbyder ikke kun stemmestyring af pc'en, men også en transskription funktion, også for et vilkårligt antal højttalere. Følgende formater understøttes:
mp3, .aif, .aiff, .wav, .mp4, .m4a og .m4v |
Markedslederen på dette område er Dragon - Dragon Professional 15 tilbyder omfattende funktioner til transskription
Producenterne lover, at selv ikke-dikterede tegnsætningstegn vil blive indstillet automatisk. Men tests viser, at dette ikke fungerer fejlfrit, især i interviews med en masse støj. Derudover kan programmet ikke foretage en højttaleropgave. For en enkelt person, på hvis stemme softwaren tidligere blev uddannet, er resultaterne meget bedre. Du skal dog altid huske på, at den omfattende træning på din egen stemme kræver en stor mængde arbejde. For en gruppe samtale eller interview, denne løsning er ikke meget praktisk, da hver taler ville have en licens til at bruge programmet og systemet ville have til at lære stemmerne af hver enkelt samtalepartner.
Programmet kan ikke lave en højttaleropgave og bør trænes til et godt resultat på sin egen stemme
Derfor er softwaren forholdsvis dyr på 399 €. Det kan bruges fra Windows 7 eller med MacOS. Det skal dog bemærkes, at transskriptionsfunktionen kun er inkluderet i "Professional"-versionen. Den billigere version "Home" tilbyder kun talegenkendelse og kontrol. Derudover kan softwaren kun bruges med Nuance-certificerede stemmeoptagere. Til dette formål tillader appen "Dragon Anywhere" mobil brug af funktionerne på smartphonen.
I mellemtiden har andre store virksomheder som Google også opdaget dette marked for sig selv og tilbyder løsninger til automatiserede transskriptioner ud over stemmestyrede højttalere.Ved hjælp af Google Cloud Speech API kan tale også konverteres til tekst. Derudover bruges neurale netværk og maskinlæring til løbende at forbedre resultaterne.
Et alternativ er Google Cloud Speech – her er højttaleropgaven i testfasen
Afslutningsvis kan det siges, at softwaren endnu ikke er umagen værd på grund af den høje pris og de mange fejl med flere højttalere eller let støj. Uden at lære folks talemønstre på forhånd kan der ikke opnås tilfredsstillende resultater. Derudover er der den efterfølgende høje korrektion indsats. Der skal også foretages en højttaleropgave manuelt. Dette kan endnu ikke gøres af AI. Hos Google er denne funktion blandt andet i testfasen, også her er højttaleropgaven stadig for unøjagtig. Heller ikke muligt er den automatiserede indstilling af tidsstempler, denne funktion er stadig i testfasen (f.eks. ved f4).
Uden præuddannede talemønstre er korrektionsindsatsen normalt meget høj – en højttaleropgave skal stadig udføres manuelt
Videnskabelig undersøgelse: Talegenkendelse er på 67,6% nøjagtighed
Tilbage til indholdsfortegnelsen
abtipper.de i 2019 og 2020 gennemført en videnskabelig undersøgelse for at vurdere resultaterne af de syv talegenkendelsessystemer, der i øjeblikket er tilgængelige for den tysktalende verden. Ud over store udbydere som Google og Alexa blev en række mindre nicheudbydere også undersøgt.
I testen blev det kontrolleret, hvor høj ordgenkendelsesraten er i en normal samtaleoptagelse med to personer, dvs. en typisk interviewsituation. Afhængigt af emneområdet og hans erfaring opnår en person en kvote på 96-99% for manuel lydtransskription. Det betyder, at med 100 ord er der normalt 1-4 fejl i menneskelig transskription.
Det bedste talegenkendelsessystem opnåede en score på 67,6%. Så i øjeblikket 2 / 3 af ordene er anerkendt korrekt. Men selv nogle af de større systemer er i øjeblikket stadig langt under denne værdi, med Bings system, der klarer sig værst.
Oversigt over kvaliteten (i procent) af maskingenererede udskrifter, som resultater af en videnskabelig undersøgelse:
Kvaliteten af oprettede udskrifter
Alt i alt når maskintransskription dog endnu ikke niveauet for en manuelt oprettet transskription. For et første indtryk, her er et eksempel på transskription af et interview (med to talere) med kunstig intelligens. Dette blev skabt af et af de aktuelt mest kendte transskriptionsprogrammer, Google Cloud Speech-to-Text.
Eksemplarisk resultat af en anerkendelse af spartel:
Interview Anette Bronder på Hannover Messe
(uddrag fra: "Anette Bronder: Interview Anette Bronder på Hannover Messe (uddrag fra: https://www.youtube.com/watch?v=Es-CIO9dEwA, besøgt 08.05.2019)
"Digitalisering og netværk spiller også en vigtig rolle iår på Hannover Messe Industrie Telekom er for tredje gang repræsenteret med enstand og viser meget konkrete eksempler på anvendelser mottoet er "Making digitalization simple" Fru Bronder hvad mener du egentlig med "making it simple" kan vi give os selv et eksempel ja meget godt nøgleord leveret gør det simpelt du sagde lige før messen afholdes for tredje gang om emnet digitalisering her på Hannover Messe.Jeg tror, at tiden nu er kommet tilat gå fra laboratoriet til praksis, og at vi kan forvente det .Jeg vil dog gerne påpege, at det ervigtigt for os i år at sige , at vi ikke er teknologi og løsninger , som vi har, menvi tilbyder Internet of Things som en servicepakke for allerførste gang er vi i stand til atlevere konnektivitet via vores gode netværk cloud-løsninger sikkerhedsløsninger helt ned tilindividuelle detaljeløsninger inden for analytics"
Her kan man endnu en gang se, at "AI"ikke eren teknologi eller en løsning, at "AI" ikke tilskrives nogen højttaler. Der er heller ikke taget hensyn til tegnsætningen her.
Samlet set kan det siges, at automatiseret talegenkendelse i øjeblikket er egnet til to anvendelsesområder:
- Til diktater (e.B. af advokater eller læger): I disse optagelser med normalt kun én højttaler og fremragende lydkvalitet, ud over et begrænset ordforråd, kan et værktøj trænes meget godt på den tilsvarende stemme og ordforråd og dermed levere gode resultater.
- Med lave krav til transskriptionskvalitet kan brugen også være nyttig. Det er f.eks. tilfældet.B med digitaliseringen af radioarkiver, hvor søgbarhed er målet, og derfor perfekte udskrifter ikke er nødvendige. Med en ofte ekstremt stor mængde materiale er manuel transskription udelukket fra starten af hensyn til omkostningseffektiviteten.
Til alle andre formål, f.B interviews, er automatiseret talegenkendelse desværre endnu ikke egnet på det nuværende tekniske niveau. Der kan dog forventes yderligere udvikling i de kommende år og årtier.
Bestil din transskription fra abtipper.de nu!
Resultatet viser, at især i situationer med flere højttalere lader systemerne til automatiseret talegenkendelse stadig meget tilbage at ønske. Til transskription er de kun til meget specifikke applikationer (e.B digitalisering af arkiver, der ellers ikke ville være økonomisk umagen værd). På den anden side er situationen anderledes, når du optager med kun én højttaler (f.B. den typiske diktat). Her når systemerne allerede værdier på omkring 85 % og kan således allerede bruges fornuftigt til nogle praktiske anvendelser.
Til anerkendelse af tidligere kendte kommandoer (e.B. Alexa Skills) er der allerede nogle sammenlignelige undersøgelser. Men disse afspejler en unaturlig talesituation med tidligere kendte emner og kommandoer. Kvaliteten af ytringsfrihedsgenkendelse uden kunstigt begrænset ordforråd er nu for første gang blevet videnskabeligt undersøgt for den tysktalende verdenaf abtipper.de.
Anvendelsesområder for automatiseret talegenkendelse
Tilbage til indholdsfortegnelsen
Der er allerede mange praktiske anvendelsesområder for lydtransskriptioner. Ud over den eksponentielle stigning i brugen af smartphone talegenkendelse, for eksempel for hurtig skrivning af korte beskeder og e-mails eller til kontrol af stemmehjælpssystemer som Apples Siri, Amazons Alexa eller Microsofts Bing, er stemmetransskription teknologier også blevet uundværlige i callcentre og hospitaler i dag.
Faktisk har vi på abtipper.de været den første udbyder i Tyskland, der tilbyder transskriptioner gennem kunstig intelligens siden 2018:
I tilfælde af transskription ved kunstig intelligens udføres transskriptionen ved brug af automatiseret talegenkendelse.
Takket være vores talegenkendelsessystem, der er specielt udviklet til transskriptioner, opnår optagelser med et par klart talende højttalere og fejlfri lydkvalitet gode resultater.
Selv om kvaliteten af transskription gennem kunstig intelligens endnu ikke helt når den manuelle transskription, er der mange anvendelsesområder, som den er særlig velegnet til. Dette gælder især for digitaliseringen af store mængder data, hvor manuel transskription ikke ville være umagen værd med hensyn til pris.
Klik her for et eksempel på en udskriftskabt af kunstig intelligens.
Procedure for transskription med kunstig intelligens: Acceptable resultater kan kun opnås med denne type transskription, hvis ovenstående kriterier er opfyldt. Derfor kontrollerer vi først alle tilsvarende forsendelser af vores eksperter. Hvis det for.B eksempel ikke er muligt at oprette en god udskrift på grund af dialekt, støj eller for mange højttalere, vil du modtage dette, herunder den detaljerede begrundelse inden for 6 til højst 24 timer. Du er derefter fri til at vælge en anden type transskription.
Med denne type transskription tilbyder vi dig, at vi opretter to minutter af din fil som en prøveudskrift gratis og uforpligtende, så du kan kontrollere resultatet af denne nye type transskription. Du kan derefter beslutte for den konkrete sag, om kvaliteten opfylder dine krav, eller om en manuel transskription er en mulighed. Anbring en ordre og notat i kommentarfeltet, at du gerne vil have den gratis prøvetransskription.
Bestil din transskription nu af künstl. Intelligens på abtipper!
Historien om automatisk talegenkendelse – en anmeldelse
Tilbage til indholdsfortegnelsen

Begyndelsen af forskning i talegenkendelsessystemer begyndte i begyndelsen af 1960'erne, men det gav ikke lovende resultater. De første systemer udviklet af IBM gjorde det muligt at genkende enkelte ord under laboratorieforhold, men leverede ikke nogen væsentlig fremgang på det tidspunkt på grund af manglende teknisk viden inden for det nye forskningsfelt - dette fremgik også af en rapport fra den amerikanske ingeniør John Pierce, en ekspert inden for højfrekvent teknologi, telekommunikation og akustik som leder af Bell Group i 1969.

Det var først i midten af 1980'erne, at forskningen fik nyt momentum gennem opdagelsen af differentiabiliteten af homofoner ved hjælp af konteksttest. Ved at skabe statistikker over hyppigheden af visse ordkombinationer og systematisk evaluere dem, var det muligt automatisk at udlede, som var beregnet til lignende klingende ord.
En vigtig milepæl var IBM's indførelse af et nyt talegenkendelsessystem i 1984, som var i stand til at forstå 5.000 engelske individuelle ord og konvertere dem til tekst ved hjælp af såkaldte "trigram statistik". Anerkendelsesprocessen krævede imidlertid på det tidspunkt en behandlingstid på flere minutter på en industriel mainframe-computer og var derfor praktisk taget ubrugelig. Meget mere avanceret var imidlertid et system udviklet af Dragon Systems kun lidt senere, som kunne bruges på en bærbar pc.

I de følgende år arbejdede IBM intensivt på at forbedre sin talegenkendelsessoftware. I 1993 blev det første massemarked og kommercielt tilgængelige talegenkendelsessystem, IBM Personal Dictation System, introduceret.
I 1997 blev både efterfølgerversionen IBM ViaVoice og version 1.0 af softwaren Dragon NaturallySpeaking udgivet. Mens den videre udvikling af IBM ViaVoice blev afbrudt efter et par år, Dragon NaturallySpeaking blev den mest udbredte talegenkendelse software til Windows-pc'er. Softwaren er blevet fremstillet og distribueret af Nuance Communications siden 2005.
I 2008 erhvervede Nuance med købet af Philips Speech Recognition Systems også rettighederne til SpeechMagic softwareudviklingssættet, hvis anvendelse er særlig udbredt i sundhedssektoren.
Siri Inc. blev grundlagt i 2007 og opkøbt af Apple i april 2010. Med introduktionen af iPhone 4s i 2011 blev den automatiske stemmeassistent Siri præsenteret for offentligheden for første gang og er løbende blevet udviklet siden da. Vi præsenterer Siri:
Funktionaliteten bag tale-til-tekst-systemerne
Tilbage til indholdsfortegnelsen
Moderne talegenkendelsessystemer er blevet en integreret del af vores hverdag. Men hvordan fungerer de egentlig?
Det grundlæggende princip for transskription er meget simpelt: Når vi taler, udånder vi luft gennem lungerne. Afhængigt af sammensætningen af de talte stavelser sætter vi luften i visse vibrationsmønstre, som genkendes af talegenkendelsessoftwaren og omdannes til en lydfil. Dette er derefter opdelt i små dele og søgte specifikt efter kendte lyde. Men fordi ikke alle lyde genkendes, er et mellemliggende trin nødvendigt.
Ved hjælp af den såkaldte "Hidden Markov Method" beregner talegenkendelsessoftwaren, hvilken lyd der sandsynligvis vil følge efter en anden, og hvilken lyd der igen kan komme efter den. På denne måde oprettes en liste over mulige ord, som i en anden kørsel giver det, der tidligere er sket med bogstaverne: computeren analyserer sandsynligheden for, at et bestemt ord følger efter et andet - efter "jeg skal til..." kommer "hjem" i stedet for "brusebad" eller "pause". Men det kan computeren kun vide, hvis den kender en masse talte sætninger og ved, hvor ofte og i hvilken sammenhæng ordene forekommer.

En sådan beregning opgave overstiger processor kapaciteter af en lommeformat mobiltelefon mange gange. Det kan kun løses ved hjælp af cloud computing, dvs. outsourcing af vanskelige databehandlingsoperationer til stationære store computere. Mobiltelefonen selv optager kun stemmekommandoen, konverterer den til en lydfil, sender den over internettet til datacentret og får den analyseret der. Resultatet returneres derefter til smartphonen via internettet.
De enorme databaser med tale- og tekstfiler, der allerede er talt og korrekt transskriberet af mennesker, og som opbevares via cloud computing, er den virkelige hemmelighed bag de nye talegenkendelsers succes. Så god talegenkendelsessoftware kan ikke bare programmeres som et nyt computerspil eller en ny printerdriver. "Kunsten er at få fat i gode data og integrere dem optimalt i indlæringsprocessen" - siger Joachim Stegmann, leder af afdelingen for fremtidig telekommunikation i Telekom Innovation Laboratories.
For en rigtig god og præcis talegenkendelsessoftware er der også brug for et særligt stort antal optagelser af hverdagssprog, så dialekter, talefejl, nuzzle og fistelstemmer også kan optages. Talerne bør også være demografiske - der bør være lige mange børn, mænd, kvinder, ældre og unge samt personer med forskellig regional baggrund. I praksis bruges der f.eks. referater af Forbundsdagens taler, manuskripter, der læses højt, eller optagelser af radioudsendelser.
Muligheder og udfordringer i udviklingen af automatisk talegenkendelse
Tilbage til indholdsfortegnelsen
Velfungerende talegenkendelsessystemer lover at gøre vores hverdag meget lettere. Inden for faglige anvendelsesområder kunne de i fremtiden automatisere transskriptionen af især talesprog – for eksempel optagelse af protokoller eller den ofte besværlige manuelle transskription af taler, interviews eller videoer. De bliver også mere og mere udbredt i det private miljø, det være sig for stemmestyret drift af smartphonen i bilen, opkald til Google-søgninger eller drift af smart home-applikationer som at tænde og slukke lyset eller sænke opvarmningen.
Den store udfordring med elektronisk talegenkendelse er imidlertid, at ingen udtaler et udtryk nøjagtigt det samme i enhver situation. Nogle gange er brugeren træt, nogle gange hektisk, nogle gange højt, nogle gange stille, undertiden koncentreret, undertiden beruset, nogle gange vred, nogle gange kold. Derfor er det meget svært for en software at genkende ord ved at søge efter kongruente tonesekvenser.
Især ældre eller folk på farten er svære for systemerne at forstå. Baggrundsstøj gør detektion endnu vanskeligere – Microsoft arbejder derfor allerede på den nye software "CRIS", som skal muliggøre en individuel konfiguration af hyppigt forekommende baggrundsstøj og ordforråd og dermed også tillade brug i støjende produktionsområder eller på plejehjem.
I mellemtiden opnår de nuværende systemer anerkendelsesprocenter på omkring 99 procent for diktering af kontinuerlige tekster på personlige computere og opfylder dermed kravene til praksis for mange anvendelsesområder, f.B. for videnskabelige tekster, forretningskorrespondance eller juridiske indlæg. Brugen når sine grænser, hvor den respektive forfatter konstant har brug for nye ord og ordformer, der oprindeligt ikke genkendes af softwaren, hvis manuelle tilføjelse er mulig, men simpelthen ikke effektiv med kun en enkelt forekomst i tekster af samme højttaler.

De vigtigste udbydere af automatiske talegenkendelsessystemer
Tilbage til indholdsfortegnelsen
Som med mange moderne teknologier springer nye udbydere inden for lydtransskription op som svampe.
Markedslederen inden for automatisk talegenkendelse og transskription er Nuance med sin Dragon NaturallySpeaking software. Brugen af deep learning-teknologi gør det muligt at bruge softwaren selv i miljøer med stærk baggrundsstøj. Gennem målrettet træning på en bestemt højttaler kan der opnås en nøjagtighed på op til 99% i tale-til-tekst-konvertering med kun få minutters investeret "læsetid". Nuance, i mellemtiden, arbejder på den næste generation af automotive elektronik, som i fremtiden vil gøre det muligt nøjagtig skrivning af komplicerede tekster ved stemme input, brug af sociale netværk og afhøring af søgemaskiner uden at distrahere førerens opmærksomhed fra vejen.
Ved hjælp af den samme teknologi, men langt bedre kendt end Nuance, er sandsynligvis Siri,den personlige stemmeassistent tilgængelig for Apple-brugeresiden udgivelsen af iPhone 4s. Softwaren kan startes med kommandoen "Hej Siri" og kræver derfor næsten ingen manuel betjening overhovedet. Som talegenkendelsessoftware til diktering af hele bogstaver eller længere tekster er den dog kun egnet i begrænset omfang, da tale ikke registreres kontinuerligt, og digital tekst løbende udsendes. Siri gemmer et par talte sætninger, indtil de sendes til den centrale oversættelsesserver med kommandoen "Udført" eller annullerer tekstoptagelsen til overførsel, når den maksimale hukommelse er nået. Indtil den digitale tekst er returneret, skal diktatet sættes på pause. Denne transmission indebærer desuden risici for informationssikkerheden, i tilfælde af afbrydelse af transmissionen, f.B. i et GSM-radiohul går den dikterede tekst tabt.
I lighed med Apples Siri driver Microsoft den virtuelle assistent Cortanapå sin Windows Phone 8.1, som bruger Bing! søgning samt personlige oplysninger, der er gemt på smartphonen, til at give brugeren personlige anbefalinger. En udvidelse af funktionerne til smart kontrol af husholdningsapparater såsom køleskabe, brødristere eller termostater gennem teknologien i Tingenes internet er allerede planlagt. Med sin talegenkendelsessoftware, den såkaldte "Computational Network Toolkit", var Microsoft også i stand til at sætte en historisk milepæl i oktober 2016: Ved hjælp af deep learning-teknologi var softwaren i stand til at opnå en fejlrate på kun 5,9% i sammenlignende tests mellem mennesker og maskiner - den samme fejlrate som sine menneskelige kolleger. Softwaren har således opnået lighed mellem menneske og maskine for første gang.
Google åbnede også en programmeringsgrænseflade til cloud-tjenester som betaversion i marts 2016. Cloud Speech API oversætter talt tekst til skriftlig tekst og genkender omkring 80 sprog og sprogvarianter. API'en kan levere teksten som en strøm under genkendelse og filtrerer automatisk baggrundsstøj fra. Det er i øjeblikket kun tilgængeligt for udviklere.
Senest har Amazon også annonceret udgivelsen af den nye tjeneste "Amazon Lex" til udvikling af samtalegrænseflader med stemme og tekst. Den er baseret på teknologien til automatisk talegenkendelse og naturlig taleforståelse, som Amazon Alexa også bruger. I fremtiden vil udviklere kunne bygge og teste intelligente stemmeassistenter – såkaldte bots – med den nye service.
Og det kognitivesystem IBM Watson , som markerede begyndelsen af den æra af kognitiv computing i 2011, gør brug af neurale netværk, machine learning og tekst analyse værktøjer i særdeleshed talegenkendelse til at lære for sig selv. I mellemtiden, for IBM Watson selv, ironi, metaforer og ordspil er ikke længere en hindring.
Resultat
Tilbage til indholdsfortegnelsen
I de senere år har teknologien udviklet sig hurtigt, især understøttet af cloud computing og automatiseret behandling af ekstremt store mængder data som grundlag for intelligente systemer. Ved hjælp af professionel talegenkendelsessoftware er automatisk transskription allerede mulig næsten fejlfri.
Men rene talegenkendelsessystemer i sig selv er kun begyndelsen. Ægte interaktion mellem menneske og maskine – som science fiction-filmene forudsiger – kræver maskiner, der ikke kun kan reproducere information, men også forstå betydningssammenhænge og træffe intelligente beslutninger.
Bestil din transskription nu af künstl. Intelligens på abtipper!
Flere spørgsmål og svar
Systemerne til automatisk talegenkendelse fungerer stort set alle ens.
Kort sagt er kernen altid en stor database,hvor mange mulige varianter af udtalen af et eller flere ord med den relevante tekst gemmes. Når en ny optagelse derefter importeres til systemet, sammenlignes lyden med databasen og udsender den tekst, der sandsynligvis svarer til denne optagelse.
Jo større og bedre vedligeholdt denne database er, jo bedre talegenkendelse. Desuden spiller registreringskvaliteten naturligvis en stor rolle for at opnå en god detektionshastighed.
Transskription med talegenkendelse er mulig.
Ben en diktat af en person med klar udtale, uden dialekt og uden støj, et kvalitetsniveau på omkring 90% kan opnås med talegenkendelse. Dette er kun lidt under det sædvanlige menneskelige transskriptionsniveau på omkring 95%. Hvis en af disse forudsætninger mangler, og i næsten alle interviews eller gruppediskussioner, er nutidens talegenkendelsessystemer endnu ikke i stand til at generere forståelige tekster.
Ifølge de nuværende videnskabelige undersøgelser når talegenkendelsen i interviews i øjeblikket kun op på ca. 65 %,hvilket fører til stort set uforståelige tekster.
Der er nu mange udbydere til automatisk talegenkendelse.
Systemerne er forskellige med hensyn til
– Anerkendelsesprocent (hvor mange ord genkendes korrekt)
– Stavning og tegnsætning
– Format (f.B. med eller uden højttalertildeling)
– Brugervenlighed (anvendelighed som program, app eller kun via API interface)
– Pris- og faktureringsmodel
Gode resultater for det tyske sprog opnås ved Google Tale-til-Tekst og Nuance (Dragon). Samlet set opnår de bedste systemer i øjeblikket en anerkendelse på ca. 67% under gode forhold, så med 100 ord anerkendes omkring 67 korrekt. En manuel transskription er med en registreringshastighed på omkring 97%.