Status Quo & Trender i automatisk taligenkänning

Automatiserad taligenkänning

Innehållet i den här artikeln


Röst till textMånga fler användbara tips finns också i vår e-bok Inspelning, skrivning, analys – guide till att genomföra intervjuer & transkriptioner.

Boken finns som gratis nedladdning : Tareda på allt om transkription & Co nu!


Vad är taligenkänning?

Tillbaka till innehållsförteckningen

Språkigenkänning

Maskiner som interagerar med människor är en del av nästan alla bra science fiction-filmer. För mer än sextio år sedan designade Arthur C. Clarke visionen av datorn HAL i sin roman "2001 – A Space Odyssey", filmad av Stanley Kubrick, som kommunicerade språkligt med människorna ombord på rymdskeppet som en självklarhet.

Även om maskiner idag redan har en del av hals kapacitet – som att spela schack eller navigera i ett rymdskepp – är vi fortfarande långt ifrån intelligent, meningsfull och dubbelriktad kommunikation mellan människa och maskin.

Taligenkänningsprogram avser speciella datorprogram eller appar som känner igen talat tal och automatiskt konverterar dettill skriftlig text. Språket analyseras i termer av talade ord, mening och talaregenskaper för att uppnå ett så exakt resultat som möjligt. Detta ska inte förväxlas med röstigenkänning, det vill säga en biometrisk metod för att identifiera personer baserat på deras röst.

Med hjälp av taligenkänningsprogramvara omvandlas talat tal automatiskt till text – en åtskillnad kan göras mellan högtalarberoende och högtalaroberoende taligenkänning

Under tiden kan datorn styras med hjälp av taligenkänning, du kan skriva e-postmeddelanden via den eller surfa på Internet. Många högtalare med integrerad röststyrning, till exempel .B. Alexa från Amazon eller Google Home, använder också denna teknik. Dessutom ingår det nu som standard i de flesta smartphones.

Man skiljer mellan två typer av taligenkänning:

  • Talare-oberoende taligenkänning: Alla röstar kan kännas igen och bearbetas och driften av enheten är därför möjlig för alla. Även om denna typ av tillämpning riktar sig till en bred målgrupp är det befintliga ordförrådet begränsat här.
  • Taligenkänning som är beroende av talare: I den här varianten tränas programmet på respektive användares individuella språk, varigenom specifika förkortningar och fraser kan läras. Som ett resultat är ordförrådet mycket mer omfattande.

Ur teknisk synvinkel finns det två möjliga sätt att hantera denna process. Antingen sker det direkt på användarens respektive enhet, varigenom resultatet är nästan omedelbart (frontend), eller så sker implementeringen på en separat server, oavsett användarens enhet (backend).

Naturligtvis spelar kvaliteten på ljudinspelningenen viktig roll i denna process. Många högtalare, brus eller för högt avstånd till mikrofonen har en negativ effekt på resultatet. På grund av dessa begränsningar och andra svårigheter, till exempel .B individuellt högtalarbeteende eller dialekt, är en helt automatiserad transkription inte (ännu) möjlig utan fel och är därför kvalitativt sämre än mänsklig manuell transkription. I vilket fall som helst är det därför nödvändigt med en mänsklig korrigering om en viss kvalitetsnivå ska kunna uppnås. Men under optimala förhållanden och med tidigare utbildning baserad på användarens röst är resultaten redan bra. Särskilt bland professionella grupper som läkare eller advokater finns det redan många användare.

För automatisk taligenkänning är inspelningens kvalitet särskilt viktig – utmaningar ställs av många talare, buller och avvikelser från standarduttalet. I allmänhet krävs en mänsklig korrigering.

Marknadsledande inom detta område är tillverkaren Nuance Communications med sin programserie "Dragon". Den senaste versionen Dragon Professional Individual 15 erbjuder inte bara datorns röststyrning utan också en transkriptionsfunktion, även för valfritt antal högtalare. Följande format stöds:

mp3, .aif, .aiff, .wav, .mp4, .m4a och .m4v

Marknadsledande inom detta område är Dragon – Dragon Professional 15 erbjuder omfattande funktioner för transkription

Tillverkarna lovar att även odicerade skiljetecken kommer att ställas in automatiskt. Tester visar dock att detta inte fungerar felfritt, särskilt i intervjuer med mycket buller. Dessutom kan programmet inte göra en högtalartilldelning. För en enda person på vars röst programvaran tidigare var utbildad är resultaten mycket bättre. Du måste dock alltid komma ihåg att den omfattande träningen på din egen röst kräver en hög mängd arbete. För en gruppkonversation eller intervju är denna lösning inte särskilt praktisk, eftersom varje talare skulle ha licens att använda programmet och systemet måste lära sig rösterna från varje enskild samtalspartner.

Programmet kan inte göra en talaruppgift och bör tränas för ett bra resultat på sin egen röst

Följaktligen är programvaran jämförelsevis dyr på 399 €. Det kan användas från Windows 7 eller med MacOS. Det måste dock noteras att transkriptionsfunktionen endast ingår i "Professional" -versionen. Den billigare versionen "Home" erbjuder bara taligenkänning och kontroll. Dessutom kan programvaran endast användas med Nuance-certifierade röstinspelare. För detta ändamål tillåter appen "Dragon Anywhere" mobil användning av funktionerna på smarttelefonen.

Under tiden har andra stora företag som Google också upptäckt denna marknad för sig själva och erbjuder lösningar för automatiserade transkriptioner utöver röststyrda högtalare.Med hjälp av Google Cloud Speech API kan tal också omvandlas till text. Dessutom används neurala nätverk och maskininlärning för att kontinuerligt förbättra resultaten.

Ett alternativ är Google Cloud Speech – här är högtalaruppgiften i testfasen

Sammanfattningsvis kan man säga att programvaran ännu inte är värdefull på grund av det höga priset och de många felen med flera högtalare eller litet ljud. Utan att lära sig folkets talmönster i förväg kan inga tillfredsställande resultat uppnås. Dessutom har vi den efterföljande höga korrigeringsinsatsen. En högtalartilldelning måste också göras manuellt. Detta kan ännu inte göras av AI. På Google, bland annat, är denna funktion i testfasen, även här är högtalaruppgiften fortfarande för felaktig. Inte heller möjligt är den automatiska inställningen av tidsstämplar, denna funktion är fortfarande i testfasen (t.ex. vid f4).

Utan förutbildade talmönster är korrigeringsinsatsen vanligtvis mycket hög – en talartilldelning måste fortfarande göras manuellt


Vetenskaplig studie: Taligenkänningen har 67,6 % noggrannhet 

Tillbaka till innehållsförteckningen

abtipper.de genomförde en vetenskaplig studie under 2019 och 2020 för att bedöma resultatet av de sju taligenkänningssystem som för närvarande finns tillgängliga för den tyskspråkiga världen. Förutom stora leverantörer som Google och Alexa undersöktes också ett antal mindre nischleverantörer.

I testet kontrollerades hur hög ordigenkänningsgraden är i en normal konversationsinspelning med två personer, det vill säga en typisk intervjusituation. Beroende på ämnesområdet och hans erfarenhet uppnår en person en kvot på 96-99% för manuell ljudutskrift. Detta innebär att med 100 ord finns det vanligtvis 1-4 fel i mänsklig transkription.

Det bästa taligenkänningssystemet uppnådde en poäng på 67,6%. Så för närvarande känns 2/3 av orden igen korrekt. Men även några av de större systemen ligger för närvarande fortfarande långt under detta värde, med Bings system som presterar sämst.

Översikt över kvaliteten (i procent) av maskingenererade transkriptioner, som resultat av en vetenskaplig studie:

 

Kvaliteten på skapade transkriptioner

Automatisk taligenkänning

 

Sammantaget når dock maskin transkriptionen vanligtvis inte nivån för en manuellt skapad transkription. För ett första intryck, här är ett exempel på transkriptionen av en intervju (med två talare) med artificiell intelligens. Detta skapades av ett av de för närvarande mest kända transkriptionsprogrammen, Google Cloud Speech-to-Text.

Ett exempel på resultatet av en kartläggning av en spark:
Intervju med Anette Bronder på Hannovermässan
(utdrag ur: "AnetteBronder: en av de bästa resultaten av en sparsam verksamhet"): https://www.youtube.com/watch?v=Es-CIO9dEwA, tillgänglig 08.05.2019)

"Digitalisering och nätverksbyggande spelar också en viktig roll iår på Hannovermässan Industrie Telekom är för tredje gången representerat med enmonter och visar mycket konkreta exempel på tillämpningar mottoet är "Att göra digitaliseringen enkel" Anette Bronder vad menar du egentligen med "att göra det enkelt" kan vi ge oss själva ett exempel ja mycket bra nyckelord levererat göra det enkelt du sa nyss att mässan hålls för tredje gången på temat digitalisering här på Hannovermässan .Jag tror att det nu är dags attfrån laboratoriet till praktiken och att vi kan förvänta oss detta .Jag vill dock påpeka att det ärviktigt för oss i år att säga att vi inte är teknik och lösningar som vi har, utanvi erbjuder sakernas internet som ett tjänstepaket för allra första gången vi är i stånd attleverera uppkoppling via vårt goda nätverk molnlösningar säkerhetslösningar ända ner tillenskilda detaljlösningar inom analys"

Här kan man återigen se att "AI"inte är enteknik eller en lösning, att "AI" inte har någon högtalartillhörighet. Interpunktionen beaktas inte heller här.

Sammantaget kan man säga att automatiserad taligenkänning för närvarande är lämplig för två tillämpningsområden:

  • För dikteringar (e.B. av advokater eller läkare): I dessa inspelningar med vanligtvis bara en högtalare och utmärkt ljudkvalitet, förutom ett begränsat ordförråd, kan ett verktyg tränas mycket bra på motsvarande röst och ordförråd och därmed ge goda resultat.
  • Med låga krav på transkriptionskvalitet kan användningen också vara användbar. Detta är till exempel fallet.B, med digitaliseringen av radioarkiv, där sökbarhet är målet och därför är perfekta transkriptioner inte nödvändiga. Med en ofta extremt stor mängd material utesluts manuell transkription från början av kostnadseffektivitetsskäl.

För alla andra ändamål, t.B intervjuer, är automatiserad taligenkänning tyvärr ännu inte lämplig på nuvarande teknisk nivå. Ytterligare utveckling kan dock förväntas under de kommande åren och årtiondena.


Beställ din transkription från abtipper.de nu! 

 

Resultatet visar att särskilt i situationer med flera talare lämnar systemen för automatiserad taligenkänning fortfarande mycket att önska. För transkription är de endast för mycket specifika applikationer (e.B digitalisering av arkiv som annars inte skulle vara ekonomiskt värda). Å andra sidan är situationen annorlunda när man skjuter med bara en högtalare (e.B. den typiska diktamen). Här når systemen för närvarande redan värden på cirka 85% och kan därför redan användas förnuftigt för vissa praktiska tillämpningar.

För erkännande av tidigare kända kommandon (e.B. Alexa Skills) finns det redan några jämförbara undersökningar. Dessa återspeglar dock en onaturlig talande situation med tidigare kända ämnen och kommandon. Kvaliteten på erkännandet av yttrandefriheten utan artificiellt begränsad vokabulär har nu vetenskapligt undersökts för första gången för den tyskspråkiga världenav abtipper.de.


Tillämpningsområden för automatiserad taligenkänning

Tillbaka till innehållsförteckningen

Det finns redan många praktiska användningsområden för ljudutskrifter. Förutom den exponentiella ökningen av användningen av taligenkänning för smartphones, till exempel för snabb skrivning av korta meddelanden och e-postmeddelanden eller för kontroll av rösthjälpssystem som Apples Siri, Amazons Alexa eller Microsofts Bing, har röstutskriftsteknik också blivit oumbärlig i callcenter och sjukhus idag.

Faktum är att vi abtipper.de varit den första leverantören i Tyskland som erbjuder transkriptioner genom artificiell intelligens sedan 2018:

Vid transkription av artificiell intelligens utförs transkriptionen genom användning av automatiserad taligenkänning.

Tack vare vårt taligenkänningssystem speciellt utvecklat för transkriptioner uppnår inspelningar med några, tydligt talande högtalare och felfri ljudkvalitet goda resultat.

Även om kvaliteten på transkription genom artificiell intelligens ännu inte riktigt når den manuella transkriptionen, finns det många användningsområden för vilka det är särskilt lämpligt. Detta gäller särskilt för digitaliseringen av stora mängder data, där manuell transkription inte skulle vara värt prismässigt.

Klicka här för ett exempel på en transkription skapadav artificiell intelligens.

Förfarande för transkription med artificiell intelligens: Godtagbara resultat kan endast uppnås med denna typ av transkription om ovanstående kriterier är uppfyllda. Därför kontrollerar vi först alla motsvarande sändningar av våra experter. Om det till exempel .B möjligt att skapa en bra transkription på grund av dialekt, brus eller för många högtalare, kommer du att få detta inklusive den detaljerade motiveringen inom 6 till högst 24 timmar. Du är då fri att välja en annan typ av transkription.

Med denna typ av transkription erbjuder vi dig att vi skapar två minuter av din fil som ett exempel på transkription utan kostnad och utan skyldighet, så att du kan kontrollera resultatet av denna nya typ av transkription. Du kan sedan bestämma för det specifika fallet om kvaliteten uppfyller dina krav eller om en manuell transkription är ett alternativ. Vänligen gör en beställning och notera i kommentarfältet att du vill ha gratis provutskrift.

Beställ din transkription nu av künstl. Intelligens på abtipper!


Historien om automatisk taligenkänning – en recension

Tillbaka till innehållsförteckningen

John Pierce, pionjär inom taligenkänning
John Pierce, pionjär inom taligenkänning

Början av forskningen om taligenkänningssystem började tidigt på 1960-talet, men det gav inga lovande resultat. De första systemen som utvecklades av IBM gjorde det möjligt att känna igen enstaka ord under laboratorieförhållanden, men levererade inga betydande framsteg vid den tiden på grund av brist på teknisk kunskap inom det nya forskningsområdet - detta var också uppenbart från en rapport som presenterades av den amerikanska ingenjören John Pierce, en expert på högfrekvent teknik, telekommunikation och akustik som chef för Bell Group 1969.

 

IBM Shoebox för taligenkänning
IBM Shoebox från 1960-talet kunde känna igen 16 ord. (Källa: IBM)

Det var inte förrän i mitten av 1980-talet som forskningen fick ny fart genom upptäckten av homofonens differentierbarhet genom kontexttester. Genom att skapa statistik över frekvensen av vissa ordkombinationer och systematiskt utvärdera dem var det möjligt att automatiskt härleda vilket var avsett för liknande ord.

En viktig milstolpe var införandet av ett nytt taligenkänningssystem av IBM 1984, som kunde förstå 5 000 engelska enskilda ord och konvertera dem till text med hjälp av så kallad "trigramstatistik". Erkännandeprocessen vid den tidpunkten krävde dock en bearbetningstid på flera minuter på en industriell stordator och var därför praktiskt taget oanvändbar. Mycket mer avancerat var dock ett system utvecklat av Dragon Systems bara lite senare, som kunde användas på en bärbar dator.

 

IBM som pionjär för tal till text
Utdrag för reklamfilm för IBM Speech Recognition 1984 (Källa: IBM)

Under de följande åren arbetade IBM intensivt med att förbättra sin programvara för taligenkänning. År 1993 infördes det första massmarknadssystemet och kommersiellt tillgängliga taligenkänningssystem, IBM Personal Dictation System.

1997 släpptes både den efterföljande versionen IBM ViaVoice och version 1.0 av programvaran Dragon NaturallySpeaking. Medan den fortsatta utvecklingen av IBM ViaVoice avbröts efter några år, blev Dragon NaturallySpeaking den mest använda taligenkänningsprogramvaran för Windows-datorer. Programvaran har tillverkats och distribuerats av Nuance Communications sedan 2005.

Under 2008, med förvärvet av Philips Speech Recognition Systems, förvärvade Nuance också rättigheterna till SpeechMagic software development kit, vars användning är särskilt utbredd inom hälso- och sjukvårdssektorn.

grundades 2007 och förvärvades av Apple i april 2010. Med introduktionen av iPhone 4s 2011 presenterades den automatiska röstassistenten Siri för allmänheten för första gången och har utvecklats kontinuerligt sedan dess. Vi presenterar Siri:

 


   

Funktionen bakom tal-till-text-systemen

Tillbaka till innehållsförteckningen

Moderna taligenkänningssystem har blivit en integrerad del av vår vardag. Men hur fungerar de egentligen?

Den grundläggande principen för transkription är mycket enkel: När vi talar andas vi ut luft genom lungorna. Beroende på sammansättningen av de talade stavelserna sätter vi luften i vissa vibrationsmönster, som känns igen av taligenkänningsprogramvaran och omvandlas till en ljudfil. Detta delas sedan in i små delar och söks specifikt efter kända ljud. Men eftersom inte alla ljud känns igen är ett mellansteg nödvändigt.

Med hjälp av den så kallade "Hidden Markov Method" beräknar taligenkänningsprogrammet vilket ljud som sannolikt kommer att följa på ett annat och vilket som i sin tur kan komma efter det. På så sätt skapas en lista över möjliga ord som i en andra körning ger det som tidigare hände med bokstäverna: datorn analyserar sannolikheten för att ett visst ord följer på ett annat - efter "jag ska till..." kommer "hem" snarare än "dusch" eller "paus". Men datorn kan bara veta detta om den känner till många talade meningar och vet hur ofta och i vilket sammanhang orden förekommer.

Dold Markov-modell för taligenkänning
Representation av hur hidden markov-modellen fungerar

En sådan beräkningsuppgift överskrider processorkapaciteten hos en mobiltelefon i fickformat många gånger om. Det kan bara lösas genom användning av molntjänster, det vill säga outsourcing av svåra datoroperationer till stationära stora datorer. Mobiltelefonen själv spelar bara in röstkommandot, konverterar det till en ljudfil, skickar den via Internet till datacentret och låter analysera den där. Resultatet returneras sedan till smarttelefonen via Internet.

De enorma databaser med tal- och textfiler som redan har talats och transkriberats korrekt av människor och som finns i molndatasystemet är den verkliga hemligheten bakom de nya taligenkänningssystemens framgång. En bra programvara för taligenkänning kan alltså inte bara programmeras som ett nytt datorspel eller en ny skrivardrivrutin. "Konsten är att få tag på bra data och att integrera dem optimalt i inlärningsprocessen", säger Joachim Stegmann, chef för avdelningen för framtida telekommunikation vid Telekom Innovation Laboratories.

För en riktigt bra och korrekt taligenkänningsprogramvara är ett särskilt stort antal inspelningar av vardagsspråk också nödvändiga, så att dialekter, talfel, nuzzle och fistelröster också kan spelas in. Talarna bör också skilja sig åt demografiskt – det bör finnas lika många barn, män, kvinnor, gamla och ungdomar samt personer med olika regional bakgrund. I praktiken används till exempel protokoll från förbundsdagens tal, manuskript som läses upp eller inspelningar av radiosändningar.


Möjligheter och utmaningar i utvecklingen av automatiskt taligenkänning

Tillbaka till innehållsförteckningen

Välfungerande taligenkänningssystem lovar att göra vår vardag mycket enklare. Inom professionella tillämpningsområden skulle de i framtiden kunna automatisera transkriptionen av talat språk i synnerhet – till exempel inspelningen av protokoll eller den ofta mödosamma manuella transkriptionen av tal, intervjuer eller videor. De blir också mer och mer utbredda i den privata miljön, var det för röststyrd drift av smarttelefonen i bilen, ringa upp Google-sökningar eller använda smarta hemapplikationer som att tända och släcka lamporna eller sänka värmen.

Den stora utmaningen med elektroniskt taligenkänning är dock att ingen uttalar en term exakt samma i varje situation. Ibland är användaren trött, ibland hektisk, ibland högljudd, ibland tyst, ibland koncentrerad, ibland berusad, ibland arg, ibland kall. Därför är det mycket svårt för en programvara att känna igen ord genom att söka efter kongruenta tonsekvenser.

Särskilt äldre människor eller människor i rörelse är svåra för systemen att förstå. Bakgrundsljud gör det ännu svårare att upptäcka – Microsoft arbetar därför redan med den nya programvaran "CRIS", vilket bör möjliggöra en individuell konfiguration av ofta förekommande bakgrundsljud och vokabulär och därmed också tillåta användning i bullriga produktionsområden eller på äldreboenden.

Under tiden uppnår nuvarande system en igenkänningsgrad på cirka 99 procent för diktering av kontinuerliga texter på persondatorer och uppfyller därmed kraven i praktiken för många tillämpningsområden, t.B. för vetenskapliga texter, affärskorrespondens eller rättsliga inlagor. Användningen når sina gränser där respektive författare ständigt behöver nya ord och ordformer som ursprungligen inte känns igen av programvaran, vars manuella tillägg är möjligt, men helt enkelt inte effektivt med endast en enda förekomst i texter av samma högtalare.

Riktmärken för taligenkänning
Benchmark för taligenkänningssystem för engelska (Källa: Economist)

 

De viktigaste leverantörerna av automatiska taligenkänningssystem

Tillbaka till innehållsförteckningen

Som med många moderna tekniker dyker nya leverantörer inom ljudutskrift upp som svampar.

Marknadsledaren inom automatisk taligenkänning och transkription är Nuance med sin Dragon NaturallySpeaking-programvara. Användningen av djupinlärningsteknik gör det möjligt att använda programvaran även i miljöer med starkt bakgrundsljud. Genom riktad utbildning på en viss talare kan en noggrannhet på upp till 99% i tal-till-text-konvertering uppnås med bara några minuters investerad "lästid". Nuance arbetar under tiden med nästa generations fordonselektronik, vilket i framtiden kommer att möjliggöra exakt skrivning av komplicerade texter via röstinmatning, användning av sociala nätverk och ifrågasättande av sökmotorer utan att distrahera förarens uppmärksamhet från vägen.

Att använda samma teknik, men mycket mer känd än Nuance, är förmodligen Siri, denpersonliga röstassistenten som är tillgänglig för Apple-användaresedan lanseringen av iPhone 4s. Programvaran kan startas med kommandot "Hej Siri" och kräver därför nästan ingen manuell drift alls. Som en taligenkänningsprogramvara för diktering av hela bokstäver eller längre texter är den dock endast lämplig i begränsad utsträckning, eftersom tal inte kontinuerligt spelas in och digital text kontinuerligt matas ut. Siri sparar några talade meningar tills de skickas till den centrala översättningsservern med kommandot "Klar" eller avbryter textinspelning för överföring när maximalt minne har nåtts. Tills den digitala texten har returnerats måste diktamen pausas. Denna överföring medför dessutom risker för informationssäkerheten i händelse av avbrott i överföringen, t.B. i ett GSM-radiohål går den dikterade texten förlorad.

I likhet med Apples Siri använder Microsoft den virtuella assistenten Cortana påsin Windows Phone 8.1, som använder Bing!-sökning samt personlig information som lagras på smarttelefonen för att ge användaren personliga rekommendationer. En utvidgning av funktionerna till smart kontroll av hushållsapparater som kylskåp, brödrostar eller termostater genom tekniken på Sakernas Internet är redan planerad. Med sin taligenkänningsprogramvara, den så kallade "Computational Network Toolkit", kunde Microsoft också sätta en historisk milstolpe i oktober 2016: Med hjälp av djupinlärningsteknik kunde programvaran uppnå en felfrekvens på endast 5,9% i jämförande tester mellan människor och maskiner - samma felfrekvens som dess mänskliga motsvarigheter. Programvaran har därmed uppnått jämlikhet mellan människa och maskin för första gången.

Google öppnade också ett programmeringsgränssnitt för molntjänster som betaversion i mars 2016. Cloud Speech API översätter talad text till skriven text och känner igen ett 80-tal språk- och språkvarianter. API:et kan leverera texten som en ström under igenkänningen och filtrerar automatiskt bort bakgrundsbrus. Det är för närvarande endast tillgängligt för utvecklare.

Senast har Amazon också meddelat lanseringen av den nya tjänsten " AmazonLex" för utveckling av konversationsgränssnitt med röst och text. Det är baserat på tekniken för automatisk taligenkänning och naturlig talförståelse, som Amazon Alexa också använder. I framtiden kommer utvecklare att kunna bygga och testa intelligenta röstassistenter – så kallade robotar – med den nya tjänsten.

Och det kognitivasystemet IBM Watson , som markerade början på eran av kognitiv databehandling 2011, använder neurala nätverk, maskininlärning och textanalysverktyg i synnerhet taligenkänning för att lära sig själv. För IBM Watson själv är ironi, metaforer och ordvitsar inte längre ett hinder.


Resultat

Tillbaka till innehållsförteckningen

Under de senaste åren har tekniken utvecklats snabbt, särskilt med stöd av molntjänster och automatiserad bearbetning av extremt stora mängder data som grund för intelligenta system. Med hjälp av professionell taligenkänningsprogramvara är automatisk transkription redan möjlig nästan felfri.

Rena taligenkänningssystem i sig är dock bara början. Sann interaktion mellan människa och maskin – som science fiction-filmerna förutspår – kräver maskiner som inte bara kan reproducera information, utan också förstå sammanhang av mening och fatta intelligenta beslut.


Beställ din transkription nu av künstl. Intelligens på abtipper!


Fler frågor och svar

✅ Hur fungerar taligenkänning?

Systemen för automatisk taligenkänning fungerar i princip alla på samma sätt.

Enkelt uttryckt är kärnan alltid en stor databasdär många möjliga varianter av uttalet av ett eller flera ord med lämplig text lagras. När en ny inspelning sedan importeras till systemet jämförs ljudet med databasen och den text som troligen motsvarar den här inspelningen matas ut.

Ju större och bättre underhållen denna databas är, desto bättre är taligenkänningen. Dessutom spelar inspelningskvaliteten naturligtvis en viktig roll för att uppnå en god detektionsgrad.

✅ Är det möjligt att transkribera med taligenkänning?

Transkription med taligenkänning är möjlig.

Ben ett diktamen av en person med tydligt uttal, utan dialekt och utan brus, en kvalitetsnivå på ca 90% kan uppnås med taligenkänning. Detta är bara något under den vanliga mänskliga transkriptionsnivån på ca 95%. Om en av dessa förutsättningar saknas, och i nästan alla intervjuer eller gruppdiskussioner, kan dagens taligenkänningssystem ännu inte generera begripliga texter.

Enligt aktuella vetenskapliga studier når taligenkänningen i intervjuer för närvarande en nivå på endast cirka 65 procent,vilket leder till i stort sett obegripliga texter.

✅ Vilken leverantör har bäst taligenkänning?

Det finns nu många leverantörer för automatisk taligenkänning.

Systemen skiljer sig åt när det gäller
Igenkänningsfrekvens (hur många ord som känns igen korrekt)
Stavning och skiljetecken
Format (e.B. med eller utan högtalartilldelning)
Användbarhet (användbarhet som program, app eller endast via API-gränssnitt)
Pris- och faktureringsmodell

Goda resultat för det tyska språket uppnås av Google Speech-to-Text and Nuance (Dragon). Sammantaget uppnår de bästa systemen för närvarande en igenkänningsgrad på cirka 67% under goda förhållanden, så med 100 ord är cirka 67 korrekt erkända. En manuell transkription är med en detekteringshastighet på ca 97%.

Vi startar ditt projekt idag: Begär en offert