Status quo i trendy w automatycznym rozpoznawaniu mowy

Zautomatyzowane rozpoznawanie mowy

Treść tego artykułu


Przełączanie głosu na tekstWiele innych przydatnych wskazówek znajdziesz w naszym eBooku Nagrywanie, przepisywanie, analizowanie - Przewodnik po przeprowadzaniu wywiadu i transkrypcji.

Książka jest dostępna do pobrania za darmo: Teraz wszystko o Transkrypcja & Co teraz!


Czym jest rozpoznawanie mowy?

Powrót do spisu treści

Rozpoznaje mowę

Maszyny, które wchodzą w interakcję z ludźmi, są częścią prawie każdego dobrego filmu science fiction. Ponad sześćdziesiąt lat temu Arthur C. Clarke w swojej powieści "2001 - Odyseja kosmiczna", sfilmowanej przez Stanleya Kubricka, stworzył wizję komputera HAL, który w sposób oczywisty porozumiewał się językowo z ludźmi na pokładzie statku kosmicznego.

Mimo że dzisiejsze maszyny posiadają już niektóre z możliwości HAL-a - takie jak gra w szachy czy nawigowanie statkiem kosmicznym - wciąż jesteśmy daleko od inteligentnej, znaczącej i dwukierunkowej komunikacji między ludźmi a maszynami.

Oprogramowanie do rozpoznawania mowy to specjalne programy komputerowe lub aplikacje, które rozpoznają język mówiony i automatycznie zamieniają go na tekst pisany. konwersja. Mowa jest analizowana pod kątem wypowiadanych słów, znaczenia i cech mówcy w celu osiągnięcia jak najdokładniejszego wyniku. Nie należy tego mylić z rozpoznawaniem głosu, tj. biometryczną procedurą identyfikacji osób na podstawie ich głosu.

Z pomocą oprogramowanie do rozpoznawania mowy mowa jest automatycznie przekształcony na tekst - możliwe jest między zależnymi od mówcy i niezależne od głośników rozpoznawanie mowy można wyróżnić

W międzyczasie rozpoznawanie głosu może być wykorzystywane do sterowania komputerem, pisania e-maili lub surfowania po Internecie. Technologię tę wykorzystują również liczne głośniki ze zintegrowanym sterowaniem głosowym, takie jak Alexa firmy Amazon czy Google Home. Co więcej, jest on obecnie standardowo dołączany do większości smartfonów.

Dokonuje się rozróżnienia między Dwa rodzaje rozpoznawania mowy:

  • Rozpoznawanie mowy niezależne od mówcy: Tutaj każdy głos może zostać rozpoznany i przetworzony, dzięki czemu każdy może obsługiwać urządzenie. Mimo, że ten typ aplikacji jest skierowany do szerokiej grupy docelowej, dostępne słownictwo jest ograniczone.
  • Rozpoznawanie mowy zależne od mówcy: W tym wariancie program jest szkolony pod kątem indywidualnego języka danego użytkownika, dzięki czemu można nauczyć się specyficznych skrótów i zwrotów. Słownictwo jest więc znacznie bogatsze.

Z technicznego punktu widzenia istnieją dwa możliwe sposoby obsługi tego procesu. Albo odbywa się to bezpośrednio na urządzeniu użytkownika, dzięki czemu wynik jest dostępny niemal natychmiast (front-end), albo realizacja odbywa się na osobnym serwerze, niezależnym od urządzenia użytkownika (back-end).

Ważną rolę w tym procesie odgrywa oczywiście Jakość Nagranie dźwiękowe. Wielu mówców, hałas w tle lub zbyt duża odległość od mikrofonu mają negatywny wpływ na wynik. Ze względu na te ograniczenia i inne trudności, takie jak indywidualne zachowanie mówcy lub dialekt, całkowicie zautomatyzowana transkrypcja nie jest (jeszcze) możliwa bez błędów i dlatego jest jakościowo gorsza od ręcznej transkrypcji dokonywanej przez człowieka. W każdym razie, dlatego człowiek Koniecznakorekta po korekcie jest konieczne, jeśli ma zostać osiągnięty określony poziom jakości. Jednak w optymalnych warunkach i przy wcześniejszym treningu opartym na głosie użytkownika wyniki są już dobre. Jest już wielu użytkowników, zwłaszcza wśród grup zawodowych, takich jak lekarze czy prawnicy.

Dla automatycznych Jakość nagrania jest nagrania jest szczególnie ważne - Wyzwania to wiele głośników, hałas w tle i odchylenia od standardowa wymowa. Ogólnie korekta ludzka jest niezbędne.

Liderem na rynku w tej dziedzinie jest producent Nuance Communications ze swoją serią programów "Dragon". Najnowsza wersja Dragon Professional Individual 15 oferuje funkcję transkrypcji jako dodatek do sterowania głosem komputera, również dla dowolnej liczby głośników. Obsługiwane są następujące formaty:

mp3, .aif, .aiff, .wav, .mp4, .m4a i .m4v

Liderem na rynku w tej dziedzinie jest Dragon - Dragon Professional 15 oferuje rozbudowane funkcje dla transkrypcja

Producenci obiecują, że nawet niedyktowane znaki interpunkcyjne są ustawiane automatycznie. Testy pokazują jednak, że nie działa to bezbłędnie, szczególnie w przypadku rozmów z dużą ilością szumów w tle. Ponadto program nie może przypisać głośnika . Z jedną osobą, na której Głos oprogramowanie zostało wcześniej przeszkolone, wyniki są znacznie lepsze. Trzeba jednak zawsze pamiętać, że intensywny trening nad własnym głosem wymaga wiele pracy. Rozwiązanie to jest mało praktyczne w przypadku rozmowy grupowej lub wywiadu, ponieważ każdy z rozmówców musiałby posiadać licencję na korzystanie z programu, a system musiałby nauczyć się głosów poszczególnych rozmówców.

Program nie może przydzielanie mówców i powinien być przeszkolony do własnego głosu dla być szkolonym do własnego głosu

W związku z tym, oprogramowanie jest stosunkowo drogie i kosztuje 399 euro. Może być używany z systemem Windows 7 lub wyższym lub z systemem MacOS. Należy jednak zaznaczyć, że funkcja transkrypcji jest dostępna tylko w wersji "Professional". Tańsza wersja "Home" oferuje jedynie rozpoznawanie mowy i sterowanie. Ponadto, oprogramowanie może być używane tylko z urządzeniami do dyktowania certyfikowanymi przez Nuance. Z drugiej strony, aplikacja "Dragon Anywhere" umożliwia mobilne korzystanie z funkcji na smartfonie.

W międzyczasie inne wielkie korporacje, takie jak Google, również odkryły dla siebie ten rynek i oprócz głośników sterowanych głosem oferują również rozwiązania do automatycznego przepisywania. Z pomocą Google Mowa w chmurze API, mowa może być również przekształcana na tekst. Ponadto, sieci neuronowe i uczenie maszynowe są wykorzystywane do ciągłego ulepszania wyników.

Alternatywą jest usługa Google Cloud Mowa - tu mówca przydzielanie mówców jest w fazie testów

Podsumowując, można powiedzieć, że oprogramowanie nie jest jeszcze warte uwagi ze względu na wysoką cenę i liczne błędy z wieloma głośnikami lub lekkim szumem. Bez wcześniejszego poznania wzorców mowy osób nie da się osiągnąć zadowalających rezultatów. Do tego dochodzi jeszcze późniejszy wysoki nakład pracy związany z korektą. A Przydział mówców korekta musi być również przeprowadzona ręcznie. Tego nie może jeszcze zrobić SI. Między innymi w Google funkcja ta jest w fazie testowej; również tutaj przypisywanie głośników jest jeszcze zbyt nieprecyzyjne. Nie jest również możliwe automatyczne ustawianie znaczników czasu; funkcja ta jest jeszcze w fazie testów (np. przy f4).

Bez uprzednio wytrenowanych wzorców mowy nakłady na korektę są zazwyczaj bardzo wysokie wysoki - zadanie dla mówcy nadal muszą być wykonywane ręcznie ręcznie


Badanie naukowe: dokładność rozpoznawania mowy wynosi 67,6%. 

Powrót do spisu treści

abtipper.de przeprowadził w latach 2019 i 2020 badania naukowe w celu oceny wydajności siedmiu systemów rozpoznawania mowy dostępnych obecnie dla niemieckojęzycznego świata. Oprócz dużych dostawców, takich jak Google i Alexa, zbadano również szereg mniejszych, niszowych dostawców.

Test sprawdzał, jak wysoki jest wskaźnik rozpoznawania słów w nagraniu normalnej rozmowy z dwiema osobami, czyli typowej sytuacji wywiadu. Człowiek osiąga wskaźnik 96-99% w ręcznej transkrypcji audio, w zależności od dziedziny i doświadczenia. Oznacza to, że na 100 słów, w ludzkiej transkrypcji jest zazwyczaj 1-4 błędów.

Najlepszy system rozpoznawania mowy uzyskał wartość 67,6%. Oznacza to, że obecnie 2/3 słów jest rozpoznawanych poprawnie. Jednak nawet niektóre z większych systemów są obecnie znacznie poniżej tej wartości, przy czym system Binga radzi sobie najgorzej.

Przegląd jakości (w procentach) transkryptów generowanych maszynowo, jako wynik badania naukowego:

 

Jakość sporządzanych transkryptów

Automatyczne rozpoznawanie mowy

 

W sumie jednak maszynowa transkrypcja nie osiąga jeszcze poziomu transkrypcji tworzonej ręcznie. Dla pierwszego wrażenia, oto przykład transkrypcji wywiadu (z dwoma mówcami) z użyciem sztucznej inteligencji. Został on stworzony przez jeden z najpopularniejszych obecnie programów do transkrypcji, Google Cloud Speech-to-Text.

Przykładowy wynik rozpoznania sparchu:
Wywiad Anette Bronder na targach Hannover Messe
(fragment z: https://www.youtube.com/watch?v=Es-CIO9dEwA, dostęp 08.05.2019)

"Digitalizacja i sieci odgrywają również ważną rolę w tymroku na targach Han noverMesse Industrie Telekom jest reprezentowana po raz trzeci zestoiskiem i pokazuje bardzo konkretne przykłady zastosowań motto brzmi "Making digitisation simple" Pani Bronder co właściwie ma Pani namyśli mówiąc"making it simple" czy możemy podać sobie przykład tak bardzo dobre słowo kluczowe dostarczone make it simple powiedziała Pani przed chwilą targiodbywają się po raz trzeci na temat digitalizacji tutaj naHannover Messe.Uważam, że nadszedł już czas, aby przejść z laboratorium do praktyki i tego możemy oczekiwać .Chciałbym jednak zaznaczyć, że w tym roku ważne jestdla nas, aby powiedzieć ,że nie jesteśmy technologią i rozwiązaniami , które mamy, aleoferujemy Internet Rzeczy jako pakiet usług po raz pierwszy jesteśmy w staniedostarczyć łączność za pośrednictwem naszej dobrej sieci rozwiązania w zakresie bezpieczeństwa w chmurze aż doindywidualnych szczegółowych rozwiązań w zakresie analityki"

Tutaj po raz kolejny widać, że "AI"nie jesttechnologią ani rozwiązaniem, że przez "AI" nie jest przypisywany żaden mówca. Nie uwzględnia się tu również interpunkcji.

Ogólnie można powiedzieć, że automatyczne rozpoznawanie mowy jest obecnie odpowiednie dla dwóch obszarów zastosowań:

  • Dla dyktand (np. od prawników lub lekarzy): Dla tych nagrań z zazwyczaj tylko jednym mówcą, który jest zawsze taki sam i doskonałą jakością dźwięku, oprócz ograniczonego słownictwa, narzędzie może być bardzo dobrze przeszkolone do odpowiedniego głosu i słownictwa, a tym samym zapewniać dobre wyniki.
  • Jeśli wymagania co do jakości transkrypcji są niskie, zastosowanie może mieć również sens. Dzieje się tak na przykład w przypadku digitalizacji archiwów radiowych, gdzie celem jest możliwość wyszukiwania, a zatem doskonałe transkrypcje nie są konieczne. Przy często bardzo dużej ilości materiału, ręczne przepisywanie jest w takich zastosowaniach wykluczone od samego początku ze względów ekonomicznych.

Do wszystkich innych celów, np. wywiadów, automatyczne rozpoznawanie mowy nie jest niestety jeszcze odpowiednie na obecnym poziomie technicznym. W najbliższych latach i dziesięcioleciach można się jednak spodziewać dalszego rozwoju w tym zakresie.


Zamów teraz transkrypcję na abtipper.de! 

 

Wynik pokazuje, że szczególnie w sytuacjach, gdy mówi wielu mówców, systemy automatycznego rozpoznawania mowy wciąż pozostawiają wiele do życzenia. W przypadku transkrypcji dotyczą one jedynie bardzo szczególnych przypadków użycia (np. digitalizacji archiwów, która w innym przypadku nie byłaby opłacalna). Inaczej jest jednak w przypadku nagrań z jednym mówcą (np. typowe dyktando). W tym zakresie systemy osiągają już obecnie wartości około 85% i mogą być sensownie wykorzystywane w niektórych praktycznych zastosowaniach.

Istnieją już pewne porównywalne badania dotyczące rozpoznawania wcześniej znanych komend (np. Alexa Skills). Odzwierciedlają one jednak nienaturalną sytuację mowy z wcześniej znanymi tematami i poleceniami. Jakość swobodnego rozpoznawania mowy bez sztucznie ograniczonego słownictwa została po raz pierwszy naukowo zbadana przez abtipper.de dla niemieckiego obszaru językowego.


Obszary zastosowań automatycznego rozpoznawania mowy

Powrót do spisu treści

Już dziś istnieje wiele praktycznych obszarów zastosowania transkrypcji audio. Oprócz gwałtownego wzrostu wykorzystania technologii rozpoznawania głosu w smartfonach, na przykład do szybkiego tworzenia krótkich wiadomości i e-maili lub do sterowania systemami pomocy głosowej, takimi jak Siri firmy Apple, Alexa firmy Amazon lub Bing firmy Microsoft, technologie transkrypcji głosowej są obecnie również niezbędne w centrach obsługi telefonicznej i szpitalach.

W rzeczywistości, od 2018 roku w abtipper.de udało nam się zostać pierwszym dostawcą w Niemczech, który oferuje transkrypcje za pomocą sztucznej inteligencji:

W transkrypcji sztucznej inteligencji, transkrypcja jest wykonywana przy użyciu automatycznego rozpoznawania mowy.

Dzięki naszemu systemowi rozpoznawania mowy, opracowanemu specjalnie dla potrzeb transkrypcji, szczególnie dobre wyniki osiągają nagrania z niewielką liczbą wyraźnie mówiących osób i nienaganną jakością dźwięku.

Nawet jeśli jakość transkrypcji wykonywanej przez sztuczną inteligencję nie dorównuje jeszcze jakości transkrypcji ręcznej, istnieje wiele dziedzin zastosowań, dla których jest ona szczególnie przydatna. Dotyczy to w szczególności digitalizacji dużych ilości danych, gdzie ręczne przepisywanie nie byłoby warte swojej ceny.

Kliknij tutaj, aby zobaczyć przykład transkryptu stworzonego przez sztuczną inteligencję. Transkrypt.

Procedura transkrypcji z wykorzystaniem sztucznej inteligencji: Akceptowalne wyniki można osiągnąć przy tym rodzaju transkrypcji tylko wtedy, gdy spełnione są powyższe kryteria. Dlatego najpierw sprawdzamy wszystkie odpowiednie zgłoszenia przez naszych ekspertów. Jeżeli, na przykład, nie można sporządzić dobrej transkrypcji z powodu dialektu, hałasu w tle lub zbyt wielu mówców, zostaną Państwo o tym poinformowani, wraz ze szczegółowym uzasadnieniem, w ciągu 6 do maksymalnie 24 godzin. Możesz wtedy wybrać inny rodzaj transkrypcji.

W przypadku tego typu transkrypcji, oferujemy bezpłatne i niezobowiązujące wykonanie dwóch minut z Państwa pliku jako transkrypcji testowej, aby mogli Państwo sprawdzić wynik tego nowego typu transkrypcji. Możesz wtedy zdecydować dla konkretnego przypadku, czy jakość spełnia Twoje wymagania, czy też bardziej odpowiednia byłaby ręczna transkrypcja. W tym celu prosimy o złożenie zamówienia i zaznaczenie w polu komentarza, że życzą sobie Państwo bezpłatną transkrypcję próbną.

Zamów swoją transkrypcję sztucznej inteligencji z abtipper teraz!


Historia automatycznego rozpoznawania mowy - przegląd

Powrót do spisu treści

John Pierce, pionier w dziedzinie rozpoznawania mowy
John Pierce, pionier w dziedzinie rozpoznawania mowy

Badania nad systemami rozpoznawania mowy rozpoczęły się na początku lat 60-tych, ale nie przyniosły obiecujących rezultatów. Pierwsze systemy opracowane przez IBM umożliwiały rozpoznawanie pojedynczych słów w warunkach laboratoryjnych, ale ze względu na brak wiedzy technicznej w nowej wówczas dziedzinie badań nie przyniosły znaczącego postępu - tak wynikało również z raportu przedstawionego w 1969 r. przez amerykańskiego inżyniera Johna Pierce'a, eksperta w dziedzinie technologii wysokich częstotliwości, telekomunikacji i akustyki, który stał na czele Bell Group.

 

IBM Shoebox do rozpoznawania mowy
IBM Shoebox z lat 60. potrafił rozpoznać 16 słów. (Źródło: IBM)

Dopiero w połowie lat 80. badania nabrały nowego tempa wraz z odkryciem rozróżnialności homofonów za pomocą testów kontekstowych. Dzięki opracowaniu statystyk dotyczących częstotliwości występowania pewnych kombinacji słów i systematycznej ich ocenie, można było automatycznie wywnioskować, o które z nich chodzi w przypadku podobnie brzmiących słów.

Ważnym kamieniem milowym było zaprezentowanie przez IBM w 1984 r. nowego systemu rozpoznawania mowy, który był w stanie zrozumieć 5.000 pojedynczych angielskich słów i przekształcić je w tekst za pomocą tzw. statystyki trygramów. Jednak w tamtych czasach proces rozpoznawania wymagał kilku minut czasu przetwarzania na przemysłowym komputerze typu mainframe i był praktycznie bezużyteczny. Natomiast system opracowany nieco później przez firmę Dragon Systems był znacznie bardziej zaawansowany i mógł być używany na przenośnych komputerach PC.

 

IBM jako pionier w dziedzinie przetwarzania mowy na tekst
Fragment filmu reklamowego dla rozpoznawania mowy IBM 1984 (Źródło: IBM)

W kolejnych latach IBM intensywnie pracował nad udoskonaleniem oprogramowania do rozpoznawania mowy. W ten sposób w 1993 roku pojawił się pierwszy system rozpoznawania mowy opracowany dla rynku masowego i dostępny komercyjnie - IBM Personal Dictation System.

W 1997 r. pojawiła się zarówno następca wersji IBM ViaVoice, jak i wersja 1.0 oprogramowania Dragon NaturallySpeaking. Podczas gdy dalszy rozwój IBM ViaVoice został przerwany po kilku latach, Dragon NaturallySpeaking stał się najczęściej używanym oprogramowaniem do rozpoznawania mowy dla komputerów PC z systemem Windows. Od 2005 roku oprogramowanie jest produkowane i dystrybuowane przez Nuance Communications.

W 2008 roku, wraz z przejęciem Philips Speech Recognition Systems, Nuance uzyskał również prawa do zestawu do tworzenia oprogramowania SpeechMagic, którego zastosowanie jest szczególnie szerokie w sektorze opieki zdrowotnej.

W 2007 roku została założona firma Siri Inc, która w kwietniu 2010 roku została kupiona przez Apple. Wraz z wprowadzeniem iPhone'a 4s w 2011 r. automatyczny asystent głosowy Siri został po raz pierwszy zaprezentowany publicznie i od tego czasu jest stale rozwijany. Prezentacja Siri:

 


   

Funkcjonalność systemów Speech-to-Text

Powrót do spisu treści

Nowoczesne systemy rozpoznawania mowy stały się nieodzowną częścią naszego codziennego życia. Ale jak one właściwie działają?

Podstawowa zasada transkrypcji jest bardzo prosta: kiedy mówimy, wydychamy powietrze przez nasze płuca. W zależności od składu wypowiadanych sylab, ustawiamy powietrze w określone wzorce wibracji, które są rozpoznawane przez oprogramowanie do rozpoznawania mowy i przetwarzane na plik dźwiękowy. Jest on następnie dzielony na małe części i specjalnie wyszukiwany w poszukiwaniu znanych dźwięków. Jednakże, ponieważ nie wszystkie dźwięki są rozpoznawane, konieczny jest etap pośredni.

Za pomocą tzw. "ukrytej metody Markowa" oprogramowanie do rozpoznawania mowy oblicza, który dźwięk prawdopodobnie nastąpi po innym, a który z kolei może pojawić się po nim. W ten sposób powstaje lista możliwych słów, z którymi w drugim przebiegu dzieje się to, co wcześniej z literami: komputer analizuje prawdopodobieństwo, z jakim dane słowo następuje po innym - po "Idę do..." przychodzi "dom", a nie "prysznic" czy "przerwa". Ale komputer może to wiedzieć tylko wtedy, gdy zna wiele zdań mówionych oraz wie, jak często i w jakim kontekście występują dane słowa.

Ukryty model Markowa do rozpoznawania mowy
Ilustracja przedstawiająca działanie Ukrytego Modelu Markowa

Takie zadanie obliczeniowe wielokrotnie przekracza możliwości przetwarzania danych przez kieszonkowy telefon komórkowy. Rozwiązaniem tego problemu może być jedynie wykorzystanie chmury obliczeniowej, czyli zlecanie trudnych operacji obliczeniowych stacjonarnym dużym komputerom. Sam telefon komórkowy po prostu nagrywa polecenie głosowe, zamienia je na plik dźwiękowy, przesyła przez Internet do centrum komputerowego i tam poddaje analizie. Wynik jest następnie przesyłany z powrotem do smartfona przez Internet.

Ogromne bazy danych mowy i plików tekstowych już wypowiedzianych i poprawnie przepisanych przez człowieka, przechowywane w chmurze obliczeniowej, są prawdziwym sekretem sukcesu nowych rozpoznawców mowy. Tak więc dobrego oprogramowania do rozpoznawania mowy nie da się po prostu zaprogramować, jak nowej gry komputerowej czy sterownika drukarki. "Sztuką jest zdobycie dobrych danych i optymalne włączenie ich do procesu uczenia się" - mówi Joachim Stegmann, szef działu Telekomunikacji Przyszłości w Laboratoriach Innowacji Telekom.

Dla naprawdę dobrego i dokładnego oprogramowania do rozpoznawania mowy konieczna jest również szczególnie duża liczba nagrań codziennej mowy, tak aby można było zarejestrować dialekty, błędy w mowie, głosy mamrotane i falsetowe. Mówcy powinni być także zróżnicowani demograficznie - w równej liczbie powinny być dzieci, mężczyźni, kobiety, osoby starsze i młode oraz osoby o różnym pochodzeniu regionalnym. W praktyce wykorzystuje się np. stenogramy przemówień w Bundestagu, rękopisy czytane na głos lub nagrania audycji radiowych.


Szanse i wyzwania w rozwoju automatycznego rozpoznawania mowy

Powrót do spisu treści

Sprawnie działające systemy rozpoznawania mowy mają szansę znacznie ułatwić nam codzienne życie. W zastosowaniach profesjonalnych mogłyby one w przyszłości zautomatyzować w szczególności przepisywanie języka mówionego - na przykład nagrywanie protokołów lub często pracochłonne ręczne przepisywanie przemówień, wywiadów lub nagrań wideo. Stają się one również coraz bardziej powszechne w sferze prywatnej, czy to w przypadku sterowanej głosem obsługi smartfona w samochodzie, wywoływania wyszukiwań Google, czy też obsługi aplikacji inteligentnego domu, takich jak włączanie i wyłączanie światła lub zmniejszanie ogrzewania.

Dużym wyzwaniem w elektronicznym rozpoznawaniu mowy jest jednak to, że nikt nie wymawia danego terminu zawsze i w każdej sytuacji dokładnie tak samo. Czasami użytkownik jest zmęczony, czasami w pośpiechu, czasami głośny, czasami cichy, czasami skoncentrowany, czasami pijany, czasami zły, czasami przeziębiony. W związku z tym programom komputerowym bardzo trudno jest rozpoznawać słowa poprzez wyszukiwanie zgodnych sekwencji dźwięków.

Szczególnie osoby starsze lub będące w ruchu są trudne do zrozumienia przez systemy. Dlatego też Microsoft pracuje już nad nowym oprogramowaniem "CRIS", które powinno umożliwić indywidualną konfigurację często występujących odgłosów tła i słownictwa, a tym samym umożliwić korzystanie z systemu w hałaśliwych obszarach produkcyjnych lub w domach spokojnej starości.

W międzyczasie obecne systemy osiągają wskaźniki rozpoznawania na poziomie około 99 procent podczas dyktowania tekstów ciągłych na komputerach osobistych, a tym samym spełniają wymagania praktyki w wielu obszarach zastosowań, np. w przypadku tekstów naukowych, korespondencji biznesowej lub briefów prawnych. Ich zastosowanie jest jednak ograniczone, gdy autor stale potrzebuje nowych słów i form wyrazowych, które nie mogą być rozpoznane przez program. Chociaż możliwe jest ręczne dodawanie tych słów, jest to po prostu nieefektywne, jeśli występują one tylko raz w tekstach tego samego mówcy.

Benchmarki dla rozpoznawania mowy
Benchmark systemów rozpoznawania mowy dla języka angielskiego (Źródło: Economist)

 

Najważniejsi dostawcy systemów automatycznego rozpoznawania mowy

Powrót do spisu treści

Jak w przypadku wielu nowoczesnych technologii, w dziedzinie transkrypcji audio pojawiają się coraz to nowi dostawcy.

Liderem na rynku automatycznego rozpoznawania mowy i transkrypcji jest firma Nuance ze swoim oprogramowaniem Dragon NaturallySpeaking. Zastosowanie technologii Deep Learning umożliwia korzystanie z oprogramowania nawet w środowiskach, w których występuje silny szum tła. Dzięki ukierunkowanemu treningowi na konkretnym mówcy można osiągnąć dokładność do 99% w konwersji mowy na tekst, poświęcając zaledwie kilka minut na "czytanie". Nuance pracuje natomiast nad kolejną generacją elektroniki samochodowej, która w przyszłości umożliwi precyzyjne pisanie skomplikowanych tekstów za pomocą głosu, korzystanie z sieci społecznościowych i przeszukiwanie wyszukiwarek bez odwracania uwagi kierowcy od drogi.

Korzystanie z tej samej technologii, ale znacznie bardziej znany niż Nuance, jest prawdopodobnie Siri, osobisty asystent głosowy, który jest dostępny dla użytkowników Apple od wydania iPhone 4s. Oprogramowanie można uruchomić za pomocą komendy "Hey Siri", dzięki czemu nie wymaga prawie żadnej obsługi ręcznej. Jednak tylko w ograniczonym zakresie nadaje się jako oprogramowanie do rozpoznawania głosu do dyktowania całych listów lub dłuższych tekstów, ponieważ mowa nie jest nagrywana w sposób ciągły, a tekst cyfrowy jest stale wyprowadzany. Siri zapisuje kilka wypowiedzianych zdań do momentu wysłania ich do centralnego serwera tłumaczeniowego poleceniem "Done" lub przestaje nagrywać tekst do przesłania po osiągnięciu maksymalnej pamięci. Dopóki tekst cyfrowy nie zostanie ponownie przesłany, dyktowanie musi zostać wstrzymane. Taka transmisja stanowi zagrożenie dla bezpieczeństwa informacji; ponadto, jeżeli transmisja zostanie przerwana, np. w martwym punkcie sieci GSM, dyktowany tekst zostanie utracony.

Porównywalna do Siri firmy Apple, Microsoft posiada wirtualną asystentkę Cortana na swoim Windows Phone 8.1. która wykorzystuje wyszukiwarkę Bing! oraz osobiste informacje przechowywane na smartfonie, aby dostarczyć użytkownikowi spersonalizowanych rekomendacji. Planowane jest już rozszerzenie funkcji o inteligentne sterowanie urządzeniami gospodarstwa domowego, takimi jak lodówki, tostery czy termostaty, za pomocą technologii Internetu Rzeczy. Dzięki swojemu oprogramowaniu do rozpoznawania mowy, tzw. "Computational Network Toolkit", Microsoftowi udało się również w październiku 2016 roku postawić historyczny kamień milowy: Z pomocą technologii Deep Learning, oprogramowanie było w stanie osiągnąć poziom błędu wynoszący zaledwie 5,9% w testach porównawczych pomiędzy ludźmi i maszynami - taki sam poziom błędu jak w przypadku jego ludzkich odpowiedników. W ten sposób oprogramowanie po raz pierwszy osiągnęło równość między ludźmi i maszynami.

Google w marcu 2016 roku udostępniło również interfejs programistyczny dla usług chmurowych jako wersję beta. API Cloud Speech tłumaczy tekst mówiony na tekst pisany i rozpoznaje około 80 języków i wariantów językowych. API może już dostarczać tekst jako strumień podczas rozpoznawania i automatycznie odfiltrowuje szumy tła. Obecnie jest on dostępny tylko dla deweloperów.

Ostatnio Amazon ogłosił również wydanie nowej usługi"Amazon Lex" do tworzenia interfejsów konwersacyjnych z głosem i tekstem. Jest on oparty na technologii automatycznego rozpoznawania mowy i rozumienia języka naturalnego, z której korzysta również Amazon Alexa. Programiści mogą korzystać z nowej usługi do tworzenia i testowania inteligentnych asystentów głosowych - tzw. botów - w przyszłości.

Z kolei system kognitywny IBM Watson, który w 2011 r. zapoczątkował erę cognitive computing, wykorzystuje sieci neuronowe, uczenie maszynowe i narzędzia analizy tekstu, w szczególności rozpoznawanie mowy, aby uczyć się samemu. W międzyczasie nawet ironia, metafory i kalambury nie stanowią już przeszkody dla IBM Watson.


Wniosek

Powrót do spisu treści

W ostatnich latach nastąpił szybki rozwój technologii, wspierany w szczególności przez przetwarzanie w chmurze i zautomatyzowane przetwarzanie bardzo dużych ilości danych, które umożliwia stworzenie podstawy dla inteligentnych systemów. Z pomocą profesjonalnego oprogramowania do rozpoznawania mowy, automatyczne przepisywanie jest już dziś możliwe niemal bezbłędnie.

Same systemy czystego rozpoznawania mowy to jednak dopiero początek. Prawdziwa interakcja między ludźmi a maszynami - jak przepowiadają filmy science fiction - wymaga maszyn, które nie tylko odtwarzają informacje, ale potrafią zrozumieć kontekst i podejmować inteligentne decyzje.


Zamów swoją transkrypcję sztucznej inteligencji z abtipper teraz!


Dalsze pytania i odpowiedzi

✅ Jak działa rozpoznawanie mowy?

Wszystkie systemy automatycznego rozpoznawania mowy działają w zasadzie w ten sam sposób.

Najprościej rzecz ujmując, rdzeniem jest zawsze duża baza danych, w której przechowywanych jest wiele możliwych wariantów wymowy jednego lub więcej słów wraz z pasującym do nich tekstem. Kiedy nowe nagranie jest wprowadzane do systemu, porównuje on dźwięk z bazą danych i wypisuje tekst, który najprawdopodobniej pasuje do tego nagrania.

Im większa i lepiej utrzymana jest baza danych, tym lepsze będzierozpoznawanie mowy. Ponadto Jakość nagrywania odgrywa istotną rolę w osiągnięciu dobrego wskaźnika rozpoznawalności.

✅ Czy można transkrybować z rozpoznawaniem mowy?

Przepisywanie za pomocą Rozpoznawanie mowy jest możliwe.

na podstawie dyktowania od osoby o wyraźnej wymowie, bez dialektu i bez szumu tła, można osiągnąć poziom jakości ok. 90% dzięki rozpoznawaniu mowy. Jest to niewiele poniżej zwykłego ludzkiego poziomu transkrypcji wynoszącego ok. 95%. Jeśli brakuje jednego z tych warunków wstępnych, a w prawie wszystkich wywiadach lub Rozmowy w grupach Dzisiejsze systemy rozpoznawania mowy nie są jeszcze w stanie generować zrozumiałych tekstów.

Zgodnie z aktualnymi badaniami naukowymi rozpoznawanie mowy w wywiadach osiąga obecnie poziom zaledwie około 65%, co prowadzi do powstawania w dużej mierze niezrozumiałych tekstów.

✅ Który dostawca ma najlepsze rozpoznawanie mowy?

Obecnie istnieje wiele firm oferujących automatyczne rozpoznawanie mowy.

Systemy różnią się pod względem
- szybkości rozpoznawania (ile słów jest poprawnie rozpoznawanych)
- pisowni i interpunkcji
- formatu (np. z przypisaniem lub bez przypisania mówcy)
- użyteczności (użyteczność jako program, aplikacja lub tylko poprzez interfejs API)
- ceny i modelu rozliczeń

Google Speech-to-Text i Nuance (Dragon ) osiągają dobre wyniki dla języka niemieckiego. Ogólnie rzecz biorąc, najlepsze systemy osiągają obecnie wskaźnik rozpoznawania na poziomie ok. 67% w dobrych warunkach, tj. na 100 słów poprawnie rozpoznawanych jest ok. 67 słów. Podręcznik Transkrypcja System charakteryzuje się rozpoznawalnością na poziomie ok. 97%.

Rozpoczynamy Twój projekt już dziś: