Статус кво и тенденции в области автоматического распознавания речи

Автоматизированное распознавание речи

Содержание этой статьи


Передача голоса в текстЕще больше полезных советов вы найдете в нашей электронной книге Запись, набор текста, анализ - руководство по проведению интервью и транскрипции.

Книга доступна для бесплатного скачивания: Теперь все, что касается Транскрипция & Co сейчас!


Что такое распознавание речи?

Вернуться к оглавлению

Распознаватель речи

Машины, взаимодействующие с людьми, являются частью почти каждого хорошего научно-фантастического фильма. Более шестидесяти лет назад Артур К. Кларк в своем романе "2001 год - космическая одиссея", экранизированном Стэнли Кубриком, создал представление о компьютере HAL, который общался на лингвистическом языке с людьми на борту космического корабля как само собой разумеющееся.

Хотя сегодня машины уже обладают некоторыми возможностями HAL - например, играют в шахматы или управляют космическим кораблем - мы все еще далеки от разумного, осмысленного и двунаправленного общения между людьми и машинами.

Программное обеспечение для распознавания речи - это специальные компьютерные программы или приложения, которые распознают устную речь и автоматически преобразуют ее в письменный текст. конвертировать. Речь анализируется с точки зрения произносимых слов, смысла и характеристик диктора для достижения максимально точного результата. Это не следует путать с распознаванием голоса, т.е. биометрической процедурой идентификации людей по голосу.

С помощью программное обеспечение для распознавания речи речь автоматически преобразуется в текст - можно между зависящими от спикера и независимые от спикера распознавание речи можно выделить

В то же время распознавание голоса можно использовать для управления компьютером, написания электронных писем или работы в Интернете. Многочисленные колонки со встроенным голосовым управлением, такие как Alexa от Amazon или Google Home, также используют эту технологию. Кроме того, теперь он входит в стандартную комплектацию большинства смартфонов.

Различают Два типа распознавания речи:

  • Распознавание речи независимо от диктора: здесь любой голос может быть распознан и обработан, что позволяет любому человеку управлять устройством. Хотя этот тип приложений ориентирован на широкую целевую группу, доступный словарный запас ограничен.
  • Распознавание речи в зависимости от диктора: В этом варианте программа обучается индивидуальному языку соответствующего пользователя, благодаря чему можно выучить специфические сокращения и фразы. Таким образом, словарный запас намного обширнее.

С технической точки зрения существует два возможных способа обработки этого процесса. Либо это происходит непосредственно на устройстве пользователя, где результат доступен практически сразу (front-end), либо реализация происходит на отдельном сервере, не зависящем от устройства пользователя (back-end).

Большую роль в этом процессе, конечно же, играет Качество Звукозапись. Большое количество выступающих, фоновый шум или слишком большое расстояние до микрофона оказывают негативное влияние на результат. Из-за этих ограничений и других трудностей, таких как индивидуальное поведение диктора или диалект, полностью автоматизированная транскрипция без ошибок невозможна (пока), и поэтому она качественно уступает ручной транскрипции человека. В любом случае, следовательно, человек Необходимапосткоррекция необходимо для достижения определенного уровня качества. Однако в оптимальных условиях и при предварительном обучении на основе голоса пользователя результаты уже хорошие. Уже есть множество пользователей, особенно среди профессиональных групп, таких как врачи или юристы.

Для автоматического Качество записи запись особенно важна - Вызовы много выступающих, фоновый шум и отклонения от стандартное произношение. В целом исправление человека - это необходимо.

Лидером рынка в этой области является производитель Nuance Communications со своей серией программ "Dragon". Последняя версия Dragon Professional Individual 15 предлагает функцию транскрипции в дополнение к голосовому управлению ПК, также для любого количества динамиков. Поддерживаются следующие форматы:

mp3, .aif, .aiff, .wav, .mp4, .m4a и .m4v

Лидером рынка в этой области является Dragon - Dragon Professional 15 предлагает обширные функции для транскрипция

Производители обещают, что даже недиктованные знаки препинания расставляются автоматически. Однако тесты показывают, что это не работает безошибочно, особенно в интервью с большим количеством фонового шума. Кроме того, программа не может назначить динамик . С одним человеком, от которого Голос на которых программное обеспечение было предварительно обучено, результаты намного лучше. Однако всегда следует помнить, что длительные тренировки над собственным голосом требуют большой работы. Это решение не очень практично для группового разговора или интервью, поскольку каждый говорящий должен иметь лицензию на использование программы, а системе придется изучать голоса каждого отдельного собеседника.

Программа не может назначение докладчика и следует обучиться собственному голосу для обучаться своему собственному голосу

Соответственно, программное обеспечение стоит сравнительно дорого - 399 евро. Его можно использовать в Windows 7 и выше или в MacOS. Следует отметить, однако, что функция транскрипции включена только в версию "Professional". Более дешевая версия "Home" предлагает только распознавание речи и управление. Кроме того, программное обеспечение может использоваться только с устройствами для диктовки, сертифицированными Nuance. С другой стороны, приложение "Dragon Anywhere" позволяет мобильно использовать функции на смартфоне.

Тем временем другие крупные корпорации, такие как Google, также открыли для себя этот рынок и, помимо колонок с голосовым управлением, также предлагают решения для автоматического транскрибирования. С помощью Google Облачная речь API, речь также может быть преобразована в текст. Кроме того, для постоянного улучшения результатов используются нейронные сети и машинное обучение.

Альтернативу предлагает Google Cloud Речь - здесь оратор назначение спикера находится на стадии тестирования

В заключение можно сказать, что программное обеспечение пока не оправдывает себя из-за высокой цены и большого количества ошибок с несколькими динамиками или незначительным шумом. Без предварительного изучения речевых моделей собеседников невозможно добиться удовлетворительных результатов. Кроме того, впоследствии приходится прилагать большие усилия для коррекции. A Назначение спикера коррекция также должна выполняться вручную. Этого пока не может сделать искусственный интеллект. В Google, среди прочих, эта функция находится на стадии тестирования; здесь также назначение динамиков пока еще слишком неточно. Автоматическая установка временных меток также невозможна; эта функция также все еще находится на стадии тестирования (например, при f4).

Без предварительно обученных речевых шаблонов усилия по коррекции обычно очень высоки высокий - назначение оратора должны по-прежнему выполняться вручную вручную


Научное исследование: точность распознавания речи составляет 67,6% 

Вернуться к оглавлению

Компания abtipper.de в 2019 и 2020 годах провела научное исследование, чтобы оценить эффективность семи систем распознавания речи, доступных в настоящее время для немецкоязычного мира. Помимо крупных провайдеров, таких как Google и Alexa, был также рассмотрен ряд более мелких нишевых провайдеров.

Тест проверял, насколько высока скорость распознавания слов в записи обычного разговора с двумя людьми, т.е. в типичной ситуации интервью. При ручной транскрипции аудио человек достигает показателя 96-99%, в зависимости от предметной области и своего опыта. Это означает, что на 100 слов обычно приходится 1-4 ошибки в человеческой транскрипции.

Лучшая система распознавания речи достигла значения 67,6%. Это означает, что в настоящее время 2/3 слов распознаются правильно. Однако даже некоторые из крупных систем в настоящее время значительно ниже этого значения, причем система Bing демонстрирует наихудшие показатели.

Обзор качества (в процентах) машинных транскриптов, полученных в результате научного исследования:

 

Качество подготовленных стенограмм

Автоматическое распознавание речи

 

В целом, однако, машинная транскрипция еще не достигла уровня транскрипции, созданной вручную. Для первого впечатления вот пример расшифровки интервью (с двумя дикторами) с помощью искусственного интеллекта. Он был создан одной из самых популярных в настоящее время программ транскрипции - Google Cloud Speech-to-Text.

Образцовый результат распознавания спарча:
Интервью Анетт Брондер на выставке Hannover Messe
(отрывок из: https://www.youtube.com/watch?v=Es-CIO9dEwA, accessed 08.05.2019)

"Цифровизация и сетевые технологии также играют важную роль В этомгоду на Ганноверской ярмарке Industrie Telekom уже в третий разпредставлена стендом и демонстрирует очень конкретные примеры применения Девиз: "Сделать цифровизацию простой" Госпожа Брондер, что вы имеете в виду под "сделать ее простой", можем ли мы привести пример да, очень хорошее ключевое слово доставлено сделать ее простой Вы сказали Только что наГанноверской ярмарке втретий раз проводилась выставка на тему цифровизации .Я считаю, что настало время перейти от лабораторных исследований к практике, и мы можем этого ожидать .Однако я хотел быотметить , что вэтом году для нас важно сказать , что мы не технологии и решения , которые у нас есть, амы впервые предлагаем Интернет вещей как пакет услуг , мыв состоянииобеспечить подключение через нашу хорошую сеть облачных решений решений безопасности вплоть доотдельных детальных решений в аналитике"

Здесь еще раз видно, что "ИИ" - этоне технология и не решение, что "ИИ" не атрибутируется спикером. Пунктуация здесь также не учитывается.

В целом, можно сказать, что автоматизированное распознавание речи в настоящее время подходит для двух областей применения:

  • Для диктовки (например, от адвокатов или врачей): для таких записей, где обычно присутствует только один диктор, который всегда один и тот же, и отличное качество звука, а также ограниченный словарный запас, инструмент можно очень хорошо обучить соответствующему голосу и словарному запасу и, таким образом, добиться хороших результатов.
  • Если требования к качеству транскрипции невысоки, то такое использование также может иметь смысл. Это относится, например, к оцифровке радиоархивов, где целью является удобство поиска, и поэтому идеальные стенограммы не нужны. При часто чрезвычайно большом объеме материала ручная транскрипция в таких приложениях исключается с самого начала из соображений экономии.

Для всех остальных целей, например, для интервью, автоматическое распознавание речи, к сожалению, пока не подходит на современном техническом уровне. Однако в ближайшие годы и десятилетия здесь, вероятно, можно ожидать дальнейшего развития.


Закажите транскрипцию прямо сейчас на abtipper.de! 

 

Результат показывает, что, особенно в ситуациях с несколькими дикторами, системы автоматического распознавания речи все еще оставляют желать лучшего. Для транскрипции они предназначены только для очень специфических случаев использования (например, оцифровка архивов, которая в противном случае не имела бы финансовой целесообразности). Однако для записей с одним диктором (например, типичный диктант) ситуация иная. В настоящее время системы уже достигают значений около 85% и, таким образом, уже могут быть разумно использованы для некоторых практических применений.

Уже есть несколько сопоставимых опросов по распознаванию ранее известных команд (например, Alexa Skills). Однако они отражают неестественную речевую ситуацию с заранее известными темами и командами. Качество свободного распознавания речи без искусственно ограниченного словарного запаса было впервые научно исследовано компанией abtipper.de для немецкого языкового пространства.


Области применения автоматизированного распознавания речи

Вернуться к оглавлению

Уже сегодня существует множество практических областей использования аудио транскрипции. Помимо экспоненциального роста использования распознавания голоса на смартфонах, например, для быстрого составления коротких сообщений и электронных писем или для управления системами голосовой помощи, такими как Siri от Apple, Alexa от Amazon или Bing от Microsoft, технологии голосовой транскрипции сегодня также незаменимы в колл-центрах и больницах.

На самом деле, с 2018 года нам, компании abtipper.de, удалось стать первым провайдером в Германии, предлагающим транскрипцию с помощью искусственного интеллекта:

При транскрипции с использованием искусственного интеллекта транскрипция осуществляется с помощью автоматизированного распознавания речи.

Благодаря нашей системе распознавания речи, специально разработанной для транскрипции, записи с небольшим количеством четко говорящих дикторов и безупречным качеством звука дают особенно хорошие результаты.

Даже если качество транскрипции, осуществляемой искусственным интеллектом, еще не достигло качества ручной транскрипции, существует множество областей применения, для которых он особенно подходит. Это особенно актуально при оцифровке больших объемов данных, где ручная транскрипция не будет стоить дорого.

Щелкните здесь для примера стенограммы, созданной искусственным интеллектом. Транскрипт.

Процедура транскрибирования с помощью искусственного интеллекта: Приемлемые результаты могут быть достигнуты при данном виде транскрибирования только при соблюдении вышеуказанных критериев. Поэтому мы сначала проверяем все соответствующие материалы, представленные нашими экспертами. Если, например, невозможно сделать хорошую стенограмму из-за диалекта, фонового шума или слишком большого количества говорящих, вам сообщат об этом, включая подробные причины, в течение от 6 до максимум 24 часов. После этого вы можете выбрать другой тип транскрипции.

При таком типе транскрипции мы предлагаем бесплатно и без обязательств создать две минуты вашего файла в качестве тестовой транскрипции, чтобы вы могли проверить результат этого нового типа транскрипции. После этого вы можете решить для конкретного случая, соответствует ли качество вашим требованиям или ручная транскрипция будет более уместной. Для этого, пожалуйста, оформите заказ и укажите в поле для комментариев, что вы хотите получить бесплатную пробную транскрипцию.

Закажите транскрипцию искусственного интеллекта в abtipper прямо сейчас!


История автоматического распознавания речи - обзор

Вернуться к оглавлению

Джон Пирс, пионер в области распознавания речи
Джон Пирс, пионер в области распознавания речи

Исследования систем распознавания речи начались в начале 1960-х годов, но не принесли многообещающих результатов. Первые системы, разработанные IBM, позволяли распознавать отдельные слова в лабораторных условиях, но из-за недостатка технических знаний в новой для того времени области исследований они не обеспечили существенного прогресса - это также следует из отчета, представленного в 1969 году американским инженером Джоном Пирсом, экспертом в области высокочастотных технологий, телекоммуникаций и акустики в качестве главы Bell Group.

 

IBM Shoebox для распознавания речи
IBM Shoebox 1960-х годов мог распознавать 16 слов. (Источник: IBM)

Только в середине 1980-х годов исследования получили новый импульс с открытием дифференцируемости омофонов с помощью контекстуальных тестов. Собрав статистику частоты употребления определенных словосочетаний и систематически оценивая их, можно было автоматически вывести, какое из них имеется в виду в случае схожих по звучанию слов.

Важной вехой стало представление компанией IBM в 1984 году новой системы распознавания речи, которая была способна понимать 5 000 отдельных английских слов и преобразовывать их в текст с помощью так называемой "статистики триграмм". Однако в то время процесс распознавания требовал нескольких минут обработки на промышленном мейнфреймовом компьютере и поэтому был практически непригоден для использования. Напротив, система, разработанная чуть позже компанией Dragon Systems, была гораздо более продвинутой и могла использоваться на портативном ПК.

 

IBM как пионер в области преобразования речи в текст
Отрывок из рекламного фильма для системы распознавания речи IBM 1984 года (Источник: IBM)

В последующие годы IBM интенсивно работала над совершенствованием своего программного обеспечения для распознавания речи. Так, в 1993 году была представлена первая система распознавания речи, разработанная для массового рынка и доступная на коммерческой основе, - IBM Personal Dictation System.

В 1997 году появилась как преемственная версия IBM ViaVoice, так и версия 1.0 программного обеспечения Dragon NaturallySpeaking. Хотя дальнейшее развитие IBM ViaVoice было прекращено через несколько лет, Dragon NaturallySpeaking стал наиболее широко используемым программным обеспечением для распознавания речи для ПК с Windows. С 2005 года программное обеспечение производится и распространяется компанией Nuance Communications.

В 2008 году, после приобретения компании Philips Speech Recognition Systems, Nuance также получила права на комплект для разработки программного обеспечения SpeechMagic, использование которого особенно широко распространено в секторе здравоохранения.

В 2007 году была основана компания Siri Inc., которую в апреле 2010 года купила Apple. С появлением iPhone 4s в 2011 году автоматический голосовой помощник Siri был впервые представлен публике и с тех пор постоянно совершенствуется. Презентация Siri:

 


   

Функциональность систем преобразования речи в текст

Вернуться к оглавлению

Современные системы распознавания речи стали неотъемлемой частью нашей повседневной жизни. Но как они на самом деле работают?

Основной принцип транскрипции очень прост: когда мы говорим, мы выдыхаем воздух через легкие. В зависимости от состава произносимых слогов, мы задаем воздуху определенные вибрации, которые распознаются программой распознавания речи и преобразуются в звуковой файл. Затем его делят на мелкие части и специально ищут известные звуки. Однако, поскольку не все звуки распознаются, необходим промежуточный этап.

Используя так называемый "Скрытый метод Маркова", программа распознавания речи вычисляет, какой звук, скорее всего, последует за другим, а какой, в свою очередь, может после него. Таким образом, создается список возможных слов, с которыми при повторном прогоне происходит то же, что и с буквами: компьютер анализирует вероятность того, что определенное слово следует за другим - после "я иду в..." идет "домой", а не "душ" или "перерыв". Но компьютер может знать это только в том случае, если он знает много разговорных предложений и то, как часто и в каком контексте встречаются слова.

Скрытая марковская модель для распознавания речи
Иллюстрация того, как работает скрытая модель Маркова

Такая вычислительная задача многократно превышает вычислительные возможности карманного мобильного телефона. Решить ее можно только с помощью облачных вычислений, то есть передачи сложных вычислительных операций на аутсорсинг стационарным большим компьютерам. Сам мобильный телефон просто записывает голосовую команду, преобразует ее в звуковой файл, отправляет его через Интернет в компьютерный центр и там анализирует. Затем результат отправляется обратно на смартфон через интернет.

Огромные базы данных речевых и текстовых файлов, уже произнесенных и правильно расшифрованных людьми, хранящиеся в облачных вычислениях, являются настоящим секретом успеха новых распознавателей речи. Поэтому хорошее программное обеспечение для распознавания речи нельзя просто запрограммировать, как новую компьютерную игру или драйвер для принтера. "Искусство заключается в том, чтобы получить хорошие данные и оптимально интегрировать их в процесс обучения", - говорит Йоахим Штегманн, руководитель отдела телекоммуникаций будущего в Лаборатории инноваций Telekom.

Для действительно хорошего и точного программного обеспечения для распознавания речи необходимо также большое количество записей повседневной речи, чтобы можно было записать диалекты, речевые ошибки, бормотание и фальцет. Выступающие также должны различаться демографически - среди них должно быть равное количество детей, мужчин, женщин, пожилых и молодых людей, а также людей разного регионального происхождения. На практике, например, используются стенограммы выступлений в Бундестаге, рукописи, прочитанные вслух, или записи радиопередач.


Возможности и проблемы в развитии автоматического распознавания речи

Вернуться к оглавлению

Хорошо функционирующие системы распознавания речи обещают сделать нашу повседневную жизнь намного проще. В профессиональных областях применения в будущем они могут автоматизировать, в частности, транскрипцию устной речи - например, запись протоколов или зачастую трудоемкую ручную транскрипцию выступлений, интервью или видео. Они также получают все большее распространение в частной сфере, будь то голосовое управление смартфоном в автомобиле, вызов поисковых запросов Google или управление приложениями "умного дома", такими как включение и выключение света или убавление отопления.

Однако большая проблема в электронном распознавании речи заключается в том, что никто не произносит термины одинаково в любой ситуации. Иногда пользователь устал, иногда суетится, иногда громко говорит, иногда тихо, иногда сосредоточен, иногда пьян, иногда зол, иногда простужен. Поэтому программному обеспечению очень трудно распознавать слова путем поиска совпадающих звуковых последовательностей.

Особенно пожилые люди или люди, находящиеся в движении, сложны для понимания системами. Фоновые шумы еще больше затрудняют распознавание - поэтому Microsoft уже работает над новым программным обеспечением "CRIS", которое должно позволить индивидуально настраивать часто встречающиеся фоновые шумы и словарный запас, что также позволит использовать его в шумных производственных помещениях или в домах престарелых.

Между тем, существующие системы достигают уровня распознавания около 99 процентов при диктовке непрерывных текстов на персональных компьютерах и, таким образом, отвечают требованиям практики во многих областях применения, например, для научных текстов, деловой переписки или юридических записок. Однако их использование ограничено, когда автору постоянно требуются новые слова и словоформы, которые не могут быть распознаны программой с первого раза. Хотя можно добавить эти слова вручную, это просто неэффективно, если они встречаются только один раз в текстах одного и того же диктора.

Контрольные показатели для распознавания речи
Эталон систем распознавания речи для английского языка (Источник: Economist)

 

Наиболее важные поставщики систем автоматического распознавания речи

Вернуться к оглавлению

Как и во многих других современных технологиях, в области транскрибирования аудиофайлов появляются новые поставщики услуг.

Лидером на рынке автоматического распознавания речи и транскрипции является компания Nuance со своим программным обеспечением Dragon NaturallySpeaking. Использование технологии Deep Learning позволяет использовать программное обеспечение даже в условиях сильного фонового шума. Благодаря целенаправленному обучению конкретного диктора, точность преобразования речи в текст может достигать 99% при затрате всего нескольких минут "времени на чтение". Nuance, тем временем, работает над следующим поколением автомобильной электроники, которая в будущем позволит точно писать сложные тексты с помощью голосового ввода, использовать социальные сети и запрашивать поисковые системы, не отвлекая внимание водителя от дороги.

Используя ту же технологию, но гораздо более известную, чем Nuance, возможно, Siri, персональный голосовой помощник, который доступен пользователям Apple с момента выпуска iPhone 4s. Программа может быть запущена командой "Hey Siri" и поэтому практически не требует ручного управления. Однако он лишь в ограниченной степени подходит в качестве программы распознавания голоса для диктовки целых писем или длинных текстов, поскольку речь не записывается непрерывно, а цифровой текст выводится непрерывно. Siri сохраняет несколько произнесенных предложений, пока они не будут отправлены на центральный сервер перевода командой "Готово", или прекращает запись текста для передачи при достижении максимального объема памяти. Пока цифровой текст не будет повторно передан, диктовка должна быть приостановлена. Такая передача создает риски для информационной безопасности; кроме того, если передача прерывается, например, в мертвой зоне GSM, надиктованный текст теряется.

Сопоставимый с Siri от Apple, Microsoft использует виртуального помощника Cortana на своем Windows Phone 8.1. который использует поиск Bing!, а также личную информацию, хранящуюся на смартфоне, для предоставления пользователю персонализированных рекомендаций. Уже планируется расширение функций до интеллектуального управления бытовыми приборами, такими как холодильники, тостеры или термостаты, с помощью технологии Интернета вещей. С помощью своего программного обеспечения для распознавания речи, так называемого "инструментария вычислительной сети", Microsoft также смогла установить историческую веху в октябре 2016 года: С помощью технологии Deep Learning программное обеспечение смогло достичь уровня ошибок всего в 5,9% в сравнительных тестах между людьми и машинами - такой же уровень ошибок, как и у его человеческих коллег. Таким образом, программное обеспечение впервые достигло равенства между людьми и машинами.

Google также открыл интерфейс программирования для облачных сервисов в виде бета-версии в марте 2016 года. Cloud Speech API переводит устный текст в письменный и распознает около 80 языков и языковых вариантов. API может передавать текст в виде потока уже во время распознавания и автоматически отфильтровывает фоновый шум. В настоящее время он доступен только для разработчиков.

Совсем недавно компания Amazon также объявила о выпуске нового сервиса"Amazon Lex" для разработки разговорных интерфейсов с использованием голоса и текста. Он основан на технологии автоматического распознавания речи и понимания естественного языка, которую также использует Amazon Alexa. Разработчики могут использовать новый сервис для создания и тестирования интеллектуальных голосовых помощников - так называемых ботов - в будущем.

А когнитивная система IBM Watson, которая ознаменовала рассвет эры когнитивных вычислений в 2011 году, использует нейронные сети, средства машинного обучения и анализа текста, в частности распознавания речи, для самообучения. Между тем, даже ирония, метафоры и каламбуры больше не являются препятствием для IBM Watson.


Заключение

Вернуться к оглавлению

В последние годы технологии стремительно развиваются, чему способствуют, в частности, облачные вычисления и автоматизированная обработка чрезвычайно больших объемов данных, которые становятся возможными в качестве основы для интеллектуальных систем. С помощью профессионального программного обеспечения для распознавания речи уже сегодня возможна автоматическая транскрипция практически без ошибок.

Однако сами по себе системы чистого распознавания речи - это только начало. Настоящее взаимодействие между людьми и машинами - как пророчат в научно-фантастических фильмах - требует машин, которые не только воспроизводят информацию, но и могут понимать контекст и принимать разумные решения.


Закажите транскрипцию искусственного интеллекта в abtipper прямо сейчас!


Дополнительные вопросы и ответы

✅ Как работает распознавание речи?

Все системы автоматического распознавания речи в основном работают одинаково.

Проще говоря, ядро всегда представляет собой большую базу данных, в которой хранится множество возможных вариантов произношения одного или нескольких слов с соответствующим текстом. Когда в систему поступает новая запись, она сравнивает звук с базой данных и выдает текст, который с наибольшей вероятностью соответствует этой записи.

Чем больше и лучше поддерживается эта база данных, тем лучше будет распознавание речи. Кроме того Качество записи играет важную роль в достижении хорошего уровня распознавания.

✅ Можете ли вы транскрибировать с помощью распознавания речи?

Транскрипция с Распознавание речи возможно.

нога диктовки человека с четким произношением, без диалекта и фонового шума, уровень качества около 90% может быть достигнут с помощью распознавания речи. Это лишь немногим ниже обычного уровня транскрипции человека, составляющего около 95%. Если одна из этих предпосылок отсутствует, а почти во всех интервью или Групповые беседы современные системы распознавания речи пока не способны генерировать понятные тексты.

Согласно современным научным исследованиям, распознавание речи в интервью в настоящее время достигает уровня всего около 65%, в результате чего получаются в основном непонятные тексты.

✅ У какого провайдера лучшее распознавание речи?

В настоящее время существует очень много поставщиков услуг для автоматическое распознавание речи.

Системы различаютсяпо
- скорости распознавания (количество правильно распознанных слов)
- орфографии и пунктуации
- формату (например, с назначением диктора или без)
- удобству использования (возможность использования как программы, приложения или только через интерфейс API)
- цене и модели тарификации

Google Speech-to-Text и Nuance (Dragon ) достигают хороших результатов для немецкого языка. В целом, лучшие системы в настоящее время достигают уровня распознавания около 67% в хороших условиях, т.е. на 100 слов правильно распознается около 67 слов. Руководство Транскрипция Система имеет уровень распознавания около 97%.

Мы начинаем ваш проект уже сегодня: