Status Quo & Tendências no Reconhecimento Automático da Fala

Reconhecimento automatizado da fala

Conteúdo deste artigo


Voz ao TextoPode também encontrar muitas mais dicas úteis no nosso livro electrónico Gravação, dactilografia, análise - Guia para a realização de entrevistas e transcrições.

O livro está disponível como download gratuito: Descobrir tudo sobre Transcrição & Co agora!


O que é o reconhecimento da fala?

Voltar ao índice

Reconhecedor de voz

As máquinas que interagem com as pessoas fazem parte de quase todos os bons filmes de ficção científica. Há mais de sessenta anos, Arthur C. Clarke, no seu romance "2001 - Uma Odisseia no Espaço", filmado por Stanley Kubrick, criou a visão do computador HAL, que comunicava linguisticamente com as pessoas a bordo da nave espacial, como é óbvio.

Embora hoje em dia as máquinas já tenham algumas das capacidades do HAL - como jogar xadrez ou navegar numa nave espacial - ainda estamos muito longe de uma comunicação inteligente, significativa e bidireccional entre humanos e máquinas.

O software de reconhecimento da fala refere-se a programas ou aplicações informáticas especiais que reconhecem a língua falada e a convertem automaticamente em texto escrito. converter. O discurso é analisado em termos de palavras faladas, significado e características do orador a fim de se obter o resultado mais exacto possível. Isto não deve ser confundido com o reconhecimento de voz, que é um método biométrico de identificação de pessoas pela sua voz.

Com a ajuda de software de reconhecimento de voz discurso é automaticamente convertido em texto - é possível entre orador-dependente e independente do orador reconhecimento da fala pode ser distinguido

Entretanto, o reconhecimento de voz pode ser utilizado para controlar o PC, escrever e-mails ou navegar na Internet. Numerosos altifalantes com controlo de voz integrado, como o Alexa da Amazon ou o Google Home, também utilizam esta tecnologia. Além disso, está agora incluído como padrão na maioria dos smartphones.

É feita uma distinção entre dois tipos de reconhecimento da fala:

  • Reconhecimento de voz independente do orador: Aqui, qualquer voz pode ser reconhecida e processada, tornando possível que qualquer pessoa possa operar o dispositivo. Embora este tipo de aplicação se destine a um vasto grupo-alvo, o vocabulário disponível é limitado.
  • Reconhecimento da fala dependente do orador: Com esta variante, o programa é treinado para a língua individual do respectivo utilizador, onde podem ser aprendidas abreviaturas e frases específicas. O vocabulário é, portanto, muito mais extenso.

De um ponto de vista técnico, há duas formas possíveis de lidar com este processo. Ou tem lugar directamente no dispositivo do utilizador, em que o resultado está disponível quase imediatamente (front-end), ou a implementação tem lugar num servidor separado, independente do dispositivo do utilizador (back-end).

Um papel importante neste processo é, evidentemente, desempenhado pelo Qualidade do Gravação de som. Muitos altifalantes, ruído de fundo ou uma distância demasiado grande do microfone têm uma influência negativa sobre o resultado. Devido a estas limitações e outras dificuldades, tais como o comportamento individual do orador ou dialecto, uma transcrição completamente automatizada não é (ainda) possível sem erros, sendo por isso qualitativamente inferior à transcrição manual humana. Em qualquer caso, portanto, um humano Pós-correcção necessária é necessário para se conseguir um certo nível de qualidade. No entanto, em condições óptimas e com formação prévia baseada na voz do utilizador, os resultados já são bons. Já existem numerosos utilizadores, especialmente entre grupos profissionais como médicos ou advogados.

Para automático A qualidade da gravação é da gravação é particularmente importante - Os desafios são muitos altifalantes, ruído de fundo e desvios em relação ao pronúncia padrão. Geralmente a correcção humana é necessário.

O líder de mercado neste campo é o fabricante Nuance Communications com a sua série de programas "Dragon". A última versão Dragão Profissional Indivíduo 15 oferece uma função de transcrição para além do controlo de voz do PC, também para qualquer número de altifalantes. São suportados os seguintes formatos:

mp3, .aif, .aiff, .wav, .mp4, .m4a e .m4v

O líder de mercado neste domínio é Dragon - Dragon Professional 15 oferece funções extensivas para transcrição

Os fabricantes prometem que mesmo os sinais de pontuação não-dicotados são definidos automaticamente. No entanto, os testes mostram que isto não funciona de todo sem erros, especialmente em entrevistas com muito ruído de fundo. Além disso, o programa não pode atribuir oradores . Com uma única pessoa, em cuja Voz o software foi treinado de antemão, os resultados são muito melhores. No entanto, é preciso ter sempre em mente que uma formação extensa sobre a própria voz requer muito trabalho. Esta solução não é muito prática para uma conversa ou entrevista em grupo, pois cada orador teria de ter uma licença para utilizar o programa e o sistema teria de aprender as vozes de cada entrevistado individual.

O programa não pode atribuição de oradores e deve ser treinado à sua própria voz para ser treinado para a sua própria voz

Por conseguinte, o software é comparativamente caro a 399 euros. Pode ser usado com Windows 7 ou superior ou com MacOS. Deve notar-se, contudo, que a função de transcrição está apenas incluída na versão "Profissional". A versão mais barata "Home" apenas oferece reconhecimento e controlo da fala. Além disso, o software só pode ser utilizado com dispositivos de ditado certificados pela Nuance. Por outro lado, a aplicação "Dragon Anywhere" permite a utilização móvel das funções de um smartphone.

Entretanto, outras grandes empresas como a Google também descobriram este mercado por si próprias e, para além de altifalantes controlados por voz, também oferecem soluções para transcrições automatizadas. Com a ajuda de Google Discurso em nuvem API, a fala também pode ser convertida em texto. Além disso, as redes neuronais e a aprendizagem de máquinas são utilizadas para melhorar constantemente os resultados.

Uma alternativa é oferecida pelo Google Cloud Discurso - aqui o orador a atribuição do altifalante está em fase de teste

Em conclusão, o software ainda não vale a pena devido ao preço elevado e aos muitos erros com vários altifalantes ou ao ruído ligeiro. Sem a aprendizagem prévia dos padrões de fala das pessoas, não é possível obter resultados satisfatórios. Além disso, há o esforço de correcção elevado subsequente. A Atribuição de oradores a correcção também deve ser efectuada manualmente. Isto ainda não pode ser feito pela IA. No Google, entre outros, esta função está em fase de teste; também aqui, a atribuição do altifalante é ainda demasiado imprecisa. A definição automática de carimbos de tempo também não é possível; esta função também ainda está em fase de teste (por exemplo, em f4).

Sem padrões de discurso pré-treinados o esforço de correcção é normalmente muito elevado alto - uma atribuição de orador ainda deve ser feito manualmente manualmente


Estudo científico: O reconhecimento da fala é 67,6% exacto 

Voltar ao índice

abtipper.de empreendeu um estudo científico em 2019 e 2020 para avaliar o desempenho dos sete sistemas de reconhecimento de fala actualmente disponíveis para o mundo germanófono. Para além dos grandes fornecedores como o Google e o Alexa, foram também examinados vários fornecedores de nicho mais pequenos.

O teste examinou quão elevada é a taxa de reconhecimento da palavra numa gravação de conversa normal com duas pessoas, ou seja, uma situação típica de entrevista. Um humano atinge uma taxa de 96-99% numa transcrição áudio manual, dependendo da área temática e da sua experiência. Isto significa que para 100 palavras, há normalmente 1-4 erros na transcrição humana.

O melhor sistema de reconhecimento da fala atingiu um valor de 67,6%. Isto significa que actualmente 2/3 das palavras são reconhecidas correctamente. No entanto, mesmo alguns dos sistemas maiores estão actualmente muito abaixo deste valor, com o sistema de Bing a ter o pior desempenho.

Visão geral da qualidade (em percentagem) das transcrições geradas por máquinas, como resultados de um estudo científico:

 

Qualidade das transcrições produzidas

Reconhecimento automático da fala

 

No entanto, no conjunto, a transcrição da máquina ainda não atinge o nível de uma transcrição criada manualmente. Para uma primeira impressão, aqui está um exemplo da transcrição de uma entrevista (com dois oradores) com inteligência artificial. Este foi criado por um dos programas de transcrição mais populares actualmente, Google Cloud Speech-to-Text.

Resultado exemplar de um reconhecimento de uma faísca:
Entrevista a Anette Bronder na Hannover Messe
(excerto de: https://www.youtube.com/watch?v=Es-CIO9dEwA, acedido em 08.05.2019)

"A digitalização e o trabalho em rede estão também a desempenhar um papel importante esteano na Hannover Messe Industrie Telekom está representada pela terceira vez com umstand e está a mostrar exemplos muito concretos de aplicações o lema é "Tornar a digitalização simples" Sra. Bronder o que quer realmente dizer com "torná-la simples" podemos dar-nos um exemplo sim muito boa palavra-chave entregue torná-la simples disse há pouco quea feira comercial está a ser realizada pela terceira vez sobre o tema da digitalização aqui na Hannover Messe.Creio que chegou o momento de passar do laboratório à prática, e que podemos esperar isto .Gostaria de salientar, contudo , que éimportante para nós este ano dizer que não somos tecnologia e soluções que temos, mas queestamos a oferecer aInternet das Coisas como um pacote de serviços pela primeira vez que estamos em condições defornecer conectividade através das nossas boas soluções de segurança de soluções de nuvem de rede atésoluções individuais detalhadas em análise"

Aqui pode ser visto mais uma vez que "IA"não éuma tecnologia ou uma solução, que nenhuma atribuição de orador é feita por "AI". A pontuação também não é aqui tida em conta.

Globalmente, pode dizer-se que o reconhecimento automático da fala é actualmente adequado para dois campos de aplicação:

  • Para ditados (por exemplo, de advogados ou médicos): Para estas gravações com normalmente apenas um orador que é sempre o mesmo e uma excelente qualidade áudio, para além de um vocabulário limitado, uma ferramenta pode ser muito bem treinada para a voz e o vocabulário correspondentes e assim proporcionar bons resultados.
  • Se os requisitos de qualidade de transcrição forem baixos, a utilização também pode fazer sentido. É o caso, por exemplo, da digitalização de arquivos de rádio onde a pesquisabilidade é o objectivo e, portanto, não são necessárias transcrições perfeitas. Com uma quantidade frequentemente extremamente grande de material, a transcrição manual é excluída desde o início em tais aplicações por razões de economia.

Para todos os outros fins, por exemplo, entrevistas, o reconhecimento automático da fala infelizmente ainda não é adequado ao nível técnico actual. No entanto, é possível que nos próximos anos e décadas se possam esperar novos desenvolvimentos neste domínio.


Encomende já a sua transcrição em abtipper.de! 

 

O resultado mostra que especialmente em situações com vários altifalantes, os sistemas automatizados de reconhecimento de fala ainda deixam muito a desejar. Para transcrição, são apenas para casos de utilização muito específicos (por exemplo, digitalização de arquivos que de outra forma não seriam financeiramente rentáveis). A situação é diferente, no entanto, para gravações com apenas um orador (por exemplo, ditado típico). Aqui, os sistemas já atingem actualmente valores na ordem dos 85% e podem, portanto, ser já utilizados de forma sensata para algumas aplicações práticas.

Já existem alguns inquéritos comparáveis para o reconhecimento de comandos previamente conhecidos (por exemplo, Alexa Skills). Contudo, estes reflectem uma situação de discurso não natural com tópicos e comandos previamente conhecidos. A qualidade do reconhecimento da liberdade de expressão sem um vocabulário artificialmente limitado foi agora cientificamente investigada pela abtipper.de pela primeira vez para a área da língua alemã.


Campos de aplicação do reconhecimento automático da fala

Voltar ao índice

Já hoje em dia, existem numerosas áreas práticas de utilização para transcrições áudio. Para além do aumento exponencial na utilização do reconhecimento de voz em smartphones, por exemplo, para compor rapidamente mensagens curtas e e-mails ou para controlar sistemas de assistência de voz como o Siri da Apple, o Alexa da Amazon ou o Bing da Microsoft, as tecnologias de transcrição de voz são agora também indispensáveis em centros de chamadas e hospitais.

De facto, desde 2018, nós da abtipper.de temos conseguido ser o primeiro fornecedor na Alemanha a oferecer transcrições através de inteligência artificial:

Na transcrição da inteligência artificial, a transcrição é feita através do uso do reconhecimento automático da fala.

Graças ao nosso sistema de reconhecimento da fala especialmente desenvolvido para transcrições, as gravações com poucos altifalantes, claramente falando e com uma qualidade de som impecável, alcançam resultados particularmente bons.

Mesmo que a qualidade da transcrição por inteligência artificial não atinja ainda a da transcrição manual, há muitos campos de aplicação para os quais é particularmente adequada. Isto é especialmente verdade para a digitalização de grandes quantidades de dados em que a transcrição manual não valeria o preço.

Clique aqui para um exemplo de uma inteligência artificial criada Transcrição.

Procedimento de transcrição com inteligência artificial: Resultados aceitáveis só podem ser alcançados com este tipo de transcrição se os critérios acima forem cumpridos. Por conseguinte, verificamos primeiro todas as apresentações correspondentes dos nossos peritos. Se, por exemplo, uma boa transcrição não puder ser produzida devido a dialecto, ruído de fundo ou demasiados altifalantes, será informado disso, incluindo razões detalhadas, dentro de 6 a um máximo de 24 horas. É então livre de escolher outro tipo de transcrição.

Com este tipo de transcrição, oferecemos-lhe a criação de dois minutos do seu ficheiro como transcrição de teste, gratuitamente e sem compromisso, para que possa verificar o resultado deste novo tipo de transcrição. Poderá então decidir para o caso específico se a qualidade satisfaz as suas exigências ou se uma transcrição manual seria mais apropriada. Para o fazer, por favor faça uma encomenda e anote no campo de comentários que deseja a transcrição do teste gratuito.

Encomende já a sua transcrição de inteligência artificial da abtipper!


A história do reconhecimento automático da fala - uma revisão

Voltar ao índice

John Pierce, pioneiro do reconhecimento da fala
John Pierce, pioneiro do reconhecimento da fala

A investigação sobre sistemas de reconhecimento da fala começou no início da década de 1960, mas não produziu resultados promissores. Os primeiros sistemas desenvolvidos pela IBM permitiram reconhecer palavras individuais em condições laboratoriais, mas devido à falta de conhecimentos técnicos no novo campo de investigação da altura, não produziram qualquer progresso significativo - isto também surgiu de um relatório apresentado em 1969 pelo engenheiro norte-americano John Pierce, um especialista no campo da tecnologia de alta frequência, telecomunicações e acústica como chefe do Grupo Bell.

 

IBM Shoebox para reconhecimento da fala
A caixa de sapatos IBM dos anos 60 podia reconhecer 16 palavras. (Fonte: IBM)

Só em meados da década de 1980 é que a investigação ganhou novo ímpeto com a descoberta da diferenciação dos homofones por meio de testes contextuais. Ao compilar estatísticas sobre a frequência de certas combinações de palavras e ao avaliá-las sistematicamente, foi possível deduzir automaticamente qual era o significado no caso de palavras de som semelhante.

Um marco importante foi a apresentação de um novo sistema de reconhecimento de fala pela IBM em 1984, que foi capaz de compreender 5.000 palavras individuais em inglês e convertê-las em texto com a ajuda das chamadas "estatísticas trigrama". Contudo, na altura, o processo de reconhecimento requeria vários minutos de tempo de processamento num computador mainframe industrial, pelo que era praticamente inutilizável. Pelo contrário, um sistema desenvolvido apenas um pouco mais tarde pela Dragon Systems era muito mais avançado e podia ser utilizado num PC portátil.

 

IBM como pioneira da fala para o texto
Excerto de filme publicitário para reconhecimento da fala IBM 1984 (Fonte: IBM)

Nos anos seguintes, a IBM trabalhou intensamente na melhoria do seu software de reconhecimento da fala. Assim, em 1993, foi introduzido o primeiro sistema de reconhecimento da fala desenvolvido para o mercado de massas e comercialmente disponível, o IBM Personal Dictation System.

Em 1997, tanto a versão sucessora do IBM ViaVoice como a versão 1.0 do software Dragon NaturallySpeaking apareceram. Enquanto o desenvolvimento do IBM ViaVoice foi descontinuado após alguns anos, Dragon NaturallySpeaking tornou-se o software de reconhecimento da fala mais utilizado para PCs Windows. Desde 2005, o software tem sido produzido e distribuído pela Nuance Communications.

Em 2008, com a aquisição da Philips Speech Recognition Systems, Nuance obteve também os direitos ao kit de desenvolvimento de software SpeechMagic, cuja utilização é particularmente difundida no sector da saúde.

Em 2007, a empresa Siri Inc. foi fundada e comprada pela Apple em Abril de 2010. Com a introdução do iPhone 4s em 2011, a assistente de voz automática Siri foi apresentada ao público pela primeira vez e tem sido continuamente desenvolvida desde então. Apresentação de Siri:

 


   

A funcionalidade por detrás dos sistemas Speech-to-Text

Voltar ao índice

Os sistemas modernos de reconhecimento da fala tornaram-se uma parte indispensável da nossa vida quotidiana. Mas como é que elas funcionam realmente?

O princípio básico da transcrição é muito simples: quando falamos, respiramos ar através dos nossos pulmões. Dependendo da composição das sílabas faladas, colocamos o ar em certos padrões de vibração, que são reconhecidos pelo software de reconhecimento de voz e convertidos num ficheiro de som. Isto é então dividido em pequenas partes e procurado especificamente por sons conhecidos. No entanto, como nem todos os sons são reconhecidos, é necessário um passo intermédio.

Usando o chamado "Método Markov Escondido", o software de reconhecimento de voz calcula qual o som que provavelmente se seguirá a outro e que, por sua vez, poderá vir depois dele. Desta forma, é criada uma lista de palavras possíveis com as quais, numa segunda execução, acontece o que aconteceu antes com as letras: o computador analisa a probabilidade com que uma determinada palavra segue outra - depois de "Vou para..." vem "casa" em vez de "chuveiro" ou "pausa". Mas o computador só pode saber isto se souber muitas frases faladas e com que frequência e em que contexto as palavras ocorrem.

Modelo Markov oculto para reconhecimento da fala
Ilustração de como funciona o Modelo Markov Escondido

Uma tal tarefa informática excede muitas vezes as capacidades de processamento de um telemóvel de bolso. Só pode ser resolvido utilizando a computação em nuvem, ou seja, externalizando operações informáticas difíceis para grandes computadores estacionários. O próprio telemóvel grava simplesmente o comando de voz, converte-o num ficheiro de som, envia-o através da Internet para o centro informático e manda-o analisar lá. O resultado é então enviado de volta para o smartphone através da Internet.

As enormes bases de dados de ficheiros de fala e texto já falados e correctamente transcritos pelo ser humano, mantidos via cloud computing, são o verdadeiro segredo por detrás do sucesso dos novos reconhecedores de fala. Portanto, um bom software de reconhecimento da fala não pode ser simplesmente programado como um novo jogo de computador ou um driver de impressora. "A arte é obter bons dados e integrá-los de forma óptima no processo de aprendizagem" - diz Joachim Stegmann, chefe do departamento de Telecomunicações do Futuro nos Laboratórios de Inovação da Telekom.

Para um software de reconhecimento da fala realmente bom e preciso, é também necessário um número particularmente grande de gravações da fala quotidiana, de modo que dialectos, erros de fala, vozes murmuradas e falsas podem também ser gravadas. Os oradores devem também diferir demograficamente - deve haver um número igual de crianças, homens, mulheres, idosos e jovens, assim como pessoas de diferentes origens regionais entre eles. Na prática, por exemplo, transcrições de discursos no Bundestag, são utilizados manuscritos lidos em voz alta ou gravações de emissões de rádio.


Oportunidades e desafios no desenvolvimento do reconhecimento automático da fala

Voltar ao índice

Sistemas de reconhecimento da fala que funcionem bem prometem tornar a nossa vida quotidiana muito mais fácil. Nos campos profissionais de aplicação, poderiam automatizar a transcrição da língua falada em particular no futuro - por exemplo, a gravação de actas ou a transcrição manual muitas vezes trabalhosa de discursos, entrevistas ou vídeos. Estão também a generalizar-se cada vez mais na esfera privada, quer para o funcionamento controlado por voz do smartphone no carro, quer para a realização de buscas no Google ou para o funcionamento de aplicações domésticas inteligentes, tais como ligar e desligar as luzes ou desligar o aquecimento.

O grande desafio no reconhecimento electrónico da fala, contudo, é que ninguém pronuncia sempre um termo exactamente da mesma maneira em todas as situações. Às vezes o utilizador está cansado, às vezes agitado, às vezes barulhento, às vezes calmo, às vezes concentrado, às vezes bêbado, às vezes zangado, às vezes com uma constipação. Por conseguinte, é muito difícil para o software reconhecer palavras através da procura de sequências sonoras congruentes.

Especialmente os idosos ou as pessoas em movimento são difíceis de compreender pelos sistemas. Os ruídos de fundo tornam o reconhecimento ainda mais difícil - a Microsoft já está, portanto, a trabalhar no novo software "CRIS", que deverá permitir a configuração individual dos ruídos de fundo e vocabulário que ocorrem frequentemente e, assim, permitir também a utilização em áreas de produção ruidosa ou em lares de idosos.

Entretanto, os sistemas actuais atingem taxas de reconhecimento de aproximadamente 99 por cento quando ditam textos contínuos em computadores pessoais e assim cumprem os requisitos da prática para muitas áreas de aplicação, por exemplo, para textos científicos, correspondência comercial ou dossiers jurídicos. No entanto, a sua utilização é limitada quando o autor necessita constantemente de novas palavras e formas de palavras que não podem ser reconhecidas pelo software no início. Embora seja possível acrescentar estas palavras manualmente, simplesmente não é eficiente se ocorrerem apenas uma vez nos textos pelo mesmo orador.

Benchmarks para o reconhecimento da fala
Benchmark dos sistemas de reconhecimento da fala para inglês (Fonte: Economist)

 

Os fornecedores mais importantes de sistemas de reconhecimento automático da fala

Voltar ao índice

Tal como acontece com muitas tecnologias modernas, os novos fornecedores são cogumelos no campo da transcrição áudio.

O líder de mercado no reconhecimento e transcrição automática da fala é Nuance com o seu software Dragon NaturallySpeaking. A utilização da tecnologia Deep Learning permite que o software seja utilizado mesmo em ambientes com forte ruído de fundo. Através de formação específica sobre um orador específico, é possível obter uma precisão de até 99% na conversão da fala em texto com apenas alguns minutos de "tempo de leitura" investido. A Nuance, entretanto, está a trabalhar na próxima geração de electrónica automóvel que permitirá no futuro a escrita exacta de textos complicados através da entrada de voz, a utilização de redes sociais e a consulta de motores de busca sem desviar a atenção do condutor da estrada.

Utilizando a mesma tecnologia, mas muito mais conhecida do que Nuance, é provavelmente Siri, o assistente de voz pessoal que tem estado à disposição dos utilizadores Apple desde o lançamento do iPhone 4s. O software pode ser iniciado com o comando "Hey Siri" e, portanto, não requer quase nenhuma operação manual. No entanto, só é adequado numa medida limitada como software de reconhecimento de voz para ditar letras inteiras ou textos mais longos, uma vez que a fala não é gravada continuamente e o texto digital é produzido continuamente. Siri guarda algumas frases faladas até serem enviadas para o servidor central de tradução com um comando "Done" ou pára de gravar texto para transmissão quando a memória máxima é atingida. Até que o texto digital tenha sido retransmitido, o ditado deve fazer uma pausa. Esta transmissão apresenta riscos para a segurança da informação; além disso, se a transmissão for interrompida, por exemplo, num ponto morto GSM, o texto ditado é perdido.

Comparável ao Siri da Apple, a Microsoft opera o assistente virtual Cortana no seu Windows Phone 8.1. que utiliza a pesquisa Bing! bem como informação pessoal armazenada no smartphone para fornecer ao utilizador recomendações personalizadas. Uma extensão das funções para o controlo inteligente de aparelhos domésticos tais como frigoríficos, torradeiras ou termóstatos através da tecnologia da Internet das Coisas já está planeada. Com o seu software de reconhecimento da fala, o chamado "Computational Network Toolkit", a Microsoft também foi capaz de estabelecer um marco histórico em Outubro de 2016: Com a ajuda da tecnologia Deep Learning, o software conseguiu alcançar uma taxa de erro de apenas 5,9% em testes comparativos entre humanos e máquinas - a mesma taxa de erro que os seus equivalentes humanos. O software alcançou assim pela primeira vez a igualdade entre seres humanos e máquinas.

O Google também abriu uma interface de programação para serviços na nuvem como uma versão beta em Março de 2016. A Cloud Speech API traduz texto falado em texto escrito e reconhece cerca de 80 línguas e variantes linguísticas. O API já pode entregar o texto como um fluxo durante o reconhecimento e filtra automaticamente o ruído de fundo. Actualmente só está disponível para os criadores.

Mais recentemente, a Amazon anunciou também o lançamento do novo serviço"Amazon Lex" para o desenvolvimento de interfaces de conversação com voz e texto. Baseia-se na tecnologia de reconhecimento automático da fala e na compreensão da linguagem natural que o Amazon Alexa também utiliza. Os promotores podem utilizar o novo serviço para construir e testar assistentes de voz inteligentes - os chamados bots - no futuro.

E o sistema cognitivo IBM Watson, que marcou o início da era da computação cognitiva em 2011, faz uso de redes neuronais, aprendizagem de máquinas e ferramentas de análise de texto, em particular o reconhecimento da fala, para aprender por si próprio. Entretanto, mesmo a ironia, as metáforas e os trocadilhos já não são um obstáculo para a IBM Watson.


Conclusão

Voltar ao índice

Nos últimos anos, a tecnologia tem-se desenvolvido rapidamente, apoiada em particular pela computação em nuvem e pelo processamento automatizado de quantidades extremamente grandes de dados que isto torna possível como base para sistemas inteligentes. Com a ajuda de software profissional de reconhecimento da fala, a transcrição automática já é possível hoje em dia, quase sem erros.

Os sistemas puros de reconhecimento da fala em si mesmos, contudo, são apenas o começo. A verdadeira interacção entre humanos e máquinas - tal como profetizado nos filmes de ficção científica - requer máquinas que não só reproduzam informação, mas que possam compreender contextos e tomar decisões inteligentes.


Encomende já a sua transcrição de inteligência artificial da abtipper!


Outras perguntas e respostas

✅ Como funciona o reconhecimento da fala?

Os sistemas de reconhecimento automático da fala funcionam todos basicamente da mesma forma.

Em termos simples, o núcleo é sempre uma grande base de dados na qual muitas variantes possíveis da pronúncia de uma ou mais palavras são armazenadas com o texto correspondente. Quando uma nova gravação é então introduzida no sistema, compara o som com a base de dados e produz o texto com maior probabilidade de corresponder a essa gravação.

Quanto maior e melhor for a manutenção desta base de dados, melhor será oreconhecimento da fala. Além disso, a Qualidade de gravação desempenha um papel importante na obtenção de uma boa taxa de reconhecimento.

✅ Pode transcrever com reconhecimento da fala?

Transcrição com um Reconhecimento da fala é possível.

leg of dictation from a person with clear pronunciation, no dialect and no background noise, a quality level of approx. 90% can be achieved with speech recognition. Isto está apenas um pouco abaixo do nível habitual de transcrição humana de aproximadamente 95%. Se um destes pré-requisitos estiver em falta e em quase todas as entrevistas ou Conversas de grupo os sistemas actuais de reconhecimento da fala ainda não são capazes de gerar textos compreensíveis.

De acordo com estudos científicos actuais, o reconhecimento da fala em entrevistas atinge actualmente um nível de apenas cerca de 65%, resultando em textos largamente incompreensíveis.

✅ Qual o fornecedor que tem o melhor reconhecimento da fala?

Existem agora muitos fornecedores para um reconhecimento automático da fala.

Os sistemas diferem em termos de
- taxa de reconhecimento (quantas palavras são correctamente reconhecidas)
- ortografia e pontuação
- formato (por exemplo com ou sem atribuição de orador)
- usabilidade (usabilidade como programa, aplicação ou apenas através de interface API)
- preço e modelo de facturação

Google Speech-to-Text e Nuance (Dragão ) alcançam bons resultados para a língua alemã. Globalmente, os melhores sistemas atingem actualmente uma taxa de reconhecimento de aproximadamente 67% em boas condições, ou seja, aproximadamente 67 palavras são reconhecidas correctamente para 100 palavras. Um manual Transcrição tem uma taxa de reconhecimento de aproximadamente 97%.

Começamos hoje o seu projecto: Peça um orçamento