NOTÍCIAS

IA é capaz de reconhecer falas em diferentes idiomas utilizando movimentos labiais

[ad_1]

Os pesquisadores do Imperial College London, na Inglaterra, criaram uma nova inteligência artificial (IA), capaz de reconhecer precisamente a fala de vários idiomas diferentes, apenas vendo o movimento dos lábios de uma pessoa.

De acordo com os cientistas, o sistema de reconhecimento de fala (VSR, na sigla em inglês) utiliza algoritmos de Deep Learning para analisar movimentos labiais, e a partir disso, transforma as imagens captadas em caracteres do idioma que está sendo falado.

O professor Pingchuan Ma é o principal autor do estudo, e em uma entrevista ao site TechXplore ele relatou o seguinte:

“Embora alguns algoritmos tenham alcançado resultados promissores em tarefas VSR, eles foram treinados principalmente para detectar falas em inglês. Isso limita sua base de usuários em potencial a pessoas que vivem ou trabalham em contextos de língua inglesa.”

Como funciona a IA?

De forma simplificada im sistema de Deep Learning ou aprendizado profundo funciona “treinando” programas para serem capazes de reconhecer certos padrões e associá-los a um determinado conceito. No caso do VSR, ele reconhece movimentos labiais e os associa as palavras de um idioma.

Conforme a IA aprende, ela pode ser capaz de identificar qualquer palavra em qualquer idioma apenas com base na leitura labial, e isso é o que os desenvolvedores esperam que ela seja capaz de fazer. Por enquanto o maior obstáculo tem sido o idioma.

“Os resultados mostram que é possível moldar nosso modelo independentemente da língua que está sendo falada. Nos testes iniciais, tivemos um desempenho muito bom, superando outros sistemas de VSR treinados com conjuntos de dados muito maiores”, acrescentou o professor Ma.

Os pesquisadores já estavam esperando que a IA teria dificuldades em reconhecer outras falas além do inglês, visto que ela teve conjuntos menores de dados sobre os outros idiomas.

Mas mesmo mostrando uma fluência reduzida em outras línguas, os cientistas acreditam que ela é importante para desenvolver modelos alternativos que sejam capazes de reconhecer outras línguas a partir dos movimentos labiais.

“No futuro, poderemos combinar os modelos de VSR com sistemas de reconhecimento de fala baseados em áudio. Com isso, em um ambiente ruidoso, um modelo audiovisual deve confiar mais no fluxo visual, mas quando a região da boca estiver ocluída, ele dependerá mais do sistema sonoro, podendo se adaptar às condições do local”, finalizou o professor Pingchuan Ma.

[ad_2]
Fonte: G1