Identificação de palavras-chave em fala contínua: pesquisadores descobrem a noz

Ready to get Started?

A Komprehend se destacou por sua inovação decorrente de seu rico ambiente centrado em pesquisa. No Komprehend, o mantra não é meramente “fazer o trabalho”, mas sim “fazer o trabalho de uma forma que ninguém tenha pensado”. Em um anterior publicar, documentamos um resumo de todas as pesquisas realizadas pela equipe de ciência de dados da Komprehend no ano de 2018. Nossos cientistas de dados, no entanto, não ficaram ociosos. Desenvolvemos um algoritmo projetado para identificar palavras-chave a partir de uma amostra contínua de fala. Deixe-me explicar isso para você com um exemplo do mundo real. Dispositivos como o Google Home precisam de uma frase-chave isolada (OK Google) para ganhar vida. Essas frases-chave não podem fazer parte de uma frase ou não são detectadas. Esse é o problema que nossos pesquisadores se esforçaram para resolver.

keyword spotting — Arquitetura prototípica de ajuste fino do Deep Speech

Esta postagem tem como objetivo dar a todos vocês uma visão geral da pesquisa. Você pode baixar o artigo de pesquisa gratuitamente clicando no botão no final desta postagem. Vamos começar a identificar palavras-chave.

‍

Os casos de uso da detecção contínua de palavras-chave de fala

Nossos pesquisadores tiveram como objetivo criar um algoritmo que pudesse detectar palavras-chave incorporadas em uma amostra de áudio gravada. A frequência de ocorrência das palavras-chave incorporadas pode ser usada para descobrir o tema da comunicação (amostra de áudio) sob análise. A detecção de palavras-chave e a frequência de ocorrência de palavras-chave também podem ser usadas para criar nuvens de palavras-chave. Essa nuvem de palavras pode dar ao visualizador um instantâneo rápido de todo o instantâneo. Esta pesquisa tem como objetivo detectar palavras-chave específicas do domínio. Deixe-me explicar isso com um exemplo, digamos que dois amigos discutam os diferentes tipos de modelos de TV da Sony, digamos. Os modelos podem ter nomes como BraviaT380, GloriaT321 ou algo parecido, é bastante evidente que essas não são palavras reais e, portanto, não existirão em nenhuma forma de conjunto de dados público. Portanto, sistemas de reconhecimento automático de fala (ASR) treinados nesses conjuntos de dados públicos não são uma opção. Um algoritmo CSKS treinado pode detectar com eficiência essas palavras-chave em uma amostra de áudio.

O escopo de nossa pesquisa e os desafios que superamos

O treinamento de um algoritmo CSKS é semelhante aos algoritmos tradicionais de localização de palavras-chave. Classificando basicamente pequenos fragmentos de áudio na fala em execução. Bem, a ideia básica em palavras simples é ignorar tudo o mais, exceto as palavras-chave específicas, e também diferenciar os diferentes tipos de palavras-chave alvo. Antes de escrever este post, tive uma longa conversa com nossos pesquisadores. Eles me disseram que treinar um algoritmo contínuo de detecção de palavras-chave de fala é problemático devido à quantidade relativamente pequena de palavras-chave rotuladas com as quais trabalhar. Nossos pesquisadores criaram um coquetel único combinando técnicas do campo do aprendizado reduzido, do aprendizado por transferência e do aprendizado métrico para superar essa dificuldade.

A pesquisa teve como objetivo alcançar o seguinte:

Testando as metodologias existentes de localização de palavras-chave para a tarefa do CSKS.
Propor uma linha de base baseada em aprendizado de transferência para CSKS ajustando os pesos de um modelo ASR profundo disponível publicamente.
Introduzir mudanças na metodologia de treinamento combinando conceitos de aprendizado rápido e aprendizado métrico no algoritmo de transferência de aprendizado para resolver os problemas cujas linhas de base têm a) palavras-chave ausentes e b) falsos positivos

Nossos pesquisadores criaram dados de aprendizado registrando voluntários enquanto diziam as palavras-chave 3 vezes em condições inalteradas. O objetivo era criar um sistema capaz de identificar com sucesso 20 palavras-chave pré-decididas (modelos de televisão) que ocorrem em uma gravação de áudio.

As arquiteturas de aprendizado profundo usadas por nossos pesquisadores

Nossos pesquisadores usaram quatro arquiteturas de aprendizado profundo de ponta para realizar a pesquisa com sucesso. Esses foram:

Buzinar
Deep Speech - Fine Tune
DeepSpeech - FineTune - prototípico
DeepSpeech-FineTune-Prototípico+Métrico

Para ler mais sobre como esses modelos foram usados no contexto de nossa pesquisa, clique no botão abaixo para baixar o artigo de pesquisa completo. Baixe o PDF

Esperamos que você tenha gostado do artigo. Por favor Cadastre-se para obter uma conta gratuita do Komprehend para começar sua jornada de IA agora. Você também pode conferir demonstrações gratuitas das APIs Komprehend AI aqui.

‍

Subscribe to the ParallelDots newsletter.

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

‍

Os casos de uso da detecção contínua de palavras-chave de fala

O escopo de nossa pesquisa e os desafios que superamos

A pesquisa teve como objetivo alcançar o seguinte:

Testando as metodologias existentes de localização de palavras-chave para a tarefa do CSKS.
Propor uma linha de base baseada em aprendizado de transferência para CSKS ajustando os pesos de um modelo ASR profundo disponível publicamente.
Introduzir mudanças na metodologia de treinamento combinando conceitos de aprendizado rápido e aprendizado métrico no algoritmo de transferência de aprendizado para resolver os problemas cujas linhas de base têm a) palavras-chave ausentes e b) falsos positivos

As arquiteturas de aprendizado profundo usadas por nossos pesquisadores

Nossos pesquisadores usaram quatro arquiteturas de aprendizado profundo de ponta para realizar a pesquisa com sucesso. Esses foram:

Buzinar
Deep Speech - Fine Tune
DeepSpeech - FineTune - prototípico
DeepSpeech-FineTune-Prototípico+Métrico

Para ler mais sobre como esses modelos foram usados no contexto de nossa pesquisa, clique no botão abaixo para baixar o artigo de pesquisa completo. Baixe o PDF

‍

Identificação de palavras-chave em fala contínua: pesquisadores descobrem a noz

Os casos de uso da detecção contínua de palavras-chave de fala

O escopo de nossa pesquisa e os desafios que superamos

As arquiteturas de aprendizado profundo usadas por nossos pesquisadores

Os casos de uso da detecção contínua de palavras-chave de fala

O escopo de nossa pesquisa e os desafios que superamos

As arquiteturas de aprendizado profundo usadas por nossos pesquisadores

Don't miss these

Leve seu desempenho de prateleira para o próximo nível com o ShelfWatch!