Reconhecimento de entidade nomeadaO reconhecimento de entidades nomeadas, também conhecido como extração de entidades, classifica as entidades nomeadas que estão presentes em um texto em categorias predefinidas. Essas categorias podem ser indivíduos, empresas, lugares, organizações, cidades e outros. O reconhecimento de entidades nomeadas é uma subtarefa do extração de informações. É um dos pontos de partida básicos para usar técnicas de processamento de linguagem natural para aumentar seu conteúdo. Extrair entidades importantes, como nomes de pessoas, locais, datas, termos especializados e terminologia de produtos, de textos não tratados pode autorizar as organizações a não apenas melhorar a pesquisa por palavras-chave, mas também a abrir caminho para a pesquisa semântica, a pesquisa direcionada e a reutilização de documentos. O reconhecimento de entidades nomeadas pode adicionar uma riqueza de conhecimento semântico ao seu conteúdo. Isso ajuda você a entender prontamente o assunto de qualquer texto.
Nossa API de reconhecimento de entidades nomeadas usa a tecnologia Deep Learning para determinar representações de agrupamentos de caracteres. Com uma precisão imaculada, nossa API descobre as entidades mais relevantes em seu conteúdo textual. Experimente nosso reconhecimento de entidade nomeada demonstração.
Como funciona nossa API de reconhecimento de entidades nomeadas
Nossa API usa tecnologia de aprendizado profundo. Abaixo, você encontra uma breve descrição da nossa tecnologia:
- Os Word Embeddings são treinados em um enorme corpus de texto que nossa extensa infraestrutura de rastreamento coleta da web aberta. Essas incorporações são treinadas usando o algoritmo GLOve ou Word2Vec. Usamos incorporações GoVe na produção. Esse algoritmo converte cada palavra em um vetor denso de 100 dimensões. A rede neural que treinamos usa esses Embeddings como entradas em vez de palavras diretamente.
- Nossa equipe interna de marcação de dados anotou um enorme conjunto de entidades presentes nos dados que rastreamos. Por exemplo, a frase “Esta é uma casa que Jack construiu” é anotada com (Jack, Pessoa) e “Ram e Shyam estão indo para Delhi” é anotada com (Ram, Pessoa), (Shyam, Pessoa) e (Delhi, Lugar). Nosso conjunto de dados interno tem mais de 200.000 dessas frases anotadas.
- Em seguida, treinamos uma sequência de rotulagem LSTM bidirecional em cima do conjunto de dados marcado mencionado acima para prever se cada palavra em uma frase é uma entidade ou não. Uma LSTM ou Long Short Memory Network é uma RNN melhor, que evita o amortecimento de gradiente ao converter o paradigma de multiplicação da recorrência geral em um paradigma de adição.
- A camada de atenção também foi testada no LSTM para ver se ela pode ajudar a identificar propriedades importantes em uma frase que define uma palavra como uma entidade. Ainda estamos refinando o modelo com atenção e o modelo em produção é LSTM sem atenção.
Do total de dados fornecidos como entrada, 10% foram usados para testar o sistema e o restante para treiná-lo. Nosso modelo de rede neural atinge mais de 90% de precisão na extração de entidades.
Para entender melhor como as entidades são extraídas de um trecho de texto, aqui está um exemplo:
Exemplo
Entrada
Em 2015, Harry Styles tuitou com indiferença sobre Monopoly e notamos que o preço sugerido do jogo oficial Monopoly da One Direction disparou em 125%.
A Forbes estima que Kim Kardashian West ganhou 51 milhões de dólares com seus enormes seguidores nas redes sociais por meio de acordos de patrocínio. Ela é citada: “Há muito valor nas mídias sociais, e as pessoas realmente entendem isso”. Nós tendemos a concordar, Kim. O mantra “toda publicidade é boa publicidade” provavelmente não funciona quando o presidente eleito dos Estados Unidos está tuitando sobre o cancelamento de um pedido de sua empresa no valor de milhões de dólares.
Estamos vivendo em tempos sem precedentes com um presidente eleito sem precedentes.
Saída
{“entidades”: [["Estados Unidos”, 1.0, ["place"], "http://dbpedia.org/resource/United_States “], [" Monopólio”, 0.9965510937353969, “”, “"], ["Harry Styles”, 0,9800905556827882, ["pessoa"], “"], ["Kim Kardashian West”, 0,930908345555882 8312, ["pessoa"], “"], ["Forbes”, 0.6556073703283326, ["trabalho criativo”, “trabalho escrito"], "http://dbpedia.org/resource/Forbes “]]}
Se você lida com um grande corpus diariamente, o Reconhecimento de Entidades Nomeadas pode fazer maravilhas para você. Pode haver várias maneiras pelas quais a extração de entidades resolve a maioria dos problemas relacionados ao conteúdo.
- Metadados gerados automaticamente para seu conteúdo podem ser usados para melhorar o SEO.
- Identifique as tendências associadas à sua marca, produto ou serviço e agrupe-as por pessoa, local ou localização. Portanto, melhore sua escuta social geral.
- Extraia entidades-chave nas consultas do usuário, como nome do produto, solicitação de serviço, etc., para analisar os termos usados com mais frequência. Isso é chamado de análise de intenção.
O uso mais significativo do reconhecimento de entidades nomeadas é aproveitado pelas organizações editoriais. O setor de mídia está migrando rapidamente para a publicação semântica. Saiba mais sobre publicação semântica aqui.
Feedback
Diga-nos o que você acha do nosso Reconhecimento de entidade nomeada. Gostaríamos muito de receber seus comentários.
Deixe um comentário e compartilhe suas ideias.

.jpg)
