Product

Extraiga elementos de texto relevantes con la API de extracción de entidades

Ankit Singh
January 13, 2017
mins read
Ready to get Started?
request A Demo

El reconocimiento de entidades con nombre El reconocimiento de entidades con nombre, también conocido como extracción de entidades, clasifica las entidades con nombre que están presentes en un texto en categorías predefinidas. Estas categorías pueden ser personas, empresas, lugares, organizaciones, ciudades y otras. El reconocimiento de entidades nombradas es una subtarea de extracción de información. Es uno de los puntos de partida básicos para utilizar técnicas de procesamiento del lenguaje natural para aumentar su contenido. Extraer datos clave, como nombres de personas, ubicaciones, fechas, términos especializados y terminología de productos, de textos no tratados puede sancionar a las organizaciones no solo para mejorar la búsqueda por palabras clave, sino también para allanar el camino para la búsqueda semántica, la búsqueda segmentada y la reutilización de documentos. El reconocimiento de entidades denominadas puede aportar una gran cantidad de conocimientos semánticos a tu contenido. Esto le ayuda a comprender rápidamente el tema de cualquier texto determinado.
Nuestra API de reconocimiento de entidades nombradas utiliza tecnología de aprendizaje profundo para determinar las representaciones de los grupos de caracteres. Con una precisión impecable, nuestra API descubre las entidades más relevantes de su contenido textual. Pruebe nuestro reconocimiento de entidades nombradas muestra.

Cómo funciona nuestra API de reconocimiento de entidades nombradas

Nuestra API utiliza tecnología de aprendizaje profundo. A continuación, encontrará una breve descripción de nuestra tecnología:

  • Las incrustaciones de palabras se basan en un enorme corpus de texto que nuestra amplia infraestructura de rastreo recopila de la web abierta. Estas incrustaciones se entrenan utilizando los algoritmos GloVe o Word2Vec. Usamos incrustaciones de GloVe en la producción. Este algoritmo convierte cada palabra en un vector denso de 100 dimensiones. La red neuronal que entrenamos toma estas incrustaciones como entradas en lugar de palabras directamente.
  • Nuestro equipo interno de etiquetado de datos anotó un enorme conjunto de datos de entidades presentes en los datos que hemos rastreado. Por ejemplo, la oración «Esta es una casa que construyó Jack» está anotada con (Jack, Person) y «Ram y Shyam se van a Delhi» está anotada con (Ram, Person), (Shyam, Person) y (Delhi, Place). Nuestro conjunto de datos interno contiene más de 200 000 frases anotadas de este tipo.
  • Luego, entrenamos una secuencia que etiqueta un LSTM bidireccional sobre el conjunto de datos etiquetado mencionado anteriormente para predecir si cada palabra de una oración es una entidad o no. Una red LSTM o Long Short Memory Network es una RNN mejor, ya que evita la amortiguación de gradientes al convertir el paradigma de multiplicación de la recurrencia general en un paradigma de suma.
  • La capa de atención también se probó en LSTM para ver si puede ayudar a identificar las propiedades importantes de una oración que definen una palabra como una entidad. Todavía estamos refinando el modelo con atención y el modelo en producción es LSTM sin atención.

Del total de datos proporcionados como entrada, el 10% se utilizó para probar el sistema y el resto para entrenarlo. Nuestro modelo de red neuronal alcanza una precisión de más del 90% en la extracción de entidades.
Para entender mejor cómo se extraen las entidades de un fragmento de texto, he aquí un ejemplo:

Ejemplo

Entrada

En 2015, Harry Styles tuiteó con indiferencia sobre Monopoly y nos dimos cuenta de que el PVP del juego oficial de Monopoly de One Direction se disparó un 125%.
Forbes estima que Kim Kardashian West ha ganado 51 millones de dólares con su enorme seguimiento en las redes sociales a través de acuerdos de patrocinio. Se le cita: «Hay mucho valor en las redes sociales, y la gente realmente lo entiende». Tendemos a estar de acuerdo, Kim. El mantra de «toda publicidad es buena publicidad» probablemente no funcione cuando el presidente electo de los Estados Unidos tuitea sobre la cancelación de un pedido de su empresa valorado en millones de dólares.
Vivimos tiempos sin precedentes con un presidente electo sin precedentes.

Salida
{«entities»: [["Estados Unidos», 1.0, ["place"], "http://dbpedia.org/resource/United_States «], [" Monopoly», 0.9965510937353969, «», «"], ["Harry Styles», 0.9800905556827882, ["persona"], «"], ["Kim Kardashian West», 0.9309083455558312, ["persona"], «], [" Forbes», 0.6556073703283326, ["obra creativa», «obra escrita"], "http://dbpedia.org/resource/Forbes «]]}

Si trabaja con un corpus masivo a diario, Named Entity Recognition puede hacer maravillas para usted. La extracción de entidades puede resolver la mayoría de los problemas relacionados con el contenido de varias maneras.

  • Los metadatos generados automáticamente para tu contenido se pueden usar para mejorar el SEO.
  • Identifica las tendencias asociadas a tu marca, producto o servicio y agrúpalos por persona, lugar o ubicación. Por lo tanto, mejora tu escucha social en general.
  • Extraiga las entidades clave de las consultas de los usuarios, como el nombre del producto, la solicitud de servicio, etc., para analizar los términos más utilizados. Esto se denomina análisis de intenciones.

Las organizaciones editoriales aprovechan el uso más importante del reconocimiento de entidades nombradas. La industria de los medios está cambiando rápidamente a la publicación semántica. Obtenga más información sobre la publicación semántica aquí.

Retroalimentación

Cuéntanos lo que piensas de nuestros Reconocimiento de entidades nombradas. Nos encantaría recibir tus comentarios.
Deja un comentario y comparte tu opinión.

El reconocimiento de entidades con nombre El reconocimiento de entidades con nombre, también conocido como extracción de entidades, clasifica las entidades con nombre que están presentes en un texto en categorías predefinidas. Estas categorías pueden ser personas, empresas, lugares, organizaciones, ciudades y otras. El reconocimiento de entidades nombradas es una subtarea de extracción de información. Es uno de los puntos de partida básicos para utilizar técnicas de procesamiento del lenguaje natural para aumentar su contenido. Extraer datos clave, como nombres de personas, ubicaciones, fechas, términos especializados y terminología de productos, de textos no tratados puede sancionar a las organizaciones no solo para mejorar la búsqueda por palabras clave, sino también para allanar el camino para la búsqueda semántica, la búsqueda segmentada y la reutilización de documentos. El reconocimiento de entidades denominadas puede aportar una gran cantidad de conocimientos semánticos a tu contenido. Esto le ayuda a comprender rápidamente el tema de cualquier texto determinado.
Nuestra API de reconocimiento de entidades nombradas utiliza tecnología de aprendizaje profundo para determinar las representaciones de los grupos de caracteres. Con una precisión impecable, nuestra API descubre las entidades más relevantes de su contenido textual. Pruebe nuestro reconocimiento de entidades nombradas muestra.

Cómo funciona nuestra API de reconocimiento de entidades nombradas

Nuestra API utiliza tecnología de aprendizaje profundo. A continuación, encontrará una breve descripción de nuestra tecnología:

  • Las incrustaciones de palabras se basan en un enorme corpus de texto que nuestra amplia infraestructura de rastreo recopila de la web abierta. Estas incrustaciones se entrenan utilizando los algoritmos GloVe o Word2Vec. Usamos incrustaciones de GloVe en la producción. Este algoritmo convierte cada palabra en un vector denso de 100 dimensiones. La red neuronal que entrenamos toma estas incrustaciones como entradas en lugar de palabras directamente.
  • Nuestro equipo interno de etiquetado de datos anotó un enorme conjunto de datos de entidades presentes en los datos que hemos rastreado. Por ejemplo, la oración «Esta es una casa que construyó Jack» está anotada con (Jack, Person) y «Ram y Shyam se van a Delhi» está anotada con (Ram, Person), (Shyam, Person) y (Delhi, Place). Nuestro conjunto de datos interno contiene más de 200 000 frases anotadas de este tipo.
  • Luego, entrenamos una secuencia que etiqueta un LSTM bidireccional sobre el conjunto de datos etiquetado mencionado anteriormente para predecir si cada palabra de una oración es una entidad o no. Una red LSTM o Long Short Memory Network es una RNN mejor, ya que evita la amortiguación de gradientes al convertir el paradigma de multiplicación de la recurrencia general en un paradigma de suma.
  • La capa de atención también se probó en LSTM para ver si puede ayudar a identificar las propiedades importantes de una oración que definen una palabra como una entidad. Todavía estamos refinando el modelo con atención y el modelo en producción es LSTM sin atención.

Del total de datos proporcionados como entrada, el 10% se utilizó para probar el sistema y el resto para entrenarlo. Nuestro modelo de red neuronal alcanza una precisión de más del 90% en la extracción de entidades.
Para entender mejor cómo se extraen las entidades de un fragmento de texto, he aquí un ejemplo:

Ejemplo

Entrada

En 2015, Harry Styles tuiteó con indiferencia sobre Monopoly y nos dimos cuenta de que el PVP del juego oficial de Monopoly de One Direction se disparó un 125%.
Forbes estima que Kim Kardashian West ha ganado 51 millones de dólares con su enorme seguimiento en las redes sociales a través de acuerdos de patrocinio. Se le cita: «Hay mucho valor en las redes sociales, y la gente realmente lo entiende». Tendemos a estar de acuerdo, Kim. El mantra de «toda publicidad es buena publicidad» probablemente no funcione cuando el presidente electo de los Estados Unidos tuitea sobre la cancelación de un pedido de su empresa valorado en millones de dólares.
Vivimos tiempos sin precedentes con un presidente electo sin precedentes.

Salida
{«entities»: [["Estados Unidos», 1.0, ["place"], "http://dbpedia.org/resource/United_States «], [" Monopoly», 0.9965510937353969, «», «"], ["Harry Styles», 0.9800905556827882, ["persona"], «"], ["Kim Kardashian West», 0.9309083455558312, ["persona"], «], [" Forbes», 0.6556073703283326, ["obra creativa», «obra escrita"], "http://dbpedia.org/resource/Forbes «]]}

Si trabaja con un corpus masivo a diario, Named Entity Recognition puede hacer maravillas para usted. La extracción de entidades puede resolver la mayoría de los problemas relacionados con el contenido de varias maneras.

  • Los metadatos generados automáticamente para tu contenido se pueden usar para mejorar el SEO.
  • Identifica las tendencias asociadas a tu marca, producto o servicio y agrúpalos por persona, lugar o ubicación. Por lo tanto, mejora tu escucha social en general.
  • Extraiga las entidades clave de las consultas de los usuarios, como el nombre del producto, la solicitud de servicio, etc., para analizar los términos más utilizados. Esto se denomina análisis de intenciones.

Las organizaciones editoriales aprovechan el uso más importante del reconocimiento de entidades nombradas. La industria de los medios está cambiando rápidamente a la publicación semántica. Obtenga más información sobre la publicación semántica aquí.

Retroalimentación

Cuéntanos lo que piensas de nuestros Reconocimiento de entidades nombradas. Nos encantaría recibir tus comentarios.
Deja un comentario y comparte tu opinión.