Data Science

Gründe, wörterbuchbasiertes Text Mining durch Techniken des maschinellen Lernens zu ersetzen

Ankit Singh
July 9, 2018
mins read
Ready to get Started?
request A Demo

Mehr als 80% der Daten in den meisten Unternehmen beziehen sich darauf, wie die Kunden mit dem Produkt umgehen. Die Überwachung dieser Beziehung mithilfe von Text Mining ist wichtig, wenn es darum geht, wichtige Strategien in einem Unternehmen zu entwickeln. Die großen nutzergenerierten Inhalte erfordern den Einsatz automatisierter Techniken für das Text-Mining und die Analyse, da Crowdsourcing-Mining und -Analysen oft mit Fehlern behaftet, teuer und nicht skalierbar sind.

Ansätze des maschinellen Lernens haben bei Forschern aufgrund ihrer Anpassungsfähigkeit und Genauigkeit für automatisiertes Text Mining an Bedeutung gewonnen. Die meisten Organisationen verlassen sich jedoch immer noch auf Wörterbuchansätze, die bereits mit Tags versehen sind, um den Großteil des Text-Mining durchzuführen.

In diesem Beitrag werden wir die Probleme mit den wörterbuchbasierten Ansätzen beleuchten und erläutern, wie maschinelles Lernen diese Ansätze durch höhere Genauigkeit und Anpassungsfähigkeit ersetzen kann, wenn sich Datensätze ändern.

OPINION MINING — Wie Unternehmen KI nutzen können, um das Verbraucherverhalten zu verstehen

Die Menschen teilen täglich ihre Meinungen und Gefühle zu einer Vielzahl von Themen wie Produkten, Nachrichten, Institutionen usw. Wenn Verbraucher bei Kaufentscheidungen vor einem Kompromiss stehen, beziehen sie sich vor ihrer Kaufentscheidung auf Nutzerrezensionen und Diskussionen, die von anderen Verbrauchern veröffentlicht wurden. Menschen neigen dazu, ihre Meinung zu verschiedenen Entitäten zu äußern. Infolgedessen hat die Meinungsforschung an Bedeutung gewonnen. Opinion Mining hilft Unternehmen nicht nur dabei, mit einem Mausklick mehr und relevantere Informationen über verschiedene Produkte und Dienstleistungen zu erhalten, sondern hilft auch dabei, fundiertere Entscheidungen zu treffen.

In dem Satz „Die Akkulaufzeit dieses Mobiltelefons ist sehr schlecht und dauert nicht einmal 4 Stunden“ steht beispielsweise die Meinung zur „Akkulaufzeit“ des mobilen Objekts (Zielgerät) und die Meinung ist negativ. Viele Anwendungen im täglichen Leben erfordern dies, und es ist eine eingehendere Analyse erforderlich, um zu entscheiden, welche Komponenten und/oder Merkmale des Produkts beim nächsten Upgrade umfassend vermarktet oder verbessert werden sollen.

Opinion Mining ist eine Herausforderung der Natural Language Processing (NLP), der Textanalyse und der Computerlinguistik. Hier erörtern wir den aktuellen Stand der Arbeiten, die sich auf nutzergenerierte Open-Web-Inhalte wie Bewertungen, Kommentare und Webinteraktionen auf Plattformen wie Microblogging-Websites, Foren und sozialen Netzwerken zur Meinungsforschung konzentrieren.

Stichwortsuche (Bag-of-Words-Ansatz) — Der traditionelle Ansatz zur Meinungsforschung

Text Mining

Im BoW-Modell wird ein Satz oder ein Dokument als „Tasche“ betrachtet, die Wörter enthält. Dabei werden die Wörter und ihre Häufigkeit, mit der sie im Satz oder Dokument vorkommen, berücksichtigt, wobei die semantische Beziehung in den Sätzen unberücksichtigt bleibt. Der Marketer erstellt Listen von Wörtern mit positiven und negativen Stimmungen (Samen) und sieht, welche Wörter in einem bestimmten Dokument vorherrschen (und markiert es als „keine Meinung“, wenn es nur wenige Wörter beider Typen gibt). Der Algorithmus erweitert diese Gruppe, indem er in einem Online-Wörterbuch nach ihren Synonymen und Antonymen sucht.

Ein herkömmlicher Ansatz zum Filtern aller preisbezogenen Nachrichten aus einer Reihe von Nutzerrezensionen zu einem Produkt besteht beispielsweise darin, eine Stichwortsuche nach Preis und anderen eng verwandten Wörtern wie (Preis, Gebühr, $, bezahlt) durchzuführen.

Diese Methode weist jedoch Mängel auf, die die Durchführung umfangreicher, anspruchsvoller Text-Mining-Aufgaben unwirksam machen.

Die Probleme mit diesem Ansatz

Die menschliche Einschränkung mit manueller Ontologie — Es ist fast unmöglich, sich alle relevanten Schlüsselwörter und ihre Varianten vorzustellen, die ein bestimmtes Konzept repräsentieren. Der Aufbau und die Pflege einer manuellen Ontologie haben erhebliche Auswirkungen auf das Genauigkeitsniveau.

Mangelndes Fachwissen — Wenn Wörterbücher in einem Fachgebiet erstellt und dann auf andere Probleme angewendet werden, können schwerwiegende Fehler auftreten. Viele Wörter, die in anderen Zusammenhängen negativ konnotiert sind, wie etwa „höhere Rohölpreise“, können im Zusammenhang mit dem Rohölunternehmen eine positive Konnotation haben. Außerdem fehlen bei solchen Ansätzen Formulierungen wie „Die kaputte Wirtschaft reparieren“ oder doppelte Negative wie „Der Geschmack war nicht schlecht“, die in alltäglichen Gesprächen häufig vorkommen.

Es ist Zeit für einen neuen Ansatz.

Textklassifizierung — Der fortschrittliche Ansatz zur Meinungsforschung

Text Mining

Am häufigsten verwendet

Maschinelles Lernen ermöglicht es Benutzern, KI für unstrukturierte Unternehmensinhalte einzusetzen. Es ist eine der bekanntesten Techniken, die aufgrund ihrer Anpassungsfähigkeit und Genauigkeit das Interesse von Forschern weckt. Es besteht aus vier Phasen: Datenerfassung, Vorverarbeitung, Trainingsdaten sowie Testen und Validieren der Ergebnisse. In den Trainingsdaten ist eine Sammlung von markierten Daten enthalten. Auf der Grundlage des Trainingsdatensatzes wird ein Modell erstellt, das zu Klassifizierungszwecken über dem neuen/unsichtbaren Text verwendet wird. Sammeln Sie genügend Meinungen — und analysieren Sie sie richtig — und Sie haben ein genaues Bild von den Gefühlen der schweigenden Mehrheit. Das bezieht sich nicht nur darauf, wie sich Menschen fühlen, sondern auch darauf, warum sie sich so fühlen, wie sie es tun.

Mustererkennung — Wie die Textklassifizierung der menschenähnlichen Klassifizierung von Text nahe kommt

Text Mining

In einem Klassifizierungsszenario führen wir einen Algorithmus zur Mustererkennung über einen kleinen Satz beschrifteter Trainingsdaten aus, um Textmuster zu berechnen, die stark mit dem Auftreten eines bestimmten Labels korrelieren (d. h. wenn das Muster

tritt auf, dann — mit hoher Wahrscheinlichkeit — auch das Etikett). Der Klassifikator identifiziert Beziehungen zwischen den Wörtern und speichert sie für die Analyse unsichtbarer zukünftiger Dokumente. Stellen Sie sich die Aufgabe vor, E-Mails mit Benutzerfeedback, die an ein großes Unternehmen gesendet werden, in E-Mails zu klassifizieren, in E-Mails, die positive und negative Stimmungen zum Ausdruck bringen. In diesem Zusammenhang könnte ein häufiges Textmuster, das eine hohe Korrelation zum negativen Etikett hat, lauten: „Ich werde zu XYZcorp wechseln“, wobei XYZcorp der Name eines Konkurrenten ist. Sobald der Klassifikator das gelernt hat, wird er in der Lage sein, andere neue Dokumente in Labels zu klassifizieren, genau wie es ein Mensch tun würde.

„Was treibt die Stimmung an?“ - Textklassifizierung bei der Arbeit

Text Mining

Wenn man versteht, was die Stimmung beeinflusst, können Meinungsdaten verwendet werden, um kritische Stärken und Schwächen aufzudecken. Diese Daten ermöglichen es Führungskräften, die gezielten strategischen Überarbeitungen vorzunehmen, die erforderlich sind, um die Rentabilität wiederzubeleben oder sinkende Marktanteile zurückzugewinnen.

Im öffentlichen Sektor können dieselben Daten verwendet werden, um Strategien und Kampagnen zu entwickeln, die bei den Wählern Anklang finden und auf die sich ändernden Bedürfnisse der Wähler reagieren. Durch die Isolierung der spezifischen Faktoren positiver und negativer Stimmungen auf Themenebene ermöglicht das Opinion Mining die Entwicklung eines unglaublich tiefen sozialen Verständnisses — ein Einblick in das Denken und Fühlen der Menschen.

Durch die Analyse von Gesprächen sowohl nach der Stimmung als auch nach den Themen, die diese Stimmung beeinflussen, könnte eine Privatkundenbank feststellen, dass Kundenkritik, Warteschlangenlänge und Wartezeiten an erster Stelle stehen.

Eine Fast-Food-Kette könnte daran interessiert sein zu erfahren, dass im Vergleich zu ihrem engsten Konkurrenten viele ihre Portionsgröße für zu klein halten, obwohl ihr freundlicher Kundenservice von Vorteil ist.

Bei Komprehend machen wir es unseren Benutzern sehr einfach, auf maschinellem Lernen basierende Textklassifizierungslösungen ohne Hintergrund in der Datenwissenschaft zu verwenden.

Sie können entweder eine unserer Standardlösungen zur Textklassifizierung verwenden wie Stimmungsanalyse und Emotionsanalyse oder erstellen Sie Ihren eigenen Klassifikator mit Benutzerdefinierte Klassifizierer-API. Alle APIs sind verfügbar in Google Sheets-Add-on um Text Mining bequem von Ihren Tabellenkalkulationen aus durchzuführen.

Für Unternehmen können Textklassifizierungsmodelle für die Bereitstellung vor Ort oder in der privaten Cloud lizenziert werden, um eine niedrige Latenz und die Einhaltung der Datenschutzgesetze zu gewährleisten.

Sie können auch weitere unserer Lösungen zur Textklassifizierung erkunden hier.

Du kannst lesen hier über Anwendungen und Anwendungsfälle der Textklassifizierung.

Wir hoffen, dir hat der Artikel gefallen. Bitte Melde dich an für ein kostenloses Komprehend-Konto, um Ihre KI-Reise zu beginnen. Sie können sich auch Demos der Komprehend KI-APIs ansehen hier.

Mehr als 80% der Daten in den meisten Unternehmen beziehen sich darauf, wie die Kunden mit dem Produkt umgehen. Die Überwachung dieser Beziehung mithilfe von Text Mining ist wichtig, wenn es darum geht, wichtige Strategien in einem Unternehmen zu entwickeln. Die großen nutzergenerierten Inhalte erfordern den Einsatz automatisierter Techniken für das Text-Mining und die Analyse, da Crowdsourcing-Mining und -Analysen oft mit Fehlern behaftet, teuer und nicht skalierbar sind.

Ansätze des maschinellen Lernens haben bei Forschern aufgrund ihrer Anpassungsfähigkeit und Genauigkeit für automatisiertes Text Mining an Bedeutung gewonnen. Die meisten Organisationen verlassen sich jedoch immer noch auf Wörterbuchansätze, die bereits mit Tags versehen sind, um den Großteil des Text-Mining durchzuführen.

In diesem Beitrag werden wir die Probleme mit den wörterbuchbasierten Ansätzen beleuchten und erläutern, wie maschinelles Lernen diese Ansätze durch höhere Genauigkeit und Anpassungsfähigkeit ersetzen kann, wenn sich Datensätze ändern.

OPINION MINING — Wie Unternehmen KI nutzen können, um das Verbraucherverhalten zu verstehen

Die Menschen teilen täglich ihre Meinungen und Gefühle zu einer Vielzahl von Themen wie Produkten, Nachrichten, Institutionen usw. Wenn Verbraucher bei Kaufentscheidungen vor einem Kompromiss stehen, beziehen sie sich vor ihrer Kaufentscheidung auf Nutzerrezensionen und Diskussionen, die von anderen Verbrauchern veröffentlicht wurden. Menschen neigen dazu, ihre Meinung zu verschiedenen Entitäten zu äußern. Infolgedessen hat die Meinungsforschung an Bedeutung gewonnen. Opinion Mining hilft Unternehmen nicht nur dabei, mit einem Mausklick mehr und relevantere Informationen über verschiedene Produkte und Dienstleistungen zu erhalten, sondern hilft auch dabei, fundiertere Entscheidungen zu treffen.

In dem Satz „Die Akkulaufzeit dieses Mobiltelefons ist sehr schlecht und dauert nicht einmal 4 Stunden“ steht beispielsweise die Meinung zur „Akkulaufzeit“ des mobilen Objekts (Zielgerät) und die Meinung ist negativ. Viele Anwendungen im täglichen Leben erfordern dies, und es ist eine eingehendere Analyse erforderlich, um zu entscheiden, welche Komponenten und/oder Merkmale des Produkts beim nächsten Upgrade umfassend vermarktet oder verbessert werden sollen.

Opinion Mining ist eine Herausforderung der Natural Language Processing (NLP), der Textanalyse und der Computerlinguistik. Hier erörtern wir den aktuellen Stand der Arbeiten, die sich auf nutzergenerierte Open-Web-Inhalte wie Bewertungen, Kommentare und Webinteraktionen auf Plattformen wie Microblogging-Websites, Foren und sozialen Netzwerken zur Meinungsforschung konzentrieren.

Stichwortsuche (Bag-of-Words-Ansatz) — Der traditionelle Ansatz zur Meinungsforschung

Text Mining

Im BoW-Modell wird ein Satz oder ein Dokument als „Tasche“ betrachtet, die Wörter enthält. Dabei werden die Wörter und ihre Häufigkeit, mit der sie im Satz oder Dokument vorkommen, berücksichtigt, wobei die semantische Beziehung in den Sätzen unberücksichtigt bleibt. Der Marketer erstellt Listen von Wörtern mit positiven und negativen Stimmungen (Samen) und sieht, welche Wörter in einem bestimmten Dokument vorherrschen (und markiert es als „keine Meinung“, wenn es nur wenige Wörter beider Typen gibt). Der Algorithmus erweitert diese Gruppe, indem er in einem Online-Wörterbuch nach ihren Synonymen und Antonymen sucht.

Ein herkömmlicher Ansatz zum Filtern aller preisbezogenen Nachrichten aus einer Reihe von Nutzerrezensionen zu einem Produkt besteht beispielsweise darin, eine Stichwortsuche nach Preis und anderen eng verwandten Wörtern wie (Preis, Gebühr, $, bezahlt) durchzuführen.

Diese Methode weist jedoch Mängel auf, die die Durchführung umfangreicher, anspruchsvoller Text-Mining-Aufgaben unwirksam machen.

Die Probleme mit diesem Ansatz

Die menschliche Einschränkung mit manueller Ontologie — Es ist fast unmöglich, sich alle relevanten Schlüsselwörter und ihre Varianten vorzustellen, die ein bestimmtes Konzept repräsentieren. Der Aufbau und die Pflege einer manuellen Ontologie haben erhebliche Auswirkungen auf das Genauigkeitsniveau.

Mangelndes Fachwissen — Wenn Wörterbücher in einem Fachgebiet erstellt und dann auf andere Probleme angewendet werden, können schwerwiegende Fehler auftreten. Viele Wörter, die in anderen Zusammenhängen negativ konnotiert sind, wie etwa „höhere Rohölpreise“, können im Zusammenhang mit dem Rohölunternehmen eine positive Konnotation haben. Außerdem fehlen bei solchen Ansätzen Formulierungen wie „Die kaputte Wirtschaft reparieren“ oder doppelte Negative wie „Der Geschmack war nicht schlecht“, die in alltäglichen Gesprächen häufig vorkommen.

Es ist Zeit für einen neuen Ansatz.

Textklassifizierung — Der fortschrittliche Ansatz zur Meinungsforschung

Text Mining

Am häufigsten verwendet

Maschinelles Lernen ermöglicht es Benutzern, KI für unstrukturierte Unternehmensinhalte einzusetzen. Es ist eine der bekanntesten Techniken, die aufgrund ihrer Anpassungsfähigkeit und Genauigkeit das Interesse von Forschern weckt. Es besteht aus vier Phasen: Datenerfassung, Vorverarbeitung, Trainingsdaten sowie Testen und Validieren der Ergebnisse. In den Trainingsdaten ist eine Sammlung von markierten Daten enthalten. Auf der Grundlage des Trainingsdatensatzes wird ein Modell erstellt, das zu Klassifizierungszwecken über dem neuen/unsichtbaren Text verwendet wird. Sammeln Sie genügend Meinungen — und analysieren Sie sie richtig — und Sie haben ein genaues Bild von den Gefühlen der schweigenden Mehrheit. Das bezieht sich nicht nur darauf, wie sich Menschen fühlen, sondern auch darauf, warum sie sich so fühlen, wie sie es tun.

Mustererkennung — Wie die Textklassifizierung der menschenähnlichen Klassifizierung von Text nahe kommt

Text Mining

In einem Klassifizierungsszenario führen wir einen Algorithmus zur Mustererkennung über einen kleinen Satz beschrifteter Trainingsdaten aus, um Textmuster zu berechnen, die stark mit dem Auftreten eines bestimmten Labels korrelieren (d. h. wenn das Muster

tritt auf, dann — mit hoher Wahrscheinlichkeit — auch das Etikett). Der Klassifikator identifiziert Beziehungen zwischen den Wörtern und speichert sie für die Analyse unsichtbarer zukünftiger Dokumente. Stellen Sie sich die Aufgabe vor, E-Mails mit Benutzerfeedback, die an ein großes Unternehmen gesendet werden, in E-Mails zu klassifizieren, in E-Mails, die positive und negative Stimmungen zum Ausdruck bringen. In diesem Zusammenhang könnte ein häufiges Textmuster, das eine hohe Korrelation zum negativen Etikett hat, lauten: „Ich werde zu XYZcorp wechseln“, wobei XYZcorp der Name eines Konkurrenten ist. Sobald der Klassifikator das gelernt hat, wird er in der Lage sein, andere neue Dokumente in Labels zu klassifizieren, genau wie es ein Mensch tun würde.

„Was treibt die Stimmung an?“ - Textklassifizierung bei der Arbeit

Text Mining

Wenn man versteht, was die Stimmung beeinflusst, können Meinungsdaten verwendet werden, um kritische Stärken und Schwächen aufzudecken. Diese Daten ermöglichen es Führungskräften, die gezielten strategischen Überarbeitungen vorzunehmen, die erforderlich sind, um die Rentabilität wiederzubeleben oder sinkende Marktanteile zurückzugewinnen.

Im öffentlichen Sektor können dieselben Daten verwendet werden, um Strategien und Kampagnen zu entwickeln, die bei den Wählern Anklang finden und auf die sich ändernden Bedürfnisse der Wähler reagieren. Durch die Isolierung der spezifischen Faktoren positiver und negativer Stimmungen auf Themenebene ermöglicht das Opinion Mining die Entwicklung eines unglaublich tiefen sozialen Verständnisses — ein Einblick in das Denken und Fühlen der Menschen.

Durch die Analyse von Gesprächen sowohl nach der Stimmung als auch nach den Themen, die diese Stimmung beeinflussen, könnte eine Privatkundenbank feststellen, dass Kundenkritik, Warteschlangenlänge und Wartezeiten an erster Stelle stehen.

Eine Fast-Food-Kette könnte daran interessiert sein zu erfahren, dass im Vergleich zu ihrem engsten Konkurrenten viele ihre Portionsgröße für zu klein halten, obwohl ihr freundlicher Kundenservice von Vorteil ist.

Bei Komprehend machen wir es unseren Benutzern sehr einfach, auf maschinellem Lernen basierende Textklassifizierungslösungen ohne Hintergrund in der Datenwissenschaft zu verwenden.

Sie können entweder eine unserer Standardlösungen zur Textklassifizierung verwenden wie Stimmungsanalyse und Emotionsanalyse oder erstellen Sie Ihren eigenen Klassifikator mit Benutzerdefinierte Klassifizierer-API. Alle APIs sind verfügbar in Google Sheets-Add-on um Text Mining bequem von Ihren Tabellenkalkulationen aus durchzuführen.

Für Unternehmen können Textklassifizierungsmodelle für die Bereitstellung vor Ort oder in der privaten Cloud lizenziert werden, um eine niedrige Latenz und die Einhaltung der Datenschutzgesetze zu gewährleisten.

Sie können auch weitere unserer Lösungen zur Textklassifizierung erkunden hier.

Du kannst lesen hier über Anwendungen und Anwendungsfälle der Textklassifizierung.

Wir hoffen, dir hat der Artikel gefallen. Bitte Melde dich an für ein kostenloses Komprehend-Konto, um Ihre KI-Reise zu beginnen. Sie können sich auch Demos der Komprehend KI-APIs ansehen hier.