Identificação de contas falsas e bots do Twitter usando inteligência artificial

Ready to get Started?

A conectividade que o mundo alcançou devido às mídias sociais tem um outro lado. Tem sido extensivamente informado que as incidências de spam por bots e contas falsas no Twitter vêm aumentando. Essas contas podem ajudar a divulgar notícias e opiniões falsas, criando confusões e, potencialmente, espalhando boatos. Além disso, usar bots e contas falsas para divulgar um tópico no Twitter ou gerar curtidas artificiais é tornando-se comum. O Twitter, em particular, é um dos piores sofredores dessa “tragédia dos comuns” devido à sua abertura. Os talentosos engenheiros do Twitter respondem com mudanças regulares de produtos e políticas para conter essa ameaça, mas o problema ainda persiste. Enquanto a corrida armamentista entre os spammers e o Twitter continua, tentamos determinar se a IA pode ajudar um buscador de informações a se manter atualizado.

Fake 2 — O Twitter está sofrendo com o antigo problema chamado “Tragédia dos Comuns”

Para eliminar contas falsas usando IA, primeiro precisamos definir o que constitui uma conta falsa. Tivemos duas hipóteses sobre o tipo de contas falsas que poderiam existir. Quando tentamos descobrir essas contas usando algoritmos de IA, descobrimos que essas duas hipóteses poderiam de fato nos ajudar a definir contas como “falsas” com certa probabilidade. Na Karna Analytics (uma divisão da ParallelDots), nossa equipe de pesquisa de aprendizado de máquina realizou vários experimentos para rastrear esses tipos de contas e as categorizou em dois tipos: “Usuários de spam” e “Usuários de bots” com base na atividade e no conteúdo da postagem.

Nesta postagem do blog, falamos sobre nossa abordagem que usamos para detectar “usuários de spam” (ou “spammers”) e bots do Twitterbots que publicam uma grande quantidade de conteúdo malicioso e de spam na plataforma. Discutimos como nossa abordagem pode ser usada para melhorar a qualidade da pesquisa realizada usando dados das mídias sociais. Fizemos nossa análise com base nos dados que rastreamos para duas hashtags populares: #Presidentielle (Para as eleições presidenciais francesas de 2017, que previsto corretamente usando IA) e #Jio (Uma empresa de telecomunicações popular na Índia).

Eliminando spammers

A hipótese: os spammers não são muito bons em enviar spam

Observamos que fazer com que contas falsas tuitem e aumentem as menções sobre um #hashtag e o tornem um tópico popular é um dos truques mais comuns de spam (procure no Google por “serviços de tendências de hashtags do Twitter” e você sabe o que queremos dizer). Do ponto de vista dos spammers, publicar tweets de muitas contas falsas, e isso também em uma rápida sucessão, é uma tarefa desafiadora. Idealmente, um spammer deve postar tweets relevantes, mas diferentes uns dos outros, para que a tendência pareça genuína. Nossa hipótese principal é que conseguir isso dentro das restrições de tempo e dinheiro é um desafio e os possíveis spammers acabam fazendo pouco para editar seus tweets. Como visto abaixo, até mesmo celebridades que tuitaram sobre Jio (provavelmente como parte da estratégia de marketing de influenciadores) acabaram postando os mesmos tweets.

‍

Fake 3 — Celebridades que publicam tweets semelhantes apoiam nossa hipótese de que os spammers fazem poucos esforços para editar seus tweets antes de postar.

‍

Com base nessa ideia, descobrimos que os spammers podem ser identificados com eficácia se analisarmos todos os tweets sobre um tópico e descobrirmos os tweets que estão contextualmente muito próximos uns dos outros, feitos em um período muito curto (~ 15 minutos). Para isso, usamos nosso algoritmo proprietário de análise de texto chamado Similaridade semântica para agrupar tweets contextualmente semelhantes. Para fazer uma analogia com o mundo real, pretendemos usar a IA para examinar de perto as folhas de respostas dos alunos para identificar quem trapaceou durante o exame. Para aqueles que desejam obter alguma intuição sobre como isso funciona, adicionamos abaixo uma visualização de como agrupamos tweets que são contextualmente semelhantes.

‍

Fake 4 — Um conjunto de tweets que falam contextualmente sobre os preços da associação ao Jio Prime

‍

Analisamos mais de 50.000 tweets para #Presidentialle e #Jio e usamos a técnica de similaridade semântica para identificar grupos de usuários que publicam tweets muito semelhantes várias vezes. Produzimos a lista abaixo de possíveis spammers com base na semelhança contextual e na frequência de seus tweets. Se você pesquisar esses usuários no Twitter, perceberá que algumas contas de usuários já foram excluídas ou não aparecem nos resultados da pesquisa, pois também foram classificadas como spammers pelo Twitter.

‍

Fake 5.2 — Potenciais spammers para Jio e Presidentille

‍

É importante observar que o usuário '@JioCare' é o identificador de suporte ao cliente da Reliance Jio. Ele é classificado como um potencial spammer pelo nosso modelo por causa de suas respostas padrão às consultas dos usuários. Por exemplo, o identificador pode responder com uma nota padrão para uma avaliação detalhada da consulta:

Fake 6 — Os tweets de resposta do cliente da Jio são genéricos e, portanto, foram classificados como possíveis spammers.

‍

Como você pode ver nas listas, os usuários tuitaram várias vezes no período selecionado. A semelhança semântica agrupa os Tweets contextualmente semelhantes e os identificadores desses usuários podem ser identificados.

Por que a filtragem de spam é importante?

Filtrar os usuários de spam permite que você ouça as opiniões imparciais dos usuários sobre um tópico e filtre o ruído criado pelos spammers. Estamos listando alguns casos de uso da filtragem de spam:

Obtenha dados exclusivos e imparciais para analisar o que os usuários estão falando sobre sua marca.
Avalie o desempenho de uma campanha de marketing específica no Twitter para entender se os tweets foram gerados orgânica ou artificialmente por spammers.
Entenda melhor a personalidade do seu cliente eliminando os spammers.
Organizações políticas e agências de inteligência podem usar a filtragem de spam para analisar contas falsas que estão enviando spam e promovendo sua agenda ideológica.

Essa abordagem é uma das muitas que testamos com sucesso para encontrar usuários com spam. Agora, discutiremos como identificamos com sucesso os usuários de bots usando uma abordagem semelhante.

Detectando bots do Twitterbot

Os Twitterbots automatizam e agilizam o processo de entrega de conteúdo. UM estudar estimou que o número de bots ativos no Twitter pode chegar a 15% do total de usuários.
Inicialmente, os Twitterbots foram criados para reduzir o esforço humano. Veja o Netflix Bot como exemplo. Ele tuita sempre que um novo programa ou filme é adicionado à Netflix.

‍

Também existem alguns extraordinários. Por exemplo, alguém criou uma versão on-line muito inteligente do Big Ben, que marca a passagem de cada hora, conforme mostrado no tweet abaixo. Agora que a humanidade está passando cada vez mais tempo on-line, seria apenas uma questão de tempo que nossos monumentos também começassem a ter uma presença on-line.

BONG BONG BONG BONG BONG BONG BONG BONG BONG BONG BONG

— Big Ben (@big_ben_clock) 31 de maio de 2017

Mas há uma grande manada de Twitterbots que publicam uma grande quantidade de conteúdo malicioso e spam na plataforma. Tenho certeza de que você também pode encontrar alguns em sua lista de seguidores. De acordo com a Wikipedia, os bots também tiveram um papel a desempenhar nas eleições presidenciais dos EUA em 2016.

Um subconjunto de bots do Twitter programados para realizar tarefas sociais desempenhou um papel importante na eleição presidencial dos Estados Unidos em 2016. Os pesquisadores estimaram que os bots pró-Trump geraram quatro tweets para cada conta automatizada pró-Clinton e superaram os bots pró-Clinton em 7:1 em hashtags relevantes durante o debate final. Os bots enganadores do Twitter enganaram candidatos e funcionários da campanha fazendo-os retuitar citações e contas indevidas afiliadas à Incendiary ideais.
-Wikipédia

Os bots do Twitter e os spammers tentam obscurecer a visão de outros usuários promovendo constantemente notícias e opiniões falsas. Como não é necessário nenhum esforço humano, os bots podem continuar tuitando incansavelmente sobre um tópico e ajudar a torná-lo uma tendência. Para um analista político, pesquisador de mercado ou qualquer outra pessoa que queira fazer uma análise aprofundada usando as mídias sociais, é importante identificar e filtrar esses bots para obter opiniões genuínas e imparciais.

A hipótese

A ideia por trás de nossa abordagem baseada em IA para identificar bots nas mídias sociais é baseada nesta hipótese: “Os tweets feitos por bots estão relacionados a um tópico/contexto muito restrito, enquanto os tweets humanos são muito mais diversos”.

Como fizemos isso

Para usar essa abordagem para identificar automaticamente os bots, rastreamos os últimos tweets publicados por uma grande amostra de contas do Twitter. Para cada conta, convertemos o texto do Tweet em vetores e calculamos a similaridade verificando as métricas de distância média desses Tweets. Garantimos que a amostra de contas fosse diversa.
Se um identificador tuitar sobre o mesmo tópico e tema, os tweets (pontos de dados individuais) estarão localizados próximos ao hiperespaço devido à semelhança semântica. Esses tweets semelhantes agrupados formam um cluster. Podemos quantificar a semelhança calculando a distância do cosseno entre quaisquer dois pontos de dados.

‍

‍

A tabela abaixo representa os resultados da análise. Aqui, a distância média é a média de todas as distâncias de cosseno entre os pontos de dados individuais. Quanto menor a distância média, mais parecidos são os Tweets. Claramente, você pode inferir isso a partir da tabela. O Big Ben Bot mencionado acima tem a menor distância média entre os escolhidos, pois suas postagens contêm apenas a palavra 'BONG'.

‍

‍

Também escolhemos algumas contas de 'spammers' para destacar a diferença entre um bot e um spammer. Os spammers publicam sobre vários tópicos de vez em quando, mas os bots geralmente publicam sobre um tema específico. Assim, sua distância média é muito maior do que a do bot. Observe que, a distância média de Notícias da TOI India (principal editora de notícias indiana) está mais próxima da distância média dos bots. Geralmente, esses identificadores seguem uma estrutura padronizada para publicar notícias. Portanto, tem uma distância média relativamente menor.

Impactos dos bots no mundo real

Aqui estão alguns casos em que os Twitterbots foram influentes e por que é importante identificá-los.

O número de seguidores nas redes sociais é considerado uma métrica de popularidade para celebridades. Mas é mesmo? Conforme mencionado anteriormente, cerca de 15% dos usuários do Twitter podem ser bots. Assim, vários seguidores não aparecem como uma métrica concreta de popularidade. Durante as eleições presidenciais dos EUA em 2012, foi informado que Os 29,9% dos seguidores de Barack Obama podem ser bots/falsos e esse número para Mitt Romney foi de cerca de 21,9%. O número de seguidores após a remoção de bots e spammers pode servir como uma melhor métrica de popularidade.
Dizem que os Twitterbots influenciam as opiniões dos eleitores ao twittar e retuitar toneladas de conteúdo pró-Trump durante as eleições presidenciais dos EUA em 2016. Como mencionado anteriormente, Os bots pró-Trump geraram quatro tweets para cada conta automatizada pró-Clinton e superaram os bots pró-Clinton em 7:1 em hashtags relevantes durante o debate final. Parte do conteúdo compartilhado por esses bots era falso e enganador. Assim, torna-se muito importante identificar claramente esses bots para obter pontos de vista e opiniões apenas de pessoas reais.
As eleições presidenciais francesas recentemente concluídas também tiveram o envolvimento de bots. Pouco antes da eleição, 9 GB de documentos confidenciais de campanha relacionados a Emmanuel Macron foram publicados on-line. Os Twitterbots continuaram postando sobre o assunto e ajudaram a tornar o assunto popular horas antes da eleição. No entanto, parece ter tido pouco efeito no resultado, já que Macron venceu confortavelmente (o que previmos corretamente usando a IA).
Suponha que uma marca contrate uma agência de marketing para uma campanha publicitária. No entanto, para avaliar a eficácia da campanha, é importante entender se a viralidade da campanha foi causada por spammers/bots. Nesse caso, isso pode ter um efeito negativo na marca e a marca será uma falácia do aumento do número de seguidores. Esses bots não são os clientes reais. Portanto, é uma perda dos dois lados para a marca.

Esses são alguns lugares notáveis em que os bots influenciaram a visão do público. Embora tenham como objetivo um papel melhor nas mídias sociais, os bots agora estão sendo direcionados principalmente como spam no Twitter. As plataformas de mídia social estão constantemente sendo otimizadas para lutar contra essa ameaça. Como qualquer outra tecnologia, se usados de forma ética, os bots podem ajudá-lo de várias maneiras. Ele pode ajudá-lo no suporte ao cliente, marketing e desenvolvimento geral de negócios. Tempos interessantes estão por vir, pois o futuro abre as portas para a era da inteligência de máquina. Cabe aos algoritmos inteligentes de IA nos ajudar a eliminar gradualmente spam, bots e conteúdo falso das plataformas de mídia social.

O estudo acima foi realizado por Inteligência Artificial Karna, divisão de pesquisa de mercado da ParallelDots Inc.

APIs de IA do ParallelDots , é um serviço web baseado em Deep Learning da ParallelDots Inc, que pode compreender uma grande quantidade de texto não estruturado e conteúdo visual para capacitar seus produtos. Você pode conferir alguns dos nossos APIs de análise de texto e entre em contato conosco preenchendo este formulário aqui ou escreva para nós em apis@paralleldots.com

‍

Subscribe to the ParallelDots newsletter.

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.