Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Estudo de caso: "More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked" #6

Open
fititnt opened this issue Dec 7, 2017 · 0 comments

Comments

@fititnt
Copy link
Member

fititnt commented Dec 7, 2017

O texto abaixo é uma tradução automática de máquina do original em More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked , que recomendo para quem sabe inglês ou quer ver os links originais (ou futuras atualizações)


Mais de um milhão de comentários pró-revogação Net Neutralityeram provávelmente ​​falsos

De: Jeff Kao (Data Scientist, Software Engineer, Language Nerd, Biglaw Refugee. jeffykao.com | Estudante @ Metis SF)

Utilizei técnicas de processamento de linguagem natural para analisar comentários de neutralidade da rede submetidos à FCC de abril a outubro de 2017, e os resultados foram perturbadores.

1_shwyie0km5ryxpebfgpttg

[Atualização em 11-29-2017: publiquei vários conjuntos de dados e meu código contendo o suficiente para você reproduzir a análise. Por favor, compartilhe com o resto de nós o que mais você encontra - * recebe no soapbox * - uma internet gratuita sempre será preenchida com narrativas concorrentes, mas análises de dados bem pesquisadas e reprodutíveis podem estabelecer uma verdade no solo e ajudar a cortar tudo isso. Olhe ansioso para ver suas análises e haverá mais dados por vir!]

O procurador-geral da Holanda, Schneiderman, estimou que centenas de milhares de identidades dos americanos foram roubadas e usadas em campanhas de spam que apoiam a revogação da neutralidade da rede. Minha pesquisa encontrou pelo menos 1,3 milhão de falsos comentários pró-revogação, com suspeitas sobre muitos mais. Na verdade, a soma de falsos comentários pró-revogação no processo pode ser em milhões. Nesta publicação, vou apontar uma apresentação particularmente espelotípica do spambot, fazer com que existam muitos outros spambots pro-revogatórios ainda por confirmar e estimar a posição pública sobre a neutralidade da rede nas inscrições públicas "orgânicas" .¹

Principais achados: ²

  1. Uma campanha de spam pro-revogação usou a junção de correio para disfarçar 1,3 milhões de comentários como envios únicos de base.
  2. Havia provavelmente várias outras campanhas destinadas a injetar o que pode totalizar vários milhões de comentários pró-revogação no sistema.
  3. É altamente provável que mais de 99% dos comentários verdadeiramente únicos 3 tenham sido favoráveis ​​à manutenção da neutralidade da rede.

Rompendo as Submissões

Dadas as irregularidades bem documentadas ao longo do processo de submissão de comentários, ficou claro desde o início que os dados seriam duplicativos e bagunçados. Se eu quisesse fazer a análise sem ter que configurar as ferramentas e a infra-estrutura tipicamente usadas para "dados grandes", eu precisava quebrar os comentários 22M + e 60GB + de dados de texto e metadados em partes menores.

Assim, contei muitos comentários duplicados 5 e cheguei a 2.955.182 comentários únicos e suas respectivas contagens duplicadas. Em seguida, mapeei cada comentário em vetores espaciais semânticos e executei alguns algoritmos de agrupamento sobre o significado dos comentários. Esse método identificou quase 150 clusters de textos de submissão de comentários de vários tamanhos.

Depois de agrupar categorias de comentários e remover duplicatas, descobri que menos de 800.000 dos comentários de 22M + enviados à FCC (3-4%) poderiam ser considerados verdadeiramente únicos.
Aqui estão os 20 melhores "campanhas" de comentários, representando um enorme 17M + dos submissões de 22M +:

1_8xmftjhqmrlrb9fjbfas8w

A grande maioria dos comentários da FCC foram enviados como duplicatas exatas ou como parte de campanhas de carta-escrita / spam.
Então, como podemos saber de quais são campanhas publicitárias publicas legítimas, e quais desses foram bots?

Identificando 1,3 milhão de comentários de Spam com fusos de correio

O primeiro e maior cluster de documentos pró-revogação foi especialmente notável. Ao contrário dos outros clusters que eu encontrei (que continha muita linguagem repetitiva), cada um dos comentários aqui era exclusivo; no entanto, o tom, a linguagem e o significado em cada comentário foram em grande parte uniformes. O idioma também foi um pouco excitado. Curioso para cavar mais fundo, usei expressões regulares para combinar as palavras nos comentários agrupados:

1_shwyie0km5ryxpebfgpttg 1

Eu achei o termo "Pessoas como eu" particularmente irônico.

Acontece que existem 1,3 milhões destes. Cada frase nos comentários falsificados parece que foi gerada por um programa de computador. Uma mala direta trocou em um sinônimo para cada termo para gerar comentários únicos .¹⁰ Era como louco-libs, exceto para astroturf .

Ao colocar apenas cinco desses lado a lado com o destaque, como acima, está claro que há algo de pesado acontecendo. Mas quando os comentários estão espalhados entre os 22 + milhões, muitas vezes com palavras muito diferentes entre pares de comentários, posso ver como é difícil de pegar. As técnicas de agrupamento semântico, e não as técnicas típicas de correspondência de cordas, fizeram um ótimo trabalho para fazer isso.

Finalmente, foi particularmente divertido ver esses comentários de spam em um só lugar, pois são exatamente o tipo de argumentos de política e o idioma que você espera ver nos comentários da indústria sobre a revogação proposta¹¹, ou, atualmente, nas próprias declarações do Comissário da FCC louvando a revogação .¹²

Os comentários Pro-Revogação foram mais Duplicativos e em blocos muito maiores

Mas apenas porque o maior bloco de submissões pró-revogação revelou-se uma campanha de spam pré-mediada e orquestrada¹³, não é necessariamente que existam muitos mais spambots pro-revogáveis ​​a serem verificados, certo?

Como resultado, os dois maiores comentários seguintes na lista ("Em 2015, o presidente Tom Wheeler ..." e "O poder regulatório sem precedentes que a Administração de Obama impôs ...") já foram retirados dos relatórios anteriores como possíveis astroturf também.

Saindo a lista, cada cluster / duplicado de comentários precisaria de sua própria investigação, que está além do escopo desta postagem. Podemos, no entanto, ainda obter uma compreensão da distribuição de comentários, tendo uma visão mais ampla. Repetindo o gráfico de barras acima, quebrando os principais comentários da FCC, vejamos as 300 principais campanhas de comentários que compõem um surpreendente 21M + dos submissões de 22M +¹⁴:

1_sc4-r2waerrgnnl90do3ja

A partir deste gráfico, podemos ver que os comentários pró-revogação (há aproximadamente 8,6 milhões deles) são muito mais prováveis ​​de serem duplicatas exatas (barras vermelhas escuras) e são submetidos em blocos muito maiores. Se até 25% desses comentários pró-revogação tiverem sido spam, isso ainda resultaria em mais de 2 milhões de falsos comentários pró-revogação, cada um com um endereço de e-mail anexado. Mais uma verificação deve ser feita nos endereços de e-mail usados ​​para enviar esses prováveis ​​comentários de spam.

Por outro lado, os comentários em favor da neutralidade da rede eram mais propensos a desviar-se de uma carta de formulário (verde claro, em oposição às barras verdes escuras) e eram muito mais numerosas na cauda longa. Se o tipo, o meio de submissão e os comentários dos comentários de ambos os lados fossem iguais, esperamos uma distribuição grosseira de luz e escuro, vermelho e verde, em todas as barras. Provavelmente não é esse o caso aqui.

Comentários públicos orgânicos: 99% + Suporte, mantendo a Neutralidade da Rede

E quanto aos menos de 800,000 comentários enviados que não eram duplicados ou agrupados como parte de uma categoria de comentários? Será que a tendência dos comentários em favor da neutralidade da rede continua na longa cauda?

Acontece que as estatísticas da velha escola nos permitem tomar uma amostra representativa e obter uma boa aproximação da proporção da população e um intervalo de confiança. Depois de tirar uma amostra aleatória de 1000 comentários dos 800 mil comentários orgânicos e digitalizá-los, eu só consegui encontrar três comentários que eram claramente pró-revogação. ¹⁶ Isso resulta em uma estimativa da proporção da população em 99,7%. Na verdade, estamos tão perto da neutralidade da rede 100% que o intervalo de confiança vai para fora de 100% .¹⁷ No mínimo, podemos concluir que a vasta preponderância de indivíduos apaixonados pelo assunto para escrever seu próprio comentário são para mantendo a neutralidade da rede.

Ah, e por favor demore um minuto para verificar as amostras que forneci. Esses são os comentários de pessoas reais afetadas por essa decisão, que falam mais pessoalmente e devastadoramente sobre seus impactos:

Tenho 82 anos, deficientes e domiciliários, mas não solitários, porque tenho internet gratuita. Posso percorrer o mundo. use o Facebook para visitar amigos familiares. Posso vender o meu trabalho no Etsy, sem medo de que a Amazon obtenha preferência se a lei de 2015 for revogada. Se você (a FCC) já não teve supervisão, meu ISP poderia aumentar seus preços para que eu não pudesse ter acesso à Internet! Estou confiando na FCC para me proteger e outros como eu .¹⁸


Conclusão

A participação pública e o envolvimento cívico são fundamentais para uma democracia em funcionamento. É assustador pensar que as vozes orgânicas e autênticas no debate público - mais de 99% dos quais são favoráveis ​​à manutenção da neutralidade da rede - estão sendo prejudicadas por um coro de spambots. ¹⁹ Já vivemos em um momento de baixa fé nas instituições públicas e, devido a essas descobertas, receio que o processo federal de comentários públicos regulatórios possa ser mais um fórum público perdido por spam e desinformação.

Com o esmagador apoio público real para manter a neutralidade da rede, é irresponsável que a maioria da FCC simplesmente agite sua mão e desconsidere a opinião pública no último projeto de ordem , apenas por causa de irregularidades no registro público ou porque os comentários públicos não foram escritos em legalese .

O escritório do presidente da FCC, Ajit Pai, não só precisa fornecer as evidências solicitadas pela AG Schneiderman, eles precisam responder aos pedidos da FOIA sobre os comentários públicos da neutralidade da rede com franqueza e transparência, para restaurar a confiança pública no processo de regulamentação da FCC.

Notas Adicionais:

  • Houve algumas ótimas análises focadas nos elementos não-textuais das submissões, por exemplo, seu tempo, os endereços de e-mail usados ​​e outros metadados. Grite para o trabalho de Jeffrey Fossett, que fez uma análise de primeira passagem dos comentários parcialmente submetidos em maio que inspiraram esta publicação e alguns dos métodos usados ​​na análise, para Chris Sinchok , GravWell e muitos outros posts que estudei na preparação essa análise.
  • Deixe-me saber aqui se você tiver dúvidas ou gostaria de acessar o conjunto de dados que tirei do sistema de submissão ECFS da FCC - se o suficiente solicitarem, posso hospedar o conjunto de dados no Google BigQuery para que você possa executar consultas SQL no ~ 64 GB conjunto de dados por conta própria.

Notas de rodapé:

¹ Ou seja, não de um spambot ou parte de uma campanha identificada.

² Divulgação total: eu era um funcionário do direito do verão para a Comissária Clyburn em 2010, e embora eu admire muito seu recente trabalho defendendo a neutralidade da rede , as opiniões e POV nesta postagem são minhas.

³ Não agrupado como parte de uma campanha de envio de comentários, nem um comentário duplicado.

⁴ Dados coletados desde o início das inscrições (abril de 2017) até 27 de outubro de 2017. O script de rascunho de comentários de longa duração sofria de algumas desconexões e eu estimado que eu perdi ~ 50,000 comentários por causa disso. Mesmo que o Período de Comentário Público de Neutralidade Líquido terminou em 30 de agosto de 2017, o sistema FCF ECFS continuou a fazer comentários depois, que foram incluídos na análise.

⁵ Eu usei uma função hash md5, que teve uma taxa de colisão suficientemente baixa e me permitiu (relativamente) encontrar rapidamente e contar duplicatas. Eu lancei envios sem texto de comentário expresso, mas de outra forma não fiz qualquer outro texto de pré-processamento no texto antes de codificação e agrupamento, a fim de preservar os artefatos no texto que possam fornecer pistas sobre o método de submissão.

⁶ A large proportion of these ~3 million “unique” comments were essentially duplicates — only differing by a few characters or words or having a different signature. In order to conclusively and exhaustively categorize these comments, I chose to group comments by meaning. Comments were turned into document vectors comprised of the average of all word vectors in the comment. The word vectors were obtained from spaCy, which uses the word vectors from the paper by Levy and Goldberg (2014). [Correction from Matthew Honnibal: spaCy now uses the GloVe vectors by Pennington et al.]

⁷ Eu fiz duas passagens ao agrupar os vetores do documento. Primeiro com o DBSCAN com uma métrica de distância euclidiana em um epsilon muito baixo para identificar clusters óbvios [ Atualização em 11-25-2017: depois de revisar o código antigo e dar um pouco mais de detalhes, usei HAC para escolher os clusters mad-lib ] e Tire-os manualmente usando uma assinatura de string. Isso deixou ~ 2 milhões de comentários únicos. A partir desses 2 milhões, usei HDBSCAN em uma amostra de 100 000 comentários com distância coseno para identificar clusters "mais soltos" e, em seguida, costumava approximate_predict()classificar os comentários remanescentes dentro dos clusters identificados ou como outliers. Removendo duplicatas, isso resultou em menos de 800,000 comentários exclusivos "orgânicos". [Correção: como o autor HDBSCAN, Leland McInnes, observa abaixo, as distâncias de coseno ainda não funcionam bem com o HDBSCAN - para ser exato, usei a métrica de distância euclidiana entre os vetores de doc normalizados, que normalmente funcionam bem como um substituto. ]

⁸ Dimensionado das dezenas para milhões.

⁹ Expressão regular neste pastebin .

¹⁰ Isso ocorre porque as combinações de configurações de comentários crescem exponencialmente com cada conjunto de sinônimos introduzidos. Além disso, para ser preciso, houve alguns comentários loucos que foram duplicados uma vez, mas não mais do que isso.

¹¹ Página 3 dos Comentários da Verizon (enviado em 30 de agosto de 2017)

¹² Declaração do Presidente da FCC Pai no Projeto de Ordem (publicado em 21 de novembro de 2017)

³³ Embora existam outras explicações possíveis para este conjunto de resultados, acho que a Navalha da Occam deve se inscrever. Mais investigação sobre o tempo e os e-mails usados ​​para esta campanha em particular forneceria evidências mais corroborantes.

¹⁴ Plotado em uma escala de log para que você ainda consiga ver a cor das barras menores.

¹⁵ Como o autor do estudo Gravwell afirma: "[A evidência] nos obriga a concluir que o próprio ato de ir ao site de comentários da FCC e fornecer um comentário é atraente para aqueles de uma certa inclinação política, ou que o volume a informação da submissão está cheia de mentiras ".

¹⁶ Os comentários pro-revogação estão nas linhas 176, 228, 930 no pastebin . Também pareciam ter três defensores da neutralidade da rede que pareciam confusos sobre a terminologia (linhas 332, 366, 901) e um script kiddie (linha 261). É possível que eu tenha perdido uma ou duas, e estou feliz em corrigir quaisquer erros neste conjunto de comentários se você os encontrar.

¹⁷ Meu colega mais estatisticamente inclinado me informa que o teorema do limite central se divide nos limites extremos (onde a proporção da população é próxima de 0% ou 100% de uma população), que eu tomei sua palavra / especialização para, por enquanto, e aprenderá mais tarde. [ Editar: Eu encontrei uma boa adição a isso em um comentário reddit . O intervalo é de 99,12% a 99,90%, 19 vezes em 20 ].

¹⁸ Linha 102 no Pastebin .

¹⁹ [Uma última adição tardia: para que eu não dê intencionalmente a impressão errada às pessoas que não acompanharam o debate da neutralidade da rede, eu quero ficar claro que houve campanhas suspeitas de todos os lados do debate do texto - apenas análise; no entanto, nenhum deles foi tão numeroso e tão intencionalmente disfarçado como os comentários "únicos" de 1.3M identificados na postagem.]

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant