Total de visualizações de página

quinta-feira, 22 de junho de 2017

Big Data e a democracia, segundo a Newsweek.


A revista Newsweek, de 16 de junho de 2017, trouxe uma reportagem inquietante sobre Big Data, manifestada na sua capa.  “Como Big Data está corrompendo a democracia, via a lavagem cerebral”. Estava aqui nos EUA, saindo do DGIQ-Data Governance & Information Quality, onde os assuntos “dados” e privacidade foram amplamente discutidos. “Big Data”, foi um tema muito tratado nas sessões mais tecnológicas, das quais participei, e “Privacidade”, de forma colateral, foi  destaque nas sessões mais focadas em GDPR-A Regulação da União Europeia sobre proteção aos dados. Claro que resolvi mergulhar na reportagem da revista, escrita em 12 páginas, pela importância do tema. Abaixo a síntese do que observei:
a)As coisas começaram pela suspeita de que a eleição de Trump tenha sido ganha, em parte, devido à ação da sua equipe digital, comandada por seu genro, Jared Kushner, hoje chefe do Escritório de Tecnologia e Inovação do Governo Americano. Ele, depois de um curso no FB(FaceBook), montou um forte time de especialistas para trabalhar o perfil dos quase 220 milhões de eleitores, que segundo dizem, está disponível nos Data Lakes de Zuckerberg. Nessa mina de ouro, há informações sobre o eleitorado americano, com detalhes maiores do que seríamos capazes de imaginar. Os dados dariam uma formidável possibilidade de estudos analíticos, passíveis de produzirem detalhes sobre comportamento, pensamento e emoções de todos os americanos e dos “facebuqueiros” do planeta. Já existiria uma ferramenta para tal, capaz de analisar os milhares de “data points” que cada um de nós teríamos nos Data Lakes gigantescos do FB.
b)A primeira suspeita surgiu numa apresentação, antes da eleição, feita por uma empresa, acerca de um produto chamado “Cambridge Analítica”, originado de estudos/pesquisas de AI(Inteligência Artificial) e desenvolvido na famosa Universidade que lhe dá parte do nome . O produto da classe dos “Analytics” seria capaz de produzir o que chamam de “perfil psicográfico”, onde certas dimensões da nossa “forma de ser e pensar” seriam detectadas pela análise do “Likes” que damos, ou pelos livros que lemos, ou dos dados que mostramos, por espontaneidade ou por indução. Na demonstração, foi feita uma análise com drill-down, a partir de um conjunto de dados de pessoas selecionadas e gradativamente sendo segmentado em conjuntos menores e mais focados, que por sua vez dariam origem a outros sempre com um foco refinado, até chegar num certo indivíduo específico. Isso se chama microtargeting e já é usado em outros campos, inferindo consumos e hábitos de internautas no mundo do marketing digital. No caso da aplicação política, o objetivo (foi) é criar um mecanismo de identificação de grupos de pessoas que possam ser persuadidas por mensagens que lhes falem de forma mais significativa. Se não para comprarem seus produtos, mas para “comprarem” ideias e aderirem aos candidatos “digitais” em eleições.
c)Segundo a reportagem, teoricamente as pessoas podem ser subdivididas em 2 grandes grupos gerais: As emotivas e as cognitivas. As emotivas são as mais susceptíveis a argumentos que lhes tocam em pontos vitais da camada emocional e são deixadas levar mais facilmente por ações de convencimentos (por exemplo, alguém que se vê “incomodado” com o excesso de estrangeiros no pais e tem uma tênue prevenção contra imigrantes, recebe um posicionamento de um candidato com forte propensão à criação de barreiras à migração. Bingo!). Os outros seriam os cognitivos, aquelas pessoas que, julgam ou decidem por aspectos de cognição(conhecimentos) e são mais resistentes à e-mails/propagandas de sedução fácil. Aplicam sempre um filtro mais racional antes de darem um passo.  Essa é a base da segmentação desejada por partidos políticos para poderem criar as táticas de persuasão digital, com a lupa do microtrageting apontada para as devidas camadas, sobre as quais desejam interferir.
d)A aplicação do sistema Cambridge Analytica foi baseada em algoritmos de “Cluster Analysis” já usados há anos pela IA(Inteligência artificial), principalmente no foco de segmentação de clientes por hábitos de compras e preferências. A Universidade de Cambridge não confirma a derivação do produto aplicado nas análises do Partido Republicano(vencedor), mas oferece , no seu site, um link para que você  a experimente no seu perfil. O repórter do Newsweek autorizou a análise do seu perfil de FB e eu também fui experimentar. Ao final deste artigo, mostrarei, alguns pontos sobre como que a inteligência artificial me avaliou dentro dos conceitos de perfis psicográficos. A ideia é entender as pessoas, baseadas nos seus dados no FB, procurando as tendências psicológicas descritas no acrônimo OCEAN: Openness(abertura), Conscientiousness (consciência), Extraversion(extroversão), Agreableness(concordância) e Neuroticism(instabilidade emocional ). Antes de analisar o “OCEAN” do eleitorado, a  equipe de Trump teria enriquecido o Banco de dados de 220 milhões de americanos com informações de registros de votação, registro de propriedade de armas, histórias de compras por cartões de créditos, além de outros trazidos de fontes monolíticas de dados como Experian(no Brasil, Serasa-Experian),Data Logix(grande rastreadora de hábitos de consumo, hoje pertencente à Oracle),Epsilon(outra gigante que fornece dados para aplicações de marketing direcionado)e Axciom, talvez a maior empresa americana em coleta e tratamento de dados.Com esse poder de fogo, foi montado o Projeto Alamo, que pode ter direcionado a virada de jogo na campanha de 2016, com a vitória de Trump. Os Republicanos não foram os primeiros(os democratas já haviam tentado algo, via Catalist), mas foram aqueles que cruzaram o poder de fogo do Lookalike do FB(busca por pessoas com hábitos e jeitos semelhantes aos seus amigos/clientes, mas que ainda não são) com o microtargeting. Assim, a campanha de Trump pôde estender seus tentáculos para assuntos considerados normalmente fora da “Overton Windows”, protocolo político contendo uma lista de assuntos considerados “politicamente incorretos” e que não devem ser tratados diretamente em discursos e políticas governamentais (sic).
e)Em resumo, segundo a Newsweek, na eleição de 2016, a Inteligência artificial com Big Data permitiu que conceitos cinzentos como (sentimentos de racismo, supremacia branca, restrições a refugiados, antissemitismo e misoginia violenta) alcançassem targets simpáticos de forma direta, porém silenciosa. Tudo pelos efeitos dos algoritmos de mineração e dos exabytes armazenados sobre nós.  Para 2020 prevê-se que esses algoritmos estarão mais refinados e a produção destas mensagens focadas alcançará um nível de automação infinitamente maior, quando centenas e milhares delas serão produzidas e distribuídas. Essa é a teoria desenvolvida no artigo da Newsweek, e que coloca o conceito de Big Data com analytics, cada vez mais na alça de mira da proteção dos dados, com segurança e respeito à privacidade. No futuro, a ética dos dados também deverá ser foco da Gestão e Governança de dados. Nunca governar os seus dados se  tornou tão crítico...

e)Os resultados apresentados pelo algoritmo supostamente “base” do produto Cambridge Analytica, quando entrei com meu ID do FB e o autorizei foi: 
Gênero Psicológico:  
A IA sugere que meu perfil digital é bastante andrógino. Sugere que eu seja do sexo Feminino(sic!!), mas que não reprimo meu lado masculino(sic!!!). Abaixo ele dá uma dica do porquê: Os livros nos quais dei “Like”. Interessante que ele me transforma em (mais feminino) por causa de um Like dado no filme “The boy in  the striped pyjama”. Um drama da guerra que fala sobre a amizade de dois meninos num campo de concentração!. Acho que o algoritmo se “embolou” quando analisou as palavras “boy” and “pyjamas”.....

Agora a interpretação dos 5 pontos a minha personalidade:

Resumo da ópera:
Alguns pontos de acerto e muitos erros foram cometidos pelos “engines” de inferências oferecidos para teste, no meu caso. Nada que um horóscopo não faça, com a mesma precisão, nos jornais diários. Você pode experimentar o seu perfil psicográfico, acessando ApplyMagicSauce.com  e autorizando o acesso ao seu perfil do FB. Mas não se assuste. Uma coisa é existir zetabytes de informações sobre nós. Outra coisa, é a ferramenta ter a capacidade inferencial refinada para interpretá-los, levando a estatística à uma quase adivinhação digital. Talvez numa assinatura “premium” do produto, os algoritmos aplicados sejam bem mais precisos...

quinta-feira, 15 de junho de 2017

DGIQ-2017-San Diego-Califórnia-12 a 14 de junho-2017


Evento:

Estivemos no DGIQ-Data Governance and Information Quality, em San Diego-Califórnia. O DGIQ gradativamente se transforma no maior evento do mundo dedicado exclusivamente ao assunto de Governança e Qualidade de dados. Com duas edições por ano, normalmente uma na Costa Leste no inverno americano(+- Novembro) e outra na Costa Oeste, próximo do verão deles(+-Junho/Julho), o evento reúne especialista do mundo inteiro, com mais de 50 palestras, tutoriais e dois cursos fechados. No evento passado, em DelRay Beach (FL), assisti ao curso de Formação de Gestores de Dados (The Complete Guide to Data Stewardship), com David Plotkin. O outro curso oferecido, com Danette McGilvray(Tem steps to Data Qualiy), eu já havia feito na forma virtual, pela Data Versity. Os cursos foram oferecidos novamente neste evento, em San Diego, pelo sucesso certamente alcançado. Na geografia, também a GD se expande. Na Flórida, no final de 2016, somente eu, como rep do Brasil. Aqui na Califórnia, encontrei com Glenda Amaral, analista do Banco Central. Além de nós 2 brasileiros, havia outros estrangeiros: 21 do Canadá, 2 da Irlanda, 2 da República Tcheca, 2 da Holanda,4 da Noruega, 2 da Suíça, 2 da França, 4 do México,1 da Dinamarca e 1 da Austrália. Isso mostra a capilaridade crescente do assunto em todo o mundo. 

Objetivo:

O objetivo da CBCA-Carlos Barbieri Consultores Associados, é botar uma lupa nos conceitos de GD-Governança de dados e Qualidade e aferir como estão essas práticas aqui na Terra de Tio Sam, comparadas com aquelas que aplicamos no Brasil. De imediato se percebe, claro e óbvio, que, por aqui, as coisas estão bem mais avançadas em termos de dados. Nos EUA devem existir em torno de 500 CDO´s e no Brasil não mais do que 5. No Brasil, ainda estamos começando com GD, com poucas empresas se movimentando para domar a fúria dos dados, que se avolumam em proporções assustadoras. Nos EUA e no restante dos países presentes, era nítido o número de organizações já com GD institucionalizada. Como o crescimento dos dados não vem acompanhado de um mínimo de organização e responsabilidade, as coisas tendem a ficar complicadas cada vez mais, na medida em que as organizações brasileiras ainda não se conscientizaram plenamente deste problema. Agora é que algumas começam a despertar desta sonolência , embora em proporção menor do que se espera. Certamente a crise e o momento Brasil estão freando a implementação de GD no nosso pais.

Alguns temas discutidos:

Analisando-se a programação e mergulhando em alguns dos PDF´s distribuídos, observa-se a seguinte temática:

a)Há uma prevalência pelo tema geral Como Implementar GD nas empresas, com relatos de experiências e pontos a se observar nesses programas. Aqui o ganho tangível é analisar os sucessos e tropeços descritos, aplicando-se os devidos coeficientes de adaptação (do país, da indústria, da maturidade da empresa e da cultura de cada uma). O exemplo que mais chamou a atenção foi a palestra “key note” com  HoChun Ho e Kathy Patterson. Ambos da gigante JLL, que tem 78.000 empregados, 300 escritórios em 80 países, com um faturamento bruto de US$6,8 bilhões. Segundo HoChun, diretor global de GD do conglomerado, eles implementaram o programa em mais de 50% das empresas do grupo, num exemplo ainda não igualado. De assustar...

b)Outro assunto que despontou foi Metadados: Finalmente parece que o patinho feio da GD começa a ganhar importância, quando se fala de Governança de dados. Um tutorial dedicado à construção do Glossário de Negócios(do qual participei) revela esse novo momento em termos de Metadados. Palestras versando sobre Catalogação, profiling, tagging e linhagem de dados também aconteceram para criar espessura no assunto. No mercado das ferramentas, fundamentais para se tratar metadados, observa-se claramente o seguinte: As empresas europeias que se destacam nesse segmento(a belga Collibra e a francesa Orchestra), começam a perceber o crescimento de concorrentes americanas(Datum, Podium e outras) e a aproximação nítida da gigante americana IBM, decidida a entrar no mercado crescente de Governança de dados. A SAP, outrora mais focada no core ERP, também já apresenta uma camada forte de Information Management. Ela e a IBM foram as grandes patrocinadoras do evento(naquelas cotas do tipo platina, ouro,etc);

c)O assunto GD com Big Data também é outro que mereceu um tutorial(com Sunil Soares) e algumas outras sessões, principalmente focadas nos conceitos de Data Lake e dados não estruturados. Discussões surgiram com perguntas provocativas de David Plotkin(autor de um excelente livro-Data Stewardship-An Actionable Guide to effective Data management and Data Governance), hoje gerente de Data Stewardship do banco Wells Fargo. Plotkin disparou perguntas para cima da mesa dos debatedores, liderada por Sunil Soares( o autor com o maior número de livros sobre GD). A questão central: Existe diferença entre GD de Big data e de normal data. No Blog do Barbi, e no curso de PG da Puc-Minas já discutimos muito sobre isso e vamos desenvolver ainda mais o assunto;

d)O assunto GDPR-General Data Protection Regulation esteve em 4 palestras e foi motivo de algumas perguntas minhas para os palestrantes/consultores, pelas dúvidas que ainda restam sobre a regulação da União Europeia sobre privacidade de dados e não claramente respondidas pelos especialistas europeus(os mais envolvidos). Ainda há incertezas no ar, segundo pude perceber nas conversas com os apresentadores dessas sessões, algumas das quais somente serão resolvidas na base da “toga”, acho eu;

e)A Dama Internacional esteve presente, com o patrocínio do “coffee break” de 2afa à tarde. Além disso, houve o tutorial de Sue Geuens (Measuring Data Governance-How to show value and prove success), sua presidente e ex-presidente da Dama da África do Sul. Tive a oportunidade de falar com ela sobre o meu processo de recertificação CDMP que encaminhei à Dama Internacional. No final do mês (dia 30 de junho), chega o DMBOK 2, que já pode ser reservado(no site da Dama Internacional) na sua forma digital(custa US$75);

f)Também mereceu destaque a entrega do prêmio anual de melhor implementação de GD, outorgado pela DGPO(DG Professional Organization), neste ano, ganho pela Vanguard Group, Inc. A Vanguard é uma gigante da área financeira que trabalha com fundos mútuos(maior dos EUA) e a segunda em fundos(Exchange-traded) e tem um ativo de 4 trilhões de dólares. A DGPO oferece um ótimo conteúdo de melhores práticas em GD para os associados, além de Webinars de altíssima qualidade. Tudo isso, por US$75/ano. Em conversa com a presidente desta associação, soube que, neste evento houve mais de 200 novas inscrições;
   
g)O tema GD ganha novas visões, pelas apresentações realizadas por Michael McMorrow, com quem encontrei na Flórida e troquei dúvidas sobre o GDPR, e Len Silverston, famoso especialista em Modelos de dados. O primeiro apresentou a palestra intitulada “Data Governance meets Psycology 101” e Len  fez uma roda, na beira da praia (da qual participei), no fundo do Hotel e apresentou “Zen with Len-What does Zen has to do with Data Governance”. Analisando o material de ambas, pode-se concluir que o conceito de GD, pelas barreiras culturais existentes, sugere fatores extra técnicos na sua abordagem. Daí as palestras que indicam cuidados de natureza psicológica no entendimento dos obstáculos e dos interlocutores, além de uma forma leve e envolvente de condução, a fim de se transpor os obstáculos constantes nos programas de GD. Sobre a inédita apresentação que misturava Zen com GD, vou escrever depois, talvez um #VejaBem, no FB. 
  

Em artigos futuros, falaremos sobre outros pontos importantes discutidos por aqui no DGIQ-2017.