Total de visualizações de página

domingo, 24 de junho de 2018

DGIQ-2018-San Diego-Califórnia-11 a 14 de junho-2018 -Parte II



Continuação do post anterior.

e)Tendências emergentes e o futuro da GD-Governança de dados
No último painel do DGIQ-2018, participaram Sunil Soares, renomado consultor e o autor com mais livros sobre GD atualmente no mercado, parelho com David Loshin, Ann Buff , participante ativa do DGPO(Data Governance Professional Organization), HoChun Ho, chefe de GD da JLL, gigante mundial do ramo de imóveis(real estate) e Rex Ahlstrom, diretor da Backoffice Associates, ferramenta de dados muito respeitada nos EUA, Europa, Asia e Oceania, mas desconhecida no Brasil. Quem mediou a discussão foi Anthony Algmin, consultor independente de dados. As perguntas/temas colocados para discussão:

E1)A possível evolução do papel de CDO: Esse ponto ainda mostra uma indefinição de como vai ser o movimento do papel do CDO em direção ao futuro. Há muitos CDO´s nos EUA e na Europa. No Brasil, menos de uma dúzia, eu acho. Grande parte das grandes empresas mundiais tem esse papel, normalmente definido como a figura contratada para transformar os dados em elemento “monetizável”, não pela sua  venda direta(conceito supostamente imaginado), mas como elemento de transformação e criação de novos produtos e modelos de negócios. Curiosamente nesta sessão, havia somente 1 CDO presente. A percepção transmitida é que , independentemente do nome do papel, o conceito de preparação, uso dos dados e sua gestão como ativo da empresa veio para ficar, conforme disse o chefe de GD da JLL. Tenha a empresa um CIO ou CDO, ou ambos. Esteja a GD sob o CDO, CFO, CMO, etc, os dados serão vistos com outros olhos. Ponto

E2)O casamento entre GD e IA(Inteligência Artificial): Essa relação mais estreita entre GD e IA apareceu com destaque nas palestras de ferramentas de dados, conforme falei acima. Ann Buff, Sunil Soares e HoChun Ho, entretanto lembraram de algo sobre o qual já escrevi neste Blog (vide artigos anteriores). “Os aspectos éticos dos dados”.  Esse ponto, ainda será amadurecido, mas a preocupação já existe. Na minha visão, a GD(Governança de dados) e QD(Qualidade de dados) tangenciarão o conceito (que ainda não existe formalmente definido) de Governança/Gestão de resultados de dados, visando o controle sobre os algoritmos de machine learning chamados impenetráveis(inscrutable). São algoritmos que, pelos números de interações e modificações de variáveis não oferecem a rastreabilidade de como se chegou naquele resultado final. E , não se pode esquecer que certas regulações exigem  que resultados sobre análise de dados de pessoas(clientes, empregados, parceiros, etc) sejam devidamente explicados. Por exemplo, se um algoritmo dessa natureza for aplicado num processo de seleção, ou na inferência sobre certas características de uma pessoa, lembre-se que, pelo GDPR (em vigor desde 25 de Maio/2018), há a o direito à explicação. Assim, a empresa, via GD sendo responsável pelos aspectos de segurança e privacidade dos dados de alguém, e um algoritmo de Data Science inferindo algo que não pode ser explicado, sugere um potencial “problema” desenhado para um futuro próximo. Pensar nessa nova área de dados não deverá ser algo para se negligenciar. 
    
E3)BlockChain: Esse assunto foi considerado verde pelos debatedores, que o posicionaram como (ainda) um possível fenômeno “hype”. Na minha modesta visão, esse conceito será mais explorado nos modelos de BD Distribuídos, o que poderá levar à viabilização do padrão de transacionalidade “ACID-like” em bancos totalmente distribuídos. Mas esse assunto “Blockchain”, não foi sequer considerado “relevante” pela mesa dos debatedores.

E4)GDPR: A Regulação Europeia chegou, no dia 25 de Maio passado e com isso as empresas sob esse foco se obrigaram a estabelecer uma GD meio que às pressas, mas que será para sempre. Assisti a uma apresentação de uma ferramenta de glossário de dados (Datum), oferecendo as vantagens de se poder ter os dados PII devidamente catalogados(quais dados a empresa tem na classificação PII), com possibilidade de conhecimento de sua linhagem(como os dados estão sendo processados, de onde vieram, para onde foram), os responsáveis por eles,etc,etc. No DGIQ de 2016, pela primeira vez tive contato com o conceito, que estava começando nos EUA e trouxe para o Brasil, quando escrevi sobre GDPR(veja artigos anteriores). Fui um dos primeiros, se não o primeiro. Hoje vejo, que o Brasil acordou (meio tarde, claro), quando recebo notícias de que a GDPR brazuca está sendo reativada. Projeto de Lei do Senador Antônio Carlos Valadares (de 2012), o “GDPR-BR” volta à tona, com reuniões já marcadas para Agosto, quando um grande Seminário reabrirá a discussão pública do tema. Antes tarde ...... 

E5)Single source of truth: Esse conceito foi trazido quando as proposições de BD dos anos 70 se mostraram incapaz de domar as replicações de dados. Surgiu como driver das tecnologias de MDM-Master Data management, que tomaram posição forte, propondo a versão única dos dados. Para minha surpresa, ouvi de algumas empresas, de grande porte e atuação global, que o conceito SST(Single Source of Truth) dos dados também estaria com os dias contados, sendo substituído por uma onda que se chamaria “Dados em Contextos”. No fundo, seria o retorno aos modelos de dados, com permissão de replicação, porém controlada pela GD. Essas manifestações senoidais das tecnologias em geral e as de dados em particular sempre existirão e o que se deve fazer é aguardar e viver cada momento dos bits e bytes, sem o entusiasmo dos vendedores de soluções. 
  
3)Encontrei com alguns “amigos de dados,” como Danette McGilvray, que é uma das mais famosas especialistas em qualidade de dados. Circula pelo mundo dando aulas e palestras sobre QD(já esteve no Brasil) e sempre, que possível,  sentamos para conversar. Foi a criadora do Manifesto de Dados(juntamente com John Ladley e outros),  que foi traduzido para o português por mim e por Bergson L. Rego. A versão em português foi a primeira, depois da versão original e agora já existe a francesa e a espanhola está sendo feita. Danette tem um livro sobre QD, dos mais citados e ela pediu para conversamos sobre a nova edição que pretende fazer. Logo depois, recebi um email, que foi enviado para muitos da área, solicitando possíveis evoluções nos conceitos de QD, que ela aplica no seu livros-10 Passos da QD). Também encontrei com David Plotkin, de quem fui aluno no curso (Data Stewardship) no DGIQ de 2016. Plotkin é apaixonado pelo Brasil, já esteve no Amazonas e sempre falamos. Tem um livro publicado onde aprofunda no trabalho dos Gestores de dados(data stewards), que recomendo (Data Stewardship-An Actionable Guide to Effective Data Management and Data Governance). Plotkin era o chefe de GD do Banco Wells Fargo e agora foi para o banco MUFG-Bank of Tokio-Mitsubish, o maior banco do Japão. Danette e Plotkin ministram os cursos opcionais(Qualidade de dados e Data Stewardship) que fecham o evento na 5afa e 6afa. 
  
4)Resumo: O DGIQ continua sendo o grande evento sobre Governança e Qualidade de dados atualmente no mundo. Promovido duas vezes por ano, um na Costa Leste e outro na Costa Oeste reúne um conjunto de experiências e posições extremamente rica. É claro que se deve analisar e escolher cuidadosamente as palestras, tutoriais e cursos oferecidos, pois pelo gigantismo do evento, replica-se informações transmitidas, em certo grau. Mas vale a pena, para confirmar os seus passos como consultor, ajustar caminhos, descartar hypes e modismos e esperar novos termos e conceitos que logo chegarão (Curadoria de dados é um deles...).
Conforme prometido, essa foi a sinopse dos principais temas discutidos. 

Voltarei ao assunto no Linkedin, e/ou nos cursos de Pós ou de GD. Abraços .

segunda-feira, 18 de junho de 2018

DGIQ-2018-San Diego-Califórnia-11 a 14 de junho-2018 -Parte I


DGIQ-2018-San Diego-Califórnia-11 a 14 de junho-2018 -Parte I


Visão geral sobre o DGIQ-2018, em San Diego-CA.

1)Participantes:

Foi considerado pelos organizadores como o maior DGIQ, desde a sua criação em 2008, com um total de mais de 600 pessoas de várias partes do mundo. Além da presença maciça dos americanos e canadenses, o restante do mundo também apareceu por aqui. A América do Sul começa a despertar para os aspectos de GD e vieram 6 do Chile, 3 da Colômbia e até o Suriname, vizinho das Guianas, esteve com 2 representantes. A África também despertou e há 3 da Nigéria e um da África do Sul. A Europa, depois do GDPR, esteve presente com França, Portugal (com 2), Irlanda, Alemanha, Dinamarca. Há reps da Arábia Saudita, Kuwait, Japão, Cingapura, Qatar, Austrália. O México, coladinho em San Diego, mandou 1 rep somente. O Brasil, como sempre, fica distante deste evento. No ano passado havia além de mim, uma analista do Banco Central. Hoje estou sozinho. OK, Esse ano tem Copa do mundo, eleição, whatever...

2)Assuntos dominantes:

a)Glossário de dados/Metadados:

Houve uma distribuição de temas sobre Governança de dados, em vários níveis, com tutoriais introdutórios, intermediários e outros mais avançados.  Um assunto nitidamente crescente foi sobre Metadados e Glossário de negócios. Assisti um tutorial avançado e uma palestra sobre o tema. O tutorial, muito bom, sobre catálogo de dados, foi de Lowell Fryman, experiente especialista em metadados, com livros escritos e participação nos Livros Vermelhos da IBM(Red Books),  recentemente contratado por uma empresa que vende essa tecnologia(Collibra). Muito profissional, o tema foi tratado de forma agnóstica, sem menção ao produto. Os conceitos apresentados evidenciam o assunto do momento que é a necessidade de se conhecer organizacionalmente os dados existentes, realizar a sua catalogação, mapear sua linhagem, etc. Não estamos falando de Dicionários de Dados atrelados às ferramentas de SGBD, ETL, Modelagem de dados, etc. O conceito é sobre os dados da empresa, catalogados com seus metadados circundantes, dentro da visão de negócios(conceitual/lógica). Com uma tecnologia já relativamente estabelecida, os produtos deste segmento começam a buscar espaços de evolução nas suas plataformas. A IBM , por exemplo, aproveitando o seu  famoso Watson, plataforma de IA, vencedora do programa de TV Jeopardy, encaixou nas camadas de dados do seu Information Server (extração, transformação, profiling, limpeza,etc) a possibilidade de uso dos elementos de  IA-inteligência artificial( machine learning), prometendo mais rapidez e  inteligência no tratamento de dados e de metadados. Assim , a extração de um dado, feita de um schema de BDs, poderá ser acompanhada de uma análise inferencial que apontará seus prováveis relacionamentos, por exemplo. É o conceito de Machine learning se encontrando com o Metadados.

b)GD: 

Ficou a clara constatação de que, com a chegada de Big Data e com a onda de  transformação digital, onde os dados são elementos fundamentais, a GD chegou para ficar. As empresas deverão nesses próximos anos, usar os seus dados, não mais somente como elementos de tomada de decisão, mas fundamentalmente para produzir novos modelos de negócios, onde esses ativos participam. As empresas que apresentaram “cases” já mostram uma GD muito evoluída, citando os obstáculos pelos quais passaram (ou passam). De comum, a clara indicação de que GD é um desafio cultural, que o “P” do Patrocínio é vital para o sucesso e o “P” das Pessoas e Papéis idem. Neste último estão o alinhamento com ideias de colaboração e participação, uma certa flexibilização com relação às mudanças necessárias e a propensão à adesão a um programa que somente visa melhorar a empresa, via a gestão dos dados. Em resumo, os obstáculos que a GD enfrenta não estão somente na camada de dados desorganizados. Para isso há técnicas e ferramentas. O problema é mais relacionado aos conceitos de “proprietarismo dos dados” enraizado por muitos anos. Menos hardware e software e mais Peopleware. Houve até uma palestra especificamente sobre isso (DG meets Psichology-How to influence individuals within organizations). Colocar ordem nos dados de uma empresa, seja de que tamanho for, é algo desafiador. Durante muito tempo, esses elementos de dados, hoje cada vez mais importantes, ficaram à deriva, numa fase, digamos mais orientada aos processos.  Isso produziu o que aqui foi chamado de débito de dados (Data Debt), uma invenção semântica fresquinha, que acabou de sair do forno da indústria da consultoria. No fundo, é uma metáfora baseada no modelo Scrum, onde há o débito técnico. No fundo, de novo, é o sentido de débito produzido quando, por exemplo, as empresas replicaram livre e descontroladamente  os seus arquivos, ou deram pouca atenção à qualidade de seus elementos de dados, produzindo sanções ou multas, além de tomadas de decisões erradas. Com os novos tempos, essas ações indevidas agora mandam a conta, seja na forma de um projeto reparador de Dados Mestres ou a  criação de GD com definição e rigor nas Políticas, Padrões, Processos e Procedimentos.

c)GD e Agilidade

Aqui também tivemos um tema que cresce, pois há a clara necessidade de se conciliar os métodos de desenvolvimentos de sistemas ágeis, com o imperioso controle de dados. De novo, as soluções serão a conscientização das equipes de desenvolvimento, a presença de um gestor de dados no time de Scrum e a aprovação dos dados do projeto, não somente pelo PO ou SM, mas também pela GD.   

d)GD=Negócio: 

O óbvio, que já foi definido como uma das piores formas de distração, apareceu também. Às vezes, o óbvio é tão translúcido que você não atenta para ele. Uma das suas manifestações: A GD deverá ser “vendida” como um programa nas empresas, não somente pelas vantagens conceituais que oferece, mas  principalmente pela resolução direta dos problemas de dados existentes que hoje  as assustam pela força da regulação,  gerando riscos de multas e sanções e incomodam os tomadores de decisão pela inconsistência de seus dados. Por esse motivo é que a grande incidência de empresas com GD muito bem estabelecidas gravitam em torno de Compliance e Risco, como organizações de Health Care e Instituições financeiras.  No próximo post, continuaremos com a visão de futuro da GD.

sábado, 10 de fevereiro de 2018

Pesquisa GD x Data Science

Caros, boa tarde

Aqui é o Barbieri, tudo bem?

Seguinte: estou finalizando o meu 4. livro(agora sobre Governança de dados)  e estou precisando de um pequeno favor de todos que passam por aqui. Estou finalizando um capítulo sobre Qualidade de dados e Ciência de dados (como a primeira interfere na segunda) e preciso de contatos de -cientistas de dados- que já estejam trabalhando com projetos dessa natureza,  e que possam responder  às perguntas simples(abaixo). Com elas, pretendo capturar essa temperatura de conexão entre as duas linhas (gerência/qualidade de dados x ciência de dados). Agradeceria se vc, que me lê neste momento e que trabalha diretamente com -ciência de dados- ou que tem conhecidos neste domínio, pudesse me apontar alguns nomes que pudessem responder. Se necessário, farei o contato. Basicamente são as questões abaixo. Todos que colaborarem terão os devidos créditos, com nome, papel, empresa registrados no meu novo livro. 

As perguntas são:

A-Como você garante a qualidade de dados nos seus projetos de Ciência de dados?
B-Como você avalia se o "insight"(resultados) que você obteve do projeto de analytics está "correto" ou "bom" ou "relevante" para o domínio do problema?
C-Quais são os erros típicos cometidos quando analisando dados num projeto desta natureza? Como evitá-los?
D-Como saber se os "data sets" que estão sendo usados são grandes o suficiente para serem significativos?

Peço que as respostas sejam enviadas para o meu email: 

carlos.barbieri@gmail.com 

A síntese obtida das respostas será publicada aqui neste espaço também.

Agradeço muito,

Grande abraço
Aguardo
CBarbieri

sábado, 20 de janeiro de 2018

Governança/Gestão e a ética em dados-Parte 6


Os números (não ?) mentem

Confúcio, teria dito que há três formas de mentira: a encoberta, a descoberta e a estatística. Exageros, à parte, uma parte da estatística lida com incertezas, é considerada uma ciência probabilística e por isso, a história sugere cautela, quando certas premissas definidas sobre os dados, os algoritmos utilizados na sua análise e a forma de visualização dos resultados não forem devidamente considerados. Acesse o site (tylervigen.com). Ele tem como objetivo anotar com sarcasmo e ironia as impropriedades das correlações espúrias que se pode obter através de análises estatísticas formais, porém sem muitos cuidados. O site, claro, tem um tom de deboche sobre o tema, mostrando correlações exóticas e absurdas, por exemplo, como o número de filmes em que  Nicolas Cage aparece e o número de pessoas que morrem por afogamento nos EUA.  Ou como o consumo per capita de queijo, nos EUA, guarda estreita correlação com o número de pessoas que morrem enroscados nos seus lençóis, mostra outro exemplo. Os gráficos apresentados, à primeira vista, iludem o observador, pois as linhas das duas correlações são absolutamente coerentes, no tempo e nos valores plotados. São gráficos que mostram que a manipulação de variáveis e suas correlações inexistentes podem ser feitas, mesmo para relações não-causais(sem relação de causa e efeito), produzindo resultados ingênuos e extravagantes.  O livro “Os números (não) mentem” de Charles Seife, também aborda o mesmo tema e chama esses resultados enganosos e aceitos ingenuamente como “ramdomiopia”. A citação do sábio chinês, o site de Tyler Vigen e o livro “Os números (não) mentem“, de Charles Seife , são evidências de visões(que podem ser até exageradas, mas não infundadas) que acabam por sugerir cautela no uso dessa ciência, cuja força é inferencial.  Já publiquei aqui mesmo um artigo sobre a máquina de inferência que foi usada pela campanha de Trump e repito novamente, agora nesse contexto de cuidados com as máquinas que aprendem. Exageros afora, ao analisarmos o livro de Charles Seife, em português traduzido para “Os números(não) mentem” cujo título em português foi muito mais condescendente do que o original(The dark arts of Mathematical deception), que em uma tradução livre seria “ a arte sombria das falácias matemáticas”, fica bem claro esse alerta. Neste livro, o autor não cria brincadeiras, como o do site tylervigen.com. No livro, Charles Seife rastreou um conjunto de conclusões estatísticas espúrias, mas que foram publicadas como consistentes, veiculadas em canais poderosos de informação, endossadas e assinadas por gente de respeito, mas que no final representavam um forte exemplo de “ramdomiopia”. Por exemplo, um gráfico oficial mostra a correlação científica entre o consumo crescente de aspartame com a explosão de casos de câncer cerebral. Ou, o aumento no consumo de energia correlacionado com  o aumento da expectativa de vida. Observe que esses dois exemplos, fogem da borda do sarcasmo e ganham ares de verdades estatísticas sérias. Puras manifestações de “ramdomiopia” , conforme contra-argumenta o autor, produzidas por correlações encontradas, mas que não garantem uma relação real e estatisticamente legítima. No fundo essas falácias matemáticas nascem, por percepções incompletas do fenômeno analisado, por falta de observações subjacentes dos dados, por apresentarem força na explicação do passado, porém sem capacidade garantida de prever o futuro. Também fazem uso dos chamados “números de Potemkim”, equivalentes estatísticos dos muros de Potemkin, macete visual(painéis pintados) criado por um príncipe, para driblar a imperatriz Catarina da Rússia, que desconhecia a imensidão do vazio de certa região daquele pais, por onde ela resolveu passar.
Segundo Seife, algumas premissas reforçam a “ramdomiopia”  e exigem cautela:

1-Se você quiser convencer alguém de uma bobagem sem tamanho, basta acrescentar um número;
2-Idéias absolutamente sem nexos podem ganhar respeitabilidade através de aplicação de algoritmos estatísticos;
3-Há uma grande dificuldade do ser humano de tratar a aleatoriedade. Por isso, inconscientemente, há essa compulsão por estabelecer relações de causa e efeito, onde elas não existem. Vê-se imagens de humanos em estrelas no céu ou o rosto de Madre Tereza na superfície de um bolinho de canela, diz Seife. A religiosidade confirma isso, e  entra como um fator fundamental nessa equação, explicando o inexplicável por meio de credos e crenças. 

Referências:
1-Vigen, T.  “Spurious correlations-Correlation does not equal causation”. Hachette Books. 2017.

2-Seife, C. “Os números(não) mentem”. Editora Zahar.2012.

terça-feira, 2 de janeiro de 2018

Governança/Gestão e a ética em dados-Parte 5


Juntamente com a Segurança, os aspectos de Privacidade e Discriminação formam os três maiores pontos de cuidado a serem observados com a chegada de Big Data e Data Science. Vejamos:


1-Quebra de anonimato por informações parciais:

Um ponto importante sobre privacidade dos dados/anonimato é que para quebrá-la não é necessário o conhecimento de todos os seus PII/PD(Personal Identifiable Information/Personal Data). Uma pesquisa mostra que com somente o seu Zip-code(cep),sexo e data de nascimento alcança-se uma taxa de 87% de chance de identificar a pessoa. Um relato interessante sobre isso: A Comissão geral de seguros, nos EUA, liberou, certa feita, um conjunto de dados(que chamam de de-identified data, ou seja sem a identificação da pessoa)  sobre  seguro de saúde contendo somente o zip-code, a data de nascimento e o sexo, além de informações sobre seguro do referido. Uma especialista em ciência da computação do MIT, chamada Latanya Sweeney, através de um algoritmo desenvolvido, chegou no registro de saúde do Governador William Weld (Massachussets-1991-1997), inclusive com diagnósticos e prescrição. Isso comprovou, para espanto de todos, a possibilidade de se alcançar alguém, mesmo que não se tenha os chamados dados identificadores.

2-Quebra de anonimato por informações correlacionadas:

Outro aspecto importante é que o seu anonimato pode ser quebrado por correlações entre informações colocadas por você mesmo, em diferentes fontes/sites. Um exemplo aconteceu num concurso feito pela NetFlix, que dava US$1 milhão para quem conseguisse desenvolver um algoritmo (tipo Market-Basket, na verdade método utilizado de recomendação, onde são cruzados perfis de usuários com perfis de produtos) que superasse em precisão, o mecanismo existente. Esse algoritmo é aquele que consegue inferir quais seriam as suas próximas escolhas, baseado no seu perfil de usuário.  Algo parecido com aquele (quem compra A compra B, etc). Se você tem um perfil de “Geek” e um elevado percentual de “geeks” gosta de “Star Trek”, possivelmente esta será uma sugestão válida para o seu perfil. O NetFlix entregou uma lista de filmes assistidos por seus clientes, omitindo, claro, a identificação do assinante. Um certo assinante não identificado assistiu os filmes, a,b,c..., do gênero tal, nas respectivas datas, d1, d2,etc,etc. Um profissional de dados, resolveu fazer uma análise do IMDB, aquele grande site com informações sobre todos os filmes. Lá, as pessoas opinam sobre os filmes assistidos e claro, normalmente se identificam. Fazendo uma correlação entre um subconjunto de opiniões emitidas por uma pessoa identificada no IMDB com os registros anônimos do Netflix, ele chegou à conclusão de quem (provavelmente) era quem. Na lista anônima do NetFlix (daquela possível pessoa) havia também uma série de filmes do gênero “gay”, que, claro, não estavam comentados no IMDB. O analista de dados, por correlações indiretas, publicou nas suas redes sociais a sua “descoberta”. A pessoa descoberta era uma mãe “gay” ainda “dentro do armário”, o que resultou num grande “rebut”. A senhora foi para cima do NetFlix com uma ação por quebra de privacidade de US$8 milhões e o NetFlix acabou com o tal concurso. Os exemplos mostram que , embora para nós possa ser difícil perceber certas correlações à primeira vista, isso pode ser feito facilmente, com observação, paciência, e se necessário, o poder dos processadores. Além da segurança e da privacidade, os aspectos de discriminação no uso dos dados também entram na tela de radar dos aspectos de ética.

Lei e Discriminação:

Um dos problemas clássicos na aplicação dessas leis é o claro descompasso existente entre elas e a velocidade de desenvolvimento das tecnologias. O que acontece é que as leis (ainda) não evoluíram para serem aplicadas em tecnologias como Big Data, IoT e IA e , por isso , busca-se uma adaptação da legislação atual. Mesmo assim, nos EUA, algumas multas têm sido aplicadas em empresas com tecnologia avançada, embora a lei tenha sido definida num contexto antigo e diferente. Exemplo da Spokeo, empresa classificada como Data Broker, mas que foi punida e enquadrada como empresa CRA-(Agência de classificação de risco) e que pagou US$800.000,00 de “fine”. Outro caso foi a multa aplicada na empresa Trendnet, que oferece serviços de câmeras de segurança via internet, mas que apresentou problemas na oferta de seus serviços, com invasão de hackers. O FTC(Procon dos EUA) aplicou, nesses casos, leis já existentes, sem serem específicas para o contexto da era digital.

O FTC lançou um manual relativo a esses aspectos de leis e proteção dos consumidores com relação ao uso de Big Data. Chama-se Big Data-A Tool for inclusion or exclusion? Understanding the issues-FTC Report-January 2016, que pode ser acessado no endereço
https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf  

O documento faz uma análise detalhada sobre os benefícios de Big Data e os possíveis impactos que o seu uso pode ter na sociedade, se certos cuidados não forem observados. São citadas as leis que já existem, nos EUA e que podem ser aplicadas na regulação do uso de Big Data:

1-Fair Credit Reporting Act, aplicada em empresas chamadas CRA-Credit Reporting Agencies, que tem o seu business na compilação e venda de informações sobre consumidores, usadas para análise de concessão de créditos, seleção de empregados, venda de seguros, corretoras de aluguéis, etc e que decidem a elegibilidade de alguém em qualquer dessas circunstâncias. A Lei define o rigor de precisão que essas informações devem ter, além de permitir ao consumidor acesso a elas e a possibilidade de corrigi-las, caso pertinente. A preocupação com a chegada de Big Data neste cenário é que as empresas poderão usar, no lugar dos dados tradicionalmente considerados para essas decisões, outras informações que poderão influenciar a resultado final para o consumidor. Por exemplo, no lugar as tradicionais comparações de histórico de pagamento de débitos, a empresa emprega o uso de zip-code(analisando a localização de moradia e por consequência o seu status social) ou o uso de redes sociais, identificando comportamentos não diretamente associados à capacidade de pagamento ou ao risco de inadimplência.  

2-Leis de igualdade de oportunidades: O FTC também aborda as diversas leis que regulamentam igualdades de oportunidades, como a lei de igualdade de oportunidade de crédito(ECOA-Equal Credit Opportunity Act). Outras leis, como a de 1964 ((Title VII of the civil rights Act-1964) que protege os direitos civis se juntam a outras que definem um escudo de proteção contra discriminação por raça, cor, gênero, religião, origem, estado civil, deficiências e informações genéticas. Por exemplo, se alguém tem no seu genoma marcadores que sugerem propensão ao câncer de próstata, isso, não poderá ser usado na seleção de empregos ou na análise e seleção de inquilinos.

3-Lei do Procon(Federal Trade Commission Act): A seção 5 da Lei do Procon americano, que trata de proteção contra práticas injustas ou enganosas, agora focada no uso de Big Data. As empresas que se utilizam de Analytics com Big Data, deverão verificar se não estão quebrando certas regras com relação aos consumidores. Por exemplo, se não estão infringindo aspectos sobre o compartilhamento de dados dos consumidores, ou sobre a preservação de seus dados pessoais, ou se há a opção consciente e consentida deste compartilhamento. Além disso, no mínimo, as empresas provedoras desses dados deverão estar cientes sobre o uso que será feito com os dados, garantindo que este não será com objetivos fraudulentos ou discriminatórios. 
Com o objetivo de maximizar os benefícios e mitigar os riscos no uso dos dados, o Guia sugere algumas práticas de QA-Garantia da Qualidade, através de certas observações:

--Quanto representativo é o seu conjunto de dados? No fundo sugere a verificação de quanto balanceado está o seu dado, procurando fugir de impropriedades de  “extremos”. Por exemplo, se os dados são obtidos de redes sociais ou aplicativos, uma parte da população não afeita a esses ambientes, poderá ser excluída. Como os dados foram coletados, quando e por quê?

--Como estão os dados e as amostras, com relação a tendências/distorções(biased). O quanto confiável são os dados? Tem um pouco a ver com o anterior, porém se concentra em observações de partes do ciclo de vida dos dados(DLCM-Data Lyfe Cycle Management), atentando para que certos elementos de distorções, omissões ou tendências não estejam presentes nos dados, ao longo desse fluxo. Por exemplo, na fase inicial de um processo admissional, no processo de coleta, observar cuidados com fatores seletivos que definem, por exemplo, universidades “tops”, para compor o processo. Isso tenderá a excluir profissionais de outros domínios, que podem ser tão bons ou até melhores, mas serão excluídos pela inserção de um fator “biased”.

--Observar com cuidado os aspectos de precisão dos algoritmos de predição. A análise, não cuidadosa de certas variáveis que compõe o “core” do algoritmo de predição e inferência, poderá levar a resultados não confiáveis. Os algoritmos deverão ser governados(conforme já falado anteriormente), com o intuito de garantir a preservação de aspectos éticos e de equidade das tomadas de decisão. Aspectos de registros de erros já detectados pelo uso dos algoritmos (falsos positivos ou falsos negativos) relacionados com gênero, sexo, raça deverão formar uma base de conhecimento.

--Aspectos de responsabilidades: Definir “accountability” (responsabilidade final) pela aplicação dos algoritmos e de seus resultados que poderão influenciar em liberdades e direitos.  

Validade dos dados e dos algoritmos:

Com o crescimento dos conceitos de Big Data e a tendência de sua interpretação por algoritmos de “machine learning”, cresce uma preocupação: Qual a precisão das máquinas, com seus algoritmos estatísticos para realizar uma inferência sobre, por exemplo, a figura mostrada a seguir?. Qual a garantia de preservação de privacidade ou de possibilidade de geração de embaraços, num exemplo como esse? Conforme O Globo de 08 de setembro de 2017, a Universidade de Stanford desenvolveu um algoritmo que permite com mais de 80%  de precisão inferir a opção sexual de uma pessoa, analisando somente as suas feições numa fotografia. (figura 01).

                                                                      Figura 01

Fonte: O Globo. INTELIGÊNCIA ARTIFICIAL DETECTA SE UMA PESSOA É GAY ANALISANDO FOTOGRAFIAS. Disponível em : https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-se-uma-pessoa-gay-analisando-fotografias-21799100 , acesso em 8/9/2017.

Embora o algoritmo ainda se restrinja a pessoas adultas, caucasianas, etc como garantir que tal inferência está estatisticamente correta? Como gerenciar, do ponto de vista de ética dos dados essas pretensas adivinhações digitais? E as consequências da liberação de um algoritmo desses na internet, onde fotografias de amigos e parentes circulam livremente em redes sociais e poderiam ser analisados? Como gerenciar essa nova e complexa faceta dos dados?
                                                                         
Veja um outro exemplo, também veiculado no O Globo, agora de 01/Novembro de 2017.(figura 02) O artigo aponta que os algoritmos de AI já mostram resultados na detecção de padrões cerebrais dos pensamentos suicidas. Embora esse exemplo até sugira intervenção nobre e preventiva, como garantir que os resultados sejam corretos e as suas consequências, no caso do falso positivo e do falso negativo?
   
                                                                         Figura 02   
Fonte:  MATSUURA, SÉRGIO. “INTELIGÊNCIA ARTIFICIAL DETECTA PADRÕES CEREBRAIS DOS PENSAMENTOS SUICIDAS”. Disponível em : https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-padrões-cerebrais-dos-pensamentos-suicidas-22015064 , acesso em 8/9/2017.
                                                                
Outro exemplo, publicado, agora na UOL, mostra o caso da atriz de Mulher Maravilha, cujo rosto foi “transplantado” por algoritmos de IA(Machine learning -TensorFlow da Google) para personagens de filmes pornográficos.(figura 03)
                                                                        Figura 03
Fonte: Uol. FILMES PORNÔ COM CELEBRIDADES? A MAIORIA É FRUTO DE INTELIGÊNCIA ARTIFICIAL. disponível em https://tecnologia.uol.com.br/noticias/redacao/2017/12/13/filmes-porno-com-celebridades-a-maioria-e-fruto-de-inteligencia-artificial.htm, acesso em 13/12/17.

Assim, a validade dos dados e a equidade dos algoritmos são temas que deverão, a partir de agora, fazer parte dos itens de QA-Quality Assurance dos cientistas de dados, se já não o fazem. A Gestão e Governança de dados ganham mais uma fatia de processos, agora com o que chamei de “psicologia” e cuidado no uso dos dados.
O livro “Weapons of Math Destruction: How Big data increases inequality and threatens  democracy” é uma referência interessante quando se pensa nos aspectos de igualdade de tratamento e ameaças dos algoritmos. O livro, que tem no título um trocadilho de “armas de destruição em massa”, (trocando mass por math) circulou pelas listas dos melhores de 2016, no conjunto mais respeitado da imprensa americana como New York Times, Boston Globe, Wired, Fortune, etc. Escrito por Cathy O´Neil, uma  matemática que trabalhou como analista de hedge-fund  e cientista de dados e fundou uma empresa com o objetivo de auditar algoritmos (ORCAA). Colunista da Bloomberg,  apresenta uma visão aguda e crítica sobre os problemas produzidos por decisões automatizadas dirigidas por códigos, ilustrada com vários exemplos de problemas desta natureza.  Com foco nos algoritmos “black box”, objetiva analisar e entender os riscos existentes nas decisões caixa-preta que chegaram com os conceitos de Big data quando casado com IA. Esses riscos poderão gravitar por sobre decisões tendenciosas que são desiguais para classes, raças, sexo,etc e poderão colocar as empresas em situação de vulnerabilidade em função de suas tomadas de decisão. A consultora criou uma empresa especializada, justamente neste tipo de auditoria, criando um processo que objetiva , com rigor, auditar os algoritmos que tomam decisão. É uma espécie do que eu chamei de QA da IA, ou seja a “Quality Assurance” da Inteligência artificial.    

Referências:

FTC-Federal Trade Commission. Big Data-A Tool for inclusion or exclusion? Understanding the issues-FTC Report-January 2016, disponível em https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf  ,  acesso em  01 de novembro de 2017.

Jagadish, H. Ethics on Data Science. Curso EAD. Universidade de Michigan, 2017.

Jie Lu, Dianshuang Wu, Mingsong Mao, Wei Wang, Guangquan Zhang, Recommender system application developments: A survey, In Decision Support Systems, Volume 74, 2015, Pages 12-32, ISSN 0167-9236, https://doi.org/10.1016/j.dss.2015.03.008.

Lasprogata, G.,Colaner,N., Olsen,B.  Curso EAD. Ethics and Law in Analytics and AI. Universidade de Seattle. 2017.

O´Neil, C. Look for who´s fighting our algorithmic overlords. disponível em www.bloomberg.com/view/articles . Bloomberg, acesso em 14/12/2017.

O´Neil, C. “Gaydar” shows how creepy algorythms can get. disponível em www.bloomberg.com/view/articles,  Bloomberg, acesso em 14/12/2017.


O´Neil, C. Weapons of math destruction: How Big Data increases inequality and threatens democracy. Broadway Books.2016.