Total de visualizações de página

sábado, 20 de janeiro de 2018

Governança/Gestão e a ética em dados-Parte 6


Os números (não ?) mentem

Confúcio, teria dito que há três formas de mentira: a encoberta, a descoberta e a estatística. Exageros, à parte, uma parte da estatística lida com incertezas, é considerada uma ciência probabilística e por isso, a história sugere cautela, quando certas premissas definidas sobre os dados, os algoritmos utilizados na sua análise e a forma de visualização dos resultados não forem devidamente considerados. Acesse o site (tylervigen.com). Ele tem como objetivo anotar com sarcasmo e ironia as impropriedades das correlações espúrias que se pode obter através de análises estatísticas formais, porém sem muitos cuidados. O site, claro, tem um tom de deboche sobre o tema, mostrando correlações exóticas e absurdas, por exemplo, como o número de filmes em que  Nicolas Cage aparece e o número de pessoas que morrem por afogamento nos EUA.  Ou como o consumo per capita de queijo, nos EUA, guarda estreita correlação com o número de pessoas que morrem enroscados nos seus lençóis, mostra outro exemplo. Os gráficos apresentados, à primeira vista, iludem o observador, pois as linhas das duas correlações são absolutamente coerentes, no tempo e nos valores plotados. São gráficos que mostram que a manipulação de variáveis e suas correlações inexistentes podem ser feitas, mesmo para relações não-causais(sem relação de causa e efeito), produzindo resultados ingênuos e extravagantes.  O livro “Os números (não) mentem” de Charles Seife, também aborda o mesmo tema e chama esses resultados enganosos e aceitos ingenuamente como “ramdomiopia”. A citação do sábio chinês, o site de Tyler Vigen e o livro “Os números (não) mentem“, de Charles Seife , são evidências de visões(que podem ser até exageradas, mas não infundadas) que acabam por sugerir cautela no uso dessa ciência, cuja força é inferencial.  Já publiquei aqui mesmo um artigo sobre a máquina de inferência que foi usada pela campanha de Trump e repito novamente, agora nesse contexto de cuidados com as máquinas que aprendem. Exageros afora, ao analisarmos o livro de Charles Seife, em português traduzido para “Os números(não) mentem” cujo título em português foi muito mais condescendente do que o original(The dark arts of Mathematical deception), que em uma tradução livre seria “ a arte sombria das falácias matemáticas”, fica bem claro esse alerta. Neste livro, o autor não cria brincadeiras, como o do site tylervigen.com. No livro, Charles Seife rastreou um conjunto de conclusões estatísticas espúrias, mas que foram publicadas como consistentes, veiculadas em canais poderosos de informação, endossadas e assinadas por gente de respeito, mas que no final representavam um forte exemplo de “ramdomiopia”. Por exemplo, um gráfico oficial mostra a correlação científica entre o consumo crescente de aspartame com a explosão de casos de câncer cerebral. Ou, o aumento no consumo de energia correlacionado com  o aumento da expectativa de vida. Observe que esses dois exemplos, fogem da borda do sarcasmo e ganham ares de verdades estatísticas sérias. Puras manifestações de “ramdomiopia” , conforme contra-argumenta o autor, produzidas por correlações encontradas, mas que não garantem uma relação real e estatisticamente legítima. No fundo essas falácias matemáticas nascem, por percepções incompletas do fenômeno analisado, por falta de observações subjacentes dos dados, por apresentarem força na explicação do passado, porém sem capacidade garantida de prever o futuro. Também fazem uso dos chamados “números de Potemkim”, equivalentes estatísticos dos muros de Potemkin, macete visual(painéis pintados) criado por um príncipe, para driblar a imperatriz Catarina da Rússia, que desconhecia a imensidão do vazio de certa região daquele pais, por onde ela resolveu passar.
Segundo Seife, algumas premissas reforçam a “ramdomiopia”  e exigem cautela:

1-Se você quiser convencer alguém de uma bobagem sem tamanho, basta acrescentar um número;
2-Idéias absolutamente sem nexos podem ganhar respeitabilidade através de aplicação de algoritmos estatísticos;
3-Há uma grande dificuldade do ser humano de tratar a aleatoriedade. Por isso, inconscientemente, há essa compulsão por estabelecer relações de causa e efeito, onde elas não existem. Vê-se imagens de humanos em estrelas no céu ou o rosto de Madre Tereza na superfície de um bolinho de canela, diz Seife. A religiosidade confirma isso, e  entra como um fator fundamental nessa equação, explicando o inexplicável por meio de credos e crenças. 

Referências:
1-Vigen, T.  “Spurious correlations-Correlation does not equal causation”. Hachette Books. 2017.

2-Seife, C. “Os números(não) mentem”. Editora Zahar.2012.

terça-feira, 2 de janeiro de 2018

Governança/Gestão e a ética em dados-Parte 5


Juntamente com a Segurança, os aspectos de Privacidade e Discriminação formam os três maiores pontos de cuidado a serem observados com a chegada de Big Data e Data Science. Vejamos:


1-Quebra de anonimato por informações parciais:

Um ponto importante sobre privacidade dos dados/anonimato é que para quebrá-la não é necessário o conhecimento de todos os seus PII/PD(Personal Identifiable Information/Personal Data). Uma pesquisa mostra que com somente o seu Zip-code(cep),sexo e data de nascimento alcança-se uma taxa de 87% de chance de identificar a pessoa. Um relato interessante sobre isso: A Comissão geral de seguros, nos EUA, liberou, certa feita, um conjunto de dados(que chamam de de-identified data, ou seja sem a identificação da pessoa)  sobre  seguro de saúde contendo somente o zip-code, a data de nascimento e o sexo, além de informações sobre seguro do referido. Uma especialista em ciência da computação do MIT, chamada Latanya Sweeney, através de um algoritmo desenvolvido, chegou no registro de saúde do Governador William Weld (Massachussets-1991-1997), inclusive com diagnósticos e prescrição. Isso comprovou, para espanto de todos, a possibilidade de se alcançar alguém, mesmo que não se tenha os chamados dados identificadores.

2-Quebra de anonimato por informações correlacionadas:

Outro aspecto importante é que o seu anonimato pode ser quebrado por correlações entre informações colocadas por você mesmo, em diferentes fontes/sites. Um exemplo aconteceu num concurso feito pela NetFlix, que dava US$1 milhão para quem conseguisse desenvolver um algoritmo (tipo Market-Basket, na verdade método utilizado de recomendação, onde são cruzados perfis de usuários com perfis de produtos) que superasse em precisão, o mecanismo existente. Esse algoritmo é aquele que consegue inferir quais seriam as suas próximas escolhas, baseado no seu perfil de usuário.  Algo parecido com aquele (quem compra A compra B, etc). Se você tem um perfil de “Geek” e um elevado percentual de “geeks” gosta de “Star Trek”, possivelmente esta será uma sugestão válida para o seu perfil. O NetFlix entregou uma lista de filmes assistidos por seus clientes, omitindo, claro, a identificação do assinante. Um certo assinante não identificado assistiu os filmes, a,b,c..., do gênero tal, nas respectivas datas, d1, d2,etc,etc. Um profissional de dados, resolveu fazer uma análise do IMDB, aquele grande site com informações sobre todos os filmes. Lá, as pessoas opinam sobre os filmes assistidos e claro, normalmente se identificam. Fazendo uma correlação entre um subconjunto de opiniões emitidas por uma pessoa identificada no IMDB com os registros anônimos do Netflix, ele chegou à conclusão de quem (provavelmente) era quem. Na lista anônima do NetFlix (daquela possível pessoa) havia também uma série de filmes do gênero “gay”, que, claro, não estavam comentados no IMDB. O analista de dados, por correlações indiretas, publicou nas suas redes sociais a sua “descoberta”. A pessoa descoberta era uma mãe “gay” ainda “dentro do armário”, o que resultou num grande “rebut”. A senhora foi para cima do NetFlix com uma ação por quebra de privacidade de US$8 milhões e o NetFlix acabou com o tal concurso. Os exemplos mostram que , embora para nós possa ser difícil perceber certas correlações à primeira vista, isso pode ser feito facilmente, com observação, paciência, e se necessário, o poder dos processadores. Além da segurança e da privacidade, os aspectos de discriminação no uso dos dados também entram na tela de radar dos aspectos de ética.

Lei e Discriminação:

Um dos problemas clássicos na aplicação dessas leis é o claro descompasso existente entre elas e a velocidade de desenvolvimento das tecnologias. O que acontece é que as leis (ainda) não evoluíram para serem aplicadas em tecnologias como Big Data, IoT e IA e , por isso , busca-se uma adaptação da legislação atual. Mesmo assim, nos EUA, algumas multas têm sido aplicadas em empresas com tecnologia avançada, embora a lei tenha sido definida num contexto antigo e diferente. Exemplo da Spokeo, empresa classificada como Data Broker, mas que foi punida e enquadrada como empresa CRA-(Agência de classificação de risco) e que pagou US$800.000,00 de “fine”. Outro caso foi a multa aplicada na empresa Trendnet, que oferece serviços de câmeras de segurança via internet, mas que apresentou problemas na oferta de seus serviços, com invasão de hackers. O FTC(Procon dos EUA) aplicou, nesses casos, leis já existentes, sem serem específicas para o contexto da era digital.

O FTC lançou um manual relativo a esses aspectos de leis e proteção dos consumidores com relação ao uso de Big Data. Chama-se Big Data-A Tool for inclusion or exclusion? Understanding the issues-FTC Report-January 2016, que pode ser acessado no endereço
https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf  

O documento faz uma análise detalhada sobre os benefícios de Big Data e os possíveis impactos que o seu uso pode ter na sociedade, se certos cuidados não forem observados. São citadas as leis que já existem, nos EUA e que podem ser aplicadas na regulação do uso de Big Data:

1-Fair Credit Reporting Act, aplicada em empresas chamadas CRA-Credit Reporting Agencies, que tem o seu business na compilação e venda de informações sobre consumidores, usadas para análise de concessão de créditos, seleção de empregados, venda de seguros, corretoras de aluguéis, etc e que decidem a elegibilidade de alguém em qualquer dessas circunstâncias. A Lei define o rigor de precisão que essas informações devem ter, além de permitir ao consumidor acesso a elas e a possibilidade de corrigi-las, caso pertinente. A preocupação com a chegada de Big Data neste cenário é que as empresas poderão usar, no lugar dos dados tradicionalmente considerados para essas decisões, outras informações que poderão influenciar a resultado final para o consumidor. Por exemplo, no lugar as tradicionais comparações de histórico de pagamento de débitos, a empresa emprega o uso de zip-code(analisando a localização de moradia e por consequência o seu status social) ou o uso de redes sociais, identificando comportamentos não diretamente associados à capacidade de pagamento ou ao risco de inadimplência.  

2-Leis de igualdade de oportunidades: O FTC também aborda as diversas leis que regulamentam igualdades de oportunidades, como a lei de igualdade de oportunidade de crédito(ECOA-Equal Credit Opportunity Act). Outras leis, como a de 1964 ((Title VII of the civil rights Act-1964) que protege os direitos civis se juntam a outras que definem um escudo de proteção contra discriminação por raça, cor, gênero, religião, origem, estado civil, deficiências e informações genéticas. Por exemplo, se alguém tem no seu genoma marcadores que sugerem propensão ao câncer de próstata, isso, não poderá ser usado na seleção de empregos ou na análise e seleção de inquilinos.

3-Lei do Procon(Federal Trade Commission Act): A seção 5 da Lei do Procon americano, que trata de proteção contra práticas injustas ou enganosas, agora focada no uso de Big Data. As empresas que se utilizam de Analytics com Big Data, deverão verificar se não estão quebrando certas regras com relação aos consumidores. Por exemplo, se não estão infringindo aspectos sobre o compartilhamento de dados dos consumidores, ou sobre a preservação de seus dados pessoais, ou se há a opção consciente e consentida deste compartilhamento. Além disso, no mínimo, as empresas provedoras desses dados deverão estar cientes sobre o uso que será feito com os dados, garantindo que este não será com objetivos fraudulentos ou discriminatórios. 
Com o objetivo de maximizar os benefícios e mitigar os riscos no uso dos dados, o Guia sugere algumas práticas de QA-Garantia da Qualidade, através de certas observações:

--Quanto representativo é o seu conjunto de dados? No fundo sugere a verificação de quanto balanceado está o seu dado, procurando fugir de impropriedades de  “extremos”. Por exemplo, se os dados são obtidos de redes sociais ou aplicativos, uma parte da população não afeita a esses ambientes, poderá ser excluída. Como os dados foram coletados, quando e por quê?

--Como estão os dados e as amostras, com relação a tendências/distorções(biased). O quanto confiável são os dados? Tem um pouco a ver com o anterior, porém se concentra em observações de partes do ciclo de vida dos dados(DLCM-Data Lyfe Cycle Management), atentando para que certos elementos de distorções, omissões ou tendências não estejam presentes nos dados, ao longo desse fluxo. Por exemplo, na fase inicial de um processo admissional, no processo de coleta, observar cuidados com fatores seletivos que definem, por exemplo, universidades “tops”, para compor o processo. Isso tenderá a excluir profissionais de outros domínios, que podem ser tão bons ou até melhores, mas serão excluídos pela inserção de um fator “biased”.

--Observar com cuidado os aspectos de precisão dos algoritmos de predição. A análise, não cuidadosa de certas variáveis que compõe o “core” do algoritmo de predição e inferência, poderá levar a resultados não confiáveis. Os algoritmos deverão ser governados(conforme já falado anteriormente), com o intuito de garantir a preservação de aspectos éticos e de equidade das tomadas de decisão. Aspectos de registros de erros já detectados pelo uso dos algoritmos (falsos positivos ou falsos negativos) relacionados com gênero, sexo, raça deverão formar uma base de conhecimento.

--Aspectos de responsabilidades: Definir “accountability” (responsabilidade final) pela aplicação dos algoritmos e de seus resultados que poderão influenciar em liberdades e direitos.  

Validade dos dados e dos algoritmos:

Com o crescimento dos conceitos de Big Data e a tendência de sua interpretação por algoritmos de “machine learning”, cresce uma preocupação: Qual a precisão das máquinas, com seus algoritmos estatísticos para realizar uma inferência sobre, por exemplo, a figura mostrada a seguir?. Qual a garantia de preservação de privacidade ou de possibilidade de geração de embaraços, num exemplo como esse? Conforme O Globo de 08 de setembro de 2017, a Universidade de Stanford desenvolveu um algoritmo que permite com mais de 80%  de precisão inferir a opção sexual de uma pessoa, analisando somente as suas feições numa fotografia. (figura 01).

                                                                      Figura 01

Fonte: O Globo. INTELIGÊNCIA ARTIFICIAL DETECTA SE UMA PESSOA É GAY ANALISANDO FOTOGRAFIAS. Disponível em : https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-se-uma-pessoa-gay-analisando-fotografias-21799100 , acesso em 8/9/2017.

Embora o algoritmo ainda se restrinja a pessoas adultas, caucasianas, etc como garantir que tal inferência está estatisticamente correta? Como gerenciar, do ponto de vista de ética dos dados essas pretensas adivinhações digitais? E as consequências da liberação de um algoritmo desses na internet, onde fotografias de amigos e parentes circulam livremente em redes sociais e poderiam ser analisados? Como gerenciar essa nova e complexa faceta dos dados?
                                                                         
Veja um outro exemplo, também veiculado no O Globo, agora de 01/Novembro de 2017.(figura 02) O artigo aponta que os algoritmos de AI já mostram resultados na detecção de padrões cerebrais dos pensamentos suicidas. Embora esse exemplo até sugira intervenção nobre e preventiva, como garantir que os resultados sejam corretos e as suas consequências, no caso do falso positivo e do falso negativo?
   
                                                                         Figura 02   
Fonte:  MATSUURA, SÉRGIO. “INTELIGÊNCIA ARTIFICIAL DETECTA PADRÕES CEREBRAIS DOS PENSAMENTOS SUICIDAS”. Disponível em : https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-padrões-cerebrais-dos-pensamentos-suicidas-22015064 , acesso em 8/9/2017.
                                                                
Outro exemplo, publicado, agora na UOL, mostra o caso da atriz de Mulher Maravilha, cujo rosto foi “transplantado” por algoritmos de IA(Machine learning -TensorFlow da Google) para personagens de filmes pornográficos.(figura 03)
                                                                        Figura 03
Fonte: Uol. FILMES PORNÔ COM CELEBRIDADES? A MAIORIA É FRUTO DE INTELIGÊNCIA ARTIFICIAL. disponível em https://tecnologia.uol.com.br/noticias/redacao/2017/12/13/filmes-porno-com-celebridades-a-maioria-e-fruto-de-inteligencia-artificial.htm, acesso em 13/12/17.

Assim, a validade dos dados e a equidade dos algoritmos são temas que deverão, a partir de agora, fazer parte dos itens de QA-Quality Assurance dos cientistas de dados, se já não o fazem. A Gestão e Governança de dados ganham mais uma fatia de processos, agora com o que chamei de “psicologia” e cuidado no uso dos dados.
O livro “Weapons of Math Destruction: How Big data increases inequality and threatens  democracy” é uma referência interessante quando se pensa nos aspectos de igualdade de tratamento e ameaças dos algoritmos. O livro, que tem no título um trocadilho de “armas de destruição em massa”, (trocando mass por math) circulou pelas listas dos melhores de 2016, no conjunto mais respeitado da imprensa americana como New York Times, Boston Globe, Wired, Fortune, etc. Escrito por Cathy O´Neil, uma  matemática que trabalhou como analista de hedge-fund  e cientista de dados e fundou uma empresa com o objetivo de auditar algoritmos (ORCAA). Colunista da Bloomberg,  apresenta uma visão aguda e crítica sobre os problemas produzidos por decisões automatizadas dirigidas por códigos, ilustrada com vários exemplos de problemas desta natureza.  Com foco nos algoritmos “black box”, objetiva analisar e entender os riscos existentes nas decisões caixa-preta que chegaram com os conceitos de Big data quando casado com IA. Esses riscos poderão gravitar por sobre decisões tendenciosas que são desiguais para classes, raças, sexo,etc e poderão colocar as empresas em situação de vulnerabilidade em função de suas tomadas de decisão. A consultora criou uma empresa especializada, justamente neste tipo de auditoria, criando um processo que objetiva , com rigor, auditar os algoritmos que tomam decisão. É uma espécie do que eu chamei de QA da IA, ou seja a “Quality Assurance” da Inteligência artificial.    

Referências:

FTC-Federal Trade Commission. Big Data-A Tool for inclusion or exclusion? Understanding the issues-FTC Report-January 2016, disponível em https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf  ,  acesso em  01 de novembro de 2017.

Jagadish, H. Ethics on Data Science. Curso EAD. Universidade de Michigan, 2017.

Jie Lu, Dianshuang Wu, Mingsong Mao, Wei Wang, Guangquan Zhang, Recommender system application developments: A survey, In Decision Support Systems, Volume 74, 2015, Pages 12-32, ISSN 0167-9236, https://doi.org/10.1016/j.dss.2015.03.008.

Lasprogata, G.,Colaner,N., Olsen,B.  Curso EAD. Ethics and Law in Analytics and AI. Universidade de Seattle. 2017.

O´Neil, C. Look for who´s fighting our algorithmic overlords. disponível em www.bloomberg.com/view/articles . Bloomberg, acesso em 14/12/2017.

O´Neil, C. “Gaydar” shows how creepy algorythms can get. disponível em www.bloomberg.com/view/articles,  Bloomberg, acesso em 14/12/2017.


O´Neil, C. Weapons of math destruction: How Big Data increases inequality and threatens democracy. Broadway Books.2016.

quinta-feira, 14 de dezembro de 2017

Governança/Gestão e a ética em dados-Parte 4

Privacidade por projeto:


Um dos pontos importantes que a Segurança e Privacidade começaram a cogitar, com a chegada dos conceitos de Big Data, IoT e IA(Inteligência artificial) é o chamado “Privacy by Design”, ou Privacidade através de projeto. No fundo, a ideia é que os aspectos de privacidade e segurança de dados sejam parte constituinte da solução dos sistemas, desde o início, ou seja “by design”. Esse ponto torna-se fundamental na medida em que essa temática(privacidade e segurança, quando em contextos de Big Data, IoT, e Inteligência artificial) exigirão cuidados muito maiores do que aqueles que normalmente são dispensados em sistemas até hoje. Por exemplo, os aspectos de Privacidade quando envolvidos com algoritmos de Inteligência artificial, como aprendizado de máquinas, demandará uma visão de muito mais cuidado e sensibilidade. Conceitos de XAI(Explainable Artificial Intelligence) e GAI(Governed Artificial Intelligence) já estão sendo trazidos  nestes domínios para definir algoritmos de IA que sejam explicáveis(XAI-eXplainable) e que sejam governados(GAI-Governed). No fundo isso tenta estabelecer um mecanismo de mitigação para os problemas relacionados com resultados embaraçosos ou inexplicáveis produzidos pela Inteligência artificial. Resultados errados em inferências médicas, ou em classificações indevidas de pessoas, além de atribuição de responsabilidade em desastres de carros autônomos, por exemplo, poderão ser resultantes da complexidade do ecossistema de IA.  Será fundamental neste contexto, o envolvimento de uma equipe multidisciplinar, com cientistas de dados, analistas de sistemas, especialistas em IA e Gestores de dados que deverão dar o tom correto do que se chama Inteligência artificial governada(GAI). A figura 01 mostra os conceitos que envolvem a Privacidade por projeto, onde aparecem aspectos éticos como respeito ao usuário, ações proativas e não reativas(como acontece hoje, quando soluções de privacidade e segurança são pensadas, com profundidade, somente depois que a casa cai) e o foco preventivo como gancho, minimizando os aspectos corretivos(a posteriori).

                                         
                                                Figura 01-Esquema de Privacidade por projeto (design)

Em resumo, a Privacidade por projeto(Privacy by design) representa ações planejadas, discutidas num arco de amplo espectro e  definidas nos níveis de projeto(design), focando no ciclo completo dos dados, garantindo transparências nas ações e mitigando os riscos que poderão advir de seus usos indevidos, tanto pela empresa, quanto pela máquina. Como consultor na área de dados e um “data geek” por natureza, fiquei em alerta para esse tema, depois de fazer dois cursos(EAD) na área de Ética sobre os dados. Um na Universidade de Michigan (Ethics on Data Science, com H.V. Jagadish)  e outro na Universidade de Seattle, com apoio da Microsoft (DAT249x: Ethics and Law in Analytics and AI, com Geneva Lasprogata, Nathan Colaner e Ben Olsen) . Depois desses cursos, recebi um artigo, escrito pelo meu ex-colega de Cemig, Virgílio Almeida e por Urs Gasser , publicado por Harvard.(1). O artigo, também versa sobre uma proposta de modelo estruturado em camadas para a adoção de uma Governança de Inteligência artificial. No fundo, haveria 3 camadas, uma com os elementos sociais e legais (normas , leis e regulações), outra com aspectos éticos(critérios e princípios)  e uma terceira com aspectos técnicos e os cuidados sobre os dados, envolvendo a GD-Governança de dados com padrões e a responsabilização dos algoritmos. Ou seja, claramente a privacidade e segurança de dados ganham contornos de preocupação com a aproximação da Inteligência artificial, chamada de “incrustable”(impenetrável), onde os algoritmos profundos de aprendizados de máquinas não são alcançados e  plenamente entendidos e portanto, sugerem a adoção de governança. O DMBoK® V2 já  havia trazido a palavra ética e princípios para dentro da seara de discussão de gestão/governança de dados, agora no seu lançamento em meados de 2017. Dessa forma, conceitos de justiça e igualdade, sem discriminação pelos dados, privacidade protegida ou até o grau de substituição do trabalho do homem pelas máquinas, começam a ganhar espessura. Isso vai sugerir novos olhos para a responsabilidade final(accountability) das empresas e para a explicabilidade(explainability) que poderá ser demandada em decisões polêmicas, feitas por “decisores” humanos ou algorítmicos. Assim, chegamos à conclusão de que os filmes de Tom Cruise não estão mais tão distantes , que Big Data é bem mais do que Data Lake com Hadoop e que IA, algo muito mais profundo nos seus efeitos do que sugerem os frios e descansados algoritmos de “deep learning”.   

Referências:

1-Gasser, Urs, and Virgilio A.F. Almeida.2017. “A Layered Model for AI Governance.” IEEE Internet Computing 21 (6) (November): 58-62. doi: 10.1109/mic.2017.4180835

2-Jagadish, H. Ethics on Data Science. Curso EAD. Universidade de Michigan, 2017.

3-Lasprogata, G.,Colaner,N., Olsen,B.  Curso EAD. Ethics and Law in Analytics and AI. Universidade de Seattle. 2017

domingo, 26 de novembro de 2017

Governança/Gestão e a ética em dados-Parte 3


Nessa parte vamos falar sobre Privacidade de dados. Esse conceito, conforme vimos está fortemente entrelaçado com os anteriores e alguns que seguirão. Privacidade pode ser definida como o direito à proteção dos seus dados. Seria o aspecto da TI(Tecnologia da Informação) que trata com a habilidade ou capacidade de uma organização ou indivíduos de determinar que dados, num sistema computacional, poderão ser compartilhados por terceiros. Envolve a coleta, armazenamento e disseminação de dados, a expectativa de seus donos com proteção e privacidade e fecha com aspectos legais e políticos que envolve.
Um dos mais emblemáticos assuntos hoje sobre Privacidade dos dados é o GDPR-Regulação Geral de proteção aos dados, definido pela EU(União Européia) que deverá entrar em vigor, a partir de Maio de 2018. Aqui , neste mesmo espaço escrevi sobre GDPR, em 3 partes, depois que assisti várias sessões de discussões sobre o assunto em seminários internacionais(em 2016 e 2017). No Brasil o assunto continua morno, embora as empresas brasileiras(dependendo de como atuam naquele mercado-EU), estejam sim, envolvidas. Nesses links, a seguir você terá maiores detalhes sobre GDPR, que sintetizarei no contexto deste artigo.

GDPR-General Data Protection Regulation:


1)GDPR-General Data Protection Regulation-Visão geral

Lançada em Abril de 2016 e com data para entrar em vigor, a partir de 25 de Maio de 2018, a resolução foca, de forma muito mais severa, na proteção de dados para os residentes da Comunidade Europeia. A ideia central é dar aos cidadãos sob sua proteção, a volta do direito absoluto sobre os seus próprios dados, além de uniformizar esse tema para a Comunidade da União Europeia(UE). A Europa, mostra mais uma vez, uma nítida visão de maior preocupação com os aspectos de privacidade e segurança de dados, bem maior do que os EUA, onde o tema é visto com certa leniência.

2)Acidentes de privacidade recentes:

De maneira geral, o número de incidentes de segurança/privacidade aumentou 38%, de 2014 para 2015. Em julho deste ano(2016), o Yahoo foi adquirido(seu core business) pela Verizon, por algo em torno de US$4,8 bi. Durante a negociação, diz a Verizon, que o Yahoo não revelou o vazamento(breach) ocorrido em 2014 de 500 milhões de contas, assumido em setembro deste ano, após a concretização da venda. Em Dezembro  de 2016, o Yahoo revela e assume mais um vazamento, desta vez de 1 bilhão de contas, ocorrido em 2013. Talvez o maior vazamento da história digital. Pronto. Está configurado o embaraço, com mais de um bilhão de usuários tendo tido expostos seus nomes, telefones, passwords(criptografadas ou não), perguntas de “check” para confirmação de identidade e email secundário(aquele para onde serão enviados os procedimentos de “reset” de password). Uma empresa de cyber-segurança americana, especializada em circular pelas sarjetas da Dark Web, assegura que 3 cópias dessas informações já foram vendidas por US$300.000,00 cada. Para finalizar 2017, a Equifax, revela um “breach” de 143 milhões de contas e na semana passada o Uber notificou um vazamento de quase 57 milhões de contas, dados pelos os quais o Uber teve que pagar um resgate para garantir que não seriam vazados. Ledo engano. Não há garantia nenhuma com relação a isso, a menos da palavra dos hackers..

3)Escopo do GDPR:

No artigo 3, o GDPR fala sobre o escopo territorial, mas esse ponto é o mais nebuloso da Regulação:
3.1)Deverão estar sob o GDPR os dados de empresas tanto controladoras(aquelas que originalmente coletaram os seus dados), quando as processadoras(aquelas que foram autorizadas/terceirizadas pelas controladoras para processá-los) com estabelecimento na União Européia(U.E), independentemente se o processamento ocorre lá.
3.2)Também será aplicado ao processamento de dados de pessoas que estejam na U.E, por controladores/processadores que não estejam lá, quando o processamento se referir a produtos e serviços, independentemente se há pagamento requerido ou se o monitoramento dos seus comportamentos(uso dos dados) acontece dentro da U.E.
3.3)Essa Regulação também se aplica ao processamento de dados por um controlador não estabelecido na U.E, mas em um lugar onde as leis do Estado Membro(qualquer pais da U.E)  se aplicam por motivos de acordos internacionais.
Dúvida: Um italiano que tenha vindo à BH(trabalha na FIAT), é atendido num Hospital particular daqui e tenha os seus dados registrados no sistema dessa Rede de Saúde. O hospital estará sob os controles do GDPR? Estará somente se o tal Hospital tiver um estabelecimento na U.E? ou independentemente disso?  Vale para o cidadão da U.E onde estiver? Essa dúvida, que coloquei num painel de discussão, em Junho passado, numa Conferência de dados em San Diego-Ca, continua sem definição clara...  

4)Síntese dos aspectos de privacidade exigidos pelo GDPR:

1-Todas as informações solicitadas por você deverão ser enviadas em 1 mês, conforme Artigo 12 . Caso contrário uma queixa formal poderá ser enviada à autoridade constituída;
2-É obrigatória a confirmação de que os seus dados pessoais estão sendo processados e caso OK, quais categorias de PII(Personal Indentifiable Information)  a empresa possui acerca dos dados do solicitante;
3-Deverá ser explicitado  o que os Sistemas de Informações tem de dados a seu respeito. Detalhar se inclui BD, e-mails, documentos, voz ou outra forma de mídia;
4-Em quais países,  os seus dados pessoais  estão armazenados, ou são acessíveis . Em caso de serviços na nuvem dizer em quais países os servidores estão localizados(onde os dados estão ou estiveram nos últimos 12 meses);
5-Uma cópia dos dados ou uma forma de acesso a eles pode ser solicitada, por você, para disponibilização;
6-Informar com detalhes o uso específico que os seus dados pessoais estão tendo ou terão no contexto dos negócios da empresa;
7-Informar a lista de terceiros com os quais a empresa tem (ou pode ter) os seus dados compartilhados;
8-Informar as jurisdições que há com relação aos terceiros, com os quais os seus dados podem ter sido compartilhados. Especificar locais, a partir dos quais os terceiros poderão armazenar ou acessar os seus dados pessoais. Informar as bases legais que permitiram a transferência dos seus dados para essas jurisdições. Informar as salvaguardas definidas por esses terceiros com relação aos seus dados;
9-Informar por quanto tempo existe o armazenamento dos dados e, se a retenção é baseada em categoria de dados(PII, por exemplo), informar por quanto tempo cada categoria é retida;
10-Informar se há outra fonte de coleta de seus dados, além da do próprio solicitante, conforme o artigo 14 do GDPR;
11-Informar, caso haja decisões automáticas sobre os dados(*), incluindo “profiling”(baseado ou não no artigo 22 do GDPR), os dados que servem de base para a realização dessas decisões automáticas, além do significado e das consequências desse processamento;
(*)Decisões baseadas em regras de negócios estabelecidas e que podem ser realizadas automaticamente (Analítics,Machine learning,etc). Informar se os resultados serão sempre reavaliados a fim de ajustar o “engine” de busca ou inferência(leia-se os algoritmos);
12-Informar se houve, inadvertidamente, algum vazamento/acesso aos dados do solicitante, no passado ou como resultado de uma invasão/quebra de segurança e privacidade. Se ok, informar os detalhes de cada invasão/quebra(breach), conforme abaixo:
1-Descrição geral;2-Data e hora (estimada) do ocorrido;3-Data e hora da descoberta;4-A fonte do ocorrido(sua empresa ou terceiros para os quais os dados foram transferidos);5-Quais dados foram vazados;6-A avaliação de risco da sua empresa acerca dos  prejuízos do solicitante;7-A descrição das medidas tomadas que serão aplicadas para prevenir futuros acessos não autorizados aos dados;8-As informações para contato visando buscar maiores informações sobre o breach;9-As informações e conselhos sobre o que o solicitante pode fazer para se proteger contra possíveis prejuízos, incluindo roubo de identidade e fraude;
13-Se não puderem garantir que houve exposição indevida, através de tecnologia adequada, orientar os passos de mitigação que foram aplicados: 1-Criptografia dos dados;2-Estratégia de minimização de dados;3-Anomymização ou pseudoanonymização de dados;4-Qualquer outro meio;
14-Passar informações sobre Políticas e Padrões que foram seguidos com relação à segurança dos dados, informações como aplicam ISO-27001 para segurança de informações e mais particularmente, suas práticas com relação aos seguintes pontos abaixo:
a-Informar se houve backup dos dados para fita, disco ou outra mídia, informar onde estão armazenadas, em que grau de segurança, incluindo quais passos foram tomados para proteger os dados com relação às perdas ou roubos e se incluem criptografia;
b-Informar se há tecnologias aplicadas que permita saber, com razoável certeza, se os  dados foram vazados, incluindo, mas não limitado a : sistemas de detecção de invasão; tecnologias de firewall; tecnologias de gerência de identificação e acesso; ferramentas de segurança e auditoria de BD; ferramentas de análise comportamental, análise de logs e de auditoria;
15-Com relação aos empregados e contratados informar quais tecnologias ou procedimentos garantem que os dados não serão levados para fora ou vazados da organização, via email, webmail, whatsup,etc;
16-Informar se houve alguma circunstância na qual empregados ou contratados foram demitidos ou acusados de acessos indevidos a dados pessoais;
17-Informar quais treinamentos e medidas de conscientização foram tomadas a fim de garantir que os empregados e terceiros acessem e processem os dados em conformidade com o GDPR.

Conclusão:

1-É claro que, pelas exigências colocadas, há um claro viés de se criar uma  espessa nuvem de preocupação nas empresas responsáveis ou terceirizadas que mexem com os seus dados.  Muito provavelmente, pelo excesso de itens da regulação haverá uma dificuldade na materialização das inspeções. Mas nunca esqueçamos que estamos falando da EU-União Europeia e não do Brasil, onde uma regulação dessa talvez nascesse morta;
2-Entretanto, isso mostra que a privacidade talvez seja o elemento, dentro do espectro  ético dos dados, que mais preocupação tenha trazido à sociedade digital. A coleta de dados é fácil de ser feita e normalmente inofensiva, mas o uso e a (falta de) a proteção e controle podem ser desastrosos. A premissa de que os dados na internet são para sempre é assustadora, conforme aponta Schonberger no seu livro-Delete-A virtude do esquecimento na era digital. Parte disso se deve ao próprio usuário, que se expõe e “se esquece de esquecer” os seus dados(delete). Parte disso se deve ao “business” de algumas empresas que, por leis ainda frágeis e discutíveis, podem usar os seus dados(exemplo Mugshots). Parte disso, se deve também ao senso de reciprocidade com os grandes players do mundo digital(FB, Google, Linkedin,etc) que oferecem aplicativos grátis(?). Parte disso, finalmente deve-se ao aos desafios dos hackers que mostram recorrentemente a vulnerabilidade dos mecanismos de proteção dos dados. Isso também é mostrado pela preocupação extrema do GDPR, com exigências rigorosas e multas astronômicas. O vazamento de bilhões de dados, citados nessa parte, evidencia o potencial de danos para os aspectos éticos e de segurança. Só para citar um exemplo de embaraço: Em 2015, houve o vazamento de 32 milhões de contas de um site de encontros (furtivos)  de casais (Ashley Madison). Imagine a aflição das pessoas que estavam lá, sem o conhecimento do parceiro(a), para definir justificativas apressadas de homonímia...

Referências:

      1- Abelson, H. , Ledeen K., Lewis,H. Blown to bits-Your life, liberty and happiness after the
      Digital Explosion.Addison-Wesley.2008
      2- Bell,G. Gemmel, J. Total Recall-How the e-memory Revolution will change everything.
       Dutton.2009
3-Building a European Area of Justice. Disponível em
4-EU-General Data Protection Regulation (GDPR)-An implementation and Compliance Guide-IT Governance Privacy Team, Amazon.com
5-EU General Data Protection Regulation (EU-GDPR). Disponível em:
6-Portal GDPR. Disponível em: http://www.eugdpr.org/eugdpr.org.html. Acesso em: 04/01/2017
7-REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL. Disponível em:
        8-Schonberger, VM. Delete-The virtue of forgetting in the digital age.Princeton University
        Press.2009

9-The Nightmare Letter: A subject Access Request under GDPR
Constatine Karbaliotis-VP Privacy Office Solutions at Nymity
Publicado no Linkedin-9/março/2017, acessado no dia 9/3/17