Total de visualizações de página

terça-feira, 27 de dezembro de 2016

GDPR: General Data Protection Regulation-Parte II-Visão focal

O GDPR é amplo e complexo. O seu detalhamento está publicado na internet e já há uns 3 ou 4 livros na Amazon publicados sobre ele. Acesse http://www.eugdpr.org/ para começar a entendê-lo. A figura-01 mostra, sinteticamente, os pontos principais das mudanças trazidas pela GDPR.


Objetivo:
O objetivo, mostrado de forma simplificada,  é proteger o chamado PII-Personal Identifiable Infomation, ou seja as informações que permitem identificar alguém. Por exemplo, alguns campos são identificadores  mais diretos como o CPF, SSN, # da carteira de identidade, endereço de email, # do telefone. Outros são identificadores indiretos, como data de nascimento, cep e sexo, etc. Esses campos, claro não permitem (diretamente) chegar a alguém, mas podem, caso combinados, aumentar a chance de se chegar ao seu PII. Há uma pesquisa que aponta que, com a combinação dos três elementos de dados(cep, sexo e data-nascimento), há 87% de chance de alguém ser identificado. A conferir... Além da proteção dos dados,  o GDPR também foca nos direitos de cada cidadão com relação aos seus dados. Por exemplo, a entidade controladora(conceito explicado mais abaixo)  será obrigada a, em poucos dias, notificar o cidadão cujos dados foram desviados. A não observância dessa e de outras regras definidas implicará em multas pesadíssimas (até 4% do faturamento bruto anual ou 20 milhões de Euros, o que for maior). No exemplo citado anteriormente sobre o breach do Yahoo, já estaria caracterizada uma violação dessa natureza.
Escopo: 
O escopo das regras será para as empresas que estão localizadas na UE (União Europeia) e processam dados de residentes de lá, ou também empresas que estejam fora da UE, mas que também processam dados de cidadãos residentes naquela comunidade. Está fora do escopo os casos em que o processamento de dados tem a finalidade de segurança nacional ou atrelado a aspectos legais. Cada estado membro da UE definirá um órgão controlador-SA-Supervisory Authority, que terá a missão de receber e investigar reclamações, ofensas etc, naquele domínio e trabalhará, de forma integrada e colaborativa com as outras SA´s. A UE tem aproximadamente 350 milhões de habitantes, distribuídos por 28 estados(países) diferentes. Os membros da UE estarão subordinados a essa legislação, que prevalecerá sobre outras já, eventualmente, existentes.

Papeis importantes na GDPR:
Há os conceitos de Controladores-Processadores-Autoridade de Supervisão e Representantes. Esses conceitos são muito importantes para o entendimento do GDPR e estão representados na figura-02.



Controladores:
São pessoas, agências, autoridades públicas ou qualquer outro corpo organizacional que tenha como objetivo o uso dos dados coletados. Serão os responsáveis por garantir que os dados serão usados, de acordo com a GDPR. Deverão deixar claro: Quais objetivos procuram, quais dados existem e suas categorias, os meios pelos quais serão usados, a forma de coleta, a forma de busca de consentimento (autorização) para o uso dos dados, a descrição dos destinatários( por quem os dados serão usados), os mecanismos de transferência de dados(entre unidades, países, empresas, etc), além das descrições de processos e técnicas a serem aplicados na segurança organizacional daqueles dados. Acresce-se a isso os planos de riscos devidamente definidos para os dados, envolvendo incidência, probabilidade, impacto , mitigação e contingência. As notificações e avisos obrigatórios sobre o uso dos dados deverão incluir o período de retenção para os dados pessoais e informações de contato dos controladores de dados e  do escritório ou gestores de segurança e proteção, definidos. Aliás, já se usa a sigla DPO-Data Protection Office, para definir um grupo totalmente dedicado a isso. Outro aspecto considerado importante será sobre as decisões automáticas(ações por default), que poderão ser contestadas. Ou seja, um cidadão poderá questionar uma opção (definida automaticamente por um sistema-tipo Optin/out) de coleta de seus dados, caso não haja a sua manifestação explícita de concordância sobre aquilo. Os dados deverão ter seu uso explicitamente consentidos pelos usuários. Os sistemas e serviços deverão ter um Plano definido de Privacidade e Segurança. Por exemplo, um Hospital que coleta os dados de pacientes, via sistema de internação e os complementa via sistemas de informações médicas, será o Controlador desses dados nesse contexto, caso haja dados de cidadãos da UE. Como controlador, deverá responder por todos os pontos definidos anteriormente e deverá estar apto a demonstrar, via GD, os elementos requeridos pela GDPR.  

Processadores:  
São pessoas, agências, autoridades públicas ou qualquer outro corpo organizacional que trabalha, em nome de outro(o controlador). São os contratados para  realizarem serviços de dados definidos e esperados pelo Controlador. Os seus processos devem estar de acordo com as definições do Controlador, que por sua vez estarão coerentes com a GDPR. Um contrato entre essas duas partes deverá regular os requisitos de proteção e privacidade, segundo a GDPR. O “How” dos processos, a serem aplicados não precisam ser detalhados pelo Controlador. Poderá ser definido pelos Processadores, desde que estejam em “compliance” com as regras da GDPR. Dessa forma os Processadores assumirão responsabilidades(em nome dos Controladores), definindo: o sistema(ferramentas-processos e tecnologia) usado, as formas de coleta, armazenamento, transferência dos dados,etc. Definem também como os dados PII serão usados  e apresentarão Planos de retenção, disposal(eliminação de dados), etc . O Processador contratado não poderá subcontratar outro processador, sem a autorização expressa do Controlador. É natural que muitos Controladores sejam também os seus próprios Processadores e assim, as regras e exigências permanecem no mesmo domínio organizacional.
As informações requeridas para os Processadores são: nome, detalhe de contratos, especificação de cada controlador e processador(um Controlador poderá ter n Processadores, e vice versa). Detalhamento dos processamentos realizados para cada Controlador, descrição geral de medidas, técnicas e processos de segurança.  

Autoridades de Supervisão-AS:
São organizações, corpos organizacionais, etc definido pela UE como elementos de supervisão e controle constante sobre a GDPR. Estão geograficamente distribuídas pelos vários (países) da UE e serão as responsáveis pela lupa sobre os Controladores, Processadores e Representantes. Serão uma espécie de QA, com autoridade plenamente instituída.

Representantes:
São uma espécie de “proxy” dos processadores, que não estão na geografia da UE. Assim, os representantes respondem pelos processadores, perante as Autoridades de Supervisão, junto ao solo da UE. Suponha, por exemplo, uma empresa brasileira de tratamento de dados (faça projetos de Qualidade de dados, Dados Mestres, BI, etc) que fará um serviço para a FIAT na Itália. Essa empresa, deverá ter um representante formal naquele pais, ou em algum lugar da UE, que será o elo com as autoridades de supervisão.

Outras considerações importantes:
a)O consentimento(ou a autorização concedida pelo donos dos dados), deverá ser feita explicitamente em termos claros, inteligíveis, sem juridiquês (legalese, em inglês), em um formulário facilmente acessível, com o objetivo do uso dos dados pelos controladores e processadores claramente definido. O consentimento dado poderá ser retirado a qualquer momento, bem como a solicitação de eliminação de dados existentes, porém agora sem relevância;
b)O direito ao acesso, por parte dos usuários, será rigoroso, podendo o dono dos dados questionar os controladores ou processadores se os seus dados estão sendo processados por eles;
c)O direito à portabilidade significa que o dono dos dados poderá solicitar (aos controladores e processadores) os seus dados em uso, entregues em forma digital (machine readable) e transferi-los para outro controlador;
d)O direito à Privacidade por projeto(Privacy by design) diz respeito à consideração desses conceitos(Privacidade e Segurança) serem feitas no nível de projetos e não mais à posteriori.

Como se percebe, as exigências da GDPR elevarão, em muito, os cuidados necessários com os dados de residentes da UE. Isso demandará uma visão organizacional sobre dados(nos domínios de Segurança e Privacidade) e , claro, chegará à Governança de dados e o seu papel fundamental e a importância  dos conceitos aplicados por ela. No próximo artigo, falaremos sobre isso. 

domingo, 18 de dezembro de 2016

Governança de Dados e a GDPR: General Data Protection Regulation-Parte I

Um dos pontos que mais chamaram a atenção na última Conferência de Inverno, em DelRay Beach-Florida foi a discussão sobre GDPR-General Data Protection Regulation, traduzido livremente para Regulação para a proteção geral dos dados. Lançada em Abril deste ano(2016) e com data para entrar em vigor, a partir de 25 de Maio de 2018, (portanto daqui a quase 18 meses) a resolução foca, de forma muito mais severa, na proteção de dados para os residentes da Comunidade Europeia. A ideia central é dar aos cidadãos sob sua proteção, a volta do direito absoluto sobre os seus próprios dados, além de uniformizar esse tema para a Comunidade da União Europeia(UE). A Europa, mostra mais uma vez, uma nítida visão de maior preocupação com os aspectos de privacidade e segurança de dados, bem maior do que os EUA, onde o tema é visto com certa leniência. Para ilustrar: De maneira geral, o número de incidentes de segurança/privacidade aumentou 38%, de 2014 para 2015. Em julho deste ano(2016), o Yahoo foi adquirido(seu core business) pela Verizon, por algo em torno de US$4,8 bi. Durante a negociação, diz a Verizon,  o Yahoo não revelou o vazamento(breach) ocorrido em 2014 de 500 milhões de contas, assumido em setembro deste ano, após a concretização da venda. Agora em Dezembro, na última 4afa, dia 14, o Yahoo revela e assume mais um vazamento, desta vez de 1 bilhão de contas, ocorrido em 2013. Talvez o maior vazamento da história digital. Pronto. Está configurado o embaraço, com mais de um bilhão de usuários tendo tido expostos seus nomes, telefones, passwords(criptografadas ou não), perguntas de “check” para confirmação de identidade e email secundário(aquele para onde serão enviados os procedimentos de “reset” de password). Uma empresa de cyber-segurança americana, especializada em circular pelas sarjetas da Dark Web, assegura que 3 cópias dessas informações já foram vendidas por US$300.000,00 cada. Assim , voltamos ao GDPR, como coloquialmente é chamado esse abrangente protocolo regulatório que definirá regras leoninas para mitigar eventos como os acima descritos e proteger os dados dos internautas da União Europeia. Isso, obviamente, cairá no escopo da Governança de dados, exigindo das empresas que ainda não se preocuparam com essas práticas, que se preparem. A implementação de Governança de dados, que inclui Segurança e Privacidade, em seus corpos de conhecimento, além de outros, será extremamente aquecida na Europa. Mas não somente lá. Se uma empresa brasileira realizar um serviço de , por exemplo, Qualidade de dados ou um projeto de dados Mestres para uma empresa da UE, localizada aqui ou lá, ela também(a brasileira) deverá estar  em “compliance”  com o GDPR. Assim, preparem-se para esta nova fase de GD. Lembre-se desta data: 25 de Maio de 2018...Voltaremos ao assunto, dentro da lupa de Governança  e Gestão de Dados.

domingo, 4 de dezembro de 2016

Gerente e Regente-As sutilezas de um anagrama

Domingo das cores de Abril. Praça da Liberdade, céu azul de soneto, Orquestra Sinfônica e repertório dos Beatles. Melhor combinação, pra quê? Encosto numa das palmeiras imperiais da Liberdade. Gigantesca, tronco firme, mal cuidada, com o verde da esperança, bem distante, lá longe, lá no topo...Parece o Brasil. Pessoas se aglomeram. Repertório aberto, será que tocarão Anna? . Provavelmente não... Olho de lado e vejo que pessoas pisam na grama... Ana, grama...esquisito, não é? Acho que meu hipotálamo tá querendo dizer algo, sei lá.. Presto atenção no palco, embora com ângulo desfavorável. De repente olho o maestro. O regente. Maestro, regente, anagrama de gerente. Ok, entendi... Thks cerebelo...Assim, me pus a pensar na diferença entre eles: o regente e o gerente. Os dois conduzem pessoas da sua equipe aos seus objetivos nobres e finais, cada qual na sua especialização. Um coordena o projeto, o outro a flauta doce. Um se vale do cronograma , o outro da partitura. Um segue o código Java e o outro os da clave de Sol. Muitas coisas comuns alinhavam esses dois personagens. Há, entretanto, uma diferença fundamental. O Regente tem propensão a destaque de bateria. Se posta como uma atração em separado, fisicamente à frente da equipe, embora de costas para o público. Não sei se por necessidade técnica , mas o regente tem todo um gestual de corpo, próprio dos grandes exibicionistas. Aponta a batuta com movimentos suaves e flutuantes de braço e tronco , que chamam a atenção para si e discretizam os verdadeiros heróis da equipe, que são os músicos. Apaga o clarinetista da cena, desaparece virtualmente com o pianista do palco e se transforma no foco visual do espetáculo. O bom gerente, por sua vez, se mimetiza na equipe que coordena. Sua presença, mais do que vista, é somente sentida. Coordena pelo conhecimento, conduz pelos detalhes da presença e a sua batuta é a força das palavras e o magneto do seu olhar. Quando observa a sua equipe, o gerente deve ser somente mais um da orquestra. Ouso dizer que aqueles músicos da Sinfônica de domingo tocariam “Yesterday” sem a presença do regente. Mas nunca, o regente faria aquela apresentação sem os músicos.... É, faz sentido... Gerente, deve ser mais mestre e menos maestro e muito menos regente com tiques de destaque. ...Here, there and everywhere... 

terça-feira, 29 de novembro de 2016

Novidades em Governança e Gestão de Dados-Parte-06-final

Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento nos EUA?
Evento: Conferência de Inverno de Governança de Dados, ocorrido entre 14-18 de Novembro de 2016, em Delray Beach – Flórida .

Drops finais:

1)Uma das áreas com maior grau de potencial para a aplicação de GD é a de Health Care. Participei de uma reunião de um SGI-Special Group Interest, especificamente em Health Care. Na verdade, eu estava lá, muito mais como observador, prestando atenção nas discussões de um grupo focado em GD naquele segmento específico. Há estatísticas que apontam que 67% dos registros médicos tem erros de dados. Com a definição do “Medicare”- programa de seguro de saúde para maiores de 64 anos, ou outros com problemas renais crônicos, ou “Medicaid”- programa para menores ou iguais à  64 anos, com limitações para pagamentos deste tipo de seguro, tornou-se fundamental o controle mais rigoroso dos dados por parte das prestadoras e a visão mais forte de “compliance” por parte dos agentes reguladores. A área de saúde considera dados como elemento que pode decidir a sobrevivência de um paciente, diferentemente dos “draw-backs”, que podem acontecer em outras verticais. Como vencer a resistência da alta gerência que ainda reluta na adoção de GD, ou o uso de Big Data para o tratamento e a prevenção/controle de novas internações, foram os pontos mais discutidos. A IBM, com o seu Watson(sistema de Inteligência artificial) está se dedicando com muita ênfase ao estudo e prevenção de câncer, por exemplo. Utiliza os seus complexos algoritmos de inferência estatística, aliado com os exa(*)-volumes de informações armazenados e trabalhados por um arsenal poderoso de máquinas e processadores.  (exabytes são 1024 petabytes, que são 1024 terabytes....);

2)Diversas palestras de usuários foram apresentadas elencando os aspectos desafiadores de uma implantação de GD. Claro que  a maioria tocou nos aspectos de uma forte conexão com os objetivos de negócios,  busca do patrocínio para se mudar atitudes e culturas, escolha correta dos owners, etc. Na palestra da Navient, uma grande organização financeira especializada em empréstimo escolar, me chamou a atenção o foco dado em um ponto, por vezes, pouco observado: A comunicação do programa de Governança de dados. Como parte da mudança cultural sobre os dados, esse ponto se mostra fundamental. Logotipo especial sobre o programa, comunicação forte focada em pessoas e resultados obtidos podem fazer a diferença. A organização(Navient) tem um Conselho de Data Stewards (Gestores de dados) de 18 membros, o que reforça a necessidade de uma boa comunicação entre eles;

3) Um outro assunto muito comentado nas palestras, principalmente quando são mostradas as ferramentas que apoiam GD(AGS/Rochade;Collibra/Collibra, Orchestra/EBX5) é Data Lineage, ou linhagem de dados. Representa a rastreabilidade de um dado saindo da sua origem e chegando no seu destino, com todas definições em torno dos processamentos a que será submetido. Imagine, por exemplo, o valor de imposto de renda a ser cobrado ou restituído, que é o produto final da sua declaração, no processo de IR. Olhando o fluxo de dados, você perceberá que os dados entrados na sua declaração (rendimentos oficiais, despesas, etc) serão submetidos a vários processos, alguns no seu PC quando você está entrando com eles e outros em processamentos forward(feitos na RF), que acabará na produção do valor final (R$ a ser pago ou a ser restituído). Imagine uma forma gráfica e documentacional de registrar isso. Isso é a linhagem de dados. É claro que para se ter uma visão precisa dos dados de uma empresa(dos principais e mais críticos, claro), a linhagem de dados é fundamental. Ela está associada com o conceito de ciclo de vida dos dados, um elemento fundamental e com o conceito de “data provenance”, algo como proveniência dos dados. Com a linhagem dos principais dados, por exemplo de “compliance”, a GD ajuda em possíveis socorros quando houver qualquer valor glosado por agências reguladoras, pois a análise da linhagem permite a identificação dos pontos possíveis de origem do problema. É o assunto do momento, dentro da categoria Metadados. Alguns pontos anotados sobre Linhagem de dados:
·       Estabelecer linhagem de dados não é uma abordagem fácil de se implementar
·       Quase 50% das empresas não tem Data Lineage implementada
·       Quando implementada e suportada por uma ferramenta, deve-se tratar os dados principais e críticos que estão sob o olhar da Governança de dados
·       A Linhagem de dados pode variar , dependendo da perspectiva de cada LOB(Linha de negócios).

4)Um termo interessante que apareceu na palestra da Collibra foi “amazonification of data”. O termo, no fundo, significa a facilidade que se tem para localizar um livro na Amazon e comprá-lo instantaneamente, sem grande trabalho, com poucos cliques. A metáfora foi construída para abordar a dificuldade de se obter os dados neste crescente ambiente de hoje nas empresas. Múltiplas fontes, ambiguidade semântica, silos construídos sem nenhuma preocupação, etc tem dado muita dor de cabeça aos Cientistas de dados, que gastam a maior parte do seu tempo tentando localizar os dados necessários. Gastam mais tempo identificando os dados necessários do que dedicam à sua análise inferencial e científica.  

5)Um debate que produziu interesses foi sobre “Qual seria o futuro da GD?”. Foi conduzido por Danette McGilvray, com quem tenho encontrado sistematicamente nos vários eventos de dados, de que tenho participado. Às respostas , já comentadas em posts anteriores, se acrescente a formação do primeiro PHD- DSc em Qualidade de dados dos EUA, formado pela Universidade de Little Rock, no estado do Arkansas. Essa universidade tem uma tradição muito forte na área de Qualidade de Dados(conceito no qual eles englobam o de Governança de dados), capitaneada pelo Professor John Talburt, com quem encontrei em Baltimore, no último IAIDQ. Uma discussão correlata foi a progressão da carreira dos profissionais de dados, principalmente dos Gestores de dados, o que seria uma forma inteligente de incentivar  essa carreira, que se desenha fundamental dentro da Governança de dados. Hoje se percebe somente carreiras colaterais, sendo desenvolvidas, como Cientistas de dados. Outro ponto será o crescimento de tipos de dados, hoje ainda incipientes, como voz. A análise de voz, via ligações de call centers, podem evidenciar alguns traços de clientes e a inferência de informações sobre eles. O uso de imagens, hoje já aplicado em propagandas de quiosques na Coreia, poderá permitir a personalização de comerciais/advertisements, baseada em aparências e expressões. Um outro ponto que deverá evoluir no campo de GD será a comercialização de dados, hoje bem mais rigorosa na Europa e mais flexível nos EUA. A expectativa é que essa leniência encontrada hoje nos EUA seja , no futuro, modificada por uma legislação mais rigorosa, preveem os especialistas;

6-A GD também se mostra em grande crescimento na China, conforme testemunhou Danette McGilvray, que recentemente lançou o seu famoso livro de Qualidade de Dados lá e havia retornado daquele pais diretamente para o evento de DelRay, conforme me falou. Também na Austrália, conforme depoimento do executivo da BackOffice, o conceito de GD cresce significativamente. No Brasil, afetado pela crise , o movimento de implantação de GD ainda está em relativa temperatura morna. Entretanto, mais cedo ou mais tarde, as empresas acordarão para essa importante perspectiva de terem os dados gerenciados como uma ativo organizacional. Questão de tempo...


7-Terminada a Conferência, fiz um curso de 2 dias sobre Data Stewardship(Gestão de Dados), com David Plotkin. Plotkin é autor de um dos melhores livros no assunto e talvez seja a figura mais experiente em Gestão de dados nos EUA. Atuou em duas grandes empresas na área de seguros AAA e AIG a atualmente comanda a área de Governança de dados do gigantesco Banco Wells Fargo. Por dois dias, foi possível trocar experiências e observar a implantação de GD na prática. Valeu pela Conferência.. 

quinta-feira, 24 de novembro de 2016

Novidades em Governança e Gestão de Dados-Parte-05

Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento nos EUA?

Evento: Conferência de Inverno de Governança de Dados, ocorrido entre 14-18 de Novembro de 2016, em Delray Beach – Flórida .

Alguns drops de informações :

1)Os drivers que estão levando as empresas a adotarem GD continuam sendo “compliance” com as exigências regulatórias e os riscos delas provenientes, aplicação dos dados para o aumento de vendas, “customer experience”, ou a busca de um  melhor entendimento do comportamento dos clientes,  de certa forma associado à anterior, a avaliação da performance operacional para entender os alcances do negócio através de indicadores mais elaborados e finalmente a busca de redução de despesas;

2)Os principais problemas encontrados, para os quais a GD tenta apontar suas baterias são: Ambiguidade na definição dos dados(falta de gestão de metadados), fontes díspares de informações(falta de integração e de  controle sobre dados mestres e de referência) e falta de responsabilidade e “accountability” sobre os dados(ausência de gestores- data stewards e de donos de dados-data owners). Uma pesquisa de braço erguido na plateia, com quase 200 participantes evidenciou que pouco ainda se faz sobre gestão de metadados;

3)Entender claramente as Políticas de Negócios é fator fundamental na GD, pois as Políticas de dados são originadas, quase sempre, delas( Políticas de Negócios). Uma política de negócios que define, por exemplo, que a empresa é obrigada a se reportar a determinada agência reguladora, num certo período, gerará, como consequência, Políticas de dados de compliance;

4)Há um claro crescimento em determinadas áreas da Governança, ou em processos no seu entorno. Por exemplo, fica patente, cada vez mais, a importância da adoção de CM(Change Management), ou Gerência de mudanças. Aqui não se está falando de mudanças de requisitos ou de códigos, como bem ensina o CMMI ou MPS. A mudança aqui está no plano cultural e comportamental de áreas da empresa que se preparam para abraçar a Governança de dados. A GD exigirá mudanças de posturas gerenciais e operacionais, dai a importância desta gerência para preparação das mudanças.

5)Embora haja ainda uma certa retração com relação à Gestão de Metadados, muitas empresas apresentaram “cases” de abordagem desse corpo de conhecimentos. Nesse patamar surgiu a necessidade de se automatizar os dados, criando glossários de negócios, com diferenciação entre termos de negócios e termos operacionais. Também exige-se da ferramenta de metadados uma capacidade de busca que permita acessar dados por quaisquer atributos, além de uma capacidade de verificação de elementos redundantes de dados, nem sempre alinhavados pela mesma descrição. Nesse segmento aparecem diversas ferramentas, algumas das quais já com presença no Brasil. A lista observada foi: Collibra, Rochade(da ASG), Backoffice, Datum, Infosphere(IBM), Innovative Systems, Informática, EBX5-Orchestra, Trillium, Embarcadero e até o SharePoint da MS pode ser pensado como elemento inicial para uma plataforma de metadados; 

6)Independentemente das linhas de GD adotadas, nota-se claramente a  estrutura triangular padrão, caracterizando um framework com uma camada superior de GD executiva e estratégica,  que tem função de Apoio e Suporte ao programa, uma camada intermediária, com uma visão de autoridade, definição e resolução de pendências e uma camada operacional, que aplica, executa e controla as Políticas, os Processos e os Padrões  de dados da empresa;

7)Um dos aspectos citados no processo de convencimento da necessidade de GD pode passar pela verificação do estado atual das práticas de dados na organização. Uma avaliação(Assessment) pode desenhar o estágio atual da empresa, suas lacunas e fragilidades e se transformar num poderoso elemento de convencimento, principalmente se comparado com posições dos concorrentes. Isso poderá ser feito via os modelos DAMA, DMM, ou alguma abordagem adaptada e desenvolvida, que customize ou otimize os esses modelos;

8)Outro ponto importante, considerado fator de sucesso é o engajamento das áreas e  de pessoas no movimento de GD. O engajamento é função direta do convencimento com dados e fatos, histórias de sucesso e de fracasso e o foco nas pessoas corretas a serem seduzidas. As chefias específicas de áreas de negócios que serão “objetos” dos primeiros movimentos do programa de GD, os owners de dados, localizados no grupo anterior e SME(Subject matter expert)-especialistas em assuntos específicos, que serão fortes candidatos a gestores de dados(data steward). Após a identificação de pessoas e papéis fundamentais, deve-se pensar no treinamento, no desenvolvimento de processos e na monitoração e acompanhamento do programa. Nesse processo de busca de patrocínio é sempre bom estar preparado para responder duas perguntas : O que você necessita de mim e o que você vai retornar para a empresa?;

9)Um ponto de discussão nessas Conferências de GD é sempre o posicionamento  hierárquico da área de GD. Há uma quase unanimidade nas empresas de que a GD deve ficar na área de negócios e não na TI. Dentro da área de negócios, há variações de localização, sendo que as áreas de Riscos e Compliance, juntamente com Finanças são as mais utilizadas;


10)Outra percepção obtida é que há uma ligeira variação na aplicação dos conceitos de Governança de dados e Governança de informações. Normalmente esses dois termos são considerados como sinônimos, porém há pequenas variações, em certas percepções. Por exemplo, atribui-se à IG-Information Governance (Governança de Informações), um espectro maior de atuação, que além de envolver a DG(Governança de dados), também contemplaria a parte de Regulações, Aspectos de riscos, aspectos legais e requisitos ambientais;  

quarta-feira, 16 de novembro de 2016

Novidades em Governança e Gestão de Dados-Parte-04


Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento nos EUA?

Evento: Conferência de Inverno de Governança de Dados, ocorrido entre 14-18 de Novembro de 2016, em Delray Beach – Flórida .

No terceiro e último dia de Conferência, tivemos:

a)O dia foi aberto com um Painel sobre as lições aprendidas sobre GD, diretamente das trincheiras(Tips from the trenches-Lessons learned). Conduzido por Malcolm Chisholm, da FSFP-First San Francisco Partners. Contou com a presença de líderes de Governança de dados, como  Barbara Deemer, da Navient, uma grande organização financeira de empréstimos educacionais, Tonya Walker, da NationWide, grande empresa seguradora da Flórida, Curtis Lee, da Jefferson County Schools, organização educacional com 85.000 alunos de 150 escolas, no estado do Colorado  e de Ho Chun Ho, da JLL, uma gigante da área de imóveis(real state), com atuação nos EUA, Europa, Oriente Médio, África e Pacífico Asiático . A pergunta inicial foi: Quais seriam os pontos mais difíceis para se começar um programa de DG e DS?  Algumas dicas foram dadas, sendo algumas mais óbvias como : Vencer as dificuldades identificando os drivers de negócios importantes; entendendo e justificando claramente os seus objetivos definidos; planejando um projeto piloto, sem abraçar a empresa toda e claro, analisando os riscos regulatórios. Alguns fatores críticos foram citados como definir um forte plano de comunicação e uma gerência de mudança que enfrente os aspectos de resistência cultural, pontos insistentemente falados como FCS-Fatores críticos de sucesso;

b)Outra sessão foi o Painel que discutiu  o Futuro da Governança de Dados. Este foi coordenado por Danette MacGilvray, consultora e principal da Granite Falls, Sunil Soares, consultor e principal da Information Asset, LLC, Ian Rowlands da ASG, Rex Ahlstrom da Back Office Associates, empresa de consultoria em dados e Anne Buff da SAS, famosa fornecedora de produtos na área. A pergunta drive colocada por Danette foi quais seriam as tendências futuras de GD. As respostas variaram entre: A sociedade, cada vez mais regulada, a evolução da tecnologia, com o advento de novas fontes de dados(IOT, por exemplo), os aspectos cada vez mais rigorosos sobre privacidade de dados, como o GDPR-General Data Protection Regulation, da União Europeia, vigente a partir de 25 de Maio de 2018. Muitos outros pontos foram discutidos e deixarei para os alunos e clientes.

c)A última sessão do dia, foi o workshop sobre GD e Agile. Essa sessão foi dada por Tami Flowers da MetaGovernance Solutions, LLC. Desde quando me inscrevi, fiquei com dúvida sobre o conteúdo desta oferta. Seria uma proposta de Agilidade para se definir Governança de Dados, ou seria uma proposta de aplicação de Governança de dados (mais corretamente Gerência de dados), em projetos desenvolvidos com Scrum e métodos ágeis. Mais do que um jogo de palavras, duas coisas bem diferentes. Em conversa inicial com a instrutora, percebi que seria a segunda alternativa, quando ela me contou que tinha 10 anos de experiência no assunto. Como GD não tem isso tudo e os métodos ágeis, há dez anos atrás estavam num estágio inicial, conclui que a proposta era fruto, da implacável indústria dos rótulos sedutores. Com o crescimento da Governança de dados e com a explosão dos métodos ágeis, nada mais “atraente” do que montar um workshop que costurasse os dois temas. Na realidade, a proposta não foi convincente  e depois explico melhor. Foi a menor avaliação que dei no evento...


d)A Conferência terminou hoje e amanhã e depois(5afa e 6afa) teremos um outro workshop separado da Conferência, que versará sobre o Guia completo de Data Stewardship, a ser ministrado pelo famoso David Plotkin, chefe de GD do banco Wells Fargo. Estaremos lá, com expectativa estabelecida... Até BH  

Novidades em Governança e Gestão de Dados-Parte-03

Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento nos EUA?

Evento: Conferência de Inverno de Governança de Dados, ocorrido entre 14-18 de Novembro de 2016, em Delray Beach – Flórida .

No segundo dia de Conferência, tivemos:

a)A primeira apresentação do dia foi da DGPO-Data Governance Professionals Organization, entidade que  congrega os profissionais de GD-Governança de dados. É uma entidade muito participativa e tem um estilo de aprofundar na temática de Governança de Dados, através da cooperação de seus associados. Faço parte dela já há mais de um ano e observo que eles oferecem um amplo material reservado somente para os associados, com dicas, informações e visões muito práticas, produzidas por  membros voluntários que trabalham com o assunto. Material rico e que compensa a anualidade de US$75,00. Além disso, os associados têm descontos nos principais eventos de dados da DataVersity, como o EDW, a Conferência de Inverno e Verão de GD e outros.  A associação apresentou, na primeira sessão do dia, uma série de orientações básicas sobre como implementar GD com sucesso;

b)Um outro assunto que está sendo muito comentado nas palestras, principalmente quando são mostradas as ferramentas que apoiam GD(AGS/Rochade;Collibra/Collibra, Orchestra/EBX5) é Data Lineage, ou linhagem de dados. Representa a rastreabilidade de um dado saindo da sua origem e chegando no seu destino, com todas definições em torno dos processamentos a que será submetido. Imagine, por exemplo, o valor de imposto de renda a ser cobrado ou restituído, que é o produto final da sua declaração, no processo de IR. Olhando o fluxo de dados, você perceberá que os dados entrados na sua declaração (rendimentos oficiais, despesas, etc) serão submetidos a vários processos, alguns no seu PC quando você está entrando com eles e outros em processamentos forward(feitos na RF), que acabará na produção do valor final (R$ a ser pago ou a ser restituído). Imagine uma forma gráfica e documentacional de registrar isso. Isso é a linhagem de dados. É claro que para se ter uma visão precisa dos dados de uma empresa(dos principais e mais críticos, claro), a linhagem de dados é fundamental. Ela está associada com o conceito de ciclo de vida dos dados, um elemento fundamental e com o conceito de “data provenance”, algo como proveniência dos dados. Com a linhagem dos principais dados, por exemplo de “compliance”, a GD ajuda em possíveis socorros quando houver qualquer valor glosado por agências reguladoras, pois a análise da linhagem permite a identificação dos pontos possíveis de origem do problema. É o assunto do momento, dentro da categoria Metadados;

3)Outra palestra que prometia, mas não cumpriu totalmente, foi a associada à  GD com IOT-Internet das Coisas. Com muito tempo e pouco conteúdo, Bob Seiner, um famoso nome da linha de GD americana, teve que se valer até do desgastado exemplo da venda associada de fralda e cerveja, para consumir alguns minutos sonolentos do pós-almoço. Como o assunto IOT ainda é incipiente, a palestra transcorreu no clima de simples projeções e perspectivas, sem exemplos concretos. Em certa ocasião, neste ano, já havia falado sobre isso com alunos da Pós e clientes. Fica claro que a GD deverá observar certos pontos importantes como aspectos de privacidade dos dados entrados ou saídos de sensores, sua qualidade(se estarão sendo produzidos pelas máquinas, na forma correta, calibrada,etc), sua retenção, etc. Ainda a muito a explorar, embora os conceitos padrões de GD, com os seus P´s, se apliquem também por aqui..

4)Outra palestra, que mereceu observação foi a sessão que uniu Sunil Soares, outro famoso consultor de GD dos EUA, com a empresa  francesa Orchestra, produtora do software EBX5. Esse produto, originalmente um hub de Dados Mestres e de Referências, está hoje na classe das ferramentas gerais de GD, e se apresentou num passo a passo afinado com os 16 pontos de implementação de GD, proposto por Sunil Soares, numa outra palestra. A empresa nitidamente tenta um avanço sobre o mercado de Glossário de negócios, Linhagem de dados e outros conceitos de metadados, hoje fortemente ocupado por outra empresa europeia (Collibra, da Bélgica). Franceses e belgas na briga pela fatia dos metadados, que começa a ganhar corpo, como elemento fundamental da Gestão e Governança de dados...  See you   


terça-feira, 15 de novembro de 2016

Novidades em Governança e Gestão de Dados-Parte-02

Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento nos EUA?

Evento: Conferência de Inverno de Governança de Dados, ocorrido entre 14-18 de Novembro de 2016, em Delray Beach – Flórida 
.
No primeiro dia de Conferência (14/11), algumas informações:

a)Um detalhe do evento: Presença de 175 inscritos, sendo 1 do Brasil(eu  mesmo), 7 do Canadá, 2 da Arábia Saudita, 1 da Irlanda e o restante dos EUA. A grande maioria das empresas sendo do segmento de Finanças(Bancos, Seguradoras, Financiadoras, etc) e de Saúde (Hospitais, Planos, Equipamentos médicos, etc) , algumas grandes indústrias(IBM, Lockheed Martin, Nissan, Motorola, Tysson Foods) e duas Universidade (Vanderbilt e Southern Indiana).

b)Há uma percepção no ar, manifestada por algumas pesquisas e por discussões sobre GD e Big Data, que  este conceito (Big Data) está perdendo o seu tônus muscular. Na realidade, na minha visão, isso nada mais é do que o próprio encaminhamento natural que acontece com todas as manifestações tecnológicas/metodológicas que causam impacto no seu “start-up”. Passam pelo pico do entusiasmo, descem até o vale da desilusão para finalmente se estabilizar no patamar de produtividade. O que se ouve por aqui é que o correto não é nem Big Data nem o Small Data, mas sim o Right Data, como publicou o respeitado Harvard Business Review. O placar final, entendo eu,  é que a retórica tecnológica não é nem para desencantar os entusiasmados com Big Data, nem para alegrar os que não acreditam em hypes. Big Data está acontecendo na produção hiperbólica da nossa sociedade digital e a sua aplicação deverá sempre ser precedida de uma pergunta muito simples: Por que preciso disso? Se você for convincente na resposta(para você e para a sua empresa), vá em frente..Caso contrário, não embarque apressadamente em canoas da marca Hype..

c)Outro detalhe observado, no primeiro dia, foi a apresentação muito boa da TIAA, empresa de planos de aposentadoria, que mostrou uma das melhores implementações de Governança de dados que já vi descrita. Com forte apoio da alta gerência criaram uma forte estrutura de gestores de dados(em torno de 62) para atuar na Área de Assunto Finanças, seu grande “driver de negócios”. Numa próxima oportunidade, falarei mais sobre o programa. Sai impressionado...

d)Outra sessão foi apresentada pelo escritório de Governança de Dados do grupo JM Family, um dos maiores grupos de negócios automotivos da Flórida. Mostraram o grande esforço aplicado na criação do Programa de GD, enfatizando o necessário passo de Gerência de Mudanças(aqui, no sentido cultural). Falaram tão bem de uma ferramenta de Metadados, fundamental no sucesso da implementação, que chegou a parecer propaganda. Mas , ao final, acabei com a impressão de que não era. A ferramenta deve ser boa mesma....  A verificar

e)Por último, a reunião que envolvia a discussão de GD no segmento de saúde, com a participação maciça das empresas do setor e eu, meio que deslocado. Muitas das empresas já com GD implantada, outras com orçamento para iniciar o programa em 2017 e outra parte pensando cuidadosamente na possibilidade. Um frase dita por uma das participantes foi mais ou menos a seguinte: “Enquanto na indústria financeira, os dados mal geridos representam perdas de dinheiro, na nossa(da saúde), podem representar perdas de vidas”. Contundente, porém verdadeiro...    Volto depois...  



segunda-feira, 14 de novembro de 2016

Novidades em Governança e Gestão de Dados-Parte-01

Como se encontram os conceitos de Governança, Gestão de Dados e correlatos, no momento, nos EUA?

Evento: Conferência de Inverno de Governança de Dados, entre 14-18 de Novembro de 2016, em Delray Beach – Flórida .


O primeiro detalhe: Esse evento, que começa agora, é totalmente focado em Governança de dados, diferente do EDW-Enterprise Data World, que ocorre no início do ano, que fala sobre tudo de dados, além de GD(NoSQL, Hadoop, Spark,etc). O foco deste evento me parece ser, sugerido pela programação distribuída, um aprofundamento dos conceitos de GD, indo do seu cruzamento com IOT (Internet das Coisas), passando por Glossário de negócios(ambas as sessões, por Bob Seiner) e chegando a um workshop, do qual participarei, sobre detalhes de práticas com Gestores de dados, com David Plotkin. Percebe-se que a verticalização da GD, mergulhando em temas específicos também acontecerá . As áreas de Saúde e  Finanças, duas das áreas de maior aplicação de GD, oferecerão cases específicos.  O evento abre hoje pela manhã , com as palestras de 3 dos maiores especialistas em GD : David Loshin(Knowledge Integrity), Sunil Soares(Information Asset LLC) e John Ladley, agora na First San Francisco Partners). Os 3 somados devem ter uns 12 livros escritos sobre o tema GD e Qualidade de Dados,  e estão entre os grandes astros do assunto nos EUA e Europa. Outro detalhe: Até os movimentos de agilidade estarão presentes, pois teremos uma sessão sobre Agile Data Governance, assunto sobre o qual já escrevi no Blog do Barbi, motivado pela possibilidade de se injetar os conceitos de controle de dados(Gestão e Governança) em empresas menores(startups, como na Fumsoft), que ainda não tem , nem de longe, estruturas para tal, mas certamente terão os mesmos problemas de dados, num futuro próximo. Comentarei, na forma de pequenas notas(drops) ou às vezes artigos maiores, os detalhes percebidos por aqui, sobre os conceitos de Governança de Dados e Gestão de dados, etc. O diabo, em dados, também mora nos detalhes... ..Enjoy...

quarta-feira, 21 de setembro de 2016

Como se encontram os conceitos de Governança, Gestão de Dados, MDM e correlatos, no momento nos EUA-Visão 2016-Parte 2


2)Lessons learned from 8 years of using NoSQL-Mike Bowers-Arquiteto principal da LDS Church-Igreja de Jesus Cristo  dos Santos dos Últimos dias.
A organização (Igreja  de Jesus Cristo dos Santos dos últimos dias) tem 15 milhões de membros, com quase 30.000 congregações no mundo, desenvolve assistência humanitária em 185 países, milhares de documentos são publicados em 188 línguas, possui 192 websites e aplicações em produção com bilhões de “views” de páginas anualmente e rodam em centenas de servidores com MarkLogic. O apresentador, com uma aparente altíssima capacidade e domínio técnico sobre a tecnologia NOSQL, independentemente da variedade dos produtos que há, abriu a sessão, oferecendo à plateia a opção pela escolha do assunto que ele falaria. Ela poderia falar sobre qualquer coisa sobre NoSQL, desde descrição de qualquer dos produtos do mercado, ou responder perguntas específicas sobre técnicas de NoSQL. Ao final, houve a preferência por uma exposição aberta , de preferência do apresentador.
A tecnologia NoSQL segundo a apresentação, está no topo da curva de Hype do Gartner Grupo (Inflated expectations) , com Map-Reduce, na curva descendente em direção ao vale da desilusão (disillusionment valley) e os produtos do tipo DB-Appliances e SQL, no platô da produtividade(productivity), ultrapassados o “slope” do encantamento (enlightment). Maiores detalhes, procure uma curva de hype do Gartner.
A organização usa o produto MarkLogic, depois de deixar o Oracle. O produto Marklogic é um NoSQL baseado em Documentos, originalmente em XML e agora também em JSON. Hoje é considerado um “dual” Data Base(trabalha com  documentos XML e JSon) e também com triple store(RDF), que permite o desenvolvimento de redes semânticas. Trabalha com SQL e promete melhorias nesse campo nos próximos releases.
Paradigmas
A apresentação enfatizou o que nós já sabemos: Um shift de paradigma, quando se compara as duas linhas de produtos(relacionais e NoSQL). O modelo relacional se apresenta com suas estruturas fixas de tabelas, centradas em linhas e colunas, índices fixos, definidos na forma de B*tree e com um esquema obrigatório upfront(ou seja eu tenho que definir tudo antes de fazer a primeira inserção de uma linha numa tabela). Já a proposta NoSQL centra a ideia na mudança, flexibilidade e imprevisibilidade estrutural dos dados e dos bancos que vão recebê-los. Pode ser que se tenha que ir alterando o schema do NoSQL várias vezes, de forma iterativa, até alcançar o ponto estrutural desejado. O autor deu muita ênfase ao produto MarkLogic, que pela sua dualidade estrutural (Documentos e Redes semânticas), entra com certa vantagem nesse ranking inicial. Segundo a apresentação, o produto tem indexação poderosa, podendo criar acessos baseados em cada palavra no documento, além de permitir o enriquecimento semântico das estruturas, com tripla(sujeito-predicado-objeto), criando uma espécie de múltiplos “joins”  antecipados nas estruturas de dados. Com documentos JSON , permite estruturas aninhadas complexas, quase que impossíveis de serem obtidas em bancos relacionais. O modelo NoSQL tem escalabilidade horizontal, crescendo ilimitadamente pelo acréscimo de novos clusters. A solução Oracle Rack, uma tentativa Oracle de sair das limitações relacionais da escalabilidade vertical, não conseguiu implementar essa estratégia de forma natural e fácil. Custa muito e é uma solução altamente complexa, conforme confirma Mike Bowers. De qualquer forma, nos próximos anos, as soluções NoSQL deverão descer do pico do entusiasmo, segundo a curva de Hype do Gartner e caminhar para o platô de produtividade, tendo antes passado pelo vale da desilusão. Essa é a sina de todas as tecnologias, sejam disruptivas ou não.
Performance
Os aspectos de performance, normalmente registrados em transações por segundo foram levantados comparativamente na apresentação de Mike Bowers. As taxas de 100 transações/segundo hoje são “commodities” na maioria dos “engine” de BD. Todos alcançam. O modelo relacional, quando bem “afinado” pode alcançar 1000 transações/segundo, podendo a variante especial Oracle Exadata, alcançar 5000 transações/segundo, porém com alto custo de investimento, segundo Bowers, tangenciando a casa do milhão de dólares. Com a chegada dos BD em Appliances(máquinas de bancos de dados dedicadas, comparadas como uma “geladeira” onde já vem instalados vários processadores, memória em profusão e cpus poderosas), pode-se alcançar um patamar em torno de 5.000 transações/segundo. Nessa cesta entram a solução Exadata(Oracle), a Netezza (IBM) e a Teradata(Teradata). A partir dai, os números começam a montar os seus desafios, tanto no “throughput”, quando no custo. Arranjos em clusters desses “appliances” podem custar muito dinheiro e alcançar limites de 10.000 transações/segundo Bowers. Aqui entram os produtos NoSQL no benchmark. Naturalmente concebidos para a escalabilidade, por genética de arquitetura, esses produtos hoje chegam a limites superiores através da replicação de máquinas commodities baratas. Fazendo um raciocínio simples: Hoje algumas organizações produzem cerca de 8640 GB de dados por dia, que se distribuem por entre 8.640.000.000 transações de 1 KB/dia,  o que dá cerca de 100.000 transações/segundo, patamar desafiador para os SGBDR. Isso somente se consegue com muitos servidores clusterizados, operando os bancos  NoSQL do tipo Documento ou Chave-valor. Para um patamar de 500.000 transações/segundo, restam somente os produtos  KV(Chave-Valor)  ou os Colunares, estes, herdeiros do Big Table, também com múltiplos servidores clusterizados. Os valores desses arranjos devem ser cuidadosamente avaliados. Um NoSQL gira em torno de US4000,00-US32.000,00/servidor, segundo Bowers . O Oracle Exadata, gira em torno de US75.000,00 /core(não por servidor). Um servidor com 24 core(processadores duplos), daria 24 x US$75.000,00, o que representa um investimento significativo, com diferenças abissais em termos de valores a investir. Isso explica, segundo o autor da palestra, a corrida das empresas startups e mesmo das de outro porte, para soluções de bancos de dados NoSQL. Outros pontos, porém devem ser observados.
Escalabilidade
A escalabilidade, grande fator diferencial desses tipos de BD, passa pelo conceito de distribuição dos dados e do processamento em diversas máquinas espalhadas geograficamente. Essas máquinas poderão habitar Data Centers diferentes, em regiões diferentes. Os Data Centers (DC) podem ser divididos, por questão de segurança, em zonas de processamentos independentes. Se uma zona “cair”, a outra segura o funcionamento do DC, garantindo a sua disponibilidade. Dessa forma, os dados NoSQL adotam a estratégia de replicação de dados, normalmente realizada em zonas diferentes de um DC, ou em DC diferentes. O modelo relacional, leia-se Oracle e SQL Server também tentam oferecer opções de descentralização com replicação dos dados. De novo, essas “features” não são baratas quando se fala de soluções como Oracle(Golden Gate), Dell Plex, etc, podendo chegar a US$500.000 por uma implementação pequena  de replicação entre data centers, segundo Bowers. Já os produtos NoSQL não tem custo extra para isso, pois trouxeram do berço, essas características. Um dos desafios desta arquitetura distribuída é o sincronismo entre duas réplicas de dados e se potencializa se estiverem em dois data centers diferentes, diz Bowers. Se a conexão for síncrona, claramente haverá um comprometimento de performance, devido aos rigores do 2PC-Two Phase Commit, conforme aprendemos nas aulas de BD distribuídos. Os bancos NoSQL tem , quase que nativamente, esses mecanismos de replicações assíncronas, que podem ser M-M(Master-Master) ou M-S(Master Slave). No M-M, as atualizações podem ocorrer em todas as cópias(que são consideradas Master) e as atualizações  são enviadas para as outras. No caso M-S, as atualizações ocorrem somente em um nó e as réplicas são enviadas aos outros nós, os quais tem  somente permissão de leitura.
NoSQL:
Na palestra, Mike Bowers centrou no Marklogic um produto (Document DB) em crescimento, com características completamente opostas aos RDBMS. No Marklogic você pode indexar qualquer dado em qualquer documento. Pode procurar pelo documento com aquela palavra. A pesquisa é precisa, usa a semântica para dar consistência na busca(busca de um texto em um documento). A precisão pode ser por palavra, por frase, etc. O autor mostrou um texto sobre EF Codd, que foi o inventor do modelo relacional.  O produto permite definir cada palavra como pertencente a um certo domínio (pessoa, cliente, etc) dando a elas uma semântica própria. Quando duas palavras são comparadas, embora elas tenham a mesma grafia, o sistema é capaz de diferenciá-las pela semântica. Codd autor do modelo relacional e codd(bacalhau), serão diferenciados, pela semântica introduzida, como riqueza adicional. A modelagem é feita por documentos XML com tags, que injetam um sentido preciso nas palavras. O produto, segundo o consultor, também pode adotar o modelo de Grafos. A modelagem de grafos é rica pois envolve metadados e ontologia. Hoje, há uma série de ontologias disponíveis para diversos assuntos (procure por LOV-Linked Open Vocabularies, que contém uma série dessas classificações, para diversos domínios). A combinação de XML e JSON num banco de dados com Triplas (Grafos), forma um novo paradigma de bancos de dados enriquecidos pela semântica. A pergunta principal que deverá ser respondida com cuidado é o “Porquê” (Why) eu preciso caminhar nessa direção? Antes do entusiasmo natural por soluções de bancos de dados , com taxas espetaculares de transação, arquiteturas distribuídas centradas em HDFS(Hadoop), etc, procure sempre responder isso. Os produtos NoSQL são focados em diversos domínios de resolução de problemas e você deverá analisar se as suas dores serão resolvidas por eles.   
Resumo:

Conforme mostrado na consideração da palestra anteriormente discutida, a ênfase dada pelo técnico ao produto Marklogic, deverá ser cuidadosamente balizada pelo tipo de aplicações que a Igreja Mórmon desenvolve. No caso ilustrado, há nitidamente uma necessidade de se manipular altíssimo volume de documentos e oferecer textos, de forma distribuída para uma grande plateia de consumidores. Os bancos NoSQL não deverão nunca ser considerados como a solução milagrosa(sem duplo sentido aqui), pois estão focados em soluções caracterizadas por alto volume de dados especiais(texto, imagem, etc). São propostas tecnológicas de solução para dados distribuídos, com forte foco nos A e P do teorema CAP(Consistência), A(Disponibilidade) e P(Particionamento), ficando o C(de Consistência) adjetivada pelo eventually do acrônimo BASE. Ela acontecerá, com garantia, porém num tempo adiante. Não sincronamente, como seria demandado num sistema de controle financeiro de “dízimos”, por exemplo. Aqui o protocolo ACID dos velhos RDBMS se mostraria muito melhor.  

segunda-feira, 5 de setembro de 2016

Os desafios de dados nas organizações governamentais brasileiras

Imagine a quantidade de dados de um Ministério, tipo do Planejamento. Ou do Ministério da Saúde, Transporte,etc. Ou de qualquer outra organização governamental do Brasil. Imagine a complexidade de suas estruturas, a duplicidade de informações interorganizacionais ou talvez a leniência histórica e colonial com o seu controle. Imagine os diversos dados redundados e replicados por inúmeras áreas de TI dessas organizações todas, com suas consequências. Agora imagine os problemas advindo desse “estado” de dados não controlado e da perda de eficiência da máquina pública, que em última análise, precisa de dados e informações corretas para rodar suas engrenagens. Pois bem, esse é o grande desafio deste trabalho brilhante chamado FACIN-Framework de Arquitetura Corporativa para (Interoperabilidade no) apoio à Governança. Capitaneado pelo Serpro, esse trabalho de Hércules, em desenvolvimento já há alguns anos, pretende botar certa ordem no caos de dados existente nas organizações públicas, e que existe também hoje nas organizações privadas. Intenciona mostrar caminhos e propor referências, com sugestão para adoção, que visem ao melhor controle desses recursos tão valiosos e para os quais, somente agora, as organizações abrem os olhos. É a chegada da Governança de dados nas instâncias dos organismos do Governo federal. O projeto, perfeito nos seus ingredientes e desafiador nos seus alcances, oferece um conjunto de elementos que descreve modelos genéricos, que poderão ser ajustados à realidade de cada organização. O grande objetivo é fomentar um alinhamento intra e interorganizacional, que deverá desaguar na oferta de melhores dados, serviços e qualidade de atendimento nas esferas do Governo Federal. Empacotado no conceito moderno de Governo eletrônico, com iniciativas de melhorias nas interações Governo-Governo, Governo-Negócio e Governo-Cidadão, o projeto foca, dentre outros vetores, em aspectos fundamentais da integração de dados e processos, cujos detalhes podem ser obtidos no link colocado ao final destas linhas. Na área de dados, foco deste Blog, o projeto apresenta um detalhado Modelo de Referência (de dados), de cuja discussão, tive o prazer de participar neste início de setembro de 2016, a convite do Serpro. O modelo tem, na sua composição, todos os elementos necessários a uma governança de dados, capaz de estabelecer os primeiros controles fundamentais e evoluir para patamares futuros de gestão desses ativos, intra e interorganizações. Oferece diretrizes e um conjunto dos P´s da boa Governança de Dados, como Políticas, Princípios, Papeis, Patrocínio, Padrões, etc, num conjunto muito bem costurado técnica e conceitualmente. Dois grandes desafios se interpõem num projeto dessa magnitude e complexidade. O primeiro, a necessidade de se estabelecer uma visão supra organizacional que acompanhe o andamento e a adoção dessas práticas por entre as diversas áreas do governo. Nos projetos de GD, de que participamos, verificamos essas dificuldades latentes, dentro de uma única organização, visando o envolvimento das diversas LOB(Linhas de negócios) que utilizam os dados organizacionais. Agora transportemos esse cenário para diversas organizações governamentais, num ecossistema complexo. Desafio puro. O outro ponto a se considerar é o momento político de transição, quando teremos novos gestores, líderes, etc. E nesse nosso país, sabemos que, coisas boas, feitas por governos anteriores, podem desaparecer no buraco negro das diferenças políticas ou na indiferença daqueles que não percebem a importância dos grandes projetos, que não foram da sua lavra. E esse é um deles...

Obs: Se você é estudante de Computação, Sistemas de Informação, etc, trabalha com TI, ou gosta do assunto Dados, Integração e Interoperabilidade não deixe de acessar o link abaixo.

sexta-feira, 26 de agosto de 2016

Governança, Gestão, MDM e correlatos-Uma Visão do EDW-2016-San Diego-Parte I

Como se encontram os conceitos de Governança, Gestão de Dados, MDM e correlatos, no momento nos EUA-Visão 2016-Parte I

Evento: EDW-2016-San Diego-California, entre 17 e 22 de Abril

Embora o Blog do Barbi não pôde ter comparecido pessoalmente, tive acesso a todas os vídeos de todas as palestras. A análise cuidadosa de todas as palestras, permite essa visão simplificada do estado da GD, Bancos NOSQL, Gestão de dados e temas correlatos nos EUA, e de certa forma, reflete a situação no mundo. Fica até mais confortável, pela possibilidade de se ouvir várias vezes, o que o listening do meu  inglês “Joel Santana” dificulta de primeira....Enjoy..

A)Palestras sobre NOSQL:

O tema foi bastante discutido em várias 13 palestras, que variaram de visões mais gerais sobre o conceito e outros mais específicos sobre certos produtos, passando per aplicações dessa tecnologia em projetos muito interessantes. Vamos comentar algumas: 

1)Health Care Analytics with na Enterprise Data Lake-Parsa Mirhaji-CTO do Montefiore Health System e Jans Aasman, CTO  da FranzInc, criadora do Allegrograph
A apresentação mostrou uma interessante aplicação na qual um importante Centro Clínico  americano está montando um grande Data Lake semântico. Data Lake é um conceito emergente para designar um grande depósito de informações, de natureza variada, com   dados de  pacientes,  de famílias de pacientes, dados de imagens, prescrições, medicamentos,  especificidades sobre doenças e tratamentos, “devices” , planos de seguros dos pacientes, etc. Algumas informações complementares também entram como os dados sócio geográficos de pacientes(onde moram, como moram, etc) e informações genéticas sobre eles. É na realidade o que chamávamos, nos anos 80 e 90, de ODS-Operational Data Store, agora amplificado por Big Data e dados não estruturados, formando uma espécie de repositório gigantesco, um  “sopão” de informações gerais, de onde podem ser extraídos conjuntos de dados para tratamentos informacionais específicos, via outras plataformas. A ideia central é ter um conjunto plural de dados, capaz de, rapidamente, produzir informações precisas e conectadas, por meio de  uma camada NOSQL que aplique estruturas de grafos e relacionamentos semânticos.

Maturidade em tratamento de dados de saúde

A apresentação mostrou um interessante modelo de maturidade em “Analytics” para á área de saúde, com 9 níveis(de zero a 8), evidenciando os tipos de degraus que a empresa pode trilhar em direção a um patamar mais maduro no tratamento de informações médicas. Vai, por exemplo do nível zero, onde as soluções de informações se baseiam em fontes de dados(data points) fragmentados, subindo para um EDW-Data Warehouse Empresarial (nível 1), alcançando registros padronizados e glossário de termos(nível 2). Continua com a automatização de relatórios internos(nível 3) e de  relatórios externos(nível 4). Sobe um degrau para contemplar  a gerência sobre  redução do resíduo hospitalar(nível 5), chegando na camada de  Gerência de saúde da população, com “analytics” sugestivo e inferencial de potenciais problemas(nível 6). Cresce para o próximo nível analisando riscos clínicos de intervenções com análise preditiva(nível 7), até alcançar a camada de medicina personalizada e prescritiva(nível 8). Baseados em sistemas de aprendizado centrados em evidências clínicas, os níveis 0 e 1, estão fundamentados em relatórios, dashboards, Data Marts, etc. Os níveis  de 2 a 5 se concentram na melhoria dos EMR(Eletronic Medical records) , com acesso ubíquo a qualquer informação, aspectos regulatórios, informações de colaboração e parceiros. Os níveis(6 e 7) focam em ACO-Accountable Care Organization, no fundo uma organização de provedores de serviços de saúde com um modelo de entrega(de serviços) e de pagamentos (de fornecedores) que procura definir com rigor os reembolsos centrados em métricas de qualidade e de redução no custo total para um tipo definido de população de pacientes. Isso evidencia a forte associação que os  provedores de serviços de saúde tem com os dados e sua gerência, compondo o conceito forte de HIS-Health Information Systems. Esse modelo claramente , na medida em que evolui nos degraus descritos, demandará um volume maior de dados, além de, muito importante, os metadados mais presentes e elaborados. Não esqueçamos que essa dupla(dados e metadados) são os pilares para se alcançar uma sólida Gerência de Conhecimento, que no fundo a indústria da saúde americana procura sistematizar, evidenciada neste trabalho apresentado.

Data Lake Semântico e suas camadas

A base conceitual da arquitetura é o Data Lake Semântico, plataforma composta por  uma camada em “analytics”  de Big data e computação Cognitiva(uma forma de processamento de dados que tenta simular a capacidade de pensamento do ser humano). A camada básica  de software é formada pelo Hadoop(HDFS), com Spark , uma proposta que vem de encontro ao MapReduce, com uma intenção de maior performance, focando em  processamento em memória e com o mesmo objetivo básico de processar uma imensidão de dados distribuídos em diversos clusters de processadores. Processa comandos SQL e dados “in-stream” , com fluxos constantes. Além disso, o sistema aplica os conceitos de Redes Semânticas, procurando uma estruturação de dados, baseada em triplas(sujeito-predicado-objeto), como (Barbieri=sujeito), (operou=predicado), (a tiroide=objeto). Essa estruturação, no estilo de grafos, se ajusta perfeitamente na montagem de pedaços de conhecimentos, ligando via nós e arcos, os átomos de informação e seus relacionamentos. Para tal, os  conceitos de metadados e ontologia são usados e complementam a formação em direção a uma melhor produção de conhecimento. A Ontologia é aquela parte que formaliza as classificações de “coisas”, no caso aqui classificações de medicamentos, de doenças, de tipos de atendimento, de tipos de pacientes, etc, que acabam compondo a camada final de metadados, fundamental para a  codificação e a cristalização do conhecimento. Parte de repositórios ontológicos já existentes são usados como o  NCI-Thesaurus(National Cancer Institute),   GO-Gene Ontology, para descrições de termos e conceitos de genéticas, etc. Aproximadamente 183 bases de conhecimento, ontologias e termos são usados no sistema, formando o Knowledgebase do sistema.  
O NOSQL usado neste projeto é o AllegroGraph e Hive(solução de DW que roda sobre o Hadoop e foi desenvolvido inicialmente pelo FB e hoje atende ao Netflix). O Datalake, em si, é armazenado no Hive (DW) e os dados são tratados, na forma de redes semânticas, via o Allegrograph , um BD NoSQL do tipo grafo. Usam o SPARQL, uma  linguagem espécie de SQL like para buscar informações de nós e arcos. O Allegrographo forma com o Neo4J, a dupla de destaque dos produtos NOSQL da categoria BD de Grafos.

Objetivo final:

No fundo, o que o sistema busca, de forma reduzida e simplificada, é melhorar as ações de diagnósticos, cruzando instantaneamente sintomas de um certo paciente  e procurando similaridades com outros pacientes que já manifestaram o mesmo problema, onde um conjunto gigantesco de informações já coletadas, poderá produzir e melhorar as inferências sobre aquele caso em análise. Foi citado o caso grave de um garoto internado com alergia a amendoim e que por correlações não diretas descobriu-se que tinha asma, detectado por uma rede de conhecimento entre alergia a amendoim, dermatite e asma.  O sistema também poderia responder query do tipo: Quantos pacientes com um diagnóstico relacionado com dores abdominais (X) , no espaço de 30 dias, retornaram com um diagnóstico relacionado a pedras na vesícula (Y), depois de 10 dias ?  O desenvolvimento da Ciência de dados , numa ambiente deste tipo, poderá trazer respostas para previsões em torno de possíveis doenças(a acontecer); a probabilidade de readmissão(reincidência da doença dentro de x dias), a efetividade dos procedimentos e dos medicamentos usados; o que poderia ser melhor para um certo paciente, dado o conjunto particular de doenças e seus aspectos genéticos, a efetividade e a eficiência dos provedores envolvidos(médicos, enfermeiras, departamentos, etc), etc  Os algoritmos de similaridade entre pacientes são possíveis pelos links definidos no sistema entre ontologias diversas. O conceito de “data provenance” e “data lineage” são considerados fundamentais nesse contexto, rastreando-se a origem dos dados (provenance), considerando todos os passos intermediários por onde o dado transitou (lineage), podendo analisar a sua qualidade e possíveis erros. Tudo isso é fator fundamental quando se fala de dados sobre saúde e vida.   

Resumo da ópera:

A palestra foi focada especificamente em Health Information System, onde dados são importantes pelo papel que representam na saúde e na vida da população. Foi feita, na sua primeira parte pelo Chief Technical Officer (CTO) da organização médica que desenvolve o sistema, num centro de excelência em Nova York, A palestra deixou algumas dúvidas, justo pela alta especialização do tema Na segunda parte falou o CTO da empresa que oferece o produto(Allegrograph), numa simbiose comum nesses eventos. O entusiasmo de quem usa e o produtor daquilo que é usado como “tool”, sempre produzem palestras com visão muito otimista, onde problemas e restrições naturais de qualquer solução não são trazidas para os PPT´s. Assim, todo filtro é cuidadoso e sugerido..   

quarta-feira, 6 de julho de 2016

GD nas MPME-Governança e Gestão de dados nas micro, pequenas e médias empresas-Parte IV-Final


Fechamos neste post, os conceitos de Gestão e Governança de dados, com foco em PME. Nas publicações anteriores já discutimos os pontos principais, seguindo uma espécie de roteiro direcionado pelos corpos de conhecimentos da DAMA-DMBOK® e ideias de DMM. Hoje concluiremos com :
6)Integração e Interoperabilidade em PME
       Pensar  nas camadas da arquitetura e suas formas de interoperação(formas de integração, mensagens, etc). Documente a arquitetura usada no seu ambiente e no produto em desenvolvimento, sempre de forma prática e fácil. Vale pensar em  post-its, desenhos artísticos/lúdicos, etc, desde que devidamente preservados e identificados.
7)Dados Mestres e Referências em PME
       Pensar na mesma linha já discutida nas partes #2 e #3-Arquitetura e Modelos, atentando para o registro de dados considerados Mestres e Referenciais, em primeira fase. Focar nos dados mestres existentes na sua ambiência, priorizando os de maior criticidade e impacto, como por exemplo, Clientes e Produtos. Focar também nos principais dados de referência: CEP, Códigos, CID, etc. Pratique essa visão de dados sempre com a disponibilidade do seu oxigênio.
8)DW e BI em PME
       Considerar que esse Corpo de conhecimento poderá ser demandado numa fase mais adiante, a menos que a empresa startup esteja desenvolvendo o seu core em DW/BI;
       Pensar em estruturas mais simples, como Data Marts, ou cubos dinâmicos para serem usados em registros e tratamento de métricas, como em ambientes de lean startups, por exemplos;
       Pensar em informações gerenciais, com visualização “friendly” de dados, usando ferramentas “frees” existentes, como por exemplo Pentaho, ou via assinatura de produtos na nuvem(QlikView, Tableau, PowerBI);
9)Documentos e Conteúdo em PME
       Considerar a gestão de dados documentais, criando estruturas de Pastas para armazenamento de emails, contratos, regras de compliance relativos ao produto, ou relativo às regras da Aceleradora ou Incubadora, etc. Considerar uma forma de classificação de diretórios e pastas que mapeie a realidade da sua empresa ou setor;
10)Metadados em PME
       Já discutido no tópico de Arquitetura. Considerar um repositório simplificado com glossário de negócios, com termos principais e suas definições. Buscar algo simples, com eficiência de busca, como ferramentas livres, planilhas Excel, etc. Se tiver capacidade, a PME poderá focar em outros níveis de metadados(lógico, físico, operacional), mas nesse momento valem os metadados de negócios;
11)Gestão de Qualidade de Dados
       As empresas emergentes e PME devem refletir que aqui se fala de algo que transcende o tamanho das empresas. A qualidade de dados é fator fundamental nas tomadas de decisões, ambiente de “compliance”  e gerência de riscos, independentemente do porte da organização. Empresas PME e nascentes, que vivem num ambiente de alta incerteza deverão, ainda mais, estar atentas a esse item da GD. Para tal, auditoria de qualidade via  processos de “Profiling” e correções via  “Cleansing” são fundamentais. De novo, é importante priorizar os dados mais críticos e sensíveis da empresa, para realizar, de início, uma gestão de qualidade que seja factível. Não tente “boil the ocean” e foque nos dados mais sensíveis;
       Auditoria por QA. As auditorias eventuais, realizadas por alguém com chapéu de QA(Quality assurance) poderá instilar nas empresas(mesmo nas menores) o senso de tentar fazer certo pela primeira vez(princípio do Lean), evitando desperdícios e retrabalhos. As funções de QA(Garantia de qualidade), presentes nos modelos DMM e MPS podem ser uma boa ideia para um início de vida organizacional com mais apuro na realização dos processos importantes da empresa.
Resumo: Uma PME pode e deve se preocupar com seus dados, mesmo com recursos limitados. Não é necessário ter uma estrutura de Gestão e Governança de uma grande empresa para começar a dar os primeiros passos em direção à uma  organização que pode sustentar os seus negócios, conhecendo um pouco mais os seus dados. Dentre os corpos de conhecimentos discutidos, alguns são mais exequíveis do que outros numa PME e, por isso, deverão ser priorizados. Pense naqueles que podem ajudá-lo na gerência dos seus riscos mais ameaçadores. Veja , por exemplo, o link http://goo.gl/IJ6QaF , onde se evidencia a fragilidade das  PME(SMB´s) com relação à invasões de dados. Considere os seus dados como elementos organizacionais e não como elementos colaterais de códigos e de Create tables e veja onde a sua PME poderá se valer desses conceitos de GD. No futuro, você se certificará que valeu a pena.... A figura 01,  a seguir , mostra na forma de Post-IT, um resumo prático de como as PME podem começar a pensar nos seus dados, num conceito de MGD-Ágil, associado aos aspectos de UAAI-Learning(Para detalhes, veja no Slideshare link http://goo.gl/ijSzcX). Isso foi colocado na apresentação que fizemos para as PME´s na Fumsoft, acerca de Gestão e Governança de dados, na primeira de uma série de interlocuções que pretendemos desenvolver com esse segmento de organização.


Dados como Business-Alternativas em PME
Um outro aspecto importante a se considerar na relação startups e dados é justamente o fato dessas empresas emergentes poderem fazer dos dados o seu “core business”. Nos EUA, com o governo Obama, foram colocados à disposição, como Open Data, diversos arquivos sobre assuntos variados de interesse da comunidade. Em 2013, por exemplo, 389.000 arquivos foram disponibilizados para uso público. Ver detalhes no endereço  http://www.kdnuggets.com/datasets/government-local-public.html . Nesse endereço há inúmeros data sets disponibilizados, com dados de âmbito nacional, estadual e municipal de todo os EUA.  É justamente nesta brecha que muitas startups estão começando a sua vida, com sucesso. Aplicações como Crimespotting.org, que mapeia os crimes da cidade de Oakland, na Califórnia, via um aplicativo que se tornou referência na cidade. No Reino Unido, o site data.gov.uk, tem mais de 15.000 arquivos disponibilizados, nos mais diferentes ramos do interesse público: saúde, transporte, meio-ambiente, etc. Mais de 270 startups de lá já desenvolvem aplicativos usando esses dados. Uma das áreas menos exploradas e com um apelo forte e sedutor para uma startup seria, por exemplo, um produto que possibilite a gerência de dados de água(water management). No Brasil há o site dados.gov.br, onde podem ser encontrados dados públicos de qualquer natureza e agora o retorno do Data Viva, lançado pela Fapemig em colaboração com a UFMG (dataviva.info) .

Data VIVA e as PME
O DataViva é uma base de informações de natureza variada. Contempla dados sociais, econômicos, escolares, vocação industrial, tipos de produtos por setor econômico, dados da RAIS(informações de natureza trabalhista), etc. Inicialmente focado no estado de MG, o programa gradativamente está agregando  outros estados da federação. O programa prevê a incorporação gradativa de novas bases de dados  como o DataSus (dados do sistema único de Saúde).  Possui hoje  cinco grandes bases de dados, com 11 aplicativos de visualização de dados e tem dados de todos os municípios brasileiros.
Esse projeto se apresenta como uma grande fonte de oportunidades para startups e PME que podem desenvolver “apps”  inteligentes, baseados em mining e analytics, a fim de se prospectar correlações escondidas e necessárias entre diversas fontes de dados,  com alto valor potencial de mercado.  A riqueza  de informação escondida numa fonte desta natureza está longe de ser conhecida e explorada no Brasil. Seria o momento de uma esquadrilha de startups/PME partirem para a criação de produtos de inteligência inferencial, incrementando as áreas de inovação em dados. Hoje, o sistema oferece um conjunto de buscas que mostra os dados sobre fatos que já passaram. O momento é a busca inferencial, tentando adivinhar o futuro, via esses preciosos ativos...


Conclusões:
A Gestão e governança de dados em empresas PME ou nascentes deverá ser buscada, se não com o intuito de uma implementação plena, mas com o objetivo de aculturamento e preparação para o futuro. Há espaços para movimentos construtivos em direção a um maior controle de dados, mesmo com certas limitações de recursos e com um foco reduzido e simplificado. Patrocínio atrelado à motivação, atribuições pessoais ao invés de estruturas formais, controles realizados de forma coloquial em reuniões periódicas já existentes (“data meetups”), poderão tirar as empresas menores de um limbo , onde os dados continuam como elementos acessórios. Empresas que ousarem ter um controle melhor de seus dados ganharão na sua gestão e desenvolverão práticas que as conduzirão a um futuro melhor controlado. Quando este chegar, os fantasmas de Big Data e IoT(Internet das coisas)  já não serão tão amedrontadores. Outro caminho de afinidade com os dados será o seu uso como elemento core de seus negócios, através da infinidade de arquivos  abertos e franqueados por instituições públicas. Nos EUA  e Europa se diz: Data is the new oil, data is the new soil(Dado é o novo petróleo, dado é o novo solo). Pense nisso...        

Referências:

Amazon Web Services. Disponível em aws.amazon.com.Acesso em : 01 mai 2016.
A Beginner´s guide to cloud computing. Disponível em www.itportal.com. Acesso em: 12 mai 2016.

DAMA-DMBOK®-Guide to the Data Development Body of Knowledge-First edition.

DAMA-DMBOK2-Framework-Março de 2014.

Data Management Maturity (DMM) Model-CMMI Institute-2014-version 1.0.

Governança Corporativa para pequenas e médias empresas”, Coordenação de Bernardo Portugal e organizado por Lúcia Zimmermann. Editora LTR.

What is cloud computing? A beginners guide. Microsoft Azure. Disponível em azure.microsoft.com.Acesso em: 15 mai 2016.