Total de visualizações de página

sexta-feira, 26 de agosto de 2016

Governança, Gestão, MDM e correlatos-Uma Visão do EDW-2016-San Diego-Parte I

Como se encontram os conceitos de Governança, Gestão de Dados, MDM e correlatos, no momento nos EUA-Visão 2016-Parte I

Evento: EDW-2016-San Diego-California, entre 17 e 22 de Abril

Embora o Blog do Barbi não pôde ter comparecido pessoalmente, tive acesso a todas os vídeos de todas as palestras. A análise cuidadosa de todas as palestras, permite essa visão simplificada do estado da GD, Bancos NOSQL, Gestão de dados e temas correlatos nos EUA, e de certa forma, reflete a situação no mundo. Fica até mais confortável, pela possibilidade de se ouvir várias vezes, o que o listening do meu  inglês “Joel Santana” dificulta de primeira....Enjoy..

A)Palestras sobre NOSQL:

O tema foi bastante discutido em várias 13 palestras, que variaram de visões mais gerais sobre o conceito e outros mais específicos sobre certos produtos, passando per aplicações dessa tecnologia em projetos muito interessantes. Vamos comentar algumas: 

1)Health Care Analytics with na Enterprise Data Lake-Parsa Mirhaji-CTO do Montefiore Health System e Jans Aasman, CTO  da FranzInc, criadora do Allegrograph
A apresentação mostrou uma interessante aplicação na qual um importante Centro Clínico  americano está montando um grande Data Lake semântico. Data Lake é um conceito emergente para designar um grande depósito de informações, de natureza variada, com   dados de  pacientes,  de famílias de pacientes, dados de imagens, prescrições, medicamentos,  especificidades sobre doenças e tratamentos, “devices” , planos de seguros dos pacientes, etc. Algumas informações complementares também entram como os dados sócio geográficos de pacientes(onde moram, como moram, etc) e informações genéticas sobre eles. É na realidade o que chamávamos, nos anos 80 e 90, de ODS-Operational Data Store, agora amplificado por Big Data e dados não estruturados, formando uma espécie de repositório gigantesco, um  “sopão” de informações gerais, de onde podem ser extraídos conjuntos de dados para tratamentos informacionais específicos, via outras plataformas. A ideia central é ter um conjunto plural de dados, capaz de, rapidamente, produzir informações precisas e conectadas, por meio de  uma camada NOSQL que aplique estruturas de grafos e relacionamentos semânticos.

Maturidade em tratamento de dados de saúde

A apresentação mostrou um interessante modelo de maturidade em “Analytics” para á área de saúde, com 9 níveis(de zero a 8), evidenciando os tipos de degraus que a empresa pode trilhar em direção a um patamar mais maduro no tratamento de informações médicas. Vai, por exemplo do nível zero, onde as soluções de informações se baseiam em fontes de dados(data points) fragmentados, subindo para um EDW-Data Warehouse Empresarial (nível 1), alcançando registros padronizados e glossário de termos(nível 2). Continua com a automatização de relatórios internos(nível 3) e de  relatórios externos(nível 4). Sobe um degrau para contemplar  a gerência sobre  redução do resíduo hospitalar(nível 5), chegando na camada de  Gerência de saúde da população, com “analytics” sugestivo e inferencial de potenciais problemas(nível 6). Cresce para o próximo nível analisando riscos clínicos de intervenções com análise preditiva(nível 7), até alcançar a camada de medicina personalizada e prescritiva(nível 8). Baseados em sistemas de aprendizado centrados em evidências clínicas, os níveis 0 e 1, estão fundamentados em relatórios, dashboards, Data Marts, etc. Os níveis  de 2 a 5 se concentram na melhoria dos EMR(Eletronic Medical records) , com acesso ubíquo a qualquer informação, aspectos regulatórios, informações de colaboração e parceiros. Os níveis(6 e 7) focam em ACO-Accountable Care Organization, no fundo uma organização de provedores de serviços de saúde com um modelo de entrega(de serviços) e de pagamentos (de fornecedores) que procura definir com rigor os reembolsos centrados em métricas de qualidade e de redução no custo total para um tipo definido de população de pacientes. Isso evidencia a forte associação que os  provedores de serviços de saúde tem com os dados e sua gerência, compondo o conceito forte de HIS-Health Information Systems. Esse modelo claramente , na medida em que evolui nos degraus descritos, demandará um volume maior de dados, além de, muito importante, os metadados mais presentes e elaborados. Não esqueçamos que essa dupla(dados e metadados) são os pilares para se alcançar uma sólida Gerência de Conhecimento, que no fundo a indústria da saúde americana procura sistematizar, evidenciada neste trabalho apresentado.

Data Lake Semântico e suas camadas

A base conceitual da arquitetura é o Data Lake Semântico, plataforma composta por  uma camada em “analytics”  de Big data e computação Cognitiva(uma forma de processamento de dados que tenta simular a capacidade de pensamento do ser humano). A camada básica  de software é formada pelo Hadoop(HDFS), com Spark , uma proposta que vem de encontro ao MapReduce, com uma intenção de maior performance, focando em  processamento em memória e com o mesmo objetivo básico de processar uma imensidão de dados distribuídos em diversos clusters de processadores. Processa comandos SQL e dados “in-stream” , com fluxos constantes. Além disso, o sistema aplica os conceitos de Redes Semânticas, procurando uma estruturação de dados, baseada em triplas(sujeito-predicado-objeto), como (Barbieri=sujeito), (operou=predicado), (a tiroide=objeto). Essa estruturação, no estilo de grafos, se ajusta perfeitamente na montagem de pedaços de conhecimentos, ligando via nós e arcos, os átomos de informação e seus relacionamentos. Para tal, os  conceitos de metadados e ontologia são usados e complementam a formação em direção a uma melhor produção de conhecimento. A Ontologia é aquela parte que formaliza as classificações de “coisas”, no caso aqui classificações de medicamentos, de doenças, de tipos de atendimento, de tipos de pacientes, etc, que acabam compondo a camada final de metadados, fundamental para a  codificação e a cristalização do conhecimento. Parte de repositórios ontológicos já existentes são usados como o  NCI-Thesaurus(National Cancer Institute),   GO-Gene Ontology, para descrições de termos e conceitos de genéticas, etc. Aproximadamente 183 bases de conhecimento, ontologias e termos são usados no sistema, formando o Knowledgebase do sistema.  
O NOSQL usado neste projeto é o AllegroGraph e Hive(solução de DW que roda sobre o Hadoop e foi desenvolvido inicialmente pelo FB e hoje atende ao Netflix). O Datalake, em si, é armazenado no Hive (DW) e os dados são tratados, na forma de redes semânticas, via o Allegrograph , um BD NoSQL do tipo grafo. Usam o SPARQL, uma  linguagem espécie de SQL like para buscar informações de nós e arcos. O Allegrographo forma com o Neo4J, a dupla de destaque dos produtos NOSQL da categoria BD de Grafos.

Objetivo final:

No fundo, o que o sistema busca, de forma reduzida e simplificada, é melhorar as ações de diagnósticos, cruzando instantaneamente sintomas de um certo paciente  e procurando similaridades com outros pacientes que já manifestaram o mesmo problema, onde um conjunto gigantesco de informações já coletadas, poderá produzir e melhorar as inferências sobre aquele caso em análise. Foi citado o caso grave de um garoto internado com alergia a amendoim e que por correlações não diretas descobriu-se que tinha asma, detectado por uma rede de conhecimento entre alergia a amendoim, dermatite e asma.  O sistema também poderia responder query do tipo: Quantos pacientes com um diagnóstico relacionado com dores abdominais (X) , no espaço de 30 dias, retornaram com um diagnóstico relacionado a pedras na vesícula (Y), depois de 10 dias ?  O desenvolvimento da Ciência de dados , numa ambiente deste tipo, poderá trazer respostas para previsões em torno de possíveis doenças(a acontecer); a probabilidade de readmissão(reincidência da doença dentro de x dias), a efetividade dos procedimentos e dos medicamentos usados; o que poderia ser melhor para um certo paciente, dado o conjunto particular de doenças e seus aspectos genéticos, a efetividade e a eficiência dos provedores envolvidos(médicos, enfermeiras, departamentos, etc), etc  Os algoritmos de similaridade entre pacientes são possíveis pelos links definidos no sistema entre ontologias diversas. O conceito de “data provenance” e “data lineage” são considerados fundamentais nesse contexto, rastreando-se a origem dos dados (provenance), considerando todos os passos intermediários por onde o dado transitou (lineage), podendo analisar a sua qualidade e possíveis erros. Tudo isso é fator fundamental quando se fala de dados sobre saúde e vida.   

Resumo da ópera:

A palestra foi focada especificamente em Health Information System, onde dados são importantes pelo papel que representam na saúde e na vida da população. Foi feita, na sua primeira parte pelo Chief Technical Officer (CTO) da organização médica que desenvolve o sistema, num centro de excelência em Nova York, A palestra deixou algumas dúvidas, justo pela alta especialização do tema Na segunda parte falou o CTO da empresa que oferece o produto(Allegrograph), numa simbiose comum nesses eventos. O entusiasmo de quem usa e o produtor daquilo que é usado como “tool”, sempre produzem palestras com visão muito otimista, onde problemas e restrições naturais de qualquer solução não são trazidas para os PPT´s. Assim, todo filtro é cuidadoso e sugerido..