¿Cómo funciona la Ciencia de Datos en la investigación de salud pública?
Entrevista a la Dra. Lina Sofía Palacio Mejía
Por Andrea Dominguez
La Dra. Lina Sofía Palacio Mejía es:
Investigadora por México Conacyt en el Instituto Nacional de Salud Pública.
Trabaja en la Unidad de Inteligencia en Salud Pública.
¿Cómo funciona la Ciencia de Datos en la investigación de salud pública?
Yo trabajo la Ciencia de Datos desde la salud pública, antes la trabajaba desde hace muchos años desde la estadística, la informática, la epidemiología, la demografía etc. La Ciencia de Datos ha ido conjuntando todas estas ciencias, todas estas áreas, para fortalecerse con las tecnologías y hacer mejor el análisis de datos. Al crear un grupo interdisciplinario con todas estas áreas, logramos poder generar información con mayor conocimiento, con mayor fortaleza, más robusta para poder tomar decisiones en este caso en específico en la salud.
Con la Ciencia de Datos hemos integrado profesionales e investigadores del Instituto Nacional de Salud Pública como: epidemiólogos, economistas, actuarios, estadistas, informáticos programadores que colaboran con nosotros en trabajar los datos desde su manera inicial, desde la recolección, la integración, limpieza y estandarización, podemos armar repositorios con estas bases de datos y después proceder al análisis. Claro, las bases de datos del sector salud son todos los servicios de la población mexicana, que somos 126 millones de habitantes entonces son bases de datos muy grandes y ahí hacemos todo el uso de las nuevas técnicas del Big Data que nos facilita junto con grandes servidores el poder procesar toda esta información, integrarla y poder tener análisis de cómo está la salud de la población en México, que es un país bastante grande.
Esto nos ha permitido también a través de otro tipo de investigadores (epidemiólogos, demógrafos) empezar a generar indicadores, más robustos, de cómo está la situación de salud en México: ¿Cuáles son los principales problemas? ¿Cómo van cambiando las tendencias en los años? Teniendo en cuenta la calidad de la información, porque todavía hay muchas ventanas de oportunidades para mejorarla. En este sentido estamos también trabajando con las nuevas tecnologías: Machine Learning, Inteligencia Artificial, visualización de datos y hemos creado unos tableros de visualización de datos para hacer más amigable la información y ponerla en gráficos, tablas, mapas para facilitar al tomador de decisiones que la información pueda ser más accesible y más oportuna también, porque se tarda menos el procesamiento y ellos pueden tener información a la mano través de una página web. Ahora lo que tenemos es el desarrollo de la Unidad de Inteligencia en Salud Pública donde tenemos varios tableros de visualización de datos en donde les decimos por ejemplo, cómo están los nacimientos en México, si están naciendo por parto, si están naciendo por cesárea, si la cesárea está ocurriendo más de lo necesario, si es el caso. Y esta información les provee a ellos evidencia para poder establecer estrategias o programas y poder tomar decisiones de políticas públicas de salud así como nacimientos pues tenemos muchos otros temas: Mortalidad, la hospitalización y los diferentes servicios y problemas de salud.
¿Qué herramientas de software científico están utilizando principalmente para realizar esta labor?
El Instituto Nacional de Salud era cien por ciento STATA, ahora ya nos hemos ido un poco al software libre como “R” que nos permite poder interactuar con otras herramientas sin embargo también, hacemos visualizaciones de datos en Tableau, y también nos hemos abierto a usar Shiny y ya empezamos a trabajar por ejemplo mapas en Argis que lo veníamos haciendo tradicionalmente y ahora ya también utilizamos (Qgis). Cuando tenemos el software de licencia preferimos trabajar con este porque nos facilita muchos procesos, pero a veces las licencias se nos vuelven muy costosa entonces nos pasamos a software libre pero ahí requiere mucho más trabajo de programación. Dependiendo en lo que quieras invertir, o al costo de la licencia o al personal que te lo manejé y te lo trabajé más adecuado como lo necesites, trabajamos varios softwares.
¿Cómo va a evolucionar la ciencia de datos en la convergencia con la Inteligencia artificial? ¿Cómo ves esta tendencia?
Bueno la Inteligencia Artificial la hemos utilizado para análisis de datos no estructurados para búsqueda de palabras en redes que nos puedan alertar de problemas en salud. Por ejemplo: Tenemos una epidemia de diabetes y cuando vemos que en redes, por ejemplo, en Google, empiezan a buscar sobre la diabetes empezamos a ver que la población busca: ¿Cuáles son los factores de riesgo, o las consecuencias si eres diagnosticado de alguna enfermedad como la diabetes. También en redes hay un sistema de prevención de suicidio, cuando las personas empiezan a hacer mención a ciertas palabras como: me quiero morir, palabras que puedan detonar que está o en depresión o tenga una intención de suicidio, eso nos permite también conocer como a quién llegarle y poderle suministrar información. Hay muchas aplicaciones de Inteligencia artificial que nos permiten por ejemplo, en términos de radiografías de mastografías enseñar y educar a un lector con mastrografías positivas por ejemplo: ¿Cómo leer y detectar algún tumor.
En este sentido, nos está ayudando mucho la Inteligencia artificial en salud y creo que tiene un campo grandísimo que apenas va naciendo y que creo que aquí en México, todavía hay poca inversión en este tipo de técnicas, pero que podemos ir implementando poco a poco que también requiere tener muy buenos repositorios, muy buenos datos de calidad para poder estrenar estos algoritmos de Inteligencia artificial que posteriormente nos ayuden a tomar decisiones en algunos problemas de salud.
Podrías mencionar las fuentes de datos estadísticos de donde toman información para hacer su trabajo?
Bueno nuestras principales fuentes de datos son la Dirección General de Información en Salud que es el ente rector de la Secretaría de Salud en México a nivel federal de los datos en salud. Ahí llega información sobre nacimientos, mortalidad, egreso hospitalario, servicios otorgados etc. En la mayoría de los casos es información solamente de la población no derecho habiente, de la población que atiende la Secretaría de Salud. Otro gran banco de datos es el del IMSS que serían los servicios que se otorgan a la población derecho habiente, atendida en el IMSS, aunque algunos de los datos, el IMSS los transfiere a Secretaría Salud y se pueden obtener de esta manera, esto nos permite tener un panorama nacional, sin embargo se escapa a veces el privado. Y el INEGI tiene datos de salud de los privados, entonces hay diferentes fuentes de información que se requiere ir buscando e integrando y estandarizando para poderlos analizar. El sistema de información de Salud en México está muy fragmentado y hay diferentes bases de datos que no se comunican y que no hay un identificador único de paciente. Entonces por ejemplo, alguien se puede hospitalizar una vez y no sabes si esa persona tuvo varios eventos, varias hospitalizaciones o si es una persona diferente hay dificultad para darle trazabilidad a una persona si puede estar digamos en Secretaría de Salud y le detectaron cáncer y decide afiliarse y pasar al IMSS y atenderse en el IMSS y luego no se, decide ir mejor al Instituto de Cancerología, entonces todo ese camino que puede tener una persona no lo logramos obtener. Creo que hay varios retos todavía en los datos de salud para poder hacer trazabilidad de un paciente, y de su atención y poder saber los desenlaces. Porque alguien puede fallecer de cáncer pero no sabemos previamente qué camino de atención pudo haber tenido.
¿Las empresas aseguradoras comparten datos estadísticos con ustedes?
Hemos tenido poco contacto con ellos, pero cada aseguradora tiene también sus datos que les interesan para ciertas patologías que ellos cubren y para sus afiliados, entonces tampoco es como tan universal. Ellos sí tienen un identificador pero el resto no tiene un identificador entonces tampoco se puede unir o vincular, por lo que sí hay ciertas dificultades en esa fragmentación de datos. Otra información ahora muy valiosa es la de los consultorios asociados a una farmacia que está teniendo una alta demanda de consulta externa y que tienen un gran expediente clínico electrónico que sería maravilloso poderlo tener pero que todavía no está disponible públicamnte si no que hay que hacer ciertos convenios para poderlos obtener. Entonces hay mucha información pero que está muy fragmentada y hace falta recolectarla e integrarla aquí en el país.
Por ejemplo hay un desarrollo de expediente clínico electrónico pero está dividido por niveles de atención por ejemplo el IMSS, el ISSSTE o Secretaría de Salud, tiene un expediente clínico para primer nivel y tiene otro para segundo nivel y estos expedientes a veces es difícil que se conecten para saber si a alguien en la consulta lo refirieron a hospitalización y lo atendieron en segundo nivel, digamos es difícil integrar esa información y más difícil el expediente clínico del IMSS o de un hospital de un estado o del ISSTE todavía eso no se logra.
Algunos retos en el expediente clínico electrónico es poderlos integrar, poderlos estandarizar y a través de estándares como HL7 poder hacer que ellos compartan información, crear un gran repositorio o gran base de datos sobre el expediente clínico de todo el país y después soñar con compartir la información del IMSS con Secretaría de Salud y Secretaría de Salud cuando un paciente o afiliado se mueva.
¿Consideras esto como el reto en política pública a tratar? Entonces, la Ciencia de Datos es un tema clave para poder hacer todo el análisis de la información que ustedes manejan para poder llegar a conclusiones puntuales en temas de salud.
Todo este manejo de datos es a lo que nosotros llamamos Ciencia de Datos en Salud, y de aquí pasamos a otro término que queremos lanzar que es el de Inteligencia en Salud, que es el poder utilizar esta información para llevarla a los tomadores de decisiones y que se convierta en política pública. Para esto, también nos ayuda la Ciencia de Datos a subir y a llegar a los tomadores de decisiones haciendo para ellos mucho más fácil y entendible tomar decisiones estratégicas.
Más información
Dra. Lina Sofía Palacio: lpalacio@insp.mx
Andrea Dominguez: andrea@gaiabit.com