ID-ealizando bases de datos de programas sociales

COVID-19
abril 23, 2020
COVID-19: Ampliando desigualdades en educación
mayo 18, 2020

¿Cómo relacionar bases de datos por nombre y apellido de los beneficiarios de un programa? ¿Nunca preguntaste el número de documento (DNI, CURP, etc.) y ahora tenés que consolidar las bases?

El diseño y la estructura de las bases de datos son piezas determinantes para poder evaluar los resultados de cualquier tipo de iniciativa y realizar un seguimiento adecuado a sus beneficiarios/as.

Imaginemos un programa de capacitaciones a pequeños empresarios que se plantea realizar seguimiento a sus participantes. En este caso, se cuenta con distintas bases de datos que contienen información sobre los/as beneficiarios/as, desde listados de inscriptos con información socioeconómica y de línea de base, hasta cuestionarios de seguimiento, o evaluaciones intermedias/finales.

Para el diseño de estas bases es muy importante definir previamente la información que va a contener cada una, es decir, qué campos tendrá, qué valores pueden tomar estos campos, cuál es su formato, qué unidades de medida se utilizarán para el caso de los campos numéricos, etc. A su vez, los instrumentos que se utilicen para levantar esta información y que alimentarán a nuestras bases de datos, deberían tener constancia y consistencia en el tiempo: estandarizar la forma en la que se colecta la información permite analizar de manera más eficiente los resultados de un programa en el tiempo.Volviendo al ejemplo planteado, si nuestro objetivo es realizar seguimiento individual a cada uno de los participantes del programa, debemos tener en cuenta la definición de un campo único que permita individualizar a cada persona en cada una de las bases en que aparezca. A este campo único lo llamamos campo clave.

Como campo clave es muy común utilizar algún código alfanumérico único, como el documento o cédula de identidad, pero muchas veces no se cuenta con esa información. En estos casos, es conveniente crear ad hoc este código único para cada uno de los participantes. (Te compartimos un modelo para que puedas empezar).

El campo clave debe aparecer necesariamente en todas las bases de datos que cuenten con información a nivel participantes, lo que nos va a permitir relacionar la información individual de cada uno de forma clara y precisa.

En el siguiente esquema de bases de datos se observa una relación de uno a uno entre un listado inicial de participantes y los distintos cuestionarios que se fueron aplicando individualmente a cada uno. Esta relación es generada a partir del campo “ID_PARTICIPANTE”. La utilización de modelos de relaciones entre distintas tablas es también una forma muy eficaz de sustituir el uso de la función BUSCARV de Excel y se puede aplicar desde herramientas como Microsoft Excel a través de Power Pivot o desde Power BI.

 Para más información sobre cómo emplear un modelo de relación entre tablas se pueden consultar las siguientes publicaciones de Power BI o Microsoft Excel.
Hasta acá presentamos el escenario ideal, pero…¿qué sucede en la práctica? 

En muchos casos, por diversas razones, las bases de datos no se diseñan previo a la implementación del programa y, por ende, tampoco se termina implementando un campo clave para identificar a los participantes.

Algunas organizaciones no cuentan con los recursos suficientes para diseñar, analizar y corregir las bases de datos, otras no han estandarizado los cuestionarios para recolectar la información, por lo que sus bases de datos no terminan siendo comparables ni pueden ser relacionadas, o quizás se encuentran enfocadas en la propia operación y no en la gestión de la información, es decir, simplemente “no se les ocurre”.

En nuestro ejemplo, se podría utilizar como campo clave el nombre y apellido para individualizar a los/as participantes. Esto tiene varios problemas, ya que se puede duplicar al participante por estar escrito diferente, o se puede considerar a dos personas como la misma cuando no lo son.

En ese contexto se dificulta un poco más la tarea de realizar seguimiento a los participantes. Pero, ¿hay algo que podamos hacer para relacionar las bases cuando no contamos con un ID único?

Existe una herramienta simple y fácil de usar que busca relaciones entre campos de bases de datos cuando no se cuenta con un ID único por participante: Esta herramienta se conoce como “Fuzzy Lookup” (“búsqueda aproximada” en inglés).

Es un complemento de Excel gratuito que nos ayuda a buscar coincidencias entre datos que no son exactamente iguales pero tienen cierto grado de similitud.

Ejemplos de este tipo de datos pueden ser: nombre y apellido de participantes escritos de diferentes formas (por ejemplo con o sin tildes o mayúsculas), documentos de identidad con/sin puntos o guiones, números de teléfono escritos en diferente formato, etc.

Fuzzy Lookup no tiene en cuenta diferencias de tipeo, utilización de mayúsculas o minúsculas, tildes o espacios a la hora de buscar coincidencias entre campos de texto. El grado de similitud es calculado automáticamente por la herramienta y determina qué tan precisa es la coincidencia. Toma valores entre 0 y 1, donde 1 representa una coincidencia exacta.
Descargar complemento.

La aplicación de esta herramienta permitirá encontrar y relacionar entre distintas bases de datos a muchos de los participantes sin tener que buscar y revisar uno por uno de forma manual, y así lograr tener una trazabilidad de cada uno de ellos a lo largo del tiempo. Si bien esta solución no es la ideal, da la posibilidad de corregir ciertos aspectos que no se tuvieron en cuenta en el diseño del programa, y ahorra mucho tiempo cuando se busca unir información de distintas bases de datos para un mismo participante.

Éste es sólo un ejemplo de las herramientas que incorporamos día a día en ZIGLA para mejorar la manera en que las organizaciones gestionan la información, adaptándonos a la realidad de cada una de ellas. 

Comments are closed.