La importancia de los datos está en constante crecimiento en la actualidad. Desde conversaciones informales en la barra de un bar hasta debates políticos de alto nivel, la capacidad de respaldar argumentos con cifras objetivas se ha convertido en un elemento crucial para el éxito en casi cualquier contexto. Sin embargo, es importante reconocer que limitarse únicamente a presentar datos no proporciona una visión completa de la realidad que se intenta explicar.
Un dato en sí mismo es simplemente un valor cuantitativo o cualitativo asociado al objeto de estudio. Por ejemplo, el número 14 podría considerarse un dato aislado, sin embargo, al contextualizarlo, pasamos al siguiente nivel, la información. Cuando decimos «la temperatura ha descendido a 14°C», esto representa un nivel más profundo de conocimiento al describir una situación concreta.
En un nivel superior, surge el conocimiento que implica analizar las consecuencias de esa información. Por ejemplo, «si la temperatura cae por debajo de 14°C, hará frío» es una afirmación que incorpora el conocimiento derivado de los datos. Finalmente, llegamos a la sabiduría, donde no solo comprendemos la situación, sino que también podemos proponer soluciones, por ejemplo, «para mantener una temperatura estable, es necesario encender la calefacción».
La obtención de datos no está exenta de desafíos y potenciales errores. En el proceso de recolección, es común enfrentarse a innumerables variables que pueden influir en la calidad. Desde errores de medida intrínsecos a los propios instrumentos, hasta fallos en los mismos o incluso simples errores humanos de transcripción que pueden distorsionarlos.
Para atajar este problema es importante aplicar un preprocesamiento adecuado, sometiéndolos a un proceso de limpieza y refinamiento. Esto implica identificar y corregir errores, eliminar valores atípicos o inconsistentes, así como estandarizar y homogeneizar la información para garantizar coherencia y confiabilidad. Sin un tratamiento previo adecuado se pueden llegar a conclusiones erróneas o sesgadas.
La información puede provenir de una amplia variedad de fuentes y formatos. Desde hojas de cálculo hasta bases de datos externas, pasando por registros en línea o incluso ficheros generados por los propios instrumentos de recolección. Dependiendo del proyecto, la heterogeneidad en la procedencia de los datos puede ser un problema desafiante. Cada fuente y formato tiene sus propias particularidades, lo que agrega complejidad extra.
Para que estos datos dispersos y diversos puedan ser aprovechados de manera efectiva, es esencial someterlos a un proceso conocido como ETL, que significa Extracción, Transformación y Carga (por sus siglas en inglés). La fase de extracción implica obtener los datos de sus fuentes originales, ya sean bases de datos, archivos CSV, servicios web o cualquier otro, para que, una vez procesados, se carguen en un conjunto de datos centralizado y coherente que se adapte al propósito específico para el que se necesitan, ya sea análisis, modelado o toma de decisiones.
El siguiente paso trascendental es la consulta de datos. En esta etapa es donde la precisión y relevancia de la información dependen en gran medida de la calidad de las preguntas formuladas. Hacer una consulta incorrecta sobre los datos puede resultar en información distorsionada o incluso errónea. La formulación adecuada de consultas implica comprender a fondo la estructura de los datos y definir claramente los objetivos de la búsqueda. Un ejemplo trivial de consulta que erra en su propósito podría ser, ¿cuántas veces se ha mencionado la palabra «sol»? Esta formulación, aparentemente simple, presenta problemas significativos. No especifica qué documentos se están considerando ni el contexto en el que se menciona la palabra «sol». Podría haber múltiples interpretaciones de «sol» (astro solar, nota musical, etc.). Sin una definición precisa, no proporcionará información útil.
Es fundamental recordar la relevancia de una buena presentación de los datos. Una mala presentación puede distorsionar la percepción de la calidad de los datos ante los usuarios. Por ejemplo, consideremos un conjunto de datos de ventas mensuales presentado en una tabla sin ningún tipo de gráfico ni resumen visual. La información se torna abrumadora y poco clara. Sin embargo, al presentarlos en un gráfico de barras que muestre las tendencias de ventas a lo largo del tiempo, permite a los usuarios identificar patrones y tomar decisiones estratégicas de manera más sencilla y efectiva. Esta es travesía del dato, comienza con su recopilación, luego se somete a un proceso de transformación y limpieza, donde se moldea y obtiene coherencia, para poder ser consultado y analizado eficientemente. Sin embargo, no podemos obviar que, la forma en que se muestra al usuario es crucial, para cerrar el ciclo y permitir que se cumpla su propósito: dotar a las personas de conocimiento y ayudar en la toma de decisiones informadas. Así, el viaje del dato, desde su captura hasta su presentación, representa una poderosa herramienta para la comprensión y la acción en un mundo impulsado por la información.
Adrián Vázquez, software developer en Solver IA