Atrás

Visualización de un conjunto de datos de especies animales registrados con cámaras trampa en la selva amazónica

Antes de empezar: Lo que quiero mostrarte en la siguiente lectura es el el valor que tienen las técnicas de análisis de datos, y las herramientas que se manejan, para transmitir de manera clara lo que tus proyectos requieren mostrar. Puede que esta lectura te resulte bastante pesada, pero te invito a que la leas en su totalidad para que veas que mi trabajo es serio y profesional.

Para que tengas una idea de tiempo, este análisis lo realicé en 20 días.


El análisis que leerás en esta página se basa en un trabajo de investigación real acerca de especies animales del Amazonas realizada por cientos de investigadores durante un período de 19 años (2001 – 2020). (Puedes encontrar la información original en inglés en el siguiente enlace: https://esajournals.onlinelibrary.wiley.com/doi/10.1002/ecy.3738)
Empezaremos entendiendo el resumen del estudio original y luego continuaremos con el panel desarrollado y la utilización de la información para darle un valor público.

Objetivo del estudio

Extraído y traducido del sitio web.

Resumen

«La selva amazónica posee la mayor biodiversidad de la Tierra. Sin embargo, la información sobre la diversidad de vertebrados amazónicos sigue siendo deficiente y está dispersa en la literatura publicada, revisada por pares y gris, así como en datos brutos no publicados. Las cámaras trampa son un método eficaz y no invasivo de estudio de vertebrados, aplicable a diferentes escalas de tiempo y espacio.

En este estudio, organizamos y estandarizamos los registros de cámaras trampa de diferentes regiones amazónicas para compilar el conjunto de datos más extenso de inventarios de especies de mamíferos, aves y reptiles jamás reunido para la zona. El conjunto completo de datos comprende 154.123 registros de 317 especies (185 aves, 119 mamíferos y 13 reptiles) recogidos en censos de la parte amazónica de ocho países (Brasil, Bolivia, Colombia, Ecuador, Guayana Francesa, Perú, Surinam y Venezuela). Las especies más frecuentemente registradas por taxón fueron: mamíferos: Cuniculus paca (11.907 registros); aves: Pauxi tuberosa (3.713 registros); y reptiles: Tupinambis teguixin (716 registros).

La información detallada en este documento de datos abre oportunidades para nuevos estudios ecológicos a diferentes escalas espaciales y temporales, permitiendo una evaluación más precisa de los efectos de la pérdida de hábitat, la fragmentación, el cambio climático y otros procesos de defaunación mediados por el hombre en uno de los ambientes tropicales más importantes y amenazados del mundo.

Este estudio contribuye a la perspectiva a gran escala de la investigación de los procesos macroecológicos, y ayuda a responder preguntas relacionadas con los impactos antropogénicos sobre la biodiversidad amazónica. Este documento de datos representa un esfuerzo masivo, y ha dado lugar a la compilación del mayor conjunto de datos de cámaras trampa de la historia para la selva amazónica. Con ello, proporcionamos información nunca antes accesible, como informes y datos no publicados, y exploramos los datos en amplias escalas espaciales y temporales.»

Detalle del análisis

Lo que te muestro aquí es el proceso del análisis de datos, en base a la información que los investigadores comparten en el sitio web. Lo que comparten en sus archivos es lo que se analizó. Por ejemplo, ellos dicen en su resumen que investigaron 317 especies, sin embargo en el dataset compartido, el conteo hace referencia a 371 especies. No soy científico, ni biólogo, y seguramente existirán especies que para ellos se clasifican de alguna manera. No lo puedo saber sin mayor investigación. Y tampoco sería correcto forzar en mostrar esas 317 especies. Los datos muestran lo que muestran. Este análisis es solo un ejercicio que indica los pasos a seguir. Al trabajar con datos, siempre será necesario que exista la contraparte, la de los investigadores, para que verifiquen que los resultados del análisis sean congruentes con la investigación.

En base a qué información realizaremos el análisis

Los investigadores comparten una información de uso público de datasets en formato csv en su sitio web. Aunque en la descripción que ponen hacen referencia a una cantidad de datos recopilados de 154,123 registros, los datasets compartidos solo muestran una cantidad de datos de 50,307 registros. Aún así es información valiosa y muy representativa del conjunto de datos original. Esto es lo que hay y con lo que trabajaremos.

Esta imagen muestra el formato en el que viene la información original.

El proceso del análisis

Definir el objetivo

Todo análisis debe empezar con un objetivo claro. En este caso el objetivo será aportar un valor extra a este trabajo de investigación desarrollando un dashboard que permita mostrar de manera clara las especies animales, las zonas de ubicación y el área de las zonas donde se ubican.

Toda esta área es impactada por actividades humanas que causan pérdida del hábitat de estos animales. Es una zona amenazada. Veremos entonces cómo un dashboard puede ayudar a mostrar de manera clara esta información, luego de esto procederemos a extraer datos claros que ayuden a entender la potencial amenaza, para que un público general no técnico entienda.

Este dashboard mostrará qué especies animales se ven afectadas por país, las categorías a la que pertenecen (aves, mamíferos, reptiles), la información y foto del tipo de animal. Mostrando claramente lo que significa este trabajo, se puede llegar a financiadores, sensibilizar a la población, lograr cambios en políticas de uso de suelos en áreas protegidas, etc.

Entender los archivos de trabajo

La data de uso público proporcionada en el sitio web viene en 2 archivos con títulos de columnas similares. No queda clara la diferencia entre uno y el otro. La descripción que aportan los autores no es clara. Por este motivo trabajaremos el archivo que tiene la mayor cantidad de registros: El archivo UNIT que maneja 50,308 registros, mientras que el archivo AREA maneja 3,381 registros.

Carga de los datos en csv a Excel

El formato de estos datos viene en archivos csv. Es muy importante comparar el archivo fuente con la carga en Excel. En ciertos campos numéricos donde existen cifras en miles y tienen comas o puntos, la carga en Excel elimina el formato, dando lugar a información numérica errónea. En este caso cargamos los datos sin formato para evitar el problema.

Excel por default carga datos y trata de adaptarlos a algún tipo de formato. En este caso, las coordenadas dan error, se eliminan las comas al cargar a Excel. Lo que hice es cargar a Excel en Power Query y luego trabajarlos para colocarlos en el formato correcto.

Luego es fundamental en todo análisis verificar que el formato en la carga en Excel muestre los mismos datos (sobretodo numéricos, decimales y comas) que los datos en bruto originales (en este caso del archivo en csv).

Analizar la información, columnas y datos

Dentro del análisis de datos la limpieza es una de las tareas que más tiempo requieren, llega a ser tediosa. Sin embargo es de las más importantes. Datos sucios de inicio pueden dañar todo el análisis posterior y mostrar resultados fuera de la realidad. Se requiere mucha observación en esta fase.

Es importante entender la información, qué significa cada dato, de acuerdo al título de la columna, de acuerdo a las referencias de los autores. Una vez entendidos los datos y columnas y para enfocarnos en el análisis exclusivo de las especies, hay que decidir qué columnas son necesarias. Esto tiene 2 propósitos: seleccionar solo los datos necesarios para el análisis y evitar la carga de datos no necesarios que pueden ralentizar la carga en el software de análisis.

Eliminaremos 4 columnas con información referencial que no aportan nada al análisis en si: DATASET, DATA_TEAM, RECORD_ID, REFERENCE. Esta información en caso de necesitarse, queda disponible en el archivo, y gracias a la columna ORDEM_BD, puede vincularse con esta columna en caso de ser necesario.

Al revisar en más detalle los datos y columnas, veo que existen dos tipos de información: la primera es la vinculada a las especies mismas (el objetivo de este análisis) y la segunda es de carácter técnico acerca de las cámaras de vigilancia. Eliminaremos estas columnas ya que no contribuyen al análisis de especies, solo muestran la manera en la que se registraron.

Columna problemática: AREA_HA

Los datos originales del área tienen datos numéricos con puntos y comas, algunos están al revés, coma y punto, haciendo referencia a miles, otros están juntos. Es decir, existe una confusión a la hora de la toma de datos, al registrar de maneras distintas datos numéricos en miles.

A la hora de cargar a Excel, para mantener la información original, hay que hacerlo sin que cargue con formato. Luego, dentro de Excel trabajar esta columna, cambiar los puntos por comas, uniformar, luego pasar a Power BI.

Esta columna presenta incongruencias numéricas. Es necesario revisar en detalle. Sin más información que lo de la columna, se procede a solucionar los datos de esta columna AREA_HA por la importancia que tiene conocer la cantidad de superficie afectada.

Se nota que la recopilación de información del dataset se realizó por diferentes personas y luego se juntaron los datos en una sola tabla.

Vincular dataset en Power BI

Una vez realizada un primera limpieza en Excel, trabajamos con el software de inteligencia de negocios Power BI, donde empezaremos el segundo paso de análisis de datos, utilizando los conceptos ETL (Extract, Transform, Load -> Extraer, Transformar, Cargar).

Lo primero es ver la salud de los datos en este software (utilizaremos las opciones Column distribution, Profile y Quality). Si hay fechas, crearemos un calendario. Si hay datos con NAs (Not Available, o No Disponibles) en columnas de datos numéricos cambiaremos a valor Null y luego cambiaremos formato de columna a número.

En el caso de la columna de AREA_HA, existen datos NA. Tomo la decisión de transformarlos a valor numérico 0, es necesario que tengan un valor, para poder realizar cálculos.

Los datos numéricos de latitud y longitud venían con punto, debe colocarse coma (en Excel), para que sean detectados como números. Dentro de la configuración regional, se puede modificar los separadores decimales y de miles. Por ejemplo, en algunos países se utiliza la coma (,) como separador decimal y el punto (.) como separador de miles, mientras que en otros es al revés.

Análisis Exploratorio

Luego se procede con la parte interesante del análisis de datos: la exploración de la información.

Este dataset ha sido generado por especialistas en medio ambiente. Lo que hay que mostrar es el valor de su trabajo que es el de haber registrado la fauna que existe en el amazonas. Es información contundente para divulgar.

En cuanto a este tema, el dataset de estudio no tiene información acerca de incendios, áreas deforestadas u otro tipo de actividad humana relacionada, por lo que no hay manera de asociar estas áreas con actividades humanas. Sin embargo, es bien sabido que en el Amazonas existe actividad humana dañina.

El siguiente paso será transformar estos datos en una historia que impacte para llegar al objetivo del dashboard: mostrar que la Amazonía es el hábitat natural de cientos de especies animales, que es necesario hacer todos los esfuerzos para preservar esta zona y evitar muertes y posible extinción de las especies que se encuentran ahí.

Si logramos este impacto en el público, el dashboard y el análisis cumplieron su objetivo.

Desarrollo del dashboard

El desarrollo de este dashboard tiene la finalidad de analizar, limpiar y transformar los datos que comparten de manera abierta los investigadores de este estudio, para compartir esa información a un público general, por medio de un panel comprensible e interactivo.

El estudio original tiene recopilada la información en tablas, con datos difíciles de entender en su formato en bruto. Por lo tanto analizarlos y transformarlos a una manera comprensible es de alto valor para este tipo de estudios científicos, ya que permite la divulgación de la información a un público más amplio, y no solo a la comunidad científica.

El objetivo

Transformar volúmenes de datos en bruto para extraer su valor es algo de lo que toda organización, empresa, negocio puede beneficiarse. Es una necesidad.

En este caso, lograr comunicar resultados científicos es de gran valor si la finalidad es lograr cambios en el comportamiento de las sociedades, si se busca generar conciencia o cambios de políticas. El valor didáctico que tiene este tipo de investigaciones es muy importante.

Para este trabajo, lo que se pretende mostrar en el dashboard es una realidad que no puede ser negada: el Amazonas es el hábitat natural de cientos de especies que corren un peligro constante por amenaza de las actividades humanas en esa área. Los datos científicos lo respaldan.

El aporte realizado, a los datos originales del trabajo de los investigadores, fue añadir información para un público general: el nombre común de las especies registradas, las categorías a la que pertenecen (aves, mamíferos, reptiles) y enlaces a los datos generales (en Wikipedia) de cada especie más su foto.

El dashboard

Lo que mostraremos en este dashboard serán las especies en peligro con los siguientes datos:

  • Países donde se registraron las especies
  • Mapa de ubicación de las cámaras que registraron les especies
  • Categorías: aves, mamíferos, reptiles
  • Información de cada especie y foto
  • Cantidad de veces que se registró a cada especie en el periodo de investigación de 19 años
  • Superficie del área de estudio
  • Tipo de vegetación del área de estudio

Has click en la flecha de abajo a la derecha para ver el dashboard en toda la pantalla.
Espera unos segundos a que cargue…

Productos derivados

Logramos una trasformación de datos en bruto a una herramienta de visualización y análisis muy útil, a través de un dashboard.

Y solo es el inicio.

Es posible que ya hayas visto muchos de estos dashboards aplicados a diferentes sectores. Su utilidad es evidente. Te muestra la información de una manera clara e interactiva, imposible de verla en los datos originales en tablas.

Como pudiste ver, transformar los datos que tienes en tablas y convertirlos a un dashboard te abre nuevas posibilidades de análisis.

Daremos un paso adicional. Generar información específica con un objetivo claro, a partir de los fundamentos de los datos.

Verás a continuación lo importante que es tener esta herramienta.

Storytelling con datos

Si este concepto es nuevo para ti, storytelling con datos es contar una historia fundamentada en los datos.

Digamos que necesitamos llegar a un público específico con los datos de nuestro dashboard. Necesitamos generar conciencia en una población que cree que deforestar es algo necesario, importante para la economía y no entiende el brutal daño que se genera con estas actividades.

Lo que planteo es complejo, de por medio hay intereses muy fuertes, hay política, corrupción y todo lo relacionado al poder, la conciencia de la gente, etc.. Pero para no entrar en debates, lo mantendremos simple.

De todos modos, intentaremos generar un discurso que ayude en nuestro propósito: proteger las especies animales de la Amazonía. Manejando datos no hay posibilidad de especulación, de sesgo o de manipuleo. Para eso son, para tener una verdad absoluta. Nadie podrá discutir tu trabajo, tu presentación, tus conclusiones.

Primero definimos nuestro público objetivo

Podríamos pensar en generar conciencia en los principales sectores responsables de la deforestación en la Amazonía que son la ganadería, la agricultura a gran escala, la minería y la tala ilegal, o el sector de la construcción de infraestructuras como carreteras y represas, así como los cultivos ilícitos, etc. pero todos sabemos que sería una tarea titánica. Son sectores muy fuertes que por intereses económicos difícilmente se alinean con la protección del medio ambiente.

Lo que sí podría ayudar es dar herramientas a la sociedad, dar un discurso del cual se apropie para que pueda presionar y posibilitar cambios en leyes y políticas, en los tomadores de decisiones. Nadie puede refutar datos.

Generaremos una idea de storytelling del cual la sociedad se apropie.

Mira el siguiente pdf mostrando la historia. Es solo un ejemplo, pero con esto entenderás la idea. Manejar el tipo de historia a contar es algo especifico de los objetivos que cada proyecto tiene.

Storytelling con datos – Especies del Amazonas

Conclusiones

Como viste, generamos mucho valor desde una hoja de datos inicial, imposible de entenderla en su formato en bruto.

Limpiamos los datos, los trasformamos en un dashboard, seleccionamos la información correcta y pudimos generar una historia de valor que nadie podría refutar, por que el fundamento son datos de una investigación seria.

El dashboard nos permitió elegir los datos exactos para crear una historia. Dependiendo de tus objetivos, esta herramienta te permite seleccionar la información necesaria para diferentes públicos.

Ese el proceso que cada uno de tus proyectos puede seguir y que puedes comenzar a implementarlos desde ahora.