Proyecto de análisis de COVID-19

3. Limpieza y preparación de los datos


Indice


        1. El proyecto
        2. El dataset de análisis
        3. Limpieza y preparación de los datos
        4. Reporte según sexo y edad
        5. Tipos de enfermedades reportadas
        6. Pacientes con COVID únicamente
        7. Pacientes con COVID y neumonía
        8. Pacientes con COVID e hipertensión
        9. Conclusiones
        Dashboard

3. Limpieza y preparación de los datos


Prepararemos y filtraremos los datos para analizar la población de pacientes con COVID y que han estado hospitalizados.


En anterior proyecto, mostré la manera de limpiar, corregir, filtrar y seleccionar los datos que se utilizarían para el análisis.


Adicionalmente haremos un nuevo filtrado para trabajar solo con datos reales, sin ninguna imputación o suposiciones, para que el análisis sea lo más real posible.


Para entender este filtrado es necesario que leas el filtrado anterior en este enlace ->Ejemplo de análisis de la calidad de los datos

Resumen de los pasos de la limpieza y preparación de los datos


1. Eliminamos columnas no relevantes para el análisis o que no son especificas por que no tienen información clara: “USMR”, “Unidad médica”, “Otras enfermedades”.

2. De la columna “Clasificación”, eliminamos los valores 4,5,6, y 7 que indican pacientes sin COVID ya que el propósito es analizar solo a pacientes con COVID. De esta manera se filtra la data original de 1.048.576 datos a un total de 391.979 datos. Luego eliminamos esta columna ya que sabemos que son todos pacientes con COVID.

3. Elegimos de la columna “Tipo paciente” solo los hospitalizados, y ahora quedan 111.292 datos. Eliminamos esta columna. Solo trabajaremos con hospitalizados.

4. De la columna UCI eliminamos los valores 97 y 99 (valores perdidos), y ahora solo quedan 109.771 datos.


Al final, de los 1.048.576 de datos originales únicamente sirve para el análisis la cantidad de 109.771 de datos que representan el 10.5% del total original. Aún es una cantidad de pacientes considerable para realizar un análisis representativo.


◄ 2. El dataset de análisis                 4. Reporte según sexo y edad ►

To Top