Muy buenas, me llamo Luis y para hoy les traigo un nuevo artículo.
Índice
¿Qué es el análisis de datos exploratorios (EDA)?
Como sugiere el nombre, es una técnica para analizar los datos explorándolos. EDA es uno de los pasos clave e indispensable en el análisis de datos.
Esto puede entenderse como un chequeo general del paciente (datos) por parte de los médicos (entusiasta de los datos), antes de realizar cualquier cirugía (análisis, modelado, predicción, clasificación, etc.).
¿Cuáles son los objetivos de EDA?
La EDA se realiza por dos razones subyacentes principales, en primer lugar para comprender los datos y, en segundo lugar, para identificar fallas o eventos peculiares (puntos de datos) en el conjunto de datos.
Intentemos comprender en detalle qué se entiende por comprensión y puntos de datos peculiares.
Comprender los datos significa responder las siguientes preguntas preliminares que generalmente surgen en la mente de la persona de datos en el primer encuentro con un conjunto de datos en particular:
- ¿De dónde provienen estos datos? (Qué grupo de población o tema).
- ¿Qué es la información contenida de alto nivel? (por ejemplo, datos de costos, ingresos, presupuesto, salarios de los empleados, datos de clientes, datos de uso, etc.).
- ¿Cuáles son las variables disponibles?
- ¿Qué significa su valor? (por ejemplo, el tiempo promedio por página significaría que de todo el tiempo que el usuario pasa en el sitio web en una sesión, cuánto tiempo pasa en una página en particular).
- ¿A qué segmento de población pertenecen los datos? (Por ejemplo, los datos del paciente con cáncer significarían que, de todos los pacientes, los datos recopilados son solo de pacientes con cáncer.
- ¿Qué es la distribución de la muestra?
- ¿Cuál es la fuerza y la dirección de las relaciones entre la variable de entrada y la variable de resultado?
- ¿Cuál es la tendencia central de los datos?
- ¿Cuál es la difusión de los datos?
Discrepancias en los medios de datos.
- Presencia de valores incorrectos.
- Valores faltantes.
- Valores atípicos (valores atípicos probables o posibles valores atípicos).
- Violaciones de supuestos.
Sobre la base de los hallazgos durante la EDA, se puede hacer una selección preliminar de los datos o se puede decidir el curso de acciones adicionales para tratar las discrepancias.
Parte I – Variables categóricas EDA
Como hemos visto qué y por qué de EDA, es hora de responder cómo se hace EDA. En este artículo nos centraremos en las técnicas de EDA para variables categóricas que incluyen ordinal, dicotómico y nominal variables.
La EDA puede ser gráfica o cuantitativa según lo que intentemos encontrar. Siguiendo la analogía anterior del paciente, los informes como radiografías, resonancias magnéticas y exploraciones pueden verse como un método gráfico que proporciona una imagen general de los datos e implica un análisis cualitativo.
Mientras que los informes de sangre, las dimensiones del tumor pueden entenderse como un método cuantitativo que es objetivo.
En general, los datos se componen de varias columnas y filas. Ahora se puede optar por explorar una variable a la vez (uni + variate = univariate
), dos variables a la vez (bi + variate = bivariate
) o múltiples variables al mismo tiempo (multi + variate = multivariate
).
EDA categórico univariante
La información más útil que se puede extraer de este análisis en el contexto de la variable categórica, es conocer las categorías, frecuencia de ocurrencia, proporción o porcentaje de datos que cae dentro de cada categoría.
Las tablas de frecuencia son la forma más popular de realizar este análisis.
EDA gráfico univariante
Cuando pensamos en gráficos, los diagramas de barras son uno de los gráficos más utilizados. También se puede obtener una información similar de la tabulación de frecuencia en forma de gráficos de barras, que son más útiles para presentar el análisis.
Poder presentar la información en forma visual es uno de los elementos clave para presentar el análisis de manera efectiva.
EDA categórica multivariante
1. Tabulación cruzada: La tabulación cruzada es la técnica básica de EDA bivariada no gráfica. Sin embargo, no se limita al bivariado, sino que se puede ampliar más.
La razón por la que más de las tablas cruzadas de 5
factores no son muy populares es porque se vuelve un poco difícil de comprender a medida que aumenta la tabulación cruzada.
2. Estadísticas univariadas por categoría: en caso de que tengamos una variable de entrada categórica y una variable de resultado cuantitativa, generalmente las estadísticas de la variable de resultado se calculan para cada categoría y luego se comparan las estadísticas entre las categorías.
La comparación se realiza mediante pruebas estadísticas como anova.
- Diagramas de caja lado a lado: en caso de que queramos explorar la variable de entrada categórica y la variable de salida cuantitativa, el enfoque es separar todos los casos en función de categorías y luego hacer diagramas de caja de la variable de salida. Los diagramas de caja lado a lado son útiles para investigar la relación entre variable categórica y cuantitativa. Además, la distribución de la variable de resultado también se puede ver en cada nivel de variable categórica.
EDA puede aportar suficiente comprensión y conocimiento para tomar decisiones conscientes. Sin embargo, no se debe confundir EDA con una fase inicial o un proceso de un solo paso.
A medida que avanzamos con el ciclo de la ciencia de datos, es posible que deba volver a realizar un EDA después de obtener los resultados para analizar por qué el modelo se comporta de cierta manera o por qué se ve un cierto tipo de salida.
El código completo se puede encontrar en este Github. Si encuentra útil esta publicación, hágamelo saber en la sección de comentarios.
Nunca dejes de explorar. Gracias por leer este artículo.
Añadir comentario