Hola, me llamo Miguel y en esta ocasión les traigo otro tutorial.
Índice
GUI
para analizar el marco de datos de Pandas
El análisis exploratorio de datos es la parte más crucial, para empezar, siempre que trabajemos con un conjunto de datos. Nos permite analizar los datos y explorar los hallazgos iniciales a partir de datos como cuántas filas y columnas hay, cuáles son las diferentes columnas, etc.
EDA es un enfoque en el que resumimos las características principales de los datos utilizando diferentes métodos y principalmente visualización.
30%
del tiempo total del proyecto para explorar los datos y descubrir de qué se trata. EDA nos permite y nos dice cómo preprocesar los datos antes de modelar.
Esta es la razón por la que EDA es más importante, pero podemos ahorrar este tiempo automatizando todo el tiempo que toma los trabajos de EDA y podemos usar el tiempo ahorrado en el modelado.
PandasGUI
es un módulo / paquete
de Python de código abierto que crea una interfaz GUI
donde podemos analizar el marco de datos de pandas y usar diferentes funcionalidades para visualizar y analizar datos y realizar análisis de datos exploratorios.
En este artículo, exploraremos PandasGUI
y veremos cómo podemos usarlo para automatizar el proceso de Análisis de datos exploratorios y ahorrar nuestro tiempo y esfuerzo.
Instalación de PandasGUI
Como cualquier otra biblioteca, podemos instalar PandasGUI
usando pip
.
pip install pandasgui
Cargando conjunto de datos
Una gran variedad de conjuntos de datos están predefinidos en pandasgui
. Usaremos PandasGUI
para cargar un conjunto de datos llamado "IRIS"
, que es un conjunto de datos muy famoso y lo exploraremos usando la interfaz GUI
de PandasGUI
.
También importaremos la función "mostrar"
que carga el conjunto de datos en la GUI
.
from pandasgui.datasets import iris #importing the show function from pandasgui import show
Crear la interfaz
Ahora solo necesitamos llamar a la función show
pasando el nombre de nuestro conjunto de datos como parámetro y lanzará una GUI
donde podemos explorar sus diferentes secciones e intentar explorar diferentes propiedades del conjunto de datos.
show(iris)
Aquí puede ver que la función mostrar inicia la GUI
y podemos ver claramente diferentes pestañas que contienen diferentes funcionalidades.
Analicemos cuáles son las diferentes secciones de esta interfaz.
En esta sección, podemos analizar claramente cuáles son los diferentes atributos y qué valores contiene. Podemos analizar claramente todos los valores y atributos. En este lado izquierdo, también podemos ver la forma del marco de datos.
En esta sección, podemos aplicar diferentes filtros para analizar los datos. Simplemente podemos escribir la consulta que queremos ejecutar y aplicar el filtro. Puede consultar este enlace para obtener más información consultas en pandas.
Esta sección es similar a la función de descripción del marco de datos de Pandas. Nos ayuda a analizar las propiedades estadísticas del conjunto de datos.
Esta es la sección más importante, aquí podemos ver claramente diferentes tipos de visualizaciones que podemos crear usando la interfaz y ahorrarnos el esfuerzo de escribir el código para cada visualización.
En la imagen de arriba, he creado el diagrama de dispersión para sepal_length
y sepal_width
. Del mismo modo, puede crear una visualización diferente arrastrando y soltando los nombres de las columnas en x
, y
y otros parámetros.
En esta sección, podemos analizar el conjunto de datos aplicando diferentes funciones y cambiando la forma del conjunto de datos. Los dos formatos de forma que se proporcionan son 'Pivot'
y 'Melt'
.
Podemos arrastrar y soltar columnas en diferentes funciones y analizar diferentes formas del conjunto de datos en consecuencia.
5
secciones que proporciona PandasGUI
mediante las cuales podemos analizar el marco de datos de pandas y realizar EDA en cualquier conjunto de datos dado.
PandasGUI
es una herramienta útil porque reduce el esfuerzo de escribir el código una y otra vez y también ahorra tiempo.
Del mismo modo, puede explorar PandasGUI
utilizando diferentes conjuntos de datos. Pruébelo y cuénteme sus experiencias en las respuestas a este artículo.
Gracias por leer este tutorial.
Añadir comentario