Hola, soy Miguel y aquà les traigo este nuevo tutorial.
Índice
Cree sus datos desde cero en Python
El primer paso y quizás el más importante de cualquier trabajo de análisis de datos es adquirir sus ingredientes crudos; tu información.
Dependiendo de la madurez de su proyecto, esta etapa puede ser muy sencilla (solicitar un csv
a un colega, consultar una base de datos bien estructurada, etc.) o mucho más complicada, como la creación de un raspador web personalizado.
Pero no todos los datos que necesita para sus proyectos provendrán de fuentes externas. A veces tendrás que cocinarlo tú mismo.
En esta publicación, explicaré el proceso de creación de un DataFrame
desde cero.
Comprender el método "DataFrame"
La forma más sencilla de crear un nuevo DataFrame
es utilizar el método "DataFrame"
. Si está familiarizado con la programación orientada a objetos, notará que en realidad es un constructor llamada, que crea una instancia de un nuevo objeto DataFrame
.
Todos los argumentos son opcionales, lo que significa que puede crear un DataFrame
vacÃo pasando … nada:
import pandas as pd empty_df = pd.DataFrame()
Esto puede ser útil si desea que un DataFrame
vacÃo se complete más tarde con datos. Por ejemplo, puede almacenar resultados resumidos para varios modelos de aprendizaje automático comenzando con un DataFrame
vacÃo y luego escribiendo un bucle para completar las filas de cada modelo.
En la mayorÃa de los casos, sin embargo, querrá llenar su DataFrame
con datos desde el principio. Afortunadamente, Pandas es muy flexible, lo que permite a los programadores convertir una variedad de estructuras de datos en DataFrames
. A continuación se muestra una guÃa completa:
Pase una lista de listas al primer argumento del método DataFrame
, donde cada lista interna será una fila futura. Por lo general, también querrá incluir un argumento de "columnas"
, que es una lista simple de los nombres de columna que desea usar.
data = [[‘panda’, ‘bamboo’, 100], [‘koala’, ‘eucalyptus’, 100]] pd.DataFrame(data, columns = [‘animal’, ‘favorite_food’, ‘cuteness_level’])
Pase un diccionario como primer argumento. Las claves del diccionario se convertirán en las columnas del DataFrame
. Los valores en el diccionario deben ser listas que llenarán las columnas:
data = {‘animal’: [‘panda’, ‘koala’], ‘favorite_food’: [‘bamboo’, ‘eucalyptus’], ‘cuteness_level’: [100, 100] } pd.DataFrame(data)
También puede crear un DataFrame
a partir de un diccionario utilizando el método from_dict
, que es un método de clase de la clase DataFrame
.
La ventaja aquà es que puede establecer el argumento «orientar» en «Ãndice», lo que cambia la forma en que el diccionario llena el DataFrame
. En este caso, las claves del diccionario se convertirán en el Ãndice de fila y sus valores se convertirán en filas:
data = {‘animal’: [‘panda’, ‘koala’], ‘favorite_food’: [‘bamboo’, ‘eucalyptus’], ‘cuteness_level’: [100, 100] } pd.DataFrame.from_dict(data, orient = ‘index’, columns = [‘first_animal’, ‘second_animal’])
Pase una lista de diccionarios al primer argumento. Para cada diccionario, las claves corresponden a los nombres de las columnas y los valores corresponden a los valores en cada fila del DataFrame
:
data = [{'animal': 'panda', 'favorite_food': 'bamboo', 'cuteness_level': 100}, {'animal': 'koala', 'favorite_food': 'eucalyptus', 'cuteness_level': 100}] pd.DataFrame(data)
Pase su matriz numpy directamente al método DataFrame
:
data = np.array([(‘panda’, ‘bamboo’, 100), (‘koala’, ‘eucalyptus’, 100)], dtype=[(‘animal’, ‘U6’), (‘favorite_food’, ‘U6’), (‘cuteness_level’, int)]) pd.DataFrame(data)
DataFrame
.
Cuando estoy construyendo una tabla desde cero, prefiero usar el método de lista de listas porque tiene la traducción más intuitiva.
Cada lista interna se representa horizontalmente y en realidad se parece a la fila en la que se convierte en el DataFrame
.
Feliz codificación. Gracias por leer este tutorial.
Añadir comentario