Hola, soy Miguel y aquí les traigo este nuevo tutorial.
Cree sus datos desde cero en Python
El primer paso y quizás el más importante de cualquier trabajo de análisis de datos es adquirir sus ingredientes crudos; tu información.
Dependiendo de la madurez de su proyecto, esta etapa puede ser muy sencilla (solicitar un csv a un colega, consultar una base de datos bien estructurada, etc.) o mucho más complicada, como la creación de un raspador web personalizado.
Pero no todos los datos que necesita para sus proyectos provendrán de fuentes externas. A veces tendrás que cocinarlo tú mismo.
En esta publicación, explicaré el proceso de creación de un DataFrame desde cero.
Comprender el método «DataFrame»
La forma más sencilla de crear un nuevo DataFrame es utilizar el método «DataFrame». Si está familiarizado con la programación orientada a objetos, notará que en realidad es un constructor llamada, que crea una instancia de un nuevo objeto DataFrame.
Todos los argumentos son opcionales, lo que significa que puede crear un DataFrame vacío pasando … nada:
import pandas as pd empty_df = pd.DataFrame()
Esto puede ser útil si desea que un DataFrame vacío se complete más tarde con datos. Por ejemplo, puede almacenar resultados resumidos para varios modelos de aprendizaje automático comenzando con un DataFrame vacío y luego escribiendo un bucle para completar las filas de cada modelo.
En la mayoría de los casos, sin embargo, querrá llenar su DataFrame con datos desde el principio. Afortunadamente, Pandas es muy flexible, lo que permite a los programadores convertir una variedad de estructuras de datos en DataFrames. A continuación se muestra una guía completa:
Creando un DataFrame a partir de una lista de listas
Pase una lista de listas al primer argumento del método DataFrame, donde cada lista interna será una fila futura. Por lo general, también querrá incluir un argumento de «columnas», que es una lista simple de los nombres de columna que desea usar.
data = [[‘panda’, ‘bamboo’, 100], [‘koala’, ‘eucalyptus’, 100]] pd.DataFrame(data, columns = [‘animal’, ‘favorite_food’, ‘cuteness_level’])
Crear un DataFrame a partir de un diccionario: método n. ° 1
Pase un diccionario como primer argumento. Las claves del diccionario se convertirán en las columnas del DataFrame. Los valores en el diccionario deben ser listas que llenarán las columnas:
data = {‘animal’: [‘panda’, ‘koala’], ‘favorite_food’: [‘bamboo’, ‘eucalyptus’], ‘cuteness_level’: [100, 100] } pd.DataFrame(data)
Crear un DataFrame a partir de un diccionario: método n. ° 2
También puede crear un DataFrame a partir de un diccionario utilizando el from_dict método, que es un método de clase de la clase DataFrame.
La ventaja aquí es que puede establecer el argumento «orientar» en «índice», lo que cambia la forma en que el diccionario llena el DataFrame. En este caso, las claves del diccionario se convertirán en el índice de fila y sus valores se convertirán en filas:
data = {‘animal’: [‘panda’, ‘koala’], ‘favorite_food’: [‘bamboo’, ‘eucalyptus’], ‘cuteness_level’: [100, 100] } pd.DataFrame.from_dict(data, orient = ‘index’, columns = [‘first_animal’, ‘second_animal’])
Crear un DataFrame a partir de una lista de diccionarios
Pase una lista de diccionarios al primer argumento. Para cada diccionario, las claves corresponden a los nombres de las columnas y los valores corresponden a los valores en cada fila del DataFrame:
data = [{'animal': 'panda', 'favorite_food': 'bamboo', 'cuteness_level': 100}, {'animal': 'koala', 'favorite_food': 'eucalyptus', 'cuteness_level': 100}] pd.DataFrame(data)
Creando un DataFrame a partir de una matriz numpy
Pase su matriz numpy directamente al método DataFrame:
data = np.array([(‘panda’, ‘bamboo’, 100), (‘koala’, ‘eucalyptus’, 100)], dtype=[(‘animal’, ‘U6’), (‘favorite_food’, ‘U6’), (‘cuteness_level’, int)]) pd.DataFrame(data)
Mi recomendación
En esta publicación, repasamos una variedad de métodos para crear un nuevo DataFrame.
Cuando estoy construyendo una tabla desde cero, prefiero usar el método de lista de listas porque tiene la traducción más intuitiva. Cada lista interna se representa horizontalmente y en realidad se parece a la fila en la que se convierte en el DataFrame.
¡Feliz codificación!
Añadir comentario