Muy buenas, me llamo Miguel y en esta ocasión les traigo este post.
¿Por qué son importantes los datos? ¿Qué tipo de datos existen? ¿Cómo podemos utilizar los datos en las predicciones de la ciencia de datos?
Índice
¿Qué es la ciencia de datos?
Lo interesante de la ciencia de datos es que es un área joven y las definiciones pueden diferir de libros de texto a periódicos y libros blancos. La definición general es que la ciencia de datos es una mezcla de múltiples herramientas, algoritmos y principios de aprendizaje automático para descubrir patrones ocultos en los datos. ¿En qué se diferencia esto de las estadísticas que han existido y se han utilizado durante años? La respuesta radica en la diferencia entre explicación y predicción.
El proceso de ciencia de datos
La ciencia de datos se compone de siete pasos principales. Cada uno de ellos es importante para la precisión del modelo. Veamos qué contiene cada paso.
Comprensión empresarial
Si queremos crear un proyecto de ciencia de datos, debemos comprender el problema que estamos tratando de resolver. Entonces, en este paso tenemos que obtener respuestas a las siguientes preguntas:
- ¿Cuántos?
- ¿Qué categoría?
- ¿Que Grupo?
- ¿Es esto extraño?
- ¿Qué opción debería considerarse?
Basándonos en las respuestas a estas preguntas, podemos concluir qué variable / variables deben predecirse.
Procesamiento de datos
El siguiente paso es encontrar los datos correctos. La minería de datos es un proceso de búsqueda y recopilación de datos de diferentes fuentes. Necesitamos responder las siguientes preguntas:
- ¿Qué datos se necesitan para el proyecto?
- ¿Dónde puedo encontrar esos datos?
- ¿Cómo obtener los datos?
- ¿Cuál es la forma más eficaz de almacenar y acceder a los datos?
Si los datos están en un solo lugar, este proceso será fácil para nosotros. Por lo general, este no es el caso.
Limpieza de datos
Este es el paso más complicado y toma del 50 al 80 por ciento del tiempo. Una vez recopilados los datos, debemos limpiarlos. Los datos pueden contener valores perdidos o pueden ser inconsistentes en una columna. Es por eso que necesitamos limpiar y organizar nuestros datos.
Exploración de datos
Después de limpiar los datos, intentaremos encontrar un patrón oculto en ellos. Este paso incluye extraer un subconjunto, analizar y visualizar el subconjunto. Después de esto, obtenemos una imagen completa detrás de cada punto de datos.
Ingeniería de funciones
En el aprendizaje automático, una característica se explica como un atributo de un fenómeno que se observa. Por ejemplo, si estamos observando los resultados de un estudiante, un atributo posible podría ser la cantidad de horas que duerme el estudiante. Este paso se divide en dos subpasos. El primero es la selección de funciones. En este paso, podemos eliminar algunas características para reducir la dimensionalidad que podría causar la complejidad del modelo. Además, la característica que queremos eliminar suele traer más ruido que información útil. El segundo subpaso es la construcción de características; esto significa que podemos crear una nueva característica basada en las que tenemos.
Modelado predictivo
Este es el paso en el que finalmente construimos el modelo. Aquí decidimos qué modelo usaremos, basándonos en las respuestas que obtuvimos en el primer paso. Esta no es una decisión fácil y no siempre hay una respuesta. El modelo y su precisión dependen de los datos: el tamaño de los datos, el tipo de datos y también la calidad de los datos. Una vez entrenado el modelo, debemos evaluar la precisión y determinar si el modelo es exitoso.
Visualización de datos
Una vez que hayamos obtenido la información del modelo, necesitamos visualizarlos de diferentes maneras para que todos los incluidos en el proyecto los entiendan.
Comprensión empresarial
Una vez hecho todo, volvemos al primer paso y comprobamos si el modelo cumple con los requisitos iniciales. Si encontramos nuevos conocimientos durante la primera iteración del ciclo de vida (y estoy seguro de que lo haremos), ahora podemos ingresar ese conocimiento en la siguiente iteración para generar conocimientos aún más poderosos y liberar el poder de los datos para extraer resultados fenomenales. Para el proyecto.
¿Qué son los datos?
Podemos ver que casi todos los pasos necesitan datos. Podemos ver que cuatro de los cinco pasos de la parte anterior están relacionados con los datos. Entonces, podemos asumir que los datos juegan un papel crucial en un proyecto de ciencia de datos. ¿Qué son los datos? ¿Cómo se definen los datos? Esto puede parecer una definición poco importante a la vista, pero lo es. Siempre que usamos la palabra «datos», nos referimos a una colección de información en un formato organizado o no organizado.
Tipos básicos de datos
Existen dos tipos de formatos basados en la definición de la parte anterior:
- Datos estructurados (organizados): Datos que se ordenan en una estructura de fila / columna, donde cada fila representa una sola observación y las columnas representan las características de esa observación
- Datos no estructurados (no organizados): Datos que están en forma libre, generalmente texto o audio / señales sin procesar que deben analizarse más para organizarse.
Cuando hablamos de datos, lo primero que debemos responder es si los datos son cuantitativos o cualitativos. Cuando hablamos de datos cuantitativos, generalmente pensamos en un conjunto de datos estructurados. Estos dos tipos de datos se pueden definir de la siguiente manera:
- Datos cuantitativos: Cuando los datos se pueden describir usando números, y las operaciones matemáticas básicas, incluida la suma, son posibles en el conjunto.
- Datos cualitativos: Cuando los datos no se pueden describir usando números y matemáticas básicas. Estos datos generalmente se describen utilizando categorías naturales y lenguaje.
Datos cuantitativos
Los datos cuantitativos pueden ser:
- Datos discretos: Esto describe los datos que se cuentan. Solo puede adquirir ciertos valores. Los ejemplos de datos cuantitativos discretos incluyen una tirada de dados, porque solo puede tomar seis valores, y la cantidad de clientes en una cafetería porque no puede tener un rango real de personas.
- Datos continuos: Esto describe los datos que se miden. Existe en una gama infinita de valores.
Los cuatro niveles de datos
Generalmente se entiende que una característica específica (característica / columna) de datos estructurados se puede dividir en cuatro niveles de datos. Estos niveles son los siguientes:
- El nivel nominal
- El nivel ordinal
- El nivel de intervalo
- El nivel de relación
Profundicemos en cada nivel y expliquemos cada uno de ellos.
El nivel nominal
Este nivel contiene datos que se describen por nombre o categoría. Por ejemplo, género, nombre, especie, etc. Los datos no se pueden describir usando números, por lo que son datos cualitativos y debido a esto no podemos realizar operaciones matemáticas como sumar o dividir sobre estos datos. Las operaciones que podemos realizar en este nivel son la igualdad y establecer la función de pertenencia. Además, no podemos usar la medida del centro: una medida del centro se explica como un número que nos muestra a qué tienden los datos y, a veces, se le llama un punto de equilibrio de los datos. ¿Por qué no podemos usar la medida del centro? La explicación es simple: por lo general, cuando usamos esta medida usamos la moda, la mediana o el valor medio. Pero, a nivel nominal, no podemos utilizar operaciones matemáticas, por lo que estas medidas no tienen sentido. En conclusión, este nivel está compuesto por datos categóricos y debemos tener cuidado con estos datos, ya que pueden contener información muy útil para nosotros.
El nivel ordinal
El nivel nominal no es muy flexible cuando hablamos de operaciones matemáticas. Los datos en el nivel ordinal proporcionan un orden de clasificación, pero aún no podemos usar operaciones matemáticas más complejas, como restar o sumar, para obtener un significado real. Por ejemplo, las calificaciones del 1 al 10 son datos ordinales; si queremos usar la suma, no obtendremos ninguna información útil de esto. Otro ejemplo es el resultado de una encuesta. En este nivel, tenemos más libertad con las operaciones matemáticas que en las nominales. Las operaciones matemáticas del nivel nominal (igualdad y pertenencia al conjunto) se heredan y las operaciones adicionales permitidas son el ordenamiento y la comparación. En el nivel ordinal, la mediana suele ser una forma adecuada de definir el centro de los datos, pero también podemos usar la moda. La media, sin embargo, sería imposible porque la división no está permitida en este nivel.
El nivel de intervalo
Ahora, estamos llegando a un nivel en el que los datos se pueden expresar a través de la media y podemos usar fórmulas matemáticas más complicadas. Los datos a nivel de intervalo admiten la resta entre puntos de datos. Por ejemplo, los datos que contienen temperatura pertenecen al nivel de intervalo. Las operaciones de los niveles inferiores (ordenamiento, comparaciones, etc.) se heredan y las operaciones adicionales permitidas son la suma y la resta. Cuando hablamos de la medida del centro, podemos usar la mediana, la moda o el valor medio y, por lo general, la descripción más precisa del centro sería la media aritmética. Veamos un ejemplo. Estamos tratando de encontrar la medida del centro utilizando datos que contienen las temperaturas de un frigorífico en el que se almacenan las vacunas. La temperatura óptima debe estar por debajo de los 29 grados. Después de encontrar la media y la mediana, asumimos que ambas están cerca de 31, por lo que esto no es aceptable para nuestro conjunto de datos. Este es el punto en el que necesitamos otra medida: la medida de varianza o desviación estándar. Podemos utilizar esta medida si queremos ver cómo se distribuyen nuestros datos. Si queremos encontrar la medida de la varianza, necesitamos calcular la media, restar cada punto de la media, encontrar el promedio de cada diferencia cuadrada y sacar la raíz cuadrada. Aquí está la fórmula:
Si usamos esta fórmula en el ejemplo con las temperaturas, podemos calcular la desviación estándar en nuestro conjunto de datos y, en base a esta medida, podemos ver que la temperatura puede bajar (media menos desviación estándar).
El nivel de relación
El último nivel se llama nivel de relación. No hay muchas diferencias entre la proporción y el nivel de intervalo; a veces, podemos confundirnos sobre cuál es el correcto. En el nivel de intervalo, no tenemos un punto de partida natural o un cero natural, pero en el nivel de proporción, lo tenemos. Las operaciones matemáticas del nivel inferior se heredan y las adicionales son la multiplicación y la división. Por ejemplo, el dinero en una cuenta bancaria se clasifica en este nivel: una cuenta bancaria puede tener un cero natural. Como medida del centro, podemos usar la media geométrica: es la raíz cuadrada del producto de todos los valores. Los datos de este nivel no deben ser negativos, por eso no se prefiere este nivel.
Conclusión
La ciencia de datos puede agregar valor a cualquier negocio; lo importante es usar bien los datos. Además, la ciencia de datos puede ayudarnos a tomar mejores decisiones basadas en evidencia medible. Los datos siempre deben estar disponibles para nosotros al tomar decisiones. Usando metodologías de ciencia de datos, podemos investigar datos históricos, hacer comparaciones con la competencia, analizar el mercado y, lo más importante, hacer recomendaciones sobre cómo funcionaría mejor el producto o servicio. Estos análisis, que forman parte de la ciencia de datos, proporcionan un conocimiento y una comprensión profundos del mercado, así como sus comentarios sobre el producto o servicio. Se estima que diariamente se generan alrededor de 2.500 millones de gigabytes de datos. Con este aumento en la cantidad de datos, puede resultar difícil obtener lo que es importante para el grupo objetivo. Cada dato que una empresa recopila de los clientes, ya sean me gusta en las redes sociales, visitas a sitios web o encuestas por correo electrónico, contiene datos que se pueden analizar para comprender a los clientes de manera más eficaz. Esto significa que los servicios y productos de ciertos grupos se pueden personalizar. Por ejemplo, encontrar correlaciones entre edad e ingresos puede ayudar a una empresa a crear nuevas promociones u ofertas para grupos que pueden no haber estado disponibles antes.
Gracias por leer, espero que le sea útil.
Añadir comentario