Muy buenas, les saluda Luis y aquí les traigo un post.
Elegir la estadística descriptiva más apropiada
La media y la mediana son dos de las características más comunes que se utilizan al describir datos numéricos. Los dos se conocen como medidas de tendencia central, lo que significa que describen un conjunto de datos arrojando luz sobre la posición central de los datos. los media es el valor promedio: es el valor que obtiene cuando suma todos los datos y divide ese número por el número de puntos en el conjunto de datos. Por otro lado, el mediana es el número del medio en un conjunto de datos una vez que se ha ordenado de menor a mayor.
Data: 1, 8, 3 • Mean --> (1 + 8 + 3) / 3 = 4• Median --> 1, 3, 8 --> 3
Si bien la media puede parecer la medida lógica que se debe utilizar al describir sus datos, no siempre es así. Cuando se trata de la media, tiene una desventaja clave: la media es muy susceptible a valores atípicos en los datos. Tome los datos graficados en el gráfico anterior, por ejemplo. Los datos anteriores representan el costo de los pedidos de zapatillas. Como podemos ver, la gran mayoría de los datos se encuentran en el lado izquierdo del gráfico.
Cuando echamos un vistazo a la descripción de los datos anteriores, vemos que el 75% de las compras de zapatillas cuestan $ 390 o menos. Sin embargo, si tuviéramos que tomar la media de estos datos, nuestra media sería igual a $ 3,145.13. Claramente, este número no sería una representación muy precisa de nuestros datos. En este caso, algunos valores atípicos drásticos (podemos ver la discrepancia si echamos un vistazo al valor máximo en la descripción) están influyendo en gran medida en la media y, por lo tanto, sería mejor para nosotros usar la mediana como métrica para informe para este conjunto de datos. Nuestra mediana es $ 284, que es una representación mucho mejor de nuestros datos y de las ventas de zapatillas en general, utilizando el conocimiento de dominio del mercado de las zapatillas.
Evidentemente, es muy importante observar la distribución de sus datos antes de decidir qué métrica usar para representarlos. Si los datos se distribuyen normalmente (forma uniforme), es probable que la media sea un descriptor apropiado. Sin embargo, si los datos están sesgados como los datos que analizamos aquí, la mediana puede ser la mejor opción.
Referencias
Añadir comentario