Muy buenas, soy Luis y esta vez les traigo otro nuevo post.
Nota para el lector: Este artículo asume cierta familiaridad con los conceptos de análisis y ciencia de datos.
El equipo financiero de un importante minorista australiano quería saber la respuesta a la pregunta «¿Cuánto afecta el clima a las ventas semanales?»
- Un problema omnipresente que muchos analistas y gerentes financieros luchan por resolver en la empresa. Sin embargo, nadie en el negocio tiene un método científico para resolverlo.
Índice
Las aplicaciones de cuantificar con precisión los efectos del clima en las ventas son muchas, tales como:
- Mejor servicio al cliente al optimizar los precios y descontar los productos adecuados durante ciertas condiciones climáticas.
- Estimar la demanda de productos específicos sensibles al clima, como paraguas o helados.
- Mejora en la cadena de suministro al reducir el capital de trabajo y reducir los costos de logística al determinar los días de mal tiempo.
Como se señaló anteriormente, el valor comercial de resolver este problema es tremendo, ya que esto podría ayudar a comprender mejor el impacto de ciertos eventos climáticos en los resultados finales. No solo eso, la empresa puede monitorear e informar mejor los hábitos transaccionales semanales del cliente, que están influenciados por el clima. El objetivo final de este proyecto era pronosticar el componente de ventas dependiente del clima para la próxima semana.
En este artículo, no deseo entrar en el meollo de la selección e implementación de modelos matemáticos. Sin embargo, a continuación se describe un conocimiento de alto nivel del marco de gestión de proyectos utilizado para ejecutar el proyecto. Describiré el marco de trabajo de ciencia de datos del proceso estándar entre industrias para la minería de datos (CRISP) para la resolución de problemas y explicaré cómo resolví este problema.
El marco de la ciencia de datos de CRISP consta de:
1. Comprensión empresarial
Comenzando con la comprensión empresarial, representé el estado actual del problema y el estado futuro deseado. El siguiente paso para definir el problema es dividirlo en subproblemas más pequeños que son mutuamente excluyentes y colectivamente exhaustivos. Una vez que el problema se divide en componentes menores, por ejemplo, en nuestro análisis meteorológico, ¿cuál es el efecto sobre la temperatura, la velocidad del viento y las precipitaciones en las ventas semanales en diferentes estados? Además, ¿cuál es el impacto de eventos climáticos importantes, como inundaciones o ciclones, y cómo definimos inundaciones y huracanes usando las métricas de medición disponibles con nosotros? Empecé a ver cómo tendrían que unirse diferentes soluciones para responder a la pregunta principal.
Como una de las partes importantes en la fase de comprensión empresarial del proyecto es la investigación, aproveché la investigación ya existente sobre la previsión de ventas basada en el clima para reducir una metodología rápidamente. El método identificado está respaldado por una lectura e investigación laterales para garantizar que el enfoque coincida con las necesidades del problema específico en cuestión. Se realizan algunos cambios necesarios en la metodología para adaptar la solución al problema dado. Por lo tanto, el uso de la investigación existente garantiza una respuesta más rápida para las partes interesadas.
2. Comprensión de datos
El segundo paso, según el marco CRISP, es la comprensión de los datos. Hubo dos fuentes principales de datos en mi análisis. Uno son los datos de ventas estatales recibidos de IBM Cognos TM1, y el segundo son los datos meteorológicos extraídos del sitio web de la Oficina de Meteorología (BOM). Se realizó un taller con las partes interesadas requeridas para comprender todos los campos de datos necesarios para el análisis. Para los datos de la lista de materiales, la comprensión de los datos se recopila utilizando la información proporcionada en las metatablas y hojas de datos.
3. Preparación de datos
El tercer paso es la preparación de los datos, y este paso es muy importante ya que la precisión del modelo final depende en gran medida de la etapa de preparación de los datos. Este paso se puede dividir aún más en selección de características e ingeniería de características. En este paso, exploré diferentes combinaciones y permutaciones de características disponibles para que el conjunto de características pueda tener una mayor correlación o ajuste con la variable de salida, que son las ventas semanales. También eliminé los efectos de la estacionalidad, como los períodos de Navidad y Semana Santa, ya que las tendencias de ventas cambian drásticamente durante esos períodos.
4. Modelado
En el paso de modelado, experimenté con el algoritmo Multivariate Adaptive Regression Splines (MARS), Autoregressive Integrated Moving Average (ARIMA) y varios algoritmos de aprendizaje automático no lineal como Random Forest (RF) y XGBoost para seleccionar el algoritmo que mejor se ajusta a nuestro distribución de datos. Uno de los inconvenientes de utilizar algoritmos avanzados de aprendizaje automático es la interpretabilidad de los resultados. Por lo tanto, en aras de una mejor interpretación de los resultados; Convertí valores continuos de temperatura, velocidad del viento y precipitación en cubos en distintos rangos para poder responder preguntas como ¿cuánto un aumento de 10 grados de temperatura en el estado de Victoria resulta en un aumento o disminución del X% en los ingresos? Explicar estos problemas es importante para que las partes interesadas muestren el valor de los proyectos de análisis.
5. Evaluación
La evaluación del modelo se realizó mediante la técnica de validación cruzada de K-fold, en la que los modelos estadísticos entrenados se validaron en varios conjuntos de datos de prueba que el modelo no ha visto durante el entrenamiento. La validación cruzada de K-fold crea modelos robustos que tienen un sesgo menor que otros métodos. Mis modelos resultantes para los estados de Victoria y NSW tenían una bondad de ajuste (R cuadrado) de aproximadamente el 80%. A nivel nacional, la bondad de ajuste fue superior al 75%. Los modelos resultantes tenían un error porcentual absoluto medio (MAPE) de menos del 12%, que estaba dentro de la incertidumbre requerida para la utilización.
6. Despliegue y presentación
Finalmente, el modelo se implementó utilizando una integración de código R con Microsoft Excel. Creé un tablero en Excel fácil de usar y altamente intuitivo para el consumo de los resultados del análisis. Mi panel de inteligencia empresarial ofrecía desgloses semanales por estado del impacto del clima en las ventas junto con una descripción cualitativa y cuantitativa de otros impulsores de ventas. Este informe está totalmente automatizado mediante VBA, que se puede actualizar con nuevos datos cada semana con un solo clic.
En conclusión
La necesidad de una previsión precisa y una mejor planificación es de suma importancia en la industria minorista. Especialmente porque los eventos climáticos importantes, como inundaciones o sequías, pueden resultar en una pérdida financiera masiva para la empresa si no se manejan bien. Lo que hice fue diseñar una forma de validar y medir el impacto de un impulsor de ventas incontrolable en el negocio. Armados con este conocimiento, el equipo de operaciones, comercio y planificación de la tienda y la cadena de suministro estará mejor equipado para prever el impacto monetario potencial de los eventos climáticos significativos en el mercado y podrá implementar las estrategias adecuadas para minimizar las pérdidas.
Como siguiente paso de este análisis, quiero observar el impacto de los eventos climáticos a nivel de tienda, y también cómo las diferentes condiciones climáticas afectan las diferentes categorías de productos. Tener una vista más granular ayudará en última instancia a optimizar el rendimiento empresarial. Además, creo que es ahí donde reside el poder real de la analítica.
Añadir comentario