Hola, me llamo Luis y esta vez les traigo otro nuevo artículo.
Hay dos aspectos fundamentales para una aplicación fructífera de las estadísticas (ciencia de datos):
- Conocimiento del dominio.
- Metodología estadística.
Debido a la naturaleza altamente específica de este campo, es difícil para cualquier libro o artículo transmitir una descripción detallada y precisa de la interacción entre los dos. En general, se puede leer material de dos tipos:
- Amplia información sobre métodos estadísticos con conclusiones generalizadas pero no específicas.
- Métodos estadísticos detallados con conclusiones que son útiles solo en un dominio específico.
Después de 3 años trabajando en mis propios proyectos de ciencia de datos y 3,5 años manipulando datos en el piso de negociación, hay una categoría adicional de aprendizaje. Es fundamentalmente tan útil como los anteriores y los tomo en cada proyecto / ajetreo lateral / trabajo de consultoría …
Índice
Razonamiento estadístico práctico
Inventé ese término porque realmente no sé cómo llamar a esta categoría. Sin embargo, cubre:
- La naturaleza y el objetivo de la ciencia de datos / estadística aplicada.
- Principios comunes a todas las aplicaciones
- Pasos prácticos / preguntas para mejores conclusiones
Si tiene experiencia en la aplicación de métodos estadísticos, le animo a que utilice su experiencia para aclarar y criticar los siguientes principios. Si nunca ha intentado implementar un modelo estadístico, inténtelo y luego regrese. No vea lo siguiente como una lista para memorizar. Obtendrá una síntesis máxima de información si puede relacionarse con su propia experiencia.
Los siguientes principios me han ayudado a ser más eficiente con mis análisis y más claro en mis conclusiones. Espero que ustedes también puedan encontrarles valor.
1 – La calidad de los datos importa
La medida en que los pobres calidad de los datos puede corregirse mediante análisis más elaborados es limitado. Los controles prácticos que vale la pena completar son:
- Inspección visual / automática de valores que son lógicamente inconsistentes o que están en conflicto con información previa sobre los rangos que probablemente surjan de cada variable. Por ejemplo, valores extremos, tipo de variable.
- Frecuencia de distribuciones.
- Dispersión por pares para inspección de colinealidad a bajo nivel.
- Observaciones faltantes (0, 99, Ninguno, valores NaN).
- Cuestionar los métodos de recopilación por sesgos introducidos por inconsistencias, por ejemplo, diferencias entre observadores.
2 – Critica la variación
En casi todos los problemas, tendrá que lidiar con variación incontrolada. La actitud ante esta variación debe diferir dependiendo de si esta variabilidad es una parte intrínseca del sistema en estudio o si representa un error experimental. En ambos casos, consideramos la distribución de la variación pero la motivación difiere:
- Variación intrínseca: nos interesa el detalle en la forma de distribución.
- Variación de error: nos interesa lo que se habría observado si se hubiera eliminado el error.
3 – Seleccione una profundidad de análisis sensible
Trate de considerar la profundidad independientemente de la cantidad de datos disponibles o de las tecnologías disponibles. El hecho de que sea fácil / barato recopilar datos no significa que los datos sean relevantes. Lo mismo se aplica a las metodologías y tecnologías. La profundidad de análisis bien elegida respalda conclusiones claras, y las conclusiones claras respaldan una mejor toma de decisiones.
4 – Comprender la estructura de datos
Cantidad de datos se refiere al número de individuos y al número de variables por individuo. Estructura de datos = cantidad de datos + agrupaciones de individuos. La mayoría de los conjuntos de datos tienen la siguiente forma:
- Hay varios individuos.
- En cada individuo, se observan una serie de variables.
- Los individuos se consideran independientes unos de otros.
Dada esta forma, responder a la siguiente pregunta acortará el camino hacia una interpretación significativa de la conclusión.
- ¿Qué se debe considerar como individuo?
- ¿Los individuos están agrupados / asociados de formas que deben tenerse en cuenta en el análisis?
- ¿Qué variables se miden en cada individuo?
- ¿Falta alguna observación? ¿Qué se puede hacer para reemplazar / estimar esos valores?
A tener en cuenta: los conjuntos de datos pequeños permiten una fácil inspección de la estructura de los datos, mientras que los conjuntos de datos grandes solo permiten pequeñas proporciones de análisis de la estructura. Incluya esto en su análisis y tómese el tiempo que necesite.
5 – 4 fases de análisis estadístico
- Manipulación inicial de datos. Intención = realizar controles de la calidad, estructura y cantidad de los datos, y reunir los datos en un formulario para un análisis detallado.
- Analisis preliminar. Intención = aclarar la forma de los datos y sugerir la dirección del análisis definitivo (gráficos, tablas).
- Análisis definitivo. Intención = proporcionar la base para las conclusiones.
- Presentación de conclusiones. Intención = conclusiones precisas, concisas y lúcidas con interpretación del dominio.
… pero hay salvedades para estas fases:
- La división de fases es útil pero no rígida. El análisis preliminar puede conducir a conclusiones claras, mientras que el análisis definitivo puede revelar discrepancias inesperadas que exigen la reconsideración de toda la base del análisis.
- Omita 1 cuando se le proporcione un conjunto de datos limpiado.
- Omita 2 en los campos donde hay análisis importantes existentes.
6 – ¿Cuál es la salida?
Recuerde, el análisis estadístico no es más que un paso en un proceso de toma de decisiones más amplio. Presentación de conclusiones para los responsables de la toma de decisiones es fundamental para la eficacia de cualquier análisis:
- El estilo de la conclusión debe depender de la audiencia.
- Explicar la estrategia amplia de análisis en una forma razonable para un lector crítico no técnico.
- Incluya vínculos directos entre conclusiones y datos.
- Merece la pena esforzarse por presentar análisis complejos de forma sencilla. Sin embargo, tenga en cuenta que la simplicidad es subjetiva y está relacionada con la familiaridad.
7 – Estilo de análisis apropiado
Desde una perspectiva técnica, el estilo de análisis se refiere a cómo se modela el sistema subyacente de interés:
- Probabilístico / Inferencial: sacar conclusiones sujetas a incertidumbre, a menudo numéricas.
- Descriptivo: busca resumir datos, a menudo gráficos.
El estilo de análisis apropiado ayuda a mantener el enfoque. Tómelo en consideración desde el principio y reducirá la necesidad de volver a los pasos de procesamiento de datos que consumen mucho tiempo.
8 – Consideración computacional es solo a veces un problema
La elección de la tecnología se filtra en todos los aspectos del análisis estadístico aplicado, incluidos:
- La organización y almacenamiento de datos brutos.
- La disposición de las conclusiones.
- Implementación de los principales análisis / análisis.
Pero, ¿Cuándo debería estar esto en el radar?
- Investigación a gran escala + grandes datos = vale la pena dedicar recursos a programas / bibliotecas a medida si la flexibilidad y el rendimiento no se pueden lograr a través de las herramientas existentes.
- Investigación a gran escala + datos pequeños = consideración computacional no crítica.
- Investigación a pequeña escala + grandes datos = programas a medida no factibles, la disponibilidad de programas / bibliotecas flexibles y generales es de vital importancia.
- Investigación a pequeña escala + datos pequeños = consideración computacional no crítica.
9 – Diseñar bien las investigaciones
Si bien se puede utilizar una variedad de métodos estadísticos en una variedad de tipos de investigación. La interpretación de los resultados variará según el diseño de investigación:
- Experimentos = el sistema en estudio está configurado y controlado por el investigador. Las diferencias claras se pueden atribuir a las variables con seguridad.
- Estudios observacionales = el investigador no tiene control sobre la recopilación de datos más que monitorear la calidad de los datos. Pueden faltar verdaderas variables explicativas, por lo que es difícil sacar conclusiones con confianza.
- Encuestas de muestra = muestra extraída de una población por métodos (asignación al azar) bajo el control del investigador. Se pueden sacar conclusiones confiables sobre las propiedades descriptivas de la población, sin embargo, las variables explicativas sufren como se indicó anteriormente.
- Estudios prospectivos controlados = muestra elegida por el investigador, variables explicativas medidas y seguidas en el tiempo. Tiene algunas virtudes de los experimentos pero, en realidad, no es posible medir todas las variables explicativas.
- Estudios retrospectivos controlados = conjuntos de datos existentes con manejo apropiado de variables explicativas.
A tener en cuenta: Un aspecto significativo del diseño de la investigación es distinguir las variables de respuesta y explicativas.
10 – Objeto de la investigación
Evidentemente, el propósito de la investigación es importante. Pero, ¿Cómo debería considerar el propósito?
Primero, una distinción cualitativa general de objetivos:
- Explicativo: aumentar la comprensión. Es peligroso elegir arbitrariamente entre modelos que se ajustan bien.
- Profético: uso práctico principal. Fácil de elegir arbitrariamente entre modelos que se ajusten bien.
El propósito específico de la investigación puede indicar que el análisis debe centrarse claramente en un aspecto particular del sistema en estudio. También influye en los tipos de conclusión a buscar y en la presentación de las conclusiones.
A los efectos, la intención puede especificar una fecha de caducidad. Cuando se encuentran cambios en las interrelaciones entre las variables, todo modelo elegido sobre una base totalmente analítica está en riesgo.
Palabra final
Casi todas las tareas de la vida se pueden considerar desde el marco:
Input -> System -> Output
El trabajo luego pasa a ser definir cada aspecto del marco.
El razonamiento estadístico práctico aborda el ‘Sistema’. Algunas partes del sistema no se pueden determinar fuera de contexto. Algunas partes pueden. El razonamiento estadístico práctico es realmente solo la capacidad de definir su ‘Sistema’ de manera fácil y competente. Definitivamente, esa capacidad no se limita a estos principios.
Espero haber aportado con algo más en tu aprendizaje.
Añadir comentario