Bienvenido, me llamo Miguel y esta vez les traigo otro nuevo tutorial.
Índice
Sus éxitos en el aprendizaje automático y en general, en la inteligencia artificial no son las aplicaciones atractivas … ¡El éxito se basa en el trabajo que nadie verá jamás!
Se dice ampliamente que los datos son el nuevo petróleo y, al igual que el petróleo, los datos necesitan el refinamiento adecuado para evolucionar y ser utilizados a la perfección. El poder de los modelos de aprendizaje automático dependerá significativamente de la calidad de los datos; No digo nada nuevo aquí.
A medida que el desarrollo de la inteligencia artificial y sus aplicaciones posteriores se vuelven aún más generalizados, los ingenieros de aprendizaje automático de todo el mundo se enfrentan a una realidad sombría. Una vez que las partes interesadas superan los sesgos o escepticismos y finalmente se comprometen, identifican un caso de uso con un ROI comprobado y ahora están ansiosos por saltar al barco de la IA, la curación de datos generalmente se descuida y adolece de no atraer su debida importancia, a menudo debido a una rápida ¡Ganar mentalidad y el hecho de que no es sexy!
Hay muchas suposiciones, incluso dentro de los grupos de tecnología, que la IA solo necesita recibir datos recopilados y combinados en gran medida; en la mayoría de los casos, esto resulta gravemente contraproducente. Los conjuntos de datos inexactos pueden presentarse de muchas formas, desde información objetivamente incorrecta hasta lagunas de conocimiento y pautas incorrectas. Entre muchos otros problemas, un conjunto de datos sin curar puede ser:
- Sesgado: recientemente, varias IA populares utilizadas para el reconocimiento de imágenes mostraban prejuicios raciales y de género inquietantes.
- Inexacto, poco confiable o representado falsamente
- Lleno de errores o ambiguo
Se sabe universalmente que la falta de uso de conjuntos de datos sin procesar refinados o seleccionados disminuye la calidad de las funciones y limita la evaluación y las aplicaciones de las tareas de transferencia. Entonces, ¿cómo deben tratarse los conjuntos de datos de manera que sirvan para el propósito exacto que necesita el aprendizaje automático? Esto depende en gran medida de los casos de uso que los ingenieros de aprendizaje automático están tratando de abordar.
Tipos de conjuntos de datos para el aprendizaje automático
Los ingenieros de ML dependen de los datos en cada paso de su viaje de IA, desde la elección del modelo, la capacitación y las pruebas. Estos conjuntos de datos generalmente se dividen en tres clasificaciones:
- Conjuntos de entrenamiento.
- Los juegos de validación
- Conjuntos de prueba.
Cada proyecto de AA comienza con dos categorías de conjuntos de datos; el conjunto de datos de entrenamiento y el conjunto de datos de prueba.
- El conjunto de datos de entrenamiento se usa para entrenar un algoritmo, implementar conceptos, descubrir y dar resultados.
- Los datos de prueba se utilizan para examinar la validez del conjunto de datos de entrenamiento. Los datos de entrenamiento no se utilizan para realizar pruebas porque producirán los resultados esperados.
Necesidades de datos para el aprendizaje automático
Los científicos de datos recopilan datos de diversas fuentes, los integran en un solo formulario, los validan, manipulan, archivan, preservan, recuperan y expresan.
El proceso de curar conjuntos de datos para el aprendizaje automático comienza mucho antes de aprovechar los conjuntos de datos.
Mi sugerencia:
- Identificar el objetivo de la IA
- Identifique qué conjunto de datos necesitará para resolver el problema
- Cree un registro de sus hipótesis mientras selecciona los datos
- Esfuércese por recopilar datos variados y significativos de fuentes externas e internas
- Cree conjuntos de datos que sean difíciles de copiar para sus competidores (responsabilidad)
Si tiene un conjunto de datos pequeño, aplicar un modelo previamente entrenado en conjuntos de datos grandes puede ser un gran enfoque y usar su conjunto de datos pequeño para ajustarlo.
Una vez que haya acumulado los datos correctos, puede avanzar con la creación del conjunto de entrenamiento. Este paso de poner los datos en el formato óptimo se llama transformación de características e incluye cuatro etapas:
Formateo: El descubrimiento de datos está en diferentes formatos. El formateo lo reunirá en una hoja. Por ejemplo, los datos del consumidor pueden venir con diferentes monedas, semánticas, etc. Estos deben compilarse en un formato para la uniformidad de la base.
Etiquetado: El etiquetado garantiza que el conjunto de datos funcione para la elección del modelo específico. Por ejemplo, un automóvil autónomo requiere datos etiquetados como imágenes de automóviles, peatones, señales de tráfico, pasillos.
Limpieza: Los caracteres subóptimos deben eliminarse y los valores faltantes se administran en función de la ponderación de la necesidad.
Extracción: Se examinan y optimizan varias características, características que son esenciales para la capacidad predictiva y un cálculo más rápido y un menor consumo de memoria.
La línea de fondo
Un conjunto de datos únicamente puede garantizar el éxito o el fracaso de un modelo de aprendizaje automático. La conservación de datos es uno de los aspectos fundamentales del aprendizaje automático y, si se ejerce correctamente, puede liberar un enorme potencial. Los métodos y procesos posteriores pueden parecer lentos; sin embargo, esto garantizará la calibración de su conjunto de datos con los objetivos de su aprendizaje automático en cada paso.
La introducción de procesos de curación de datos en su equipo de datos y los siguientes procedimientos parecerá llevar mucho tiempo y resultar caro a corto plazo; por lo tanto, las organizaciones deben analizar cuidadosamente los objetivos actuales y desarrollar una estrategia para respaldar la relevancia de la curación como función. Los servicios administrados y los métodos no supervisados capacitados en datos seleccionados están disponibles y comercializados por empresas de asesoría y tecnología, tenga cuidado y elija con cuidado; esto jugará un papel clave en su futuro de IA.
Gracias por leer.
Añadir comentario