Muy buenas, soy Luis y para hoy les traigo un post.
Entonces, como su nombre lo indica, la ciencia de datos se trata de datos, procesándolos con métodos científicos, algoritmos, etc. Incluye muchos conceptos y teorías como Estadística, Probabilidad, Cálculo avanzado, Ciencias de la computación, Ciencias de la información, etc. Antes de continuar, hay algunos términos de moda con los que las personas suelen comenzar a comparar con la ciencia de datos, palabras como aprendizaje automático, aprendizaje profundo e inteligencia artificial.
Índice
¿Dónde se aplica?
Las prácticas de ciencia de datos se utilizan en muchas grandes empresas de tecnología como Netflix, Amazon, Google, etc. Por ejemplo, cuando abre Netflix, obtiene recomendaciones de películas o series web basadas en lo que ha visto anteriormente usando su cuenta, lo mismo en Amazon para recomendaciones de productos, etc., no solo esto, sino que si hablamos del sector de la salud, tuvo grandes beneficios de las aplicaciones de ciencia de datos en análisis de imágenes médicas, desarrollo de fármacos, etc. Incluso sus sistemas de reconocimiento de voz y rostro en nuestros teléfonos móviles y portátiles que que usamos a diario son una aplicación de la ciencia de datos. La mayoría de nuestros problemas de la vida diaria se pueden resolver mediante la ciencia de datos.
¿Cómo empezar a aprender?
Es bastante simple. En primer lugar, como comentamos al principio, la ciencia de datos incluye mucho las matemáticas, así que primero familiarícese con algunos conceptos matemáticos como probabilidad, estadística, álgebra lineal, cálculo.
Después de eso, elija un lenguaje de programación. Siempre hay una pelea entre Python y R porque estos son los dos lenguajes que la mayoría de los científicos de datos usan para construir modelos y algoritmos. Prefiero Python más porque comencé con él también, y es un lenguaje sencillo de entender y comenzar, incluso si eres nuevo en programación. Siéntete completamente cómodo con el idioma que has elegido. Asegúrese de seleccionar Python, familiarícese con bibliotecas como NumPy, pandas, Matplotlib, sklearn, etc., ya que se utilizarán mucho una vez que comience a aprender ciencia de datos.
Primero, aprenda estos temas antes de saltar a los algoritmos y conceptos de la ciencia de datos
- Web Scraping (Scrapy)
- Adquisición de datos (BeautifulSoup)
- Visualización de datos (una de las cosas más importantes en toda la ciencia de datos, se puede hacer usando Pandas, Matplotlib y muchas otras bibliotecas)
Después de esto, comience a aprender algoritmos de aprendizaje automático, en el siguiente orden
- Regresión lineal y logística (incluida la regresión ponderada localmente (LOWESS))
- K-Vecinos más cercanos y algoritmo de agrupación
- Clasificador Naive Bayes, Gaussian Naive Bayes (Intente aprender esto en profundidad).
- Clasificador de árboles de decisión y árboles aleatorios
Luego viene el Deep Learning, sigue este orden
- Preprocesamiento del lenguaje natural (cadenas de Markov, Tfidf, Bolsa de palabras, NLTK, N-gramas)
- Redes neuronales (perceptrón y perceptrón multicapa)
- Redes neuronales de convolución y aprendizaje por transferencia (será beneficioso leer algunos estudios de caso en CNN)
- Redes neuronales recurrentes
- Incrustaciones de palabras (Word2Vec, vectores de guantes)
- Redes generativas antagónicas
- Aprenda a trabajar con Tensorflow y Keras
Cuando haces todos estos temas, has recorrido un largo camino, ¡y felicitaciones !.
Ahora, después de terminar con la parte de aprendizaje. Puedes hacer tres cosas para hacer uso de tus habilidades y perfeccionarlas aún más.
¿Que sigue?
1. Pasantías
Puede intentar buscar pasantías en Internshala (no una promoción), o si está en la universidad, puede pedirle a profesores que están en el mismo campo que lo lleven a una pasantía de investigación (esta es beneficiosa para aquellos estudiantes interesados en investiga o tiene planes de realizar una maestría).
2. Proyectos
Empiece a buscar proyectos interesantes en Internet y empiece a crearlos. Hay muchos blogs sobre proyectos individuales (con explicaciones) que le ayudarán a empezar. Una buena práctica sería si tiene algo en mente que no sea el proyecto en Internet, trabaje en ello e intente colaborar con otros. El beneficio de colaborar con otros en un proyecto es que puedes aprender de tus socios sobre sus habilidades, su forma de pensar para abordar diferentes problemas, etc.
3. Hackathons y Kaggle
Participa en hackatones, online y offline, tanto en plataformas como Hackerrank, HackerEarth, etc. También puedes participar en competiciones en Kaggle. Kaggle es el mejor sitio web para competir y obtener conjuntos de datos limpios para sus proyectos. Si no puede puntuar bien en las competiciones, no pierda la esperanza. Cuando llegue el momento, entenderá cómo abordar cualquier problema.
Un pequeño consejo para principiantes
1. Es esencial para aprender las matemáticas detrás de cualquier algoritmo ML / DL, y la mayoría de las personas no se molestan en entender eso e implementar estos algoritmos usando solo sklearn. Esa no es una buena práctica. Aprender las matemáticas detrás de un algoritmo hace que sea mucho más claro lo que sucede detrás de todo el algoritmo, entonces obtendrá una idea bastante buena de dónde aplicar qué algoritmo o concepto. Y tratar de tener más experiencia práctica en ciencia de datos no solo se sumerge en la teoría. Este es uno de los errores que comete la mayoría de la gente en estos días. Para obtener un aprendizaje práctico excelente, consulte este libro: Aprendizaje automático práctico con Scikit-Learn y TensorFlow, de publicaciones de O’Reilly.
2. Cuando realice cualquier proyecto, cárguelo en Github para poder colaborar con otros desarrolladores o entusiastas de la ciencia de datos; colaborar con otros siempre es una buena práctica para aprender más y más, y GitHub te proporciona esa plataforma. También puede contribuir a otros proyectos en GitHub por diferentes personas, esto a menudo se conoce como Contribución de código abierto (como principiante en ciencia de datos, no necesita involucrarse en código abierto, pero esto será útil cuando trabaje para una empresa , hazlo cuando quieras, es opcional).
Por último, me gustaría sugerir que si alguien está pensando en tomar algún curso de cualquier entrenamiento en línea, no lo tome solo para obtener la certificación, hágalo para obtener sus conocimientos y mejorar sus habilidades.
Conclusión
He mencionado todas las cosas que lo ayudarán a comenzar con la ciencia de datos. Espero que este artículo le haya ayudado a comprender qué es la ciencia de datos y cómo empezar a utilizarla. Salir, aprender de tus errores, nunca perder la esperanza y seguir aprendiendo.
Añadir comentario