Press Start: Comenzando en Data Science sin gastar nada!

Gleisson Bispo

Publicado en
15 de Janeiro de 2021

Este artículo tiene como objetivo presentar en base a los materiales que encontré durante el transcurso de mis estudios.

Un breve resumen 

Este artículo tiene como objetivo presentar, al igual que yo, a los más curiosos del mundo de la ciencia de datos, en base a los materiales que encontré durante el transcurso de mis estudios. Como explico en el título, ¡todo el material presentado durante las siguientes líneas se puede disfrutar de forma gratuita! Así, espero llegar a todos tipo de público, a los que no tienen o incluso no tienen capital para emprender su trayecto en el mundo de los datos. 

Importante: El texto a continuación es el resultado del material que encontré durante mis idas y venidas en este vasto campo (que todavía es muy verde). ¡Estos injertos son solo una fracción de todo lo disponible y de ninguna manera expresa la verdad absoluta! Como mencioné, ¡son solo las notas de una manera organizada por un joven curioso como tú! 

¡Deseo suerte y resiliencia en el camino! ¡Nos vemos allá! 

El principio

En los últimos años hemos estado viviendo uno de los giros más notables de la historia, llegamos a la 4ª Revolución Industrial (Ual) o como la Industria 4.0 se dió a conocer popularmente. En general, la Industria 4.0 se caracteriza por la popularización y uso de Internet en la industria de forma masiva. Y como era de esperar, este hecho pintoresco de la humanidad siempre trae cambios drásticos en la vida de las personas, ¡lo que creo que más impacta es el cambio en la forma en que hacemos el trabajo! Al igual que las hojas entre el otoño y la primavera, también lo son los trabajos a la llegada de una nueva revolución industrial, las funciones más anticuadas y obsoletas caen y otras nuevas más ambiciosas para la temporada toman su lugar.

¡Aquí llegamos a la zona cero de ese viaje! Al igual que el tutorial del juego, todos saltan, pero es importante saberlo.

La ciencia de datos de Latim Data Science (broma)

De una manera muy simplista, la ciencia de datos es el arte de extraer valor de los datos mediante métodos científicos y técnicas de modelado computacional. Básicamente, podemos resumir este campo como la unión de otros tres campos:

● Matemáticas y Estadística;

● Ciencias de la Computación;

Conocimiento del negocio

Es importante tener en cuenta que la mayoría de las técnicas que usamos hoy en la ciencia de datos, han existido durante décadas o incluso siglos cuando hablamos de fundamentos. Así es, extraer valor de los datos no es nada nuevo (teóricamente hablando).

Lo nuevo que tenemos son: 

● Datos en abundancia - Con la democratización de Internet básicamente estamos conectados el 100% de nuestro tiempo: redes sociales, servicios de streaming, mensajes, compras, pagos y muchas otras cosas… Espera, respira e imagina cuánto de todo esto genera cada segundo... ¡Imagínese cuántos datos de transacciones financieras por segundo Nubank no almacena en sus bases de datos este fin de semana!

● Almacenamiento de datos económico: ¿Conoce la ley de la oferta y la demanda? Sí, también se aplica al almacenamiento de datos. Ponga los siguientes ingredientes en un recipiente: desarrollo de tecnología en la nube, competitividad del mercado y usuarios cada vez más conectados que generan más datos y buscan lugares más economicos para almacenar. "Boom", tenemos almacenamiento en la nube cada vez más barato. Hoy, almacenar datos en algunos servidores puede costarle centavos.

● Democratización y desarrollo de tecnologías poderosas: hoy en día, en un teléfono celular, tenemos más poder computacional que la computadora que usó la NASA cuando envió al hombre a la luna. Tenemos acceso a tecnología cada vez más potente y economica. El gran impulsor de esta ola de innovación fue la industria de los juegos, gracias a los juegos que demandan cada vez más potencia informática, ¡el auge de la industria de las tarjetas de video y los periféricos de computadora fue inevitable! ¿Y por qué no utilizar este increíble poder de procesamiento para analizar datos? ¡Gran idea!

Cuando sumamos los tres puntos mencionados anteriormente y las teorías de hace décadas, tenemos todo lo que necesitamos para extraer valor de los datos utilizando el método científico (Imagine un coro de ángeles aquí).

Finalmente, el auge de la ciencia de datos se debe al valor que puede agregar al negocio.

Ahora que está mínimamente contextualizado con el tema, ¡vayamos al viaje!

Por fin, el auge de la ciencia de datos se debe al valor que puede agregar al negocio.

Viaje de aprendizaje para convertirse en científico de datos

Cuando investigamos la forma ideal de convertirnos en científicos de datos, nos enfrentamos a la siguiente imagen de Chandrasekaran:

Mapa de conocimiento de ciencia de datos - Chandrasekaran 

Dejemos algo claro aquí, de hecho esta puede ser una forma ideal de convertirnos en una deidad en la zona, un unicornio como nos gusta hablar. Pero este no es el objetivo aquí, nos vamos a centrar en un MVP (Producto Mínimo Viable), ¡con las habilidades básicas para presentarle cómodamente el área! 

Como se mencionó anteriormente, de una manera simplista, la ciencia de datos es la unión de tres áreas principales: matemáticas y estadística, informática y conocimiento del negocio. ¡Pero dentro de cada una de estas áreas hay una serie de habilidades que es importante dominar para desempeñar el papel de científico de datos con el mínimo de conocimiento! Veamos: 

 Matemáticas y Estadística 

Las matemáticas y la estadística son los cimientos de esta área, si comparamos este proceso con la construcción de una casa, estos son sin duda las zapatas. Vayamos a los materiales de estudio: 

  • Khan Academy - el proyecto Khan Academy ofrece cursos que van desde la escuela primaria hasta el final de la escuela secundaria. En el portal encontrarás todas las bases matemáticas, estadísticas e incluso de álgebra lineal (una de las bases de la inteligencia artificial); 

  • Canal EstaTiDados del profesor Thiago Marques - Este canal es uno de los referentes cuando hablamos de estadísticas centradas en el análisis de datos. En el canal del profesor Thiago es posible encontrar los más diversos temas relacionados con la estadística y la ciencia de datos con una didáctica muy amigable; 

  • Canal O Matematico del profesor Fernando Grings - Confieso que este canal me salvó a lo largo de mi graduación. En los videos del profesor Grings, es posible encontrar cursos completos y bien didácticos que cubren todo el campo de las matemáticas y el cálculo; 

  • Canal Professor Guru del profesor Conrad Pinheiro - El profesor Conrad fue uno de mis mentores durante mi carrera de ingeniería. Una de las mentes más brillantes cuando se trata de Probabilidad y Estadística. En su canal puedes encontrar cursos completos y muy detallados sobre estadística. 

Programación básica 

La programación es fundamental cuando nos iniciamos en el área de datos, es a través de ella que utilizaremos las principales técnicas de modelado para extraer los datos. 

Cuando hablamos de programación para ciencia de datos, dos lenguajes Python y R, sin embargo, en este artículo nos centraremos en aprender el lenguaje Python, por las razones que explico a continuación. 

 

Python 

Python es un lenguaje de programación de propósito general, por lo que se puede aplicar tanto en ciencia de datos como en desarrollo de software, desarrollo web e incluso juegos. La facilidad de aprendizaje, el uso generalizado y la empatía de la comunidad hacen de Python uno de los lenguajes más queridos entre los científicos de datos. Vayamos a los materiales de estudio: 

  • Primeros pasos con el Python del Canal Curso en vídeo del profesor Gustavo Guanabara - Es uno de los mejores cursos de Python que existen para quienes están dando sus primeros pasos en el mundo de la computación; 

  • Curso Python para Zombis del profesor Fernando Manasori es otra gran iniciativa para cualquiera que se esté iniciando en Python. El curso es gratuito y le brinda al estudiante una visión sustancial del idioma; 
  • Conceptos básicos de Python para el análisis de datos de Data Science Academy: este es uno de los cursos más completos cuando se trata de Python aplicado al análisis de datos. El curso comienza enseñando los conceptos básicos y se extiende a temas más complejos como las redes neuronales.

  • Python para ciencia de datos e inteligencia artificial de IBM a través de Coursera: Es una de las referencias para todos en el área, el curso se puede tomar de forma gratuita sin un certificado. 

 

Base de datos (SQL)

Otro lenguaje de programación esencial para cualquiera que se inicie en el área de datos es la base de datos o el lenguaje de consulta SQL: 

  • Curso de Base de Datos MySQL del Canal Curso de Video del Profesor Gustavo Guanabara - Es uno de los más completos cuando la asignatura es Base de Datos, de manera humorística y fluida el profesor Guanabara enseña a sus saltamontes desde la historia, hasta consultas y operaciones más complejas.

  • SQL for Data Science de la Universidad de California a través de Coursera: Es un curso centrado en el análisis de datos. El curso se puede realizar de forma gratuita sin certificado. .

 

Análisis exploratorio de datos 

Saber hacer un buen análisis preliminar de los datos para extraer todo lo que tienen que decirnos es fundamental. Un análisis descriptivo de los hechos ya puede ser crucial a la hora de tomar decisiones de los negocios o incluso encontrar inconsistencias en la base. No renuncies a saber hacer un buen análisis exploratorio de los datos. Este paso es el primero en el que se encuentran el campo de la computación y el campo de las matemáticas / estadística, por lo que aquí tendrás que aplicar todo lo aprendido en la sección exacta con Python. A continuación se presentan algunos cursos que le ayudarán en esta misión: 

  • Exploratory Data Analysis de la Universidad John Hopkins a través de Coursera: es un curso centrado en el análisis de datos. El curso se puede realizar de forma gratuita sin certificado; 

  • Data Analysis With Python de IBM a través de Coursera: Es un curso centrado en el análisis de datos. El curso se puede realizar de forma gratuita sin certificado. 

Visualización de datos 

Quien no se ve no es recordado, y el área de datos no es diferente. Gran parte de nuestro tiempo lo dedicaremos a realizar análisis y una de las habilidades más valiosas es transmitir todos los conocimientos generados en estos análisis a través de gráficos en dashboards. Por tanto, la visualización de datos se convierte en una habilidad indispensable. 

Además del buen Microsoft Excel (que en la mayoría de los casos resolverá la mayoría de tus problemas), existen software específicos para la creación de dashboards, los más comunes dentro de las empresas son: Power Bi y Tableau. A continuación se muestran algunos materiales sobre cada uno: 

Power Bi 

  • Curso Power BI por la profesora Karine Lago - La profesora Karine es uno de los grandes nombres de Power Bi en Brasil. Y para impulsar la comunidad, la profesora creó un curso completo de Power Bi en su canal de YouTube. 

  • Analyzing and Visualizing Data with Power BI de Microsoft a través de edX: Curso completo de Microsoft que se puede realizar de forma gratuita sin un certificado. 

Tableu

  • Data Visualization with Tableau de la Universidad de California a través de Coursera: la especialización compuesta por 5 cursos se puede tomar de forma gratuita sin un certificado. 

En este punto, ¡dejamos el punto básico y entramos en la parte intermedia del negocio! Si llegaste tan lejos, ¡te mereces una medalla! ¡Felicitaciones! Pero sigamos adelante. 

 

Machine Learning

Este es el tema que todos los estudiantes de Data Science desean aprender, el aprendizaje automático. Aquí tenemos una intersección entre la inteligencia artificial y la ciencia de datos. A continuación se muestran los materiales más geniales de la zona: 

● Machine Learning  de la Universidad de Stanford (Andrew Ng) a través de Coursera: muchos consideran que el creador de este curso, Andrew Ng, es el padre del aprendizaje automático tal como lo conocemos hoy. El curso se puede realizar de forma gratuita sin certificado. 

● Machine Learning de la Universidad de Washington a través de Coursera: Especialización de 4 cursos que se pueden tomar de forma gratuita sin un certificado. 

Importante: No hay forma, en este punto tendrás que ser muy proactivo y cuando te sientas seguro buscarás nuevos algoritmos y técnicas de aprendizaje automático por ti mismo. Este es uno de los campos más calientes del momento, y cómo el universo se expande cada segundo. Quizás Aprender a aprender, es el mejor consejo que puedo darte en este tema. 

¡Hemos llegado al final de la parte del curso! ¡A continuación dejaré un conjunto de materiales, blogs que consumo para mantenerme actualizado sobre lo que está sucediendo en el área! 

Cómo mantenerse al día 

Con la democratización de Internet y la democratización del conocimiento juntas en la misma década, ¡somos contemplados con los creadores de contenido que pueblan la Internet con el conocimiento más rico cada segundo! A continuación se muestran los blogs que me gusta seguir: 

● Data Science Academyportal brasileño de ciencia de datos, fue uno de los pioneros en traer conocimiento íntegramente en portugués al país. Además de los cursos introductorios gratuitos, en el blog encontrarás una serie de materiales, artículos y novedades en el área de datos; 

● Blog Minerando Dados - Blog brasileño de ciencia de datos e inteligencia artificial, en el blog de los hermanos Rodrigo y Felipe encontrarás una serie de tutoriales muy interesantes e incluso cursos introductorios gratuitos en el área de datos; 

● Comunidad Data Hackers: ya sea en un blog, un podcast o en slack, la gente de Data Hackers es especialista en ciencia de datos. Esta es una de las comunidades de ciencia de datos más grandes de Brasil; 

● Pizza de Dados: podcast brasileño centrado en la ciencia de datos de una manera ligera y democratizada. Con varias entrevistas con personas influyentes de la zona, la gente de Pizza logra cautivar a todos los oyentes; 

● Papers With Code: este sitio web reúne una gran colección de artículos en el campo de la ciencia de datos y la inteligencia artificial. Lo bueno es que además de los papers, puedes seguir el código en github; 

Sé que hay mucho más... Pero estos son algunos de los canales que sigo para mantenerme actualizado. 

¡Para ayudarte aún más! 

Para ayudar aún más a la comunidad, ¡en agosto de 2020 comencé el proyecto Análise de Dados Brasil! La idea del proyecto es muy simple, brindar a la comunidad lecciones en video sobre ciencia de datos, Machine Learning e inteligencia artificial, en este momento principalmente para quienes se inician en el área. 

Último consejo: tenga un portafolio 

Como tú mismo debes observar en todas partes, la demanda de profesionales de la ciencia de datos ha crecido mucho en los últimos años. Y naturalmente, estamos viviendo el inicio de un efecto manada, varios profesionales están migrando a este campo (yo fui uno de ellos jejeje), la pregunta que queda es: 

¿Cómo me destaco? 

La respuesta es más simple de lo que parece: crea un portafolio de proyectos. Durante los cursos anteriores, te encontrarás con numerosos proyectos, así que házlos de manera organizada y muéstralos en tu carpeta de trabajos. 

Las formas más comunes de crear un portafolio que conozco son: 

● GitHub: Github es un portal de control de versiones y uso compartido de código. 

● Kaggle: plataforma de competiciones de Machine Learning, pero se ha utilizado de forma masiva para crear portafolios y kernels. 

¡Bueno, eso fue todo, amigos! ¡Espero que les haya gustado! Lo que puedo desearles desde aquí son Buenos Estudios. Espero verte volando por ahí y llamarte de ccolega de trabajo. 

¡Un abrazo, Gleisson Bishop! 

Servicios relacionados

Tecnologia

Este articulo trata sobre Tecnologia

Hable con nosotros

Contáctenos y descubra cómo podemos apoyar a su empresa en el camino hacia la transformación digital

manage cookies