Aprender ciencia de datos

Hola, estimado lector. Me alegra verte de nuevo. Espero que te encuentres bien.

En este articulo verás la segunda parte de la historia de la empresa que te mostré en el anterior y las dos ciencias que constituyen los pilares de los Macrodatos.

Al final te presento algunos lugares a los que se puede recurrir si deseas profundizar en este tema.

Espero que te guste y te espero al final.


Macrodatos (2)

Industrial Engineering Business School

Fabrizio Salvador


"Los Macrodatos generan amplias oportunidades para desarrollar nuevos modelos de negocio y mejorar el desempeño de las empresas, pero también requieren el rediseño y la actualización de varios aspectos del diseño de la organización.

Como mínimo, la creación de una capacidad analítica necesita que las organizaciones desarrollen habilidades para crear nuevos modelos analíticos basados en Macrodatos, así como habilidades para el uso de estos modelos en la ejecución de sus transacciones del “día a día”.

Obviamente, esto requiere no solo una infraestructura de TI avanzada, sino también una cultura organizacional y de gobierno que apoyen diferentes iniciativas.

Sin embargo, para empezar a explotar los beneficios de Macrodatos no es estrictamente necesario realizar cambios tan profundos de forma inmediata.

Las organizaciones pueden desarrollar su capacidad analítica de forma incremental, involucrando personal clave en los procesos que apoyan su efectividad e inteligencia analíticas.

Estos esfuerzos pueden generar resultados de mercado rápidamente, iniciando la transición de la empresa hacia la meta de implementar con éxito una estrategia basada en Macrodatos.

Actualmente este término acapara una enorme atención, pero lo que subyace bajo la expectación que despierta es una historia relativamente sencilla. A

todos nos resulta familiar que nuestra nómina se nos ingrese en un banco, el sacar dinero de un cajero automático, el adquirir por internet un billete de avión o el comprarnos un libro que al cabo de dos días nos traerá el cartero.

También estamos familiarizados con enviar un correo electrónico o un mensaje, consultar un mapa cuando estamos por la calle, revisar una crítica cuando buscamos un restaurante, o ‘bajarnos’ una canción que nos gusta y escucharla según correteamos por un parque.

Sabemos que esto es información, pero no se nos ocurre que también es procesable; dicho de otra forma, que también es susceptible de ser almacenado en un gran sistema informático y de ser procesado de un modo tal que alguien pueda estudiarlo, al punto que le permita sacar conclusiones sobre nuestras pautas ciudadanas y nuestras preferencias de consumo.

En general, no se nos ocurre pensar que virtualmente todo se puede almacenar, procesar, analizar y estudiar, para desde ahí predecir.

Pero se puede.

Y se puede gracias al conjunto de tecnologías que genéricamente se conocen como “Macrodatos”.

Y así se hace.

Durante los años de vida del tratamiento automatizado de la información, los sistemas informáticos se han ocupado principalmente del tiempo presente y del tiempo pasado.

Ocuparse del futuro es más reciente y quizá más incomprensible, si no estamos familiarizados.

Conviene hacerse a la idea de que predecir lo que sucederá está a la orden del día y que, nos guste o no, nuestros competidores estarán sirviéndose de ello en el mayor de los secretos, ya que se trata de un arma competitiva determinante, y a nadie le gusta que se sepa con qué diferenciales cuenta, y menos aún cómo los utiliza.

En un principio, las tecnologías informáticas apoyaron las funciones operativas de compañías y organismos mediante sistemas transaccionales internos, siempre basados en datos perfectamente normalizados y dotados de un formato sistemático y común.

Posteriormente, y durante décadas, los datos procedentes de los procesos operativos, generalmente almacenados en bases de datos relacionales, se usaron para sustentar los procesos de toma de decisión, siendo la fuente más importante de los sistemas estratégicos que constituían la estructura competitiva de la empresa.

Hoy, esto es sólo una parte.

Más allá de estos datos críticos ‘de formato fijo’, hay un tesoro escondido en otros tipos de datos menos tradicionales, o aparentemente menos susceptibles de ser tratados de un modo automatizado, pero con los que también cuentan las empresas y entidades públicas.

Proceden de fuentes tales como portales, canales de acceso y de relación con clientes, redes sociales, correo electrónico, fotografías, dispositivos, sensores, objetos, medidores electrónicos, posicionamiento geográfico, etc.

Del conjunto de todos ellos puede extraerse información muy significativa y beneficiosa.

Usar los datos “de toda la vida de la empresa”, el activo más importante de cualquier entidad, combinados de manera adecuada con nuevos tipos, o usarlos simplemente para un propósito secundario que no sea el que originó su recogida inicial”.



Matemáticas

Data Science, Marzo 2022

Natassha Selvaraj


"Existen recursos gratuitos para aprender las matemáticas que se necesitan, como mínimo, para manejar toda esta información.

Aquí veremos cómo.

Cuando empecé a introducirme a mí misma en la Ciencia de Datos, no sabía exactamente cuántas matemáticas necesitaba aprender para estar completamente cualificada para poder obtener un trabajo inicial en ella.

Pasé mucho tiempo estudiando cálculo, álgebra lineal y estadística, al nivel que se dictaban en las universidades.

Después de conseguir mi primer trabajo, me di cuenta de que la cantidad que era necesaria para trabajar en este sector era bastante menor de lo que esperaba.

La mayoría de las empresas tienden a crear modelos de aprendizaje automático para resolver problemas empresariales muy similares. Debido a esto, generalmente no es necesario reinventar la rueda y construir algoritmos desde cero. A menudo se pueden utilizar soluciones preexistentes para adaptarlas a su caso de uso actual.

Sin embargo, siempre es mejor tener al menos una comprensión intuitiva del funcionamiento de estos algoritmos.

Por ejemplo, el descenso de gradiente se utiliza para encontrar un valor óptimo de la pendiente en los modelos de regresión lineal. Se trata de una aplicación del cálculo, y siempre es beneficioso entender cómo se calcula la línea de mejor ajuste.

Del mismo modo, el álgebra lineal tiene aplicaciones en la preparación de datos para la modelización, y se utiliza ampliamente en la implementación de soluciones de reducción de la dimensionalidad. Si quieres ampliar tus conocimientos sobre el aprendizaje profundo, tendrás que aprender técnicas de manipulación de matrices.

Por último, la estadística es la rama más importante de las matemáticas que debes aprender para convertirte en un científico de datos. Cuando trabajes en este campo, tendrás que analizar las tendencias de los datos, formular hipótesis y transformar las observaciones en conocimientos significativos. Todas estas son aplicaciones de la estadística, y es algo que debes aprender si quieres conseguir un trabajo en la ciencia de los datos.

Cuando aprendí los conceptos anteriores, al principio pasé mucho tiempo realizando cálculos a mano. Aprendí a diferenciar, integrar y resolver ecuaciones lineales. Sin embargo, esto no es un requisito previo para aprender ciencia de datos.

Tenemos programas informáticos que realizan estos cálculos por nosotros, y lo que realmente necesitamos es conseguir una comprensión intuitiva de alto nivel de estos conceptos matemáticos.

De nuevo, el consejo anterior sólo se aplica si estás intentando aprender ciencia de datos para conseguir un trabajo en la industria.

Si quieres convertirte en un investigador de aprendizaje automático o entrar en el mundo académico, entonces la cantidad de matemáticas que necesitas aprender aumentará significativamente, ya que estarás trabajando para construir nuevas soluciones desde cero.

En este artículo, te proporcionaré algunos recursos para aprender matemáticas para el aprendizaje de la gestión e los datos.

Se trata de material gratis e incluye videos de YouTube, cursos en línea y libros de texto. Acá te presento algunos:


Serie de Álgebra Lineal de 3Blue1Brown

“3Blue1Brown” es un popular canal de YouTube que adopta un enfoque visual para desglosar conceptos matemáticos muy complejos.

Su serie de álgebra lineal te llevará a través de los conceptos básicos de álgebra lineal, tales como vectores, combinaciones lineales, transformaciones lineales, multiplicación de matrices, valores propios y vectores propios.

No profundizan demasiado en los cálculos matemáticos.

En cambio, el objetivo de esta serie es proporcionarte una comprensión intuitiva del álgebra lineal.

En lugar de simplemente memorizar fórmulas, se te dará una explicación de por qué funcionan y cómo puede derivarlas usted mismo.

Encontrarás el Youtube en: https://www.youtube.com/watch?v=WUvTyaaNkzM “The essence of calculus”


Derivadas y Series de Cálculos

Este es el segundo recurso de esta lista creado también por el Youtube: “3Blue1Brown”.

Sus series de cálculo también son intuitivas y fáciles de entender.

Te guiarán a través de conceptos como las derivadas, la regla de la cadena y la diferenciación implícita, todos los cuales tienen una aplicación directa en la implementación del algoritmo de descenso de gradiente.

Encontratrás el Youtube en: https://www.youtube.com/watch?v=9vKqVkMQHKk “The paradox of derivative. Chapter2. Essence of cálculus”.


Serie de Ciencia de Datos

También pertenece a “3Blue1Brown”.

Mientras que las series previas estaban dirigidas a cualquier persona para mejorar sus conocimientos en matemáticas, la actual está dirigida específicamente para quienes estén interesados en la Ciencia de Datos.

El Youtube está en: https://www.youtube.com/watch?v=CfW845LNObM “The other way to visualize derivatives”.


Introducción al aprendizaje estadístico

Una de las mejores formas de lograr una introducción a la estadística es participar en línea en el curso gratuito “Probability and Statistics: To p or not to p”.

https://www.coursera.org/learn/probability-statistics?ranMID=40328&ranEAID=JdlaSzF0EMc&ranSiteID=JdlaSzF0EMc-CoxRHubYpnMDi07RyIaVmQ&siteID=JdlaSzF0EMc-CoxRHubYpnMDi07RyIaVmQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=JdlaSzF0EMc

Para quienes han implementado algoritmos como la regresión lineal y la regresión logística pero no entienden su funcionamiento, este es un buen punto de partida.


Probabilidad y estadística

El último recurso de esta lista es una serie de YouTube llamada Statistics 110, publicado por la Universidad de Harvard.

Es una de las mejores series gratuitas sobre este tema y abarca casi todos los conceptos estadísticos que se suelen ver a nivel universitario.

Comienzan en un nivel introductorio, y pueden ser seguidas aun sin tener experiencia en estos temas.

Lo encuentras en: https://www.youtube.com/watch?v=KbB0FjPg0mw


Espero que estos recursos te permitan ingresar al fascinente mundo de la Ciencia de Datos.


Hola, acá te estoy esperando para compartir mis comentarios.

El caso de negocios que se menciona en el artículo anterior y en el actual, como recuerdan, tuvo lugar hace ya tres décadas, cuando recién comenzaban a aplicarse a gran escala los primeros conceptos de los macrodatos en la toma de las decisiones.

Recuerdo haber estudiada varios niveles de matemáticas y probabilidad y estadística en mi carrera de ingeniería industrial hacen ya cinco décadas e, incluso, llegué a utilizarlas en mi primera experiencia como becario en la Fábrica Argentina de Alpargatas, donde trabajaba el grupo de profesores a cargo de esta última disciplina en la facultad. Fueron verdaderos pioneros en este tema en el país.

Años después también participé en algunos proyectos en IBM, durante los cuales se contrataron a varias especialistas en este tema provenientes del INTI para llevar cabo controles estadísticos de procesos.

Te quiero aclarar que los conceptos en los que se basa no son nada triviales, pero dedicándoles tiempo y atención se pueden comprender y te puedo garantizar con plena convicción que vale la pena el esfuerzo.

El poder de análisis como respaldo a la toma de decisiones empresariales es de un orden de magnitud superior a no tenerlo.


Ahora me gustaría conocer tu honesta opinión con respecto a este artículo.

Gracias por tu colaboración.

0 visualizaciones0 comentarios

Entradas relacionadas

Ver todo