top of page
Foto del escritorTony Salgado

Ciencia de Datos

Hola, querido lector de Trazando Surcos.

Hoy he querido presentarte en este primer artículo del ámbito tecnológico uno de los temas que presenta un crecimiento exponencial en la actualidad y es, a la vez, una de las grandes oportunidades como carrera profesional a corto y mediano plazo para nuestros jóvenes y los que no lo son tanto.

Te espero al final de la lectura.


Ciencia de Datos

Tony Salgado, enero 2023


Conceptos

La CD es un proceso continuo, no un acontecimiento puntual.

Es el proceso de utilizar datos para entender elementos y problemas desconocidos; en definitiva, para comprender el mundo.

La misma parte de la formulación de un modelo o hipótesis de un problema, los que se intentan validar luego mediante el uso de datos empíricos.

La CD es el arte de descubrir qué ideas y tendencias se esconden detrás de los datos para que, una vez descubiertas, se puedan utilizar para predecir el futuro.

La misma tiene lugar cuando los datos se pueden traducir en una historia y mediante dicha narración se generan conocimientos, mediante los cuales se pueden tomar decisiones estratégicas para una institución con o sin fines de lucro.

La CD se vale de procesos y sistemas para extraer datos de diversas formas, ya sea de forma estructurada o no estructurada, cuya tendencia es luego objeto de un análisis detallado.

Al igual que las ciencias físicas o biológicas estudian sus reacciones mediante la investigación de sus datos, del mismo modo la CD hace lo mismo con los suyos, obtenidos del mundo empresarial o científico.

Dichos datos son reales, tienen propiedades específicas y deben ser analizados a fonde para obtener conclusiones valederas.

El nombre y definición surgieron en los años 80 y 90, cuando algunos profesores estaban desarrollando un plan de estudios de estadística, y pensaron que sería mejor llamarlo Ciencia de Datos.


Definición

La misma es el campo de estudio que combina la experiencia del investigador, las habilidades de programación y el conocimiento de las matemáticas y la estadística para extraer información significativa de grandes volúmenes de datos mediante herramientas y técnicas modernas para encontrar patrones invisibles y, con la información obtenida, poder tomar decisiones acertadas como, por ejemplo, las empresas financieras pueden utilizar el historial bancario y de pago de facturas de un cliente para evaluar su solvencia y el riesgo de un préstamo.

La ciencia de datos es relevante hoy en día porque disponemos de toneladas de datos. Antes nos preocupaba la falta de ellos. Ahora tenemos un diluvio.

Antes no teníamos algoritmos, ahora sí. Antes el software era caro, ahora es de código abierto y gratuito. Antes no podíamos almacenar grandes cantidades de datos, ahora podemos tener casi infinitos conjuntos de datos por un costo muy bajo.

Los datos pueden proceder de fuentes muy variadas: archivos de registro, correo electrónico, redes sociales, datos de ventas, archivos de información de pacientes, datos de rendimiento deportivo, datos de sensores, cámaras de seguridad y muchos más. Al mismo tiempo que hay más datos disponibles que nunca, disponemos de la potencia informática necesaria para hacer un análisis útil y revelar nuevos conocimientos.

Por ende, las herramientas para trabajar con datos, la propia disponibilidad de ellos y la capacidad de almacenarlos y analizarlos, todo es barato y todo está disponible, todo está disponible. No hay excusas. Nunca ha habido un mejor momento para ser un científico de datos.


Proceso

Muchas organizaciones utilizarán la CD para centrarse en un problema específico, por lo que es esencial aclarar la pregunta concreta a la que la organización quiere dar respuesta.

Este primer paso, el más crucial, define cómo avanzará el proyecto. Los buenos científicos de datos son personas curiosas que hacen preguntas para aclarar la necesidad empresarial.

Las siguientes preguntas son: ¿qué datos necesitamos para resolver el problema y de dónde provendrán esos datos?

Los datos pueden ser estructurados y no estructurados y provenir de muchas y muy diversas fuentes por lo que, dependiendo de la naturaleza del problema, de puede pueden elegir analizar los datos de diferentes maneras.

Mientras que los datos estructurados son altamente organizados y formateados (fechas, direcciones, geolocalización) y se pueden buscar fácilmente en bases de datos; los no estructurados no tienen un formato u organización predefinidos, lo que hace que sea mucho más difícil de recopilar, procesar y analizar (información en texto, vídeo, actividad móvil, audio, redes sociales, imágenes satelitales)

El uso de múltiples modelos para explorar los datos revela patrones y valores atípicos; a veces, esto confirmará lo que la organización sospecha, pero a veces será un conocimiento completamente nuevo, lo que llevará a la organización a un nuevo enfoque.

Cuando los datos han revelado sus ideas, el papel del científico de datos pasa a ser el de narrador, comunicando los resultados a las partes interesadas del proyecto.


Fases


1. Obtención de datos

Este paso implica la adquisición de datos de todas las fuentes internas y externas identificadas, lo que ayudará a responder a la pregunta que se ha formulado. Los datos pueden ser, entre otros:

Registros de servidores web

Datos recogidos de las redes sociales

Conjuntos de datos provenientes de censos

Datos transmitidos desde fuentes en línea.


2. Preparación

Los datos pueden tener muchas incoherencias, como valores que faltan, columnas en blanco, formatos de datos incorrectos, los que son necesarios limpiar.

Es necesario procesar, explorar y acondicionar los datos antes de modelarlos. Cuanto más limpios estén, mejores serán las predicciones que se podrán formular.


3. Planificación del modelo

En esta fase hay que determinar el método y la técnica que serán utilizados para definir la relación entre las variables de entrada.

La planificación de un modelo se realiza utilizando diferentes fórmulas de análisis estadístico y herramientas de visualización.

Diversos aplicativos y bases de datos están disponibles para tal efecto.


4. Construcción del modelo

En este paso comienza el proceso de construcción del modelo.

El científico distribuye conjuntos de datos para entrenamiento y prueba

Se aplican técnicas como la asociación, la clasificación y la agrupación al conjunto de datos de entrenamiento.

El modelo, una vez preparado, se prueba con el conjunto de datos de "prueba".


5. Desarrollo

En esta fase se desarrolla el modelo básico final, el que incluirá los informes, el código y los documentos técnicos.

El modelo se despliega en un entorno de producción en tiempo real tras realizar pruebas exhaustivas.


6. Comunicar los resultados

En esta fase se comunican los resultados a todas las partes interesadas.

Los científicos de datos pueden utilizar potentes herramientas de visualización para ayudarlas a comprender la naturaleza de los resultados y las medidas recomendadas.

Esto les ayuda a decidir si los resultados del proyecto son un éxito o un fracaso, basándose en las aportaciones del modelo.


Usos


Algunos de los usos más comunes de la ciencia de datos incluyen el entre otros

  • Gestión de riesgos de seguros

  • Publicidad dirigida

  • Personalización de sitios web

  • Servicio al cliente

  • Reconocimiento de voz

  • Modelado Predictivo

  • Reconocimiento de patrones

  • Detección de anomalías

  • Clasificación, categorización y análisis de sentimientos

  • Herramientas de Inteligencia Artificial


La Ciencia de Datos está cambiando definitivamente nuestra forma de trabajar, de utilizar los datos y, en definitiva, de entender el mundo.


Bueno, aquí estaba esperándote.

Quiero confesarte este es de los temas que me ha resultado más atrapantes durante los últimos tiempos, al punto tal que me he embarcado en su estudio mediante uno de los cursos que se ofrecen en la red.

Si bien no soy un programador ni lo seré a mis 77 años, lo que más me motiva a hacerlo es el método que sigue, su aplicación a las distintas industrias y las nuevas posibilidades que ofrece, a la luz de los patrones ocultos en las nubes de datos, y que se pueden identificar y extrapolar en determinadas condiciones del entorno en el que se mueve el destinatario del estudio.

Por ende, soy un ferviente partidario de esta nueva ciencia y espero seguir trayendo nuevos artículos a lo largo de este año.


Ahora me gustaría conocer tu honesta opinión con respecto a lo que acabás de leer. Para nosotros es muy importante recibirla para poder desarrollar un círculo de mejora continua en la publicación de nuestros artículos.

Si pudieses resumir en una sola palabra el motivo de tu calificación, ¿cuál sería?

Desde ya, agradezco tu colaboración y espero seguir contándote como un lector de Trazando Surcos de ahora en más.

Si te gustó el artículo por favor pulse el corazón de “me gusta”... Muchas gracias

Te mando un abrazo.

0 comentarios

Comments


bottom of page