¿Qué es la ciencia de datos?

Hemos empezado a oír esta palabra en prácticamente todas partes. Pero ¿qué es la ciencia de datos (“Data Science”)? La ciencia de datos, que no es un nombre muy original, es la ciencia que estudia los datos. Puede aplicarse prácticamente a cualquier cosa que podamos transformar en (¡muchos!) números, desde la ciencia biomédica, el marketing, patrones de personalidad, economía….

Se basa en el hecho de que cuando tienes multitud de datos juntos (datos masivos o Big Data), hay ingentes cantidades de capas de información que pueden ser muy útiles, pero que al estar superpuestas y verlas todas a la vez, da la idea de desorden y caos y te impide extraer información concreta. Estos datos masivos contienen no solo una respuesta, sino múltiples respuestas a diferentes preguntas que los científicos de datos o data scientist pueden hacerles. Pero sus respuestas son limitadas, hay que hacerle las preguntas correctas.

Estas “preguntas” son las herramientas que emplea la ciencia de datos. La ciencia de datos o Data Science se basa en 3 herramientas: la programación; las matemáticas y estadística; y la experiencia en el campo de estudio.

La programación

Las grandes masas de datos solo pueden manejarse desde un (potente) ordenador y, por tanto, el idioma de comunicación entre el ser humano y los datos masivos es la programación informática. Imagínate una tabla de “Excel” con 850,000 filas y 500 columnas, por mencionar un ejemplo muy pequeño de Big Data. Un ejemplo realista de datos masivos podría ser la información de todos los institutos de un país: número de estudiantes, su género, edad, notas, asistencia… Pueden ser datos de distinta naturaleza y que no puedan estructurarse o adaptarse a una tabla tal y como las entendemos.

Las matemáticas

Para ordenar, procesar y analizar estas capas de información superpuestas se emplean múltiples aproximaciones matemáticas que buscan reducir complejidad de los datos sin perder información. Se aplican fórmulas y algoritmos a los datos, con la idea de quitar toda la información que no es necesaria para la “pregunta” que estamos haciendo. De esta manera aparecen los patrones y las respuestas confluyen en un punto. Aquí hay una página muy intuitiva para entender cómo se pueden analizar los datos empleando matemáticas: (http://setosa.io/ev/principal-component-analysis/).

Volviendo al ejemplo que poníamos antes de los datos masivos de los institutos de un país, si aplicásemos filtros y algoritmos para quedarnos solo con la información de las calificaciones obtenidas por los alumnos y el absentismo, y les “preguntásemos” a los datos si hay relación entre las dos variables (notas y absentismo), veríamos que una de las variables (notas) parece depender de la otra (absentismo). El resultado de este análisis sería que las dos variables están relacionadas.

La experiencia en el campo

La pieza fundamental de la ciencia de datos es que el científico de datos posea un amplio conocimiento del campo de estudio. Si no, se llegaría a un montón de conclusiones sobre los datos que, sin el conocimiento del campo de estudio, serían erróneas. Siguiendo nuestro ejemplo de los datos de alumnos de los institutos, al analizar en detalle y con conocimiento en el campo, veríamos que todos ellos tienen ¡al menos un 28% de absentismo a la semana! independientemente de las notas obtenidas. Este dato no tiene sentido. Al llegar a este punto, hay que analizar con ojo crítico los datos, para ver exactamente qué es lo que nos dice la respuesta de los datos a nuestra pregunta. La programación y las matemáticas han sido impecables, pero no hemos añadido una información fundamental en el campo de estudio de estos datos: solo son lectivos cinco de los siete días de la semana, y el fin de semana es el 28% del total de la semana. En este caso el resultado que en un principio nos parecía erróneo, al final resultó ser un fallo de desconocimiento del campo de estudio. Esto hace que el conocimiento en el campo sea la herramienta más importante a la hora de obtener conclusiones sobre los datos masivos.

 

(imagen extraída de https://towardsdatascience.com/introduction-to-statistics-e9d72d818745)

¿Qué proceso sigue un Data Scientist?

En base al conocimiento que tiene en el campo, el científico de datos se plantea una pregunta que cree que puede ser respondida mediante grandes bases de datos. Para contestarla sigue el siguiente proceso el cual se puede resumir en 8 pasos:

1) Obtención de los datos: Los datos masivos suelen venir de múltiples fuentes (Variedad), pueden ser de volúmenes diversos (Volumen), se generan rápidamente (Velocidad) y, a al ser tantos, hay que comprobar que sean correctos (Veracidad). Son las cuatro “uves” del Big Data.

2) Preprocesamiento de los datos: Se realiza un tratamiento inicial de los datos, donde se limpian y filtran aquellos datos que no cumplen criterios de calidad, no son de interés para el estudio, contienen errores…

3) Transformación e integración: Homogenizar los datos que provienen de múltiples fuentes para que sean comparables entre ellos. Esto puede deberse a la estructuración (datos en formato de tabla) o a la no estructuración de los datos (datos en cualquier otro formato como texto, imágenes …).

4) Análisis de los datos: Procesar los datos usando diferentes algoritmos y métodos estadísticos para obtener resultados que respondan a las preguntas planteadas por los científicos de datos.

5) Interpretación de los datos: Es en este punto donde el científico de datos evalúa el resultado del análisis y aplica la experiencia que tiene en el campo para entender, completar y corregir la información que obtiene por parte del ordenador.

6) Validación de los datos: Ver si estos datos son robustos o cambian por sesgos propios de los datos. Puede validarse de múltiples maneras: mediante datos externos al proceso, empleando técnicas diferentes a las empleadas en el estudio… pero siempre han de obtener un resultado similar a los obtenidos inicialmente para afirmar que los resultados son reales y no debido al azar o algún sesgo.

7) Diseñar nuevos análisis o experimentos en caso necesario: En el procedimiento científico esta parte es la que se define como “Validar la hipótesis”. En caso de que los datos no hayan sido validados o se necesite más información para poder obtener resultados concluyentes a las preguntas planteadas por los científicos de datos, se incluyen mayor número de datos en los análisis o se reformulan los algoritmos para realizar otras preguntas a los datos.

8) Visualizar y presentar gráficamente los resultados de los datos: Es un proceso fundamental en cualquier trabajo con grandes bases de datos, el graficar de forma completa y con la mayor cantidad de capas posibles la información resultante. Las gráficas son formas rápidas de interpretar los datos para tomar decisiones y la tendencia en todos los artículos científicos y en la vida cotidiana en general, es a ir complicando y completando la cantidad de información que se ha obtenido en una única imagen.

(imagen sacada de https://datafloq.com/read/big-data-analytics-paving-path-businesses-decision/6110)

 

 

By | 2020-01-29T10:01:24+00:00 enero 29th, 2020|Dciencia Matemáticas, Divulgación, portada, Temas|0 Comments

About the Author:

Avatar
Hospital Sant Joan de Déu Servicio de Oncología

Leave A Comment

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.