¿Cómo extraeremos los datos de las herramientas y los prepararemos para empezar a trabajar?

por Gemma Muñoz
— 03/01/2017
en Entradas

Siguiendo los pasos de nuestra metodología para el analista de negocio, llegamos al paso 3, que corresponde a “M” de manejar los datos. En esta fase, toca extraer los datos de las herramientas, tratarlos, limpiarlos y dejarlos listos para empezar a trabajar. Es una parte del proceso absolutamente decisiva, pues será el momento en el que detectemos si la calidad de los datos es suficientemente buena para seguir avanzando. Además, exploraremos la información para descubrir si ofrece lo que necesitamos para los siguientes pasos y validaremos que tenemos todos los datos para el análisis. Esta clase de operaciones, en general, están más cerca de perfiles ‘data scientist’ (científicos de datos), que están más cerca de la capa técnica que los analistas, que están más cerca de la capa de negocio.

En todo caso, nuestro objetivo no es centrarnos en hablar de herramientas. Queremos centrarnos en las operaciones que vamos a llevar a cabo sobre nuestros datos para poder avanzar en nuestra metodología. Por tanto… ¿Qué se plantea nuestro equipo de científicos de datos, o analistas, cuando tienen que enfrentarse a un análisis y alcanzar el manejo de los datos? Lo primero que realizamos es un análisis exploratorio de los datos. Este análisis consiste en la comprobación de los formatos de las distintas variables que tenemos en nuestro conjunto de datos, se visualizan las primeras y las últimas filas y realizamos una descripción básica a nivel estadístico.

El siguiente paso sería comprobar los ‘outlier’, es decir, los valores atípicos o valores extremos. Tendremos que buscar los valores extremos, para que estos valores pueden ocasionar un análisis erróneo. Podemos hacerlo con algún método exploratorio básico, incluso graficando los datos, o con un modelo matemático que los detecte automáticamente en base a cálculos sobre desviaciones típicas o dispersión. Otra de las situaciones con las que nos encontramos, es la de la existencia de valores anómalos, que no tienen por qué corresponderse con valores extremos. Estos valores muchas veces están enmascarados en nuestros datos y son una fuente de información muy valiosa.

El siguiente paso consistirá en añadir nuevos datos a nuestro ‘dataset’, incorporar nuevas variables fusionando distintas fuentes de los mismos. Del mismo modo, una de las partes que más tiempo consume al analista es la relacionada con la integración de datos de otras fuentes. En ocasiones, nos enfrentaremos a la necesidad de unir datos de nuestra herramienta de analítica con el back up interno de la empresa, que puede ser un CRM, RP u otra fuente de datos disponible. Estas operaciones pueden ser tan sencillas como hacer una unión entre tablas, el problema surge cuando no tenemos identificadores, variables o claves únicas por las que poder relacionar conjuntos de datos distintos. En todo caso, el objetivo es claro, añadir datos a nuestro data set para alcanzar el objetivo final que nos hemos marcado y poder llegar al siguiente paso de manera segura.

Una vez que tenemos todos los datos, puede darse el caso de que tengamos que crear o añadir variables o métricas nuevas al ‘dataset’ que no estaban previamente presentes. Estamos en la fase, quizás, más creativa del analista, en la que el conocimiento de los datos, el conocimiento del negocio y el conocimiento de la pregunta a la que se quiere dar respuesta son factores críticos para seguir adelante. Esta fase creativa puede ser sencilla, por ejemplo, cuando la obtención de una nueva variable se realiza a partir de las variables de asistentes en el conjunto de datos o, como cuando queremos agrupar a nuestros usuarios en rangos de edad o convertir variables cualitativas, como puede ser el sexo, en cuantitativas, asignándole un 0 o un 1 en función del sexo. Son pasos básicos previos a la aplicación de ciertas técnicas o algoritmos estadísticos. Todas estas variables nos permitirán realizar análisis más ricos y potentes, por lo que merece la pena entender bien los pasos previos, para llegar al manejo de los datos con las necesidades claras y así generar un data set que responda a nuestras preguntas.

No hay que olvidar la ordenación de los datos y la limpieza. En ocasiones, puede que necesitemos abordar, ordenar y limpiar nuestro ‘dataset’. Todo depende del origen de los datos y de su calidad. Este concepto de ordenar no se refiere a ordenar de mayor a menor las filas de una tabla que, probablemente, para el análisis posterior será irrelevante. No olvidemos el concepto denominado ‘tidy data’. Esta filosofía, básica para trabajar en data scientist, consiste en simplificar al máximo el data set y disponer de una variable por columna y una observación por fila.

En resumen, el objetivo de esta clase de técnicas, como comprobar los valores atípicos o incorporar nuevas fusiones de datos u ordenar el data set no es otro que el de preparar los datos que extrajimos en el paso previo para comenzar a buscar en los datos, que es el paso siguiente de nuestra metodología MAMBO, y como habéis podido comprobar, es una parte fundamental del proceso de análisis, sin el que, probablemente, no lograríamos nuestra meta: Responder a las preguntas de negocio.

El programa completo, con todo el contenido, lo encontrarás en nuestro Podcast de Mi Arte de Medir. ¡Hasta la próxima!

Seguiremos informando…