COMPARTIR

Los 5 pasos para preparar Google Analytics para Data Science

BIG DATA

Redactado por Mónica Angeles

Publicado el 27/05/2019

Google Analytics como plataforma no se creó desde cero para ser unaherramienta de ciencia de datos.

Esto fue discutido en más detalle en un post anterior. Sin embargo, lasnecesidades de un análisis más avanzado han ido evolucionando rápidamente ygenerando nuevas expectativas.

Gracias a la disponibilidad de una API sólida y una serie de técnicas detransformación de datos, los datos de GA ahora se pueden utilizar como entradaen poderosos algoritmos de extracción de datos / aprendizaje automático.

El objetivo es cubrir todos los pasos necesarios hasta que los datos deGA estén listos para la ciencia de datos.

Mi intención es proponer un marco que sirva de guía, especialmente para los analistas que exploran nuevas formas de realizar trabajos analíticos con sus datos de GA.

Paso 1: Acceda a los datos a través dela API

El acceso eficiente a los datos es crítico para cada análisis,especialmente cuando queremos que sea reproducible o apunte a construiraplicaciones de datos que dependan de la automatización.

La API de Google Analytics es robusta, está bien documentada y sedesarrolla continuamente, y no todas las API en la web son así.

El primer paso es, por lo tanto, asegurar el acceso a la API. La buena noticia para el analista es que tanto R (por ejemplo, GoogleAnalyticsR) como Python (google2pandas) disponen de bibliotecas de código abierto que pueden hacer el trabajo pesado al:

  • Simplificando el proceso de autentificación.
  • Llamando a la API con la petición.
  • Recibir la respuesta en un formato con el que es fácil trabajar de inmediato (generalmente un marco de datos)

En muchos sentidos, el proceso restante para el analista se convierte en algo parecido a escribir una consulta SQL simple.

Paso 2: Seleccionar variables

Una vez que accedemos a la API, unasimple llamada a una función puede devolver todas las métricas y dimensiones disponibles.Hay cientos de ellas para seleccionar, incluso aunque no todas son accesiblespara todas las cuentas.

En cuanto a la calidad, los datosnormalmente vienen limpios, estructurados en forma tabular, mientras que loscasos de valor faltante son relativamente raros.

Vale la pena recordar que esosatributos atractivos no siempre están presentes en otras industrias, utilizandodiferentes tipos de fuentes de datos.

Por lo tanto, cuando se trata de accesoy variedad en los datos, con GA API podemos marcar casi todos los recuadros.

Pero luego empezamos a enfrentaralgunos retos. El primero es el muestreo de datos.

Paso 3: Desmuestrear los datos

Ya sea que usemos GA a través de lainterfaz de usuario o la API, todos hemos experimentado la muestra de nuestrosdatos de informe. Obtener datos muestreados no es el fin del mundo, pero paraciertos tipos de análisis, puede ser un problema. Entonces, ¿se puede evitar ycómo?

La razón por la que se produce elmuestreo es que una solicitud rompe los límites de sesión superioresestablecidos por GA.

Por lo tanto, una forma de evitarlo esdividir el período de tiempo que corresponde a los segmentos más pequeños queno harán que se excedan esos límites.

La biblioteca googleAnalyticsR es muy útil aquí, ya que funciona muy bien entre bambalinas; todo lo que necesita es la adición de un parámetro, como se resaltó anteriormente, en la llamada a la función normal.

Paso 4: Transformar

Los datos en forma agregada, quegeneralmente es lo que devuelve GA, no son óptimos para su uso como entradapara la minería de datos o algoritmos de aprendizaje automático.

Nuestro objetivo es llevar los datos deGA a forma granular para que prácticamente:

  • Las filas corresponden a observacionesindividuales, por ej. Usuarios, sesiones o urls.
  • Las columnas representan nombres devariables (es decir, métricas o dimensiones)
  • Las celdas representan valores (númeroso niveles en el caso de variables categóricas)

En el mundo R, esta forma de organizarlos datos suele denominarse datos ordenados.

También en Python se recomienda unformato bidimensional similar para los datos antes de, por ejemplo.

Se implementan los modelos scikit-learn (conocidos como matriz de características, donde las filas son para muestras y columnas para características).

– Exploradorde usuarios

Actualmente, la única característica deGA que se acerca a esta idea es el explorador de usuarios.

Nos permite seguir a un usuarioespecífico (cuyo ID de usuario correspondería a una fila en nuestra tablaordenada) a través de todas las páginas visitadas / eventos activados en ordencronológico (las páginas visitadas y la marca de tiempo serían las columnas denombre variable, de acuerdo con el marco ordenado).

Desafortunadamente, esta funcionalidadno se puede acceder a través de la API.

Sin embargo, ¡es obvio que los datos granulares que buscamos están realmente allí! Entonces, ¿cómo podemos acceder a ellos programáticamente?

– Consultando múltiples dimensiones

Una forma de llegar a los datos denivel granular es consultar la API para múltiples dimensiones simultáneamente.

El propósito de esto es generar un grannúmero de combinaciones para los diferentes niveles de cada dimensióncombinadas entre sí.

Cada fila que se devuelve representauna porción tan delgada de tráfico que es poco probable que contenga más de unasesión (por lo tanto, las filas representan una observación, una sesión en esecaso).

El ejemplo anterior ilustra esto en elcontexto de una tarea de predicción de conversión de un sitio web de comercioelectrónico simulado.

Para un valor dado para cada una de lasdimensiones seleccionadas, solo se contiene una sesión.

Potencialmente, y dependiendo de laelección de las dimensiones, podríamos terminar teniendo casos con dos o mássesiones contenidas, especialmente para sitios web de alto tráfico.

Sin embargo, es poco probable que esto suceda, dada la alta dimensionalidad de este ejemplo (se han utilizado las 7 ranuras API disponibles para la consulta de dimensiones).

– ID de cliente y marcas de tiempo

Un método alternativo para lograr la granularidad de los datos es a través de dimensiones personalizadas, p. Ej. ID de cliente combinado con marcas de tiempo.

Esto identificará de forma única cada vista de página o evento, asociándolo con un cliente específico, sesión y sello de tiempo como se ilustra arriba.

Este formulario es muy conveniente para examinar los viajes de los clientes, por ej. mediante la realización de análisis de flujo de clic.

El método de dimensiones personalizadas es probablemente el más sólido, pero requiere un trabajo de configuración adicional.

Paso opcional: almacenar los datos

Este paso es opcional y se trata más deseguir una buena práctica. Los conjuntos de datos tienden a ser cada vez másgrandes en tamaño, pero a menudo solo necesitamos un subconjunto de los datos.

Tener todo el conjunto de datosalmacenado localmente o en la nube puede ser útil si queremos probar el mismoanálisis en diferentes rangos de fechas o tipos de clientes, por ejemplo.

En el contexto del análisisinteractivo, la consulta de los datos a través de la base de datos hace que elproceso sea mucho más rápido en comparación con tener que ejecutar variasllamadas API.

La configuración de un proceso ETL para los datos de GA implica un poco más de trabajo al comienzo, pero está destinado a dar frutos a largo plazo.

Paso 5: Modelo

Ahora que hemos organizado los datos en la forma correcta, estamos listos para aplicar uno o más modelos de minería de datos o de aprendizaje automático y comenzar a ver los primeros resultados.  

Dependiendo del algoritmo exacto, podría ser necesario eliminar los valores de NA, estandarizar / normalizar Los datos o realizar otros pasos de preprocesamiento. 

El ejemplo ilustrado arriba es un árbol de decisión que predice la conversión o no conversión para una sesión determinada, y justo debajo de un gráfico de importancia variable se muestran los factores más importantes que afectan la conversión para un sitio web de comercio electrónico determinado; todo esto se basa en los datos de Tabla de la sección 4. 

La parte de modelado puede sercomplicada, ya que se pueden dedicar innumerables horas a tratar de optimizaral máximo el rendimiento del modelo.

Sin embargo, en un contexto empresarialy especialmente cuando el resultado del análisis es para consumo humano, porejemplo.

Para facilitar la toma de decisiones,existe un gran valor potencial en el uso de modelos simples pero potentes y, almismo tiempo, interpretables.

Algunos buenos ejemplos de esto son árbolesde decisión, modelos lineales, reglas de asociación o agrupación entre otros.

A menudo, incluso sin un ajuste de parámetros extenso, los resultados pueden ser lo suficientemente buenos como para ser útiles.

foto de Mónica Angeles

Mónica Angeles

Licenciada en Comunicación Social de la Universidad San Martín de Porres (USMP) con más de 10 años de experiencia, actualmente me desempeño como UX Content Strategist.

Diplomada en Community Manager y Social Media Management. Trabajo como gestora de contenido y estrategias digitales con marcas reconocidas del rubro cosmético, automotriz, hotelero y supermercados. Docente en diferentes centros de estudios superiores, destacando Toulouse Lautrec.


Suscríbete al Blog.

Una respuesta a “Los 5 pasos para preparar Google Analytics para Data Science”

  1. […] Google analytics, heatmap, mailchimp, Alexa, AdWords, SEOSSiteCheckup, entre otras. […]

Agregue un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *

Publicaciones relacionadas

imagen del post
8 conceptos para entender de manera óptima el Machine Learning

Por Luisana Puy-arena

17/09/2019

Si tienes curiosidad por saber qué es el famoso Machine Learning, pero no sabes ni por dónde empezar, entonces este artículo es para ti.

LEER MÁS
imagen del post
6 herramientas de Marketing Automation que debes conocer

Por Luisana Puy-arena

16/09/2019

Elegir un software de Marketing Automation es de vital importancia para que tu estrategia se convierta en un éxito total. ¡Conoce 6 de los mejores aquí!

LEER MÁS
imagen del post
Machine Learning: la fascinante fusión entre informática y neurociencia

Por Luisana Puy-arena

14/09/2019

¿Cómo podemos aplicar las técnicas del machine learning para analizar y predecir datos de investigaciones y estudios de neurociencias?

LEER MÁS