Análisis de cohortes y estudio de CLV

  • Artículos
  • Data Science & IA

Introducción

Hoy en día, con la disponibilidad de datos con la que cuentan las empresas es posible generar múltiples análisis para mejorar la toma de decisiones y mejorar el conocimiento del comportamiento de los clientes. Existen diversas maneras que pueden ayudar a lograr este objetivo, en este caso, nos centraremos en analizar el comportamiento del cliente usando una técnica de análisis de datos que se basa en segmentación.

Esta técnica se conoce como el análisis de cohortes. Esta técnica es relativamente simple y proporciona un método para encontrar insights acerca del comportamiento de los clientes/usuarios separando los distintos segmentos por un determinado rasgo en común llamado cohorte.

Este tipo de análisis es usado constantemente en los distintos proyectos de Brain Food y es una herramienta de gran utilidad en marketing digital para cuando se quiere analizar tanto el impacto de alguna campaña como el comportamiento de los clientes frente a ciertas ofertas y permite observar si tienen un impacto en la pérdida de clientes.

¿Qué es una cohorte?

Cuando se habla de Cohorte, se habla de un grupo de personas que poseen algo en común, por ejemplo, el mes de su primera compra, lugar geográfico, edad, etc. En este caso, nos centraremos en los clientes que compran en un mismo mes por primera vez dentro de la base de datos de transacciones.

Este tipo de segmentación difiere de otras técnicas que se basan en comportamientos de clientes donde se pueden usar algoritmos no supervisados (data no taggeada) de segmentación. Un ejemplo de este tipo de segmentación se presenta en nuestro blog “Introducción a la segmentación” (ver acá).

Métricas de estudio

Antes de comenzar, para el análisis de cohortes es necesario seleccionar una métrica de estudio que haga sentido con el modelo de negocio, ya que es importante definir a priori correctamente que es lo que se busca manteniéndose alineado con los objetivos de la empresa.

Algunas de las aplicaciones del análisis de cohortes son:

  • Retención: mide la proporción de usuarios que continúan utilizando un producto o servicio a lo largo del tiempo
  • Conversiones: mide el porcentaje de usuarios que realizan una acción deseada (como comprar un producto)
  • Monetización: mide el valor monetario que los usuarios generan para una empresa a través de sus compras o acciones
  • Engagement: mide el nivel de participación y compromiso de los usuarios con un producto o servicio

A continuación, se muestra el análisis de cohorte para estudiar la retención de clientes.

Caso de negocio

En esta sección, se analizará el comportamiento de los clientes después de realizar su primera compra en una tienda. Sobre cada grupo o cohorte se puede hacer un análisis de su comportamiento y patrones, o cambios de estos a lo largo su ciclo de vida. También, se puede estudiar las acciones que realizan y en qué se diferencia su comportamiento con respecto a las otras cohortes.

En conjunto con más información del negocio, se pueden plantear preguntas a contestar que hagan sentido con el objetivo del análisis, tales como:

  • ¿Qué proporción de los clientes vuelve a comprar el mes siguiente?
  • ¿Cuál de los grupos (o cohortes) tiene una mejor retención?
  • ¿Cuál es el efecto de la inclusión de un nuevo producto al catálogo?
  • ¿Cómo se comportan los usuarios con respecto a cierta oferta?
  • ¿Hay alguna cohorte que tenga un aumento/disminución en compras después de cierta cantidad de periodos?

Datos

Los datos utilizados en el análisis corresponden a un conjunto de datos transaccionales que se produjeron entre el 12/01/2010 y el 12/09/2011 para una tienda minorista en línea registrada con sede en el Reino Unido [1]. En la siguiente tabla se muestran algunas filas extraídas al azar de la base.

A continuación, se describen las columnas:

  • InvoiceNo: Número de la transacción
  • StockCode: Código del SKU
  • Description: Descripción del SKU
  • Quantity: Cantidad vendida
  • InvoiceDate: Fecha de la transacción
  • UnitPrice: Precio unitario del SKU
  • CustomerID: Id del cliente
  • Country: País de compra
  • TotalSum: Total de venta

Para realizar un análisis de cohortes basado en el mes de compra, necesitamos crear ciertas variables de los datos transaccionales:

  • cohort: indica el mes en que el cliente realizó su primera compra
  • order_month: es el mes en que el cliente realizó alguna compra

Tras calcular estas variables la tabla quedaría de la siguiente manera:

Luego, es necesario agrupar los datos por cohorte obteniendo así la información para cada uno de estos. Cada fila representa a una cohorte y las columnas agrupan la información sobre cierto periodo de tiempo, en este caso por mes, como se ve a continuación:

Para una mejor visualización dejamos la cantidad de nuevos clientes por mes (cohorte) en el eje y el período de tiempo de estudio y los valores dentro de la matriz representan la cantidad de consumidores. Generamos un mapa de calor para mostrar la cantidad de consumidores por cohorte y periodo de tiempo:

En esta imagen se observa para cada período y por cohorte la cantidad de consumidores reflejados en una escala de colores para tener una mejor idea de cómo se distribuyen los grupos dependiendo del tamaño. Por ejemplo, para la cohorte 2011-03, disminuye la cantidad de clientes entre el periodo 0 al 1 en aproximadamente un 85%.  Aquí se observa como pasa de un azul intenso a un rojo anaranjado.  Luego este presenta ciertas fluctuaciones para terminar con otra caída en el periodo 9 en donde se observa un rojo aún más oscuro.

Finalmente, lo que realmente buscamos es obtener la matriz de retención para cada cohorte y su evolución a través de los distintos periodos. Para esto dividimos cada valor por el primero de su respectiva fila el cual representa el periodo 0.

Luego, graficamos esta matriz de la misma manera que la anterior obteniendo la retención de clientes por cohortes para los distintos periodos.

La matriz de retención entrega información acerca del comportamiento de los clientes posterior a su primera compra. En el eje y encontramos las cohortes y en el eje x el periodo. Cada entrada indica el porcentaje de los clientes que continuó activo para cada periodo perteneciente a su respectiva fecha de la primera compra:

En esta matriz se observa claramente una caída en la cantidad de clientes que vuelven a comprar al mes siguiente (del período 0 al 1). En promedio, la cantidad de clientes que vuelve a comprar el mes siguiente es de un 20.6%, siendo el con mayor retención la cohorte 2010-12 con 37.7% con compras el siguiente mes.

También, se pueden extraer distintas conclusiones de la retención, que generalmente necesitan de ir acompañadas de un entendimiento del negocio. Por ejemplo, si observamos nuevamente la primera cohorte, este termina con una retención sorprendentemente alta en el periodo 11, en comparación con el penúltimo periodo de las otras cohortes. Esto se podría deber a que los primeros clientes pueden estar recibiendo algún beneficio u oferta en particular. Con esto, por sí solo, no se pueden sacar conclusiones con certeza, pero si entrega información acerca de un comportamiento distinto para ese grupo de clientes. Posteriormente, resultaría interesante profundizar el análisis para entender qué ocurrió en ese periodo en particular.

Finalmente, se observan ciertas fluctuaciones de la retención en el tiempo. Esto podría deberse a características particulares del negocio en donde los clientes no generan necesariamente compras periódicamente y en que periodos de inactividad no son extraños.

Customer Lifetime Value (CLV)

En conjunto con el análisis de cohortes, el estudio del valor del ciclo de vida del cliente (CLV) ofrece una visión aún más completa de la relación entre la empresa y sus clientes. El CLV se refiere a la cantidad de dinero que un cliente le genera a una empresa durante toda su relación comercial y es una predicción del beneficio neto atribuido a esa relación futura.

Al analizar los datos de cohortes, se logró segmentar a los clientes en grupos según la fecha de su primera compra, y analizar cómo esos grupos difieren en términos de frecuencia de compra y gasto total. Al medir el CLV, la empresa podría determinar cuáles son sus clientes más valiosos y enfocar su estrategia de marketing en atraer y retener a esos clientes.

Para esto calculamos a priori ciertas variables:

  • Ingreso promedio cliente: cantidad promedio de dinero que un cliente gasta en la empresa
  • Vida del cliente (customer lifetime): número de años que se espera que un cliente permanezca con la empresa
  • Tasa de retención: métrica que mide la cantidad de clientes o usuarios que permanecen activos o leales a una empresa o producto a lo largo del tiempo (retención = clientes_activos_período / clientes_activos_período_anterior)
  • Rotación o fuga de clientes (churn): es una métrica que la tasa de pérdida de clientes en un período de tiempo específico (churn = 1 – retención)

En este estudio, se llevó a cabo el cálculo del CLV utilizando tres métodos diferentes, específicamente:

Método básico: se basa en la idea de multiplicar el ingreso promedio por el número de años que se espera que un cliente permanezca con la empresa. Este método es fácil de entender y de calcular, pero tiene algunas limitaciones ya que no tiene en cuenta los costos de adquisición de clientes, los costos de retención de clientes, ni los cambios en los ingresos a lo largo del tiempo.

Método granular: este método es más preciso que el método básico y se basa en calcular el CLV a nivel de individuo, teniendo en cuenta variables como la tasa de repetición del cliente, el valor medio del pedido y la customer lifetime del cliente.

Método tradicional: Este método multiplica el ingreso promedio generado por el cliente y se multiplica por la ratio de retención y la fuga. Es el método más popular y toma en cuenta la lealtad del cliente.

Tomando el valor promedio del customer lifetime (3 meses) los resultados fueron los siguientes:

  • CLV Básico = 1960
  • CLV Granular = 1960
  • CLV Tradicional = 239

En el análisis realizado se pudo observar que el valor del CLV tradicional es significativamente menor al del CLV básico y granular. Esto se podría deber a la presencia de outliers que distorsionan el promedio del customer lifetime,. Además, el método tradicional tiene en cuenta una mayor cantidad de factores, lo que lo hace más preciso, pero también más susceptible a variaciones en la vida de los clientes.

Conclusión

En este post, hemos explorado el análisis de cohortes y cómo se utiliza para obtener información detallada sobre el valor del ciclo de vida de los clientes. Hemos visto cómo esta herramienta puede ser de gran utilidad al momento de tomar decisiones estratégicas sobre cómo asignar recursos y dirigir esfuerzos de marketing.

En particular, el análisis de cohortes nos permite ver cómo varía el CLV entre diferentes grupos de clientes, lo que nos ayuda a entender mejor las necesidades y preferencias de cada grupo.

Es importante mencionar que el análisis de cohortes no está limitado a un sector o tipo de empresa en particular, y se puede adaptar para usar diferentes métricas según las necesidades del negocio. Sin embargo, es importante tener en cuenta que para obtener conclusiones precisas es esencial tener un conocimiento profundo del negocio y contar con una amplia variedad de información.

En resumen, el análisis de cohortes es una herramienta valiosa para entender mejor el comportamiento de los clientes y ayudar a tomar decisiones estratégicas en cuanto a marketing, publicidad y precios, entre otros.