Archivo

Archivo para la Categoría "Data Mining"

Data Mining: Glosario de conceptos (2 de 2)

3 Septiembre 2008 Josep Curto 3 comentarios

Continuamos con el post anterior.

Existen diferentes técnicas de data mining. Algunas de ellas:

  1. Segmentación: Este tipo de técnicas permiten agrupar registros en una base de datos basándose en una serie de atributos (varios cientos o sólo unos cuantos, dependiendo de la aplicación de negocio). Los registros en estos grupos o segmentos se seleccionan de forma que sean lo más parecidos posible, siendo cada grupo diferente a todos los demás. En un contexto CRM, los algoritmos de segmentación se emplean para agrupar clientes en segmentos en función de un número reducido de atributos de compra. Este esquema puede ser empleado para facilitar la comprensión de las distintas tipologías de clientes, y para construir un entorno en el que analizar su cambio a lo largo del tiempo.
  2. Clasificación: Los modelos de clasificación se emplean con el fin de obtener un mayor conocimiento sobre los datos y predecir valores categóricos o cualitativos. Su uso va desde la predicción de si un cliente (o grupo de clientes identificados como un segmento) tiene una elevada propensión de abandono (irse a comprar a la competencia) hasta la identificación de clientes con alto, medio o bajo riesgo de devolver un crédito. En combinación con un esquema de segmentación, este tipo de algoritmos puede emplearse para clasificar a un nuevo cliente, en función de un número reducido de transacciones, dentro de los segmentos previamente detectados. De forma parecida, también pueden aplicarse para el estudio de saltos entre segmentos de clientes ya existentes, que pasan de niveles de alta a baja rentabilidad, facilitando la puesta en marcha anticipada de acciones de marketing para evitar que esto ocurra.
  3. Predicción: De forma similar a las técnicas de clasificación, los algoritmos de predicción permiten construir modelos que estimen un valor numérico o cuantitativo, como por ejemplo el gasto. En este caso, y mediante los hábitos de compra de los clientes, es posible predecir su gasto total a medio o largo plazo. Otra posibilidad son los modelos de propensión. En este caso, el algoritmo calcula un valor entre 0 y 1 que refleja la propensión de un cliente a, por ejemplo, responder a una campaña promocional. De esta forma, es posible realizar una ordenación de los clientes de mayor a menor propensión según este indicador, y seleccionando público objetivo para el envío de catálogos con el fin de maximizar la respuesta.
  4. Modelos de asociaciones: Los algoritmos de asociación detectan reglas de productos que son comprados conjuntamente en una misma transacción. Pueden ser empleados para asistir en el diseño físico de las tiendas (distribución de productos en los lineales, ubicación de éstos, proximidad entre secciones, etc.), planificación de promociones (venta cruzada) o acciones de marketing orientadas. Las reglas detectadas son de la forma “el 80% de las veces que alguien compra utensilios para barbacoas también compra paños de cocina; esto ocurre en el 20% de las transacciones”. Son especialmente útiles en el análisis de microcompra.
  5. Patrones secuenciales: Los métodos de análisis de patrones secuenciales son una extensión de los algoritmos de asociaciones mediante la incorporación de una componente temporal. En este caso, se pretenden relacionar las distintas transacciones efectuadas por el cliente a lo largo del tiempo.

Algunos conceptos más para nuestro glosario:

  • Cardinalidad (en inglés cardinality): número de valores en una categoría. Por ejemplo, los códigos postales tienen una alta cardinalidad y el color de ojos baja.
  • Probabilidad condicional: La probabilidad de que ocurra un evento, dado que algunos caso ya se ha producido. Por ejemplo, la posibilidad de una persona que comete el fraude es mucho mayor dado que la persona había cometido fraude. 
  • Lógica Difusa: Un sistema de lógica basada en la teoría de conjuntos difusos. 
  • Algoritmo genético: método para resolver problemas de optimización de búsqueda en paralelo, basado en el modelo de Darwin biológica de modelo de selección natural y la supervivencia del más apto. 

En futuros posts profundizaremos en estos temas.

Categorías:Data Mining Etiquetas:,

Data Mining: Glosario de conceptos (1 de 2)

2 Septiembre 2008 Josep Curto 2 comentarios

Como hicimos en uno de los primeros post de este blog, volvemos a realizar un glosario. Esta vez sobre Data Mining. Primero es preciso tener claro el concepto. Una definición sencilla es la siguiente. 

La minería de datos comprende una serie de técnicas clave para comprender a los clientes y operaciones de negocio, permitiendo descubrir nuevas tendencias, relaciones y patrones de comportamiento.

Los servicios de minería de datos deben contemplar básicamente cuatro etapas:  

  • La preparación, acondicionamiento y análisis previo de los datos de partida sobre los que se generarán los modelos.
  • La modelización en sí misma, entendiendo en esta etapa la construcción de los modelos mediante el procesado de la información de partida.
  • La validación de los modelos generados, tanto desde un punto de vista técnico como de negocio.
  • La puesta en producción y aplicación de los modelos en el entorno final, ya sea informacional u operacional.

Todo el proceso en su conjunto es por naturaleza iterativo, lo que implica la necesidad de una alta integración y automatización de cada una de sus etapas.

Para poder hablar en el futuro con propiedad vamos a construir un glosario.
  • Precisión (en inglés Accuracy): se define como la medida de un modelo predictivo que refleja la proporción número de veces que el modelo es correcto cuando se aplica a los datos. 
  • Application Programming Interface (API): interficie de lenguaje de programación (que relaciona o permite extender el programa). 
  • Inteligencia Artificial (en inglés Artificial Intelligence): campo de la ciencia que concierne a la creación de comportamiento inteligente en una máquina.
  • Red neuronal artificial (en inglés Artificial Neural Network (ANN)): véase red neuronal.
  • Regla de asociación (en inglés Association Rule): regla en la forma “si esto entonces” que asocia acontecimientos en una base de datos. Por ejemplo, hábitos de compra.
  • Retropropagación (en inglés Back Propagation): uno de los algoritmos más comunes en la formación de redes neuronales consistente consiste en minimizar un error (comúnmente cuadrático) por medio de gradiente descendiente.
  • Algoritmo de fuerza bruta (en inglés Brute Force Algorithm): técnica que utiliza la repetición exhaustiva de pasos simples con el fin de encontrar una solución óptima. Está en contraste con técnicas más complejas más caras y difíciles de construir pero mucho más eficientes.

Hasta aquí la primera parte de este post.

Categorías:Data Mining Etiquetas:,