WEB MINING
Web Usage MiningJuan Azcurra
Introducción
2
 Web Usage Mining: descubrimiento automático
de patrones en los clicks realizados sobre un
sitio Web y los datos recolectados o generados
como resultado de las interacciones de los
usuarios con uno o más sitios Web.
 Objetivo: analizar los patrones de
comportamiento de los usuarios interactuando
con un sitio Web.
 Los patrones descubiertos son generalmente
representados como colecciones de páginas,
objetos o recursos que son accedidos por un
grupo de usuarios con un objetivo en común.
Introducción
3
 Los datos utilizados para Web Usage Mining:
 Logs de servidores web.
 Contenido del sitio.
 Datos acerca de los visitantes, obtenidos de fuentes
externas.
 Datos de otras aplicaciones.
 No siempre están disponibles todos.
 Cuando si están, deben ser integrados.
Logs de servidores Web
4
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
Proceso de Web Usage Mining
5
Fase de preparación de datos
6
Preprocesamiento de datos
7
Limpieza de datos
8
 Data cleaning / cleansing
 Eliminar referencias irrelevantes y campos en
logs
 Eliminar referencias a navegaciones de robots
 Eliminar referencias erroneas
 Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
Identificar sesiones
(sesionización)9
 En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
 Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
Estrategias de sesionización
10
Heurísticas de sesionización
11
Ejemplo de sesionización
12
Identificación de usuario
13
Ejemplo de identificación de
usuario14
PageView
15
 Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
 Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
Path completion
16
 Caché en el cliente o servidor puede derivar en
referencias de accesos perdidas para las
páginas que se encuentran en el caché.
 Por ejemplo:
 Si un usuario regresa a una página A durante la
misma sesión, probablemente podrá ver la
versión descargada anteriormente de A que se
encuentra en el caché de su computadora y por
lo tanto no se vuelve a solicitar al servidor.
 Esto ocasiona que la segunda referencia a A no
sea registrada en el log del servidor Web.
Referencias perdidas por caché
17
Path completion
18
 El problema es inferir referencias perdidas
debido a uso de caché.
 Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
 Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
Integración con eventos de e-
commerce19
 Puede ser orientado a productos o visitas
 Utilizados para trackear y analizar conversión
de navegadores a compradores.
 La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
 Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
Eventos orientados a producto
20
 Vista de producto
 Ocurre cada vez que un producto aparece en una
visita a una página.
 Tipos típicos: imagen, link, texto.
 Click a productos
 Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
Eventos orientados a productos
21
 Cambios en carritos de compra
 Agregar o eliminar productos del carrito
 Modificar productos en el carrito (cantidad u otra
caracteristica)
 Compra de producto u oferta
 Los eventos de compra ocurren separadamente
para cada producto en el carrito de compras.
 Los sitios de subastas pueden rastrear eventos
de oferta además de las compras de productos.
Proceso de Web Usage Mining
22
Integración con el contenido del
sitio23
Integración con la estructura de
links24
Análisis de e-commerce
25
Análisis de sesiones
26
 Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
 Ventajas:
 Obtener información sobre los clientes tipicos.
 Trazar problemas específicos en el sitio.
 Desventajas:
 Volumen alto de datos.
 Dificil de generalizar.
Análisis de sesiones: reportes
agregados27
 Forma más común de análisis
 Los datos son agregados a niveles
predeterminados (días o sesiones).
 Ventajas:
 Vista general de utilización del sitio.
 Minimo espacio en disco para procesamiento.
 Desventajas:
 Problemas para bucear en los datos.
OLAP
28
 Permite cambios en los niveles de agregación
para múltiples dimensiones.
 Generalmente asociado a un Data Warehouse.
 Pros y contras
 Muy flexible.
 Requiere más recursos que los reportes
estáticos.
Data Mining
29
 Itemset frecuente
 La Home Page y el Carrito de Compras son
visitados juntos por el 20% de las sesiones.
 Las categorias Libros y Música son visitados
juntos en 1.5% de las sesiones.
 Reglas de asociación
 Cuando la Home Page es visitada, el Carrito de
Compras es visto tambien el 90% del tiempo.
 Cuando la categoria Libros es visitada en una
sesión, la categoria Música también es visitada
el 5% del tiempo.
Data Mining (cont)
30
 Patrones secuenciales
 Agrega una dimensión extra a las dos anteriores, el
tiempo.
 El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
 Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
 Clustering: basado en contenido o uso
 Segmentación cliente / visitante
 Categorización de páginas y productos
Aplicaciones de Data Mining
31
Personalización
32
 Personalización Web: “personalizar la
experiencia de navegación de un usuario
ajustando el look and feel y contenido
dependiendo los intereses y necesidades del
usuario.
 Motivos:
 Mejorar y profundizar la relación con el cliente.
 Proveer relación continua para mejorar la lealtad
del cliente.
 Proveer la habilidad de medir el comportamiento
del cliente e identificar como el cliente responde a
los esfuerzos de marketing.
Enfoques tipicos
33
 Filtros basados en reglas
 Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,
agregar el link C)
 Filtros colaborativos
 Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
 Filtros basados en contenidos
 Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
 Métodos hibridos
 Combinación de filtros colaborativos y de contenidos.

Web Usage Mining - Temas Avanzados

  • 1.
    WEB MINING Web UsageMiningJuan Azcurra
  • 2.
    Introducción 2  Web UsageMining: descubrimiento automático de patrones en los clicks realizados sobre un sitio Web y los datos recolectados o generados como resultado de las interacciones de los usuarios con uno o más sitios Web.  Objetivo: analizar los patrones de comportamiento de los usuarios interactuando con un sitio Web.  Los patrones descubiertos son generalmente representados como colecciones de páginas, objetos o recursos que son accedidos por un grupo de usuarios con un objetivo en común.
  • 3.
    Introducción 3  Los datosutilizados para Web Usage Mining:  Logs de servidores web.  Contenido del sitio.  Datos acerca de los visitantes, obtenidos de fuentes externas.  Datos de otras aplicaciones.  No siempre están disponibles todos.  Cuando si están, deben ser integrados.
  • 4.
    Logs de servidoresWeb 4 1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://dataminingresources.blogspot.com/ 2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://maya.cs.depaul.edu/~classes/cs589/papers.html 3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200 318814 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey 4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/ 5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html 6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html
  • 5.
    Proceso de WebUsage Mining 5
  • 6.
  • 7.
  • 8.
    Limpieza de datos 8 Data cleaning / cleansing  Eliminar referencias irrelevantes y campos en logs  Eliminar referencias a navegaciones de robots  Eliminar referencias erroneas  Agregar referencias faltanets debido a caching (una vez realizada la sesionización)
  • 9.
    Identificar sesiones (sesionización)9  Enel análisis de uso de la Web, los datos están en sesiones de visitas al sitio: la actividad realizada por un usuario desde el momento que ingresa al sitio hasta que lo deja.  Dificultad para obtener datos confiables de uso debido a servidores proxy y aplicaciones de ocultamiento, referencias pérdidas debido a cache y la imposibilidad de los servidores de distinguir entre diferentes visitas.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
    PageView 15  Un pageviewes una representación agregada de una colección de páginas Web contribuyendo a visualizar en el navegador del usuario el resultado de una acción simple (un click).  Conceptualmente, cada pageview puede ser visualizado como una colección de objetos o recursos representando un especifico “evento de usuario”, ej: leyendo un artículo, mirando una páginad e producto o agregando un producto al carrito de compras.
  • 16.
    Path completion 16  Cachéen el cliente o servidor puede derivar en referencias de accesos perdidas para las páginas que se encuentran en el caché.  Por ejemplo:  Si un usuario regresa a una página A durante la misma sesión, probablemente podrá ver la versión descargada anteriormente de A que se encuentra en el caché de su computadora y por lo tanto no se vuelve a solicitar al servidor.  Esto ocasiona que la segunda referencia a A no sea registrada en el log del servidor Web.
  • 17.
  • 18.
    Path completion 18  Elproblema es inferir referencias perdidas debido a uso de caché.  Conocer caminos de navegación efectivos requiere conocimiento extensivo de la estructura de links dentro del sitio.  Información de referencia en los logs del servidor puede ser usada en la desambiguación de inferencias de caminos.
  • 19.
    Integración con eventosde e- commerce19  Puede ser orientado a productos o visitas  Utilizados para trackear y analizar conversión de navegadores a compradores.  La mayor dificultad para eventos de e-commerce es definir e implementar los eventos para un sitio.  Otro desafio importante es la integración exitosa de los datos obtenidos de la navegación.
  • 20.
    Eventos orientados aproducto 20  Vista de producto  Ocurre cada vez que un producto aparece en una visita a una página.  Tipos típicos: imagen, link, texto.  Click a productos  Ocurre cada vez que un usuario hace click en un producto para obtener mayor información.
  • 21.
    Eventos orientados aproductos 21  Cambios en carritos de compra  Agregar o eliminar productos del carrito  Modificar productos en el carrito (cantidad u otra caracteristica)  Compra de producto u oferta  Los eventos de compra ocurren separadamente para cada producto en el carrito de compras.  Los sitios de subastas pueden rastrear eventos de oferta además de las compras de productos.
  • 22.
    Proceso de WebUsage Mining 22
  • 23.
    Integración con elcontenido del sitio23
  • 24.
    Integración con laestructura de links24
  • 25.
  • 26.
    Análisis de sesiones 26 Forma más simple de análisis: examinar inviduos o grupos de individuos desde el log del server y datos de e-commerce.  Ventajas:  Obtener información sobre los clientes tipicos.  Trazar problemas específicos en el sitio.  Desventajas:  Volumen alto de datos.  Dificil de generalizar.
  • 27.
    Análisis de sesiones:reportes agregados27  Forma más común de análisis  Los datos son agregados a niveles predeterminados (días o sesiones).  Ventajas:  Vista general de utilización del sitio.  Minimo espacio en disco para procesamiento.  Desventajas:  Problemas para bucear en los datos.
  • 28.
    OLAP 28  Permite cambiosen los niveles de agregación para múltiples dimensiones.  Generalmente asociado a un Data Warehouse.  Pros y contras  Muy flexible.  Requiere más recursos que los reportes estáticos.
  • 29.
    Data Mining 29  Itemsetfrecuente  La Home Page y el Carrito de Compras son visitados juntos por el 20% de las sesiones.  Las categorias Libros y Música son visitados juntos en 1.5% de las sesiones.  Reglas de asociación  Cuando la Home Page es visitada, el Carrito de Compras es visto tambien el 90% del tiempo.  Cuando la categoria Libros es visitada en una sesión, la categoria Música también es visitada el 5% del tiempo.
  • 30.
    Data Mining (cont) 30 Patrones secuenciales  Agrega una dimensión extra a las dos anteriores, el tiempo.  El x% del tiempo, cuando A aparece en una transacción, B también aparece.  Ejemplo: La página PlayStation PSP Vita es visitada despues de PlayStation PSP el 50% de las veces, esto ocurre en el 5% de las sesiones.  Clustering: basado en contenido o uso  Segmentación cliente / visitante  Categorización de páginas y productos
  • 31.
  • 32.
    Personalización 32  Personalización Web:“personalizar la experiencia de navegación de un usuario ajustando el look and feel y contenido dependiendo los intereses y necesidades del usuario.  Motivos:  Mejorar y profundizar la relación con el cliente.  Proveer relación continua para mejorar la lealtad del cliente.  Proveer la habilidad de medir el comportamiento del cliente e identificar como el cliente responde a los esfuerzos de marketing.
  • 33.
    Enfoques tipicos 33  Filtrosbasados en reglas  Proveer contenido basado en reglas predefinidas (ej., si el usuario hace click en A y utiliza X navegador, agregar el link C)  Filtros colaborativos  Brindar recomendaciones a los usuarios basado en las respuestas de otros usuarios similares.  Filtros basados en contenidos  Analizar las páginas que visita el usuario y recomendar aquellas con contenido similar.  Métodos hibridos  Combinación de filtros colaborativos y de contenidos.