1
Recuperação de Informação
	
  
	
  
	
  
	
  Modelos de Recuperação de Documentos:
	
  
	
   	
   	
  Modelo Booleano
	
  
	
  
	
  
	
  
	
  
	
  
	
   	
  Antonio Soares Lobato
2
	
  Sistemas de RI
	
  
	
  
	
  
Um sistema automático para RI pode ser visto como
n
	
  
	
  
	
  
n
	
  
n
a parte do sistema de informação responsável pelo
armazenamento ordenado dos documentos,
e sua posterior recuperação
para responder a consulta do usuário.
Todo SRI adota um modelo computacional de
recuperação de informação que determina o
modo de operação do mesmo.
 Modelos Estruturados
	
  
Listas não-sobrepostas
Nós proximais
Recuperação:
	
  Adhoc
Filtragem
Browsing
A
R
E
F
A
D
O
	
  
	
  
	
  u
S
U
Á
R
I
O
	
   	
  Tarefas e Modelos de
Recuperação de Informação
	
  
	
  
	
  
	
  
	
  
	
   	
   	
  Modelos Clássicos
	
  T
	
  Booleano
Espaço vetorial
Probabilista
Teoria dos conjuntos
	
  
Fuzzy
Booleano estendido
Probabilista
	
  
Redes de inferência
Redes de crença
	
  Algebrico
	
  
	
  	
  E. V. generalizado
	
  	
  Semântica Latente
Redes Neurais
	
  Browsing
	
  
Plano
Estruturado
Hipertextual
4
Modelos Clássicos de Recuperação
	
   	
  de Documentos
	
  
	
  
	
  Veremos o seguinte modelo:
n
	
  
	
  
n
	
  
	
  
n
Modelo Booleano
Para cada modelo, veremos:
n
	
  
	
  
n
	
  
	
  
n
A representação do documento
A representação da consulta
A função de busca
5
	
   	
  Modelo Booleano
	
  Representação do documento
	
  
	
  
Dado o conjunto de n termos representativos para o
corpus em questão (Vocabulário do Sistema)
n V = {k1, k2,...,kn}
Os documentos são representados como conjunto de
termos de indexação, sendo tais conjuntos
representados como vetores de pesos binários de
tamanho n
n
	
  
	
  
	
  
n
Cada posição no vetor corresponde a um termo usado
na indexação dos documentos
Cada valor indica apenas se determinado termo está
ou não presente no documento
k1 k2 k3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 1 0 0
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplo 1
d1
d2
d3
d4 d5
d6
d7
k1
k2
k3
Por exemplo:
	
  w documento d1 contém os termos k1 e k3, e não contém o
	
   	
  termo k2
	
  w Analogamente, o documento d1 está na interseção entre os
	
   	
  conjuntos k1 e k3
k1 k3
d1
7
	
   	
  Modelo Booleano
	
  Representação da consulta
Consulta:
n
	
  
	
  
n
	
  
	
  
n
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
n
Expressão booleana
Termos conectados por: AND, OR, NOT
O resultado da consulta é o conjunto de
documentos cuja representação satisfazem às
restrições lógicas da expressão de busca, que
fazem a expressão booleana assumir o valor
lógico VERDADEIRO.
Exemplos:
	
  w k1 AND k2
	
  w k1 OR k2
	
  w k1 AND NOT k2
8
Operadores booleanos
9
	
  Exercício
1) Para o exemplo 1, utilizando o modelo booleano,
qual o resultado das buscas:
n
	
  
n
	
  
n
a) K2 AND K3
b) K2 OR K3
C) K2 AND NOT K3
2) Escreva em português o tipo de documentos
retornados pelas expressões de busca abaixo:
n
	
  
n
	
  
n
a) web OR informação
b) recuperação AND (web OR informação)
c) recuperação AND informação AND web
10
	
  Função de busca
	
  
	
  
Relevância “binária”:
n
	
  
	
  
	
  
	
  
	
  
	
  
	
  
n
O documento é considerado relevante se e somente se seu
“casamento” com a consulta é verdadeiro, isto é se o valor
verdade da consulta se torna verdadeiro para aquele
documento.
Não é possível ordenar os documentos recuperados, pois todos
igualmente tornam verdadeiro a expressão de busca
Exemplo de consulta
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  	
  Consulta
	
  k1 AND k2 AND k3
k1 k2
k3
Espaço de termos
de indexação
	
  
	
  Documentos
	
  apresentados ao
	
  usuário
11
Modelo Booleano
Vantagens
n
	
  
n
	
  
n
Modelo simples baseado em teoria bem fundamentada
Fácil de entender e implementar em computador
Permite uma maior precisão na recuperação
Desvantagens
n
	
  
	
  
	
  
n
	
  
	
  
	
  
n
	
  
n
Assume independência entre os termos usados na
indexação
Não permite casamento parcial entre consulta e
documento
Não permite ordenação dos documentos recuperados
A necessidade de informação do usuário deve ser
expressa em termos de uma expressão booleana
	
  w Nem todo usuário é capaz disso

Aula02-RI-Modelo-Booleano.pdf

  • 1.
    1 Recuperação de Informação        Modelos de Recuperação de Documentos:        Modelo Booleano                Antonio Soares Lobato
  • 2.
    2  Sistemas deRI       Um sistema automático para RI pode ser visto como n       n   n a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos, e sua posterior recuperação para responder a consulta do usuário. Todo SRI adota um modelo computacional de recuperação de informação que determina o modo de operação do mesmo.
  • 3.
     Modelos Estruturados   Listasnão-sobrepostas Nós proximais Recuperação:  Adhoc Filtragem Browsing A R E F A D O      u S U Á R I O    Tarefas e Modelos de Recuperação de Informação                Modelos Clássicos  T  Booleano Espaço vetorial Probabilista Teoria dos conjuntos   Fuzzy Booleano estendido Probabilista   Redes de inferência Redes de crença  Algebrico      E. V. generalizado    Semântica Latente Redes Neurais  Browsing   Plano Estruturado Hipertextual
  • 4.
    4 Modelos Clássicos deRecuperação    de Documentos      Veremos o seguinte modelo: n     n     n Modelo Booleano Para cada modelo, veremos: n     n     n A representação do documento A representação da consulta A função de busca
  • 5.
    5    Modelo Booleano  Representação do documento     Dado o conjunto de n termos representativos para o corpus em questão (Vocabulário do Sistema) n V = {k1, k2,...,kn} Os documentos são representados como conjunto de termos de indexação, sendo tais conjuntos representados como vetores de pesos binários de tamanho n n       n Cada posição no vetor corresponde a um termo usado na indexação dos documentos Cada valor indica apenas se determinado termo está ou não presente no documento
  • 6.
    k1 k2 k3 d11 0 1 d2 1 0 0 d3 0 1 1 d4 1 0 0 d5 1 1 1 d6 1 1 0 d7 0 1 0 Exemplo 1 d1 d2 d3 d4 d5 d6 d7 k1 k2 k3 Por exemplo:  w documento d1 contém os termos k1 e k3, e não contém o    termo k2  w Analogamente, o documento d1 está na interseção entre os    conjuntos k1 e k3 k1 k3 d1
  • 7.
    7    Modelo Booleano  Representação da consulta Consulta: n     n     n                             n Expressão booleana Termos conectados por: AND, OR, NOT O resultado da consulta é o conjunto de documentos cuja representação satisfazem às restrições lógicas da expressão de busca, que fazem a expressão booleana assumir o valor lógico VERDADEIRO. Exemplos:  w k1 AND k2  w k1 OR k2  w k1 AND NOT k2
  • 8.
  • 9.
    9  Exercício 1) Parao exemplo 1, utilizando o modelo booleano, qual o resultado das buscas: n   n   n a) K2 AND K3 b) K2 OR K3 C) K2 AND NOT K3 2) Escreva em português o tipo de documentos retornados pelas expressões de busca abaixo: n   n   n a) web OR informação b) recuperação AND (web OR informação) c) recuperação AND informação AND web
  • 10.
    10  Função debusca     Relevância “binária”: n               n O documento é considerado relevante se e somente se seu “casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele documento. Não é possível ordenar os documentos recuperados, pois todos igualmente tornam verdadeiro a expressão de busca Exemplo de consulta                  Consulta  k1 AND k2 AND k3 k1 k2 k3 Espaço de termos de indexação    Documentos  apresentados ao  usuário
  • 11.
    11 Modelo Booleano Vantagens n   n   n Modelo simples baseado em teoria bem fundamentada Fácil de entender e implementar em computador Permite uma maior precisão na recuperação Desvantagens n       n       n   n Assume independência entre os termos usados na indexação Não permite casamento parcial entre consulta e documento Não permite ordenação dos documentos recuperados A necessidade de informação do usuário deve ser expressa em termos de uma expressão booleana  w Nem todo usuário é capaz disso