Metodi di ricerca in ambienti multimediali Effetto silenzio e rumore Le ambiguità del linguaggio libero A cura di  Simonetta Leonardi IULINE
Utilizzare Google, funzioni avanzate (operatori logici), per dimostrare: *L’effetto rumore e l’effetto silenzio della ricerca in rete *Le ambiguità del linguaggio libero Effetto rumore:  difficoltà di utilizzo dei dati  dovuta alla ridondanza delle informazioni  risultanti da una ricerca o  causata  dalla inappropriatezza delle stesse  Effetto silenzio:  impossibilità  di chi consulta di accedere ai dati archiviati  a causa della mancanza di  elementi che consentano di risalire ai criteri di catalogazione delle informazioni
Ricerca generica:  digito ciclo acqua   e ho 2.670.000 occorrenze
Passo alla ricerca avanzata uso gli operatori logici  e le pagine si riducono
Ottengo  2.340.000 occorrenze…
..troppe!!! ,  ci impiegherei una vita ad esaminare tutti i siti. Io cerco una presentazione   Powerpoint. Effettuo un altro tentativo cambiando  l’indicazione “cerca tutti i tipi di file” con  “cerca  solo ppt”. Compaiono solo 212 pagine con ppt.
La maggior parte delle ppt affrontano l’argomento trasversalmente, energia,ambiente, ambiti lavorativi o sono troppo difficili non sono utili per il mio scopo che è quello di supportare con illustrazioni e parole chiave la spiegazione del ciclo dell’acqua.
Inserisco nella voce  “ che contengano una qualunque delle seguenti parole”   la stringa “scuola primaria” e le pagine si riducono a 84
Ora la maggior parte delle ppt che  compaiono sono pertinenti alle   mie esigenze non rimane che scegliere
Riassumendo: Ricerca generica : 2.670.000 occorrenze Ricerca avanzata: 2.340.000 occorrenze Riduco la ricerca a ppt: 212  occorrenze Riduco la ricerca a ppt scuola primaria:84 occorrenze
Considerazioni finali: Nella ricerca da me effettuata si sono manifestati  contemporaneamente : l’effetto rumore, per la quantità incredibile di materiale online evidenziato. L’effetto silenzio, poiché  il materiale risultato a me utile è comparso solo dopo l’inserimento  dei termini  “scuola primaria”, risultati determinanti per la chiave di ricerca L’effetto rumore  di per sé genera perdita di tempo però può anche provocare l’effetto  “ serendipity”  ovvero  trovare casualmente informazioni che possono esserci utili in altri campi, anche se non sono oggetto di ricerca
Le ambiguità del linguaggio libero Il problema della gestione delle informazioni  e del loro recupero, è stato  sempre oggetto di studio nel campo archivistico. L’avvento dell’”era digitale” ha esteso l’interesse  ai data base informatizzati e alle immense risorse contenute negli spazi del Web.  L’  information retrieval  ha come campo di applicazione il trattamento e il recupero  delle informazioni
Trattamento informazioni I metodi di archiviazione e di ricerca  dei documenti si possono distinguere in due categorie:    MODELLO  SEQUENZIALE  o IRS (Information Retrieval System )  in cui il documento è rappresentato dalle parole in esso contenute, le informazioni vengono archiviate sequenzialmente   MODELLO  RELAZIONALE ,   rappresentazione indiretta attraverso   termini di indicizzazione assegnati al momento dell’inserimento  che ne descrivono in modo sintetico e  completo il contenuto.
Modello relazionale Di solito si basa sulla  metadatazione  cioò l’indicizzazione dei contenuti  in base a parole chiave che ne facilitino la consultazione. I metadati vengono assegnati  secondo un criterio stabilito  a priori, l’operazione  normalmente viene effettuata da chi inserisce il documento.  Chi inserisce il documento di solito lo conosce, è quindi è in grado di stabilire relazioni semantiche  che riducano o annullino la polisemia. Le numerose banche dati  che adottano questo sistema riducono o annullano l’ambiguità semantica
Modello sequenziale Nel Linguaggio libero i termini  sono estratti liberamente dal testo del documento o dal sito in cui sono contenuti. Essi non sono provvisti di metadati  perciò  non definiti a priori Effettuando una ricerca attraverso un motore di ricerca del tipo Google si ottengono  in risposta sia documenti rilevanti, cioè che soddisfano il bisogno di informazione  che l’utente ha espresso,  che  documenti assolutamente inutili. Il  motore di ricerca non garantisce  la rilevanza del documento , quindi  può accadere che documenti potenzialmente rilevanti per l’utente  non vengano recuperati  dal sistema o viceversa . il recupero dell’informazione attraverso gli  operatori logici  booleani   cerca di limitare questi due inconvenienti che, in generale, non possono essere eliminati.
input output input output a B c d d E Relazionale Vs sequenziale Contenuti classificati metadati c c c c c C b b b b b B a a a a a A Contenuti non  classificati
Operatori booleani Operano una selezione  nella ricerca in base alla presenza o assenza di parole  chiave  in base  alle quali un documento o un sito  vengono selezionati  Essi sono:  AND : i termini sono entrambi presenti OR : almeno uno dei due termini è presente NOT : il termine non è presente Essi costituiscono un  efficace aiuto nella riduzione dell’effetto  rumore anche se non lo  annullano
Indicizzazione automatica Le ricerche effettuate attraverso motori di ricerca si  basano su indicizzazioni automatiche. Esse non si basano su metadati assegnati a priori ma su tecniche statistiche che assegnano rilevanza all’informazione  in base alla frequenza Questo metodo non prende in considerazione le relazioni semantiche dei dati  presenti Se si effettua una ricerca sulla stringa “vite”  compaiono  siti web dedicati alla coltivazione della vite, siti sulle vite da salvare, sull’utensile vite, e  compare  anche  un ristoranti chiamato “ vite”. Il sistema informatico riconosce i dati binari 0-1 che compongono la parola vite ma  non ne comprende il significato.
Vite = ristorante Vite = essere in vita Vite = utensile Vite= pianta
Accessibilità Da anni si dibatte sul tema dell’accessibilità ai dati sul web. L’aumento esponenziale  dei dati immessi ne rende  sempre più difficile la consultazione. Le posizioni sono distinte: alcuni sostengono che la mania classificatoria  indebolisce le potenzialità . altri, come il fondatore del World Wide Web,  Tim Berners-Lee, sostengono che è giunto  il momento di porre delle regole.
Web semantico by  Con il termine web semantico, termine coniato dal suo ideatore,  Tim   Berners-Lee , si intende la trasformazione del  World  Wide  Web  in un ambiente dove i  documenti  pubblicati (pagine  HTML , file, immagini, e così via) siano associati ad informazioni e dati ( metadati ) che ne specifichino il contesto semantico in un formato adatto all'interrogazione, all'interpretazione e, più in generale, all'elaborazione automatica. Con l'interpretazione del contenuto dei documenti che il Web Semantico propugna, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, ed altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice link ipertestuale. http://www.w3.org/ standards / semanticweb /
Metodi di ricerca in ambiente multimediale Prof. Giovanni Biondi Tutors  dott.sa Giusy Cannella  dott.sa Elena Mosa A.A. 2009-2010

More Related Content

ODP
La navigazione di profondità - V2
PPSX
Group office
PDF
Monografia arthur-augusto-versão-final
PDF
Sistemi ad inseguimento solare
PDF
Annibale Alberti - Elenco di compromessi o sospettati politici (1820-1822) (1...
PPTX
Un piano per la sicurezza, Proposta di indirizzo strategico
PPT
Laboratori Bollenti Spiriti
PPS
2 -modo_de_fazer
La navigazione di profondità - V2
Group office
Monografia arthur-augusto-versão-final
Sistemi ad inseguimento solare
Annibale Alberti - Elenco di compromessi o sospettati politici (1820-1822) (1...
Un piano per la sicurezza, Proposta di indirizzo strategico
Laboratori Bollenti Spiriti
2 -modo_de_fazer

Viewers also liked (16)

PPTX
D. Cazzaniga "Porti turistici e nuove iniziative", 17/05/2013 - Piombino
DOCX
PDF
Albano Sorbelli - Carducci e Oberdan 1882-1916 (1918)
PDF
Aula M2 - Amor Sublime Amor
PDF
Formia Nuova Stazione
PDF
E' l'ora di fotografare! - Lez. 01
PPS
Virtual
PPT
Noi e l’energia
PPT
Village Botanique - FMAC Engenharia
PPTX
F. Ceragioli - "Reti d'impresa nautica da diporto" Seminario Progetto Ancora...
PDF
Conferenza nazionale per il Lavoro - Intervento di Paolo Tristani
PPT
08 loredana orlando euromediterraneo
PDF
30_P_Nicolett[1]
PDF
6970 rel fine_mandato_finale1-39
PPTX
Villa Degrado
PPS
Via Corcovado
D. Cazzaniga "Porti turistici e nuove iniziative", 17/05/2013 - Piombino
Albano Sorbelli - Carducci e Oberdan 1882-1916 (1918)
Aula M2 - Amor Sublime Amor
Formia Nuova Stazione
E' l'ora di fotografare! - Lez. 01
Virtual
Noi e l’energia
Village Botanique - FMAC Engenharia
F. Ceragioli - "Reti d'impresa nautica da diporto" Seminario Progetto Ancora...
Conferenza nazionale per il Lavoro - Intervento di Paolo Tristani
08 loredana orlando euromediterraneo
30_P_Nicolett[1]
6970 rel fine_mandato_finale1-39
Villa Degrado
Via Corcovado

Similar to Rumore Silenzio (20)

PDF
Indicizzare nel mondo digitale
PDF
Formez Opendata Inps - webinar 29 marzo 2012
PDF
Linked Open Data di Vittorio Di Tomaso
PDF
DBpedia nel contesto Linked Data
PPT
Do it ourselves : Social Technologies for Information Retrieval
PPT
Risorse elettroniche per la ricerca 5.ed
PPT
Esercitazioni Ingegneria 6ed
PPT
Linee guida web PA: formati, licenze, classificazione, open data
PPT
IC2008 Introduzione Did You Know?
PDF
Introduzione a Linked Open data e Web semantico / Antonella Iacono
PPT
Corso risorse elettroniche per la ricerca 2 edizione
PPT
Cercare sul web
PPT
Biblioteconomia web 201010
ODP
Comunicare e lavorare online
PDF
VisualDDHub
PDF
Il web intelligente
PPT
Bibliografia e motori di ricerca: Google e non solo
PDF
Quattro trends per le biblioteche nel web 2000
PPT
IC2009 Anatomia di un Semantic Search Engine
PDF
Open Data fra Potenzialità e Retorica
Indicizzare nel mondo digitale
Formez Opendata Inps - webinar 29 marzo 2012
Linked Open Data di Vittorio Di Tomaso
DBpedia nel contesto Linked Data
Do it ourselves : Social Technologies for Information Retrieval
Risorse elettroniche per la ricerca 5.ed
Esercitazioni Ingegneria 6ed
Linee guida web PA: formati, licenze, classificazione, open data
IC2008 Introduzione Did You Know?
Introduzione a Linked Open data e Web semantico / Antonella Iacono
Corso risorse elettroniche per la ricerca 2 edizione
Cercare sul web
Biblioteconomia web 201010
Comunicare e lavorare online
VisualDDHub
Il web intelligente
Bibliografia e motori di ricerca: Google e non solo
Quattro trends per le biblioteche nel web 2000
IC2009 Anatomia di un Semantic Search Engine
Open Data fra Potenzialità e Retorica

Rumore Silenzio

  • 1. Metodi di ricerca in ambienti multimediali Effetto silenzio e rumore Le ambiguità del linguaggio libero A cura di Simonetta Leonardi IULINE
  • 2. Utilizzare Google, funzioni avanzate (operatori logici), per dimostrare: *L’effetto rumore e l’effetto silenzio della ricerca in rete *Le ambiguità del linguaggio libero Effetto rumore: difficoltà di utilizzo dei dati dovuta alla ridondanza delle informazioni risultanti da una ricerca o causata dalla inappropriatezza delle stesse Effetto silenzio: impossibilità di chi consulta di accedere ai dati archiviati a causa della mancanza di elementi che consentano di risalire ai criteri di catalogazione delle informazioni
  • 3. Ricerca generica: digito ciclo acqua e ho 2.670.000 occorrenze
  • 4. Passo alla ricerca avanzata uso gli operatori logici e le pagine si riducono
  • 5. Ottengo 2.340.000 occorrenze…
  • 6. ..troppe!!! , ci impiegherei una vita ad esaminare tutti i siti. Io cerco una presentazione Powerpoint. Effettuo un altro tentativo cambiando l’indicazione “cerca tutti i tipi di file” con “cerca solo ppt”. Compaiono solo 212 pagine con ppt.
  • 7. La maggior parte delle ppt affrontano l’argomento trasversalmente, energia,ambiente, ambiti lavorativi o sono troppo difficili non sono utili per il mio scopo che è quello di supportare con illustrazioni e parole chiave la spiegazione del ciclo dell’acqua.
  • 8. Inserisco nella voce “ che contengano una qualunque delle seguenti parole” la stringa “scuola primaria” e le pagine si riducono a 84
  • 9. Ora la maggior parte delle ppt che compaiono sono pertinenti alle mie esigenze non rimane che scegliere
  • 10. Riassumendo: Ricerca generica : 2.670.000 occorrenze Ricerca avanzata: 2.340.000 occorrenze Riduco la ricerca a ppt: 212 occorrenze Riduco la ricerca a ppt scuola primaria:84 occorrenze
  • 11. Considerazioni finali: Nella ricerca da me effettuata si sono manifestati contemporaneamente : l’effetto rumore, per la quantità incredibile di materiale online evidenziato. L’effetto silenzio, poiché il materiale risultato a me utile è comparso solo dopo l’inserimento dei termini “scuola primaria”, risultati determinanti per la chiave di ricerca L’effetto rumore di per sé genera perdita di tempo però può anche provocare l’effetto “ serendipity” ovvero trovare casualmente informazioni che possono esserci utili in altri campi, anche se non sono oggetto di ricerca
  • 12. Le ambiguità del linguaggio libero Il problema della gestione delle informazioni e del loro recupero, è stato sempre oggetto di studio nel campo archivistico. L’avvento dell’”era digitale” ha esteso l’interesse ai data base informatizzati e alle immense risorse contenute negli spazi del Web. L’ information retrieval ha come campo di applicazione il trattamento e il recupero delle informazioni
  • 13. Trattamento informazioni I metodi di archiviazione e di ricerca dei documenti si possono distinguere in due categorie: MODELLO SEQUENZIALE o IRS (Information Retrieval System ) in cui il documento è rappresentato dalle parole in esso contenute, le informazioni vengono archiviate sequenzialmente MODELLO RELAZIONALE , rappresentazione indiretta attraverso termini di indicizzazione assegnati al momento dell’inserimento che ne descrivono in modo sintetico e completo il contenuto.
  • 14. Modello relazionale Di solito si basa sulla metadatazione cioò l’indicizzazione dei contenuti in base a parole chiave che ne facilitino la consultazione. I metadati vengono assegnati secondo un criterio stabilito a priori, l’operazione normalmente viene effettuata da chi inserisce il documento. Chi inserisce il documento di solito lo conosce, è quindi è in grado di stabilire relazioni semantiche che riducano o annullino la polisemia. Le numerose banche dati che adottano questo sistema riducono o annullano l’ambiguità semantica
  • 15. Modello sequenziale Nel Linguaggio libero i termini sono estratti liberamente dal testo del documento o dal sito in cui sono contenuti. Essi non sono provvisti di metadati perciò non definiti a priori Effettuando una ricerca attraverso un motore di ricerca del tipo Google si ottengono in risposta sia documenti rilevanti, cioè che soddisfano il bisogno di informazione che l’utente ha espresso, che documenti assolutamente inutili. Il motore di ricerca non garantisce la rilevanza del documento , quindi può accadere che documenti potenzialmente rilevanti per l’utente non vengano recuperati dal sistema o viceversa . il recupero dell’informazione attraverso gli operatori logici booleani cerca di limitare questi due inconvenienti che, in generale, non possono essere eliminati.
  • 16. input output input output a B c d d E Relazionale Vs sequenziale Contenuti classificati metadati c c c c c C b b b b b B a a a a a A Contenuti non classificati
  • 17. Operatori booleani Operano una selezione nella ricerca in base alla presenza o assenza di parole chiave in base alle quali un documento o un sito vengono selezionati Essi sono: AND : i termini sono entrambi presenti OR : almeno uno dei due termini è presente NOT : il termine non è presente Essi costituiscono un efficace aiuto nella riduzione dell’effetto rumore anche se non lo annullano
  • 18. Indicizzazione automatica Le ricerche effettuate attraverso motori di ricerca si basano su indicizzazioni automatiche. Esse non si basano su metadati assegnati a priori ma su tecniche statistiche che assegnano rilevanza all’informazione in base alla frequenza Questo metodo non prende in considerazione le relazioni semantiche dei dati presenti Se si effettua una ricerca sulla stringa “vite” compaiono siti web dedicati alla coltivazione della vite, siti sulle vite da salvare, sull’utensile vite, e compare anche un ristoranti chiamato “ vite”. Il sistema informatico riconosce i dati binari 0-1 che compongono la parola vite ma non ne comprende il significato.
  • 19. Vite = ristorante Vite = essere in vita Vite = utensile Vite= pianta
  • 20. Accessibilità Da anni si dibatte sul tema dell’accessibilità ai dati sul web. L’aumento esponenziale dei dati immessi ne rende sempre più difficile la consultazione. Le posizioni sono distinte: alcuni sostengono che la mania classificatoria indebolisce le potenzialità . altri, come il fondatore del World Wide Web, Tim Berners-Lee, sostengono che è giunto il momento di porre delle regole.
  • 21. Web semantico by Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee , si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML , file, immagini, e così via) siano associati ad informazioni e dati ( metadati ) che ne specifichino il contesto semantico in un formato adatto all'interrogazione, all'interpretazione e, più in generale, all'elaborazione automatica. Con l'interpretazione del contenuto dei documenti che il Web Semantico propugna, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, ed altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice link ipertestuale. http://www.w3.org/ standards / semanticweb /
  • 22. Metodi di ricerca in ambiente multimediale Prof. Giovanni Biondi Tutors dott.sa Giusy Cannella dott.sa Elena Mosa A.A. 2009-2010