CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.SabinBuragawww.purl.org/net/busaco
Dezvoltarea aplicațiilor Web
la nivel de client

(re)găsirea resurselor Web
de la motoare de căutare și SEO la date structurate

“A well-defined problem is half solved.”
Michael Osborne

Cum prezentăm conținutul
altor clienți – diferiți de cei umani?

Am putea recurge la extragerea automată
a datelor expuse pe Web?

Roboți
programe ce traversează automat Web-ul,
cu scopul de a extrage date
spiders, crawlers, Web bots

Roboți
programe ce traversează automat Web-ul,
cu scopul de a extrage date
robot Web  navigator Web

Roboți
pornind de la un URI, realizează o conexiune HTTP
la un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,
recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării

Roboți
pornind de la un URI, realizează o conexiune HTTP
la un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,
recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării
acțiuni: extragere, copiere, sumarizare,
agregare de conținut, monitorizare etc.

roboți: pericole
Operarea în foc rapid (rapid-fire)
trafic de rețea
supraîncărcarea serverelor Webdenial of service

roboți: pericole
Actualizarea cu întârziere a bazelor de date
ale motoarelor de căutare

roboți: pericole
Actualizarea cu întârziere a bazelor de date
ale motoarelor de căutare
necesitatea specificării timpului de revizitare a sitului
de către robotul Web
<meta name="Revisit-After" content="30 Days" />

roboți: pericole
Exploatarea (ne)controlată de către utilizatori
atacuri „brute”

roboți: pericole
Intrarea în „găurile negre”

roboți: pericole
Accesarea unor date nerelevante

roboți: identificare
Fiecare robot Web trebuie să se identifice
(nume, domeniu, creator,...)
uzual, va fi folosit câmpul User-Agent
din antetul unei cereri HTTP

19539 de roboți Web – statistica din 2013
Alexa (7004), Bing/MSN (100), Facebook (60),
Googlebot (6085), Twitter (84) + neidentificați (374730)
conform www.botsvsbrowsers.com
search engines
51%
scrapers
8%
hacking tools
7%
spammers
1%
others
33%

roboți personali
(e.g., motoare experimentale, software de oglindire)
BackRub (pre-Google)
wget – http://www.gnu.org/software/wget/
etc.

roboți ai motoarelor de căutare majore
Baiduspider – www.baidu.com/search/spider.html
bingbot – www.bing.com/bingbot.htm
Googlebot – www.google.com/bot.html
Slurp – http://help.yahoo.com/help/us/ysearch/slurp
YandexBot – yandex.com/bots

roboți specializați
(e.g., validarea codului HTML, scurtarea lungimii
URL-urilor, scanare de vulnerabilități, statistici,…)
exemplificări: citeseerxbot,
Page2RSS, extensii Nagios, W3C Validator

66.249.65.173 - - [09/Nov/2015:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-"
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
93.158.178.188 - - [09/Nov/2015:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-
" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
66.249.65.70 - - [09/Nov/2015:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/
HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible;
Googlebot/2.1; +http://www.google.com/bot.html)"
180.76.5.101 - - [09/Nov/2015:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-"
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
157.55.39.73 - - [09/Nov/2015:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403
220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
208.115.111.71 - - [09/Nov/2015:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-"
"Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"
63.249.66.212 - - [09/Nov/2015:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-"
"Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"
66.249.65.70 - - [09/Nov/2015:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1"
304 - "-" "Googlebot-Image/1.0"
157.55.39.177 - - [09/Nov/2015:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-
media/1.1 (+http://search.msn.com/msnbot.htm)"
"Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"
cereri HTTP efectuate de diverși roboți Web
(menționate în fișierul de jurnalizare Apache)

Cum putem „instrui” roboții Web
să nu viziteze anumite zone ale sitului?

Orice robot trebuie să respecte
standardul de excludere

fișierul robots.txt
http://www.robotstxt.org/robotstxt.html

fișierul robots.txt
# /robots.txt pentru http://www.info.uaic.ro
User-agent: * # toți roboții
Crawl-delay: 20 # 20 sec. între cereri
Disallow: /tmp/ # date temporare
Disallow: /xwiki/bin/xmlrpc/ # director privat

de studiat câteva exemple reale de fișiere robots.txt:
http://www.amazon.com/robots.txt
http://facebook.com/robots.txt
http://www.emag.ro/robots.txt
http://www.google.com/robots.txt
User-agent: *
Disallow: /user/*
Disallow: /addtocart*
Disallow: /proces_comanda
Disallow: /cart$
Disallow: /checkout
Disallow: /imagini/*
Disallow: /images/*
Disallow: /compare/*
Disallow: /mesaje
Disallow: /cat-*/pid-*/ord-*/p-*
Disallow: /adauga-review
Disallow: /adauga-intrebare
Disallow: /header-cart
Disallow: /header-wl
Disallow: /product_get_recommandations/*
Disallow: /widgets/track.json
Disallow: /get_back_to_search_url
Disallow: /search-tools/*
Disallow: /ajax_live_products
Disallow: /box_user_history
Disallow: /gr_box_bottom_landing/*
Disallow: /site_ajax_ads
User-agent: 008
Disallow: /

evitarea indexării conținutului:
<meta name="robots" content="noindex, nofollow" />

Ce activități realizează un motor de căutare?

Scop:
localizarea resurselor existente pe Web

Tipuri de căutări – maniera tradițională:
pe bază de indecși (crawling & indexing)
Lycos – 1994
AltaVista – 1995

pe baza ierarhiilor de termeni
(servicii de tip catalog – topic directory, taxonomii)
Yahoo! – Yet Another Hierarchical Officious Oracle
1994

hibride
indecși + taxonomiiportal Web
Excite – 1994

pe baza legăturilor hipertext
(hyperlink analysis)
Google – 1996

Tipuri de căutări – maniera modernă:
pe baza datelor structurate
(determinare și extragere de meta-date și concepte)
Microsoft Satori Entity Engine
Google Knowledge Graph/Vault

Un motor de căutare trebuie să satisfacă
nevoia de informații a utilizatorului
(user information-seeking)

Preluarea + indexarea resurselor se pot realiza:
automat – via roboți Web
manual – recurgând la experți umani
hibrid

Preluarea și indexarea resurselor
strategii:
natura datelor/relațiilor (data/relation mining)
detectarea subiectului conținutului (topic distillation)
meta-date – date descriind date
(e.g., doar însemnări ca replici la alte mesaje)
căutare socială (tag-uri, anturaj, aplicații Web sociale)
context (e.g., localizare geografică, timp, dispozitiv)
profil al utilizatorului
(e.g., istoric al căutărilor, preferințe lingvistice)

Caracteristici ale unui motor de căutare ideal
scop
căutarea oricărei resurse existente

viteză
rezultatele să fie disponibile imediat
direcție de interes major: real-time Web search

disponibilitate
actualizarea permanentă
(orice modificare să fie indexată „instantaneu”)

recall
găsirea tuturor resurselor relevante
pentru o cerere dată

precizie
rezultatul conține doar documente relevante

ranking
cele mai relevante documente
sunt plasate primele

Care sunt principalele componente
ale unui motor de căutare?

Robot Web
extrage informații
Index (catalog)
stochează – în mod persistent – (meta)date
despre resursele existente pe Web
Mecanism de evaluare (ranking)
pe baza cererii utilizatorului, oferă răspunsuri

Diferențele dintre motoarele de căutare actuale
sunt date de fiecare componentă în parte

structura generică a unui motor de căutare
(Chakrabarti, 2003)

motoare: căutarea
Activitatea generală a unui robot (crawler) simplu:
F = mulțimea de URL-uri de start (frontiera)
cât-timp F este nevidă
extrage un URL u din F
preia pagina (resursa Web) p cu adresa u
dacă p este relevantă
stochează p în index
pentru-fiecare legătură v din p
dacă v nu este în index și v nu aparține lui F
și v ar putea fi vizitată
adaugă v la F

motoare: căutarea
Bazată pe învățare
data mining
(de exemplu, reinforcement learning)
vezi materia
„Învățare automată”

motoare: căutarea
Conținutul ce trebuie indexat nu e doar textual
hiper-informația:
INFORMATION = HYPERINFO + TEXTINFO
dependența de legături
ordonarea legăturilor
(alegerea unor criterii vizând importanța)

motoare: căutarea
Robotul/motorul de căutare decide momentul
revizitării resursei care urmează a fi reindexată
sau doar verificată

motoare: căutarea
Aspect de interes:
rezoluția adreselor Web
(nume de domeniiadrese IP)
DNS caching, pre-fetching & resolution

motoare: căutarea
Aspect de interes:
realizarea cererilor concurente

motoare: căutarea
Aspect de interes:
extragerea legăturilor
e.g., normalizarea URI-urilor:
www.InfoIasi.Ro:80www.info.uaic.ro

motoare: căutarea
Aspect de interes:
eliminarea adreselor deja vizitate
evitarea „găurilor negre”

motoare: căutarea
Aspect de interes:
monitorizarea accesărilor
load monitoring + managing
(evitarea supra-solicitării serverelor Web)

motoare: căutarea
Aspect de interes:
strategii de revizitare/reîmprospătare
a conținutului resurselor Web

motoare: indexarea
Necesitatea folosirii sistemelor de baze de date
depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii

motoare: indexarea
optimizarea regăsirii
modele non-relaționale de stocare – „mișcarea” NoSQL
printre primele abordări: BigTable (Chang et al., 2006)
http://labs.google.com/papers/bigtable.html

motoare: indexarea
arhivarea datelor indexate
e.g., recurgerea la algoritmul de compresie bzip2
(cazul Google)

Cum se realizează indexarea?

motoare: indexarea
Utilizarea nu doar a datelor propriu-zise
(conținutului textual), ci și a meta-datelor
e.g., limbă, cuvinte-cheie, autor, format,
data ultimei actualizări,…

motoare: indexarea
Indexare bazată pe cuvinte-cheie
relevanță, plasament, meta-date,
data mining, procesarea limbajului natural,...
versus
indexare semantică – bazată pe concepte
social tagging (folksonomy),
microformate, microdate HTML5,
Web semantic (RDF, RDFa),...

motoare: indexarea
O importanță mare o au:
maniera de structurare a informației și
„relația” unei pagini cu altele înrudite

motoare: interogarea
Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptă
folosirea unor operatori specifici

exemplificare: o parte dintre operatorii Google
"expresie" ~termen –termen
numar1 .. numar2 related: URL cache: URL
intitle: termen(i) intext: termen(i) inurl: termen(i)
link: URL site: domeniu info: domeniu
define: termen filetype: extensie unit1 in unit2
detalii la www.googleguide.com/advanced_operators_reference.html

digital camera $700 .. 1400
~book
intitle:design –intitle:web
"burse de merit"
site:uaic.ro
inurl: art nouveau
allinurl: js library
16 cm in inch
related:www.w3.org
js mvc inanchor:slideshare
define:design
cache:http://devdocs.io/
map:predeal
firefox filetype:svg OR filetype:png

Interogările din prisma utilizatorului:
grad mare de subiectivitate
e.g., “miserable failure”

depind de contextul social/cultural
exemple:
“pants” în UK versus US
“madonna and child”

dependente de scop
informațional (listă, locație, sfat)
navigațional
vizând accesarea resurselor
(download, amuzament, interactivitate,…)

Remarci:
utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”
exemplu:
“hotels located in Bucharest and Iasi”

Remarci:
interogările uzual sunt scurte (media: 2,6 cuvinte),
dar focalizate – e.g., 25% pe business (conform Yahoo!)
vezi și http://labs.yahoo.com/publication/?area=web-mining-search

Remarci:
apar confuzii:
URI vs. text,
lipsa spațiilor,
vocabular
etc.

Remarci:
implicit, termenii de căutare trebuie să se regăsească
identic în cadrul conținutului unui document Web
e.g., căutând “children”,
nu vom obține neapărat și paginile care includ “kids”

Interogări formulate în limbaj natural:
eliminarea ambiguităților (dezambiguizarea)
filtrarea cuvintelor nerelevante
expandarea interogării: sinonime, forme derivate,…

Evaluarea cererii – schema generală:
1. Analizarea interogării (tokenizing)
2. Căutarea în indecșii termenilor
3. Scanarea documentelor
4. Evaluarea relevanței paginilor
5. Eliminarea duplicatelor + sortarea
6. Afișarea primelor N documente relevante
(URI + alte informații)

Conținutul fiecărui document extras
este analizat și divizat în token-uri

Unele construcții se ignoră/constrâng
e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”
procesare de bază a conținutului textual

Fiecărui token i se reține și poziția apariției
în document
poziția poate fi folosită
la determinarea relevanței termenului

Criterii vizând calculul relevanței:
ranking bazat pe clasificare umană
resurse clasificate de oameni

ranking bazat pe informații privitoare
la utilizarea unei resurse
timpul de vizită, periodicitatea vizitei,
frecvența actualizării resursei, importanța relativă etc.

ranking bazat pe conectivitate
analiza relațiilor (legăturilor hipertext) cu alte pagini
eventual, în funcție de reputație
e.g., importanța domeniului Internet
(sunt luați în calcul factori ca vechimea, localizarea,…)

Calculul relevanței:
tehnici privind IR (Information Retrieval)
căutări bazate pe similaritate – similarity search
recurgând la învățare automată (machine learning)
clasificarea conținutului hipermedia
social network analysis – bibliometrie, prestigiu,…

Page Rank (Google)
evaluarea relevanței pe baza contextului de apariție

Page Rank (Google)
exploatarea relațiilor dintre diferite pagini Web
www.google.com/insidesearch/howsearchworks/algorithms.html

Page Rank (Google)
recurgerea la tehnici adaptive, euristice

Page Rank (Google)
determinarea corelației dintre relevanța calculată
automat de sistem și cea precizată (in)direct
de către utilizator

Page Rank (Google)
(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)
se baza inițial pe structura hipertext
o legătură de la pagina A la B reprezintă
un vot dat paginii B de către A
cu cât un sit este mai important,
cu atât page rank-ul asociat lui e mai mare

Alternative la Page Rank:
TrustRank (Friesen, 2007)
folosește domenii Web de încredere selectate de oameni

TrustRank (Friesen, 2007)
cu cât un sit e mai aproape (în termeni de legături Web)
de siturile evaluate și considerate de încredere
de către oameni, cu atât va avea o importanță mai mare
vizează un sit (domeniu), nu o pagină Web

utilizarea tehnologiilor Web-ului semantic
se iau în considerație concepte (cunoștințe), nu cuvinte
“things, not strings”
de vizionat prezentarea M. Lanthaler, “The Future of the Web
– From Strings to Things” (2015) – https://vimeo.com/133137907

timp strategie
înainte de
2000
conținut – indexarea textului
(titlu, anteturi, URL, descriere via <meta>)
2000—2010
conținut
autoritate (via legături)
2010—
prezent
conținut
autoritate
personalizare (social media + profil utiliz.)
2012—
prezent
conținut
autoritate
personalizare
concepte (date-structurate + Web of data)
context (localizare, timp, dispozitiv,…)
adaptare după (K. Bodnar & J. Hopkins, 2011)
a se studia și www.slideshare.net/randfish/presentations

generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…
regionale
Baidu (China), Daum (Coreea), Goo (Japonia),
Guruji (India), Rambler (Rusia) etc.
meta-căutare Dogpile, Excite, Mamma, Yippy
enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…
răspunsuri
(answer-based)
umane: Stack Overflow, Yahoo! Answers, Quora
automate: AskMeNow, Evi, Wolfram Alpha
news search BingNews, Daylife, Topix, Yahoo! News,…
hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.
cod-sursă Google Code Search, Koders, Krugle
căutare pe baza P2P FAROO, Seeks, YaCy
desktop search DocFetcher, Recoll, Tropes Zoom
pentru dezvoltatori: Apache Lucene, Apache Nutch,
mnoGoSearch, Namazu, Xapian,…
API-uri: www.programmableweb.com/category/search

Motoarele tind să „recompenseze” siturile:
de mari dimensiuni
cu viață lungă
specializate, de „nișă”
aparținând unor autorități de încredere

SERP (Search Engine Result Page)
specifică maniera de redare a rezultatelor
oferite de motorul de căutare
motoare: afișarea rezultatelor

SERP (Search Engine Result Page)
se includ recomandări pe baza:
preferințelor utilizatorului
istoricului căutărilor
URL-urilor partajate via rețele sociale
meta-datelor (rich snippets)
adnotărilor realizate de utilizatori
localizării geografice (local search)
motoare: afișarea rezultatelor

“At any one time you rank #1 or #8 or #40
based on who is searching, where they search,
and what is happening.”
K. Bodnar & J. Hopkins, 2011

(în loc de) pauză

Cum putem proiecta
mijloacele de căutare internă?

Motor de căutare internă (la nivel de sit)
oferirea de sugestii utilizatorului
e.g., spelling suggestions,
sinonime (car → automobile, truck,…)

sugestii de soluții
de exemplu, răspunsuri la cele mai frecvente întrebări

îmbunătățirea interacțiunii – utilizabilitatea
integrarea în designul general al sitului
tactici: oferirea unui următor pas de realizat
(mai ales când nu există rezultate),
sugestii privind căutarea, exemple, rafinarea cererii etc.

în pagina de redare a rezultatelor, va fi afișată și
interogarea inițială, cu posibilitatea modificării ei
oferirea a cel puțin N rezultate/pagină +
indicarea numărului total de pagini de rezultate
sau
încărcarea progresivă a următoarelor rezultate

calitatea rezultatelor oferite e dependentă
și de modul de structurare a datelor
fiecare rezultat să includă informații utile
folosirea unui vocabular înțeles de către vizitator,
utilizarea unor tehnici de vizualizare intuitivă,
facilitarea filtrării și sortării datelor etc.

utilizatorul să aibă libertatea de a efectua
oricând o nouă interogare
evitarea „fundăturilor” – oferirea de ajutor, sugestii,…

Cum trebuie scris codul HTML
pentru a obține o relevanță bună a conținutului?

SEO – Search Engine Optimization
suită de strategii de redactare a codului HTML
în vederea obținerii unei relevanțe ridicate
a conținutului, astfel încât pagina/situl să fie
regăsite în urma unei căutări specifice efectuate
cu un instrument de căutare

Structurarea codului-sursă a documentelor Web
Structurarea conținutului
Structurarea legăturilor cu alte pagini

Structurarea codului-sursă – SEO la nivel de pagină
documentul trebuie să fie bine-formatat

includerea de meta-date:
în antet – elementul <meta />
conținut textual alternativ pentru imagini
(<img alt="..." />), multimedia, legături (<a title="...">),
tabele (<table summary="...">) etc.
atașarea de meta-date externe via elementul <link />

a nu se folosi:
cadre (frame-uri)
sau
elemente învechite sau proprietare
(e.g., <blink> ori <marquee>)

conținutul primează (“content is king”)
alegerea judicioasă a cuvintelor-cheie în <meta>
criterii: relevanță, densitate, internaționalizare
o importanță majoră o are titlul paginii

situl trebuie actualizat periodic, frecvent
un criteriu important: timpul de încărcare
despre performanța
aplicațiilor Web
într-un curs viitor

codul trebuie structurat conform semnificației logice
POSH (Plain Old Semantic HTML)

conținutul relavant trebuie plasat ierarhic
via <h1>, <h2>,...
pentru HTML5, de utilizat noile elemente
vizând structura: <article>, <header>, <footer>, <nav> etc.
layout bazat pe CSS și nu pe marcaje tabelare

conținuturile multimedia binare
trebuie să aibă alternative textuale
anumite date pot fi „ascunse” de roboți via robots.txt

numele fișierelor (imagini, stiluri,…) contează

human friendly URLs

Structurarea legăturilor – SEO la nivel de sit
obligatoriu, de inclus legături spre alte pagini
(ale sitului ori ale altor situri)

dorim legături spre/de la situri importante
având conținut similar cu situl nostru
tehnici clasice (considerate „demodate”):
interschimb de link-uri – banner-e, blogroll-uri,
marketing bazat pe context

dorim legături spre/de la situri importante
având conținut similar cu situl nostru
recurgerea la aplicații Web sociale

SMO (Social Media Optimization)

de verificat și menținut structura hipertext!

a se evita spam-ul
e.g., legături încrucișate între pagini similare
ale aceluiași sit Web ori ale unei colecții de situri
Motoarele de căutare detectează + penalizează spam-ul!
http://searchenginewatch.com/search?query=spam

Utilizarea elementului <meta>
descrierea paginii – description
cuvintele-cheie – keywords
controlul roboților Web – robots
alte informații de interes:
tipul conținutului, relația cu alte pagini,…
seo: strategii

Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit,
în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
seo: strategii

black-hat page cloaking
tehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q
seo: strategii

„Estetica” URL-urilor
distincția dintre conținutul static și cel dinamic
(componenta query_string de la finalul unui URL)
detectarea simbolurilor “?” și “&”
doc.php?var=sda4312&var2=643f545342
seo: strategii

indexarea conținutului dinamic poate fi limitată
ori poate fi realizată mult mai lent
numele variabilelor transmise via GET
trebuie să aibă o anumită semnificație
seo: strategii

evitarea numerelor de sesiune (SID) din URL
uzual, roboții ignoră cookie-urile
seo: strategii

evitarea numerelor de sesiune (SID) din URL
la nivel de server Web, se poate activa rescrierea
URL-urilor – e.g., utilizarea mod_rewrite la Apache
la nivel de server de aplicații, inhibarea transferului
SID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)
seo: strategii

„mascarea” URL-urilor oferind conținut dinamic
exemplificare:
www.penguin.info/species/tux.html – pare static
www.penguin.info/species.php?type=tux – în realitate
seo: strategii

Rezultatul returnat clientului
de evitat paginile de eroare – e.g., 404
orice pagină de eroare poate fi convertită
într-o resursă folositoare omului/robotului
exemple: harta sitului, legături relevante,…
seo: strategii

Rezultatul returnat clientului
se folosesc facilitățile oferite de serverul Web
pentru specificarea de pagini proprii de eroare
e.g., directiva ErrorDocument la Apache
seo: strategii

Navigarea bazată pe interacțiunea cu utilizatorul
legături spre alte resurse realizate exclusiv via Javascript
ori – mai desuet – cu Flash sau Silverlight
<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>
de evitat
greșit!

Oferirea de conținut via documente
adoptând formate de date nestandardizate
de evitat

Titluri identice pentru toate paginile unui sit
de evitat

Pagini de eroare care sunt oferite de server
via codul de stare HTTP 200 Ok
de evitat

Redirecționări incorecte și/sau abuzive
de evitat

Ignorarea utilizatorilor cu nevoi speciale
web accessibility
http://webaim.org/
de evitat

Abuzul de transferuri asincrone prin Ajax
de evitat

Crearea documentului sitemap.xml
pentru a-l expedia la Google Sitemaps
complementar fișierului robots.txt
furnizează structura hipertext a unui sit Web
formate acceptate: text obișnuit, XML, RSS, Atom
detalii la http://sitemaps.org/
seo: instrumente

Resurse de interes:
Google Webmaster Central
https://developers.google.com/webmasters/
Learn SEO and Search Marketing
https://moz.com/learn/seo
Search Engine Land
http://searchengineland.com/
Search Engine Watch
http://searchenginewatch.com/
Search Engines @ VideoLectures
http://videolectures.net/Top/Computer_Science/Search_Engines

Invisible Web (Deep Web)
acea parte a spațiului World Wide Web
care nu este detectată de motoarele de căutare sau
de alte tipuri de aplicații de regăsire a resurselor
disponibile pe Web

Cum am putea descrie conținutul resurselor Web
astfel încât să poată fi procesat „inteligent”?

Idee:
specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML

Idee:
specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML
microformate
scheme de microdate HTML5
RDFa
la master

Microformate
(Tantek Çelik & Kevin Marks, 2004)
www.microformats.org

Microformate
utilizarea de marcaje (X)HTML pentru a desemna
semantica și/sau structura conținutului
„curentul” POSH (Plain Old Semantic HTML)

Microformate
reutilizarea unor vocabulare de termeni,
disponibile liber și standardizate

Microformate
reutilizarea unor vocabulare de termeni,
disponibile liber și standardizate
realizarea de adnotări semantice direct în HTML
și alte limbaje similare
prelucrare mai facilă a reprezentărilor resurselor

marcaje HTML (<div>, <span>)
pentru specificarea datelor &
structurii lor
„clase” CSS pentru prezentare
și asocierea de descrieri
ale meta-datelor
structurarea
paginilor Web:
precizarea
înțelesului
(semanticii)
conținutului

Microformate
elementare – desemnează o caracteristică unică
+
compuse – specifică mai multe proprietăți
care modelează un aspect de interes
– e.g., un concept (entitate): persoană, eveniment,…

rel-tag
asociază unei legături hipertext un termen (tag)
– cuvânt-cheie ori subiect – ales liber de autor
(tagging content)

rel-tag
<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"
rel="tag">www</a>.</p>
<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"
rel="tag" class="skill">UNIX</a>.</p>
<a href="http://flickr.com/photos/tags/Penguin" rel="tag">
<img src="tux.jpg" alt="Foto cu un pinguin" /></a>

XFN (XHTML Friend Network)
relații între „prieteni”: colaboratori, rude, cunoscuți,…
<a href="http://www.infoiasi.ro/~dlucanu/"
rel="met, colleague, co-worker, neighbor">
Dorel Lucanu</a>

recurgerea la XFN în cadrul sistemului WordPress

hCalendar
desemnează evenimente și orare
vezi formatul iCalendar – RFC 5545
https://tools.ietf.org/html/rfc5545

hCalendar
<div class="vevent">
<a class="url" href="http://tinyurl.com/cliw-seo"
<abbr class="dtstart" title="20151109">9 noiembrie 2015</abbr> --
<abbr class="dtend" title="20160110">10 ianuarie 2016</abbr>
<span class="summary">Concurs SEO @ CLIW</span> la
<span class="location">FII, UAIC Iași</span></a>
<div class="description">Un concurs vizând SEO
pentru articole referitoare la biblioteci JavaScript</div>
</div>

hCard
informații de contact despre persoane, organizații etc.
în conformitate cu formatul vCard – RFC 6350, 6868
https://tools.ietf.org/html/rfc6350

specificarea informațiilor despre o persoană via hCard

hResume
modelează informații despre un CV
folosit în conjuncție cu hCard și hCalendar

hReview
desemnează opinii emise despre „ceva” – o entitate
(produs, locație, eveniment, persoană,…)

<div class="hreview">

<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"
href="http://www.info.uaic.ro/">situl Web al FII</a></h1>
<p> 
<abbr class="rating stars" title="5">* * * * *</abbr>
<span class="summary title">Modern</span>,
<abbr class="dtreviewed"
title="2010-05-18T22:45:00">18 mai</abbr>
</p>

<p class="reviewer">Autor al recenziei: <span class="vcard">
<a class="url fn n" href="http://www.purl.org/net/busaco"
title="Spre situl Web al lui Sabin Buraga">
<span class="given-name">Sabin</span>
<span class="family-name">Buraga</span></a></span></p>
<div class="description">  </div>
</div>

Microformate 2
simplifică maniera de specificare (2012)
http://microformats.org/wiki/microformats2

Microformate 2
vocabularele sunt definite pe baza unor prefixe
h- includerea unui microformat
p- specificarea unei proprietăți simple
u- desemnarea unui URL
dt- definirea de valori privind data & timpul
e- specificarea de proprietăți compuse

<div class="h-card vcard">
<img src="/content/content_about-experts/brendaneich.jpg"
alt="Brendan Eich">
<h5><a href="http://brendaneich.com/"
class="p-name fn u-url url">Brendan Eich</a></h5>
<p class="p-note note">
Created JavaScript, co-founded the mozilla.org project…</p>
<span class="p-category category">Technology</span>
</div>
exemplu de utilizare a microformatului hCard
(în ambele versiuni)

Microformate 2
vocabulare predefinite – unele în stadiu de ciornă:
h-adr h-card h-entry h-event
h-geo h-item h-product h-recipe
h-resume h-review h-review-aggregate

<section class="h-event">
<a class="p-name u-url" href="http://tinyurl.com/cliw-seo">
Concurs SEO @ CLIW</a>
de la <time class="dt-start">2015-11-09</time>
până la <time class="dt-end">2016-01-10</time>, fiind organizat la
<span class="p-location h-card">
<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">
Facultatea de Informatică</a>,
<span class="p-street-address">Strada Berthelot, 16</span>,
<span class="p-locality">Iași</span>,
<abbr class="p-region" title="Iași">IS</abbr>
</span>
</section>

microformate: utilizări
…și multe altele
detalii la http://microformats.org/wiki/implementors
Drupal
Google
Intel
Joomla
Microsoft
Nature Publishing Group
Six Apart
TYPO3
Yahoo!
XWiki

microformate: utilizări
detectarea și exportul de microformate cu extensia
Operator pentru Firefox

Microdata HTML 5
alternativă la microformate
specificație W3C – Working Draft (octombrie 2013)
www.w3.org/TR/microdata/
a se studia și http://html5doctor.com/microdata/

Microdata HTML 5
posibilitatea de a specifica perechi de proprietăți
(nume, valoare) „scufundate” în HTML

Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare
sunt denumite items

Microdata HTML 5
sunt denumite items
creare via atributul itemscope
specificarea unei proprietăți prin atributul itemprop
referire cu ajutorul atributului itemref

Microdata HTML 5
sunt denumite items
asocierea unui tip de date se face cu atributul itemtype
pentru identificarea unui item se folosește itemid

Există o serie de modele de date
(exprimate via microformate sau microdate)
ce pot fi indexate și folosite
de actualele motoare de căutare?

schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute și
indexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex

schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute și
indexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex
amănunte la https://schema.org/docs/gs.html
modele
conceptuale

a se consulta și http://www.w3.org/wiki/WebSchemas

tipurile primare de date definite de schema.org

diverse proprietăți ce relaționează Integer cu alte concepte

Thing – schema cea mai generală, incluzând conceptualizări
Action
BroadcastService
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Class
Property
modelare de
cunoștințe
(via o ontologie)

Person – modelează conceptul „persoană”
http://schema.org/Person

schema.org
relațiile dintre entități sunt precizate via proprietăți

<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent">
<span itemprop="name">Tuxy Unlimited</span>
<div itemprop="address" itemscope=""
itemtype="http://schema.org/PostalAddress">
<span itemprop="streetAddress">Banchiza, 1</span>
<span itemprop="addressLocality">Iasi</span>,
<span itemprop="addressRegion">Iasi</span>
<span itemprop="postalCode">700550</span>
</div>
Phone: <span itemprop="telephone">+4032201090</span>
<a href=
"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378"
itemprop="maps">Details on OpenStreetMap</a>
</div>
fapte vizând
domeniul imobiliar
…pe baza modelului
conceptual schema.org

<ul>
<li>
<p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">
<a href="http://www.purl.org/net/busaco"
title="Spre situl Web al lui Sabin-Corneliu Buraga" itemprop="url">
<span itemprop="name">
<span itemprop="givenName">Sabin-Corneliu</span>
<span itemprop="familyName">Buraga</span>
</span>
</a> – curs</p>
</li>
<li>
<p itemid="#acip" itemscope="" itemtype="http://schema.org/Person">
<a href="http://ro.linkedin.com/in/ciprianamariei"
title="Despre Ciprian Amariei" itemprop="url">
<span itemprop="name">
<span itemprop="givenName">Ciprian</span>
<span itemprop="familyName">Amariei</span>
</span></a> – laborator</p>
</li>
</ul>
specificarea faptului:
„Ciprian Amariei este o persoană”

extragerea/verificarea de date structurate
via Structured Data Testing Tool
https://developers.google.com/structured-data/testing-tool/

<section id="week6">
<h2>Săptămâna 6</h2>
<ul>
<li itemscope="" itemtype="http://schema.org/CreativeWork"
itemid="#cliw-lecture6">
<aside class="menu">concurs: <a href="web-contest.html" title="Detalii">
SEO @ CLIW</a></aside>
<p class="lecture">Curs: <a href="presentations/web06-Regasirea-
resurselor-Web-SEO-Microformate-MicrodateHTML5.pdf"
title="Prezentare în format PDF" itemprop="url">
<span itemprop="name">(Re)găsirea resurselor Web</span></a>
</p>
<div class="terms" itemprop="keywords">căutare Web, robot,
motor de căutare, interogare, SEO, microformate, HTML5 microdata</div>
</li>
…
</ul>
</section>
specificarea în HTML5 a lucrărilor creative de tip
CreativeWork conform modelului conceptual schema.org

extragerea
informațiilor
din HTML5
aici, despre
prelegerile
materiei CLIW

<article itemscope="" itemtype="http://schema.org/Event">
<section id="contest">
<h2>Tema</h2>
<p>Concursul este destinat studenților
<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">
<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII>
<span itemprop="name">FII</span></a>
(UAIC <span itemprop="address">Iași, România</span>)</span>
și constă în optimizarea conținutului și structurii unui sit Web.</p>
…
<p>Perioadă de desfășurare:
<span itemprop="startDate" content="2015-11-09T00:00">9 noiembrie 2015
</span>—<strong><span itemprop="endDate" content="2016-01-10T16:00">
10 ianuarie 2016</span></strong>, ora 16:00.</p>
</section>
…
</articol>
pe baza schema.org, se pot modela în HTML date vizând un
eveniment (Event) și locul de desfășurare a acestuia (Place)

date pentru „consum” uman vs. date structurate
interpretate și prelucrate, ulterior, de algoritmi

<div class="vcard">
<p>Nume: <span class="fn">Sabin Buraga</span></p>
<p>Titlu academic: <span class="title">Dr.</span></p>
</div>

<div itemscope itemtype="http://schema.org/Person">
<p>Nume: <span itemprop="name">Sabin Buraga</span></p>
<p>Titlu academic: <span itemprop="title">Dr.</span></p>
</div>
microformate↔microdate
adaptare după Marco Lisci & Luisa Scarlata (2011)

Alte resurse de interes,
inclusiv instrumente de validare și conversie,
sunt oferite de situl Web
http://getschema.org/

Microformatele și microdatele HTML5
sunt indexate de motoarele de căutare
Bing Webmaster
http://tinyurl.com/b9mx2f2
Google Structured Data
developers.google.com/structured-data/
Yahoo! BOSS (Build your Own Search Service)
developer.yahoo.com/search/boss/
Yandex Webmaster
yandex.com/support/webmaster/schema-org/

Cum ar putea fi detectate și penalizate
siturile Web care „trișează” în ceea ce privește
tehnicile SEO, eventual recurgând la
microformate/microdate HTML5?
discuție (pentru acasă)

Oferiți o soluție (empirică) de prevenire
a spam-ului vizând documentele HTML
test scris #2 (T2)

episodul viitor: limbajul JavaScript

CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

More Related Content

What's hot (20)

Viewers also liked (14)

Similar to CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate (20)

More from Sabin Buraga (20)

CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate