SEMANTICA WEB

Download Report

Transcript SEMANTICA WEB

SEMANTICA WEB
Curs 2 Modelarea Proceselor Sociale
Definitie
•
•
•
•
•
•
Este un efort de colaborare si de standardizare la nivel international condus de World Wide Web
Consortium (W3C). Scopul este promovarea unor anumite formate de date (o anumita structurare a
paginilor web) , la nivel semantic, forma actuala fiind descrisa in Resource Description Framework (RDF).
Avantajul unei pagini cu continut semantic (structurata) consta in gasirea mai rapida a unei informatii
pertinente si posibilitatea construirii unor softuri care sa gaseasca automat informatii de un anumit tip in
multitudinea de pagini web.
Problemele apar din cauza diferentei foarte mari intre un document inteligibil poentru om si unul
inteligibil pentru masina.
Este o structura web care poate fi procesata de masini (de softuri);
Din cauza dificultatii suplimentarede a scrie pagini web conform unui standard, de a modifica paginile
existente conform unui standard si dificultatii de a crea un standard larg acceptat ideea, desi simpla si
utila, este inca slab utilizata.
WEB 2.0, WEB 3.0
Tipuri de probleme
•
•
•
•
Gasirea unei persoane dupa nume
Gasirea unei fotografii anume
Gasirea unui tip de muzica
Gasirea unui produs cu anumite caracteristici
pe site-urile de vanzari
Dificultatea problemei
•
•
•
•
•
Dimensiune: milioane de pagini, milioane de termeni din diferite domenii (tehnici,
informatici, medicali etc), denumiri diferite pentru aceeasi notiune etc.
Imprecizie: Utilizatorii nu fac cereri precise, conform dictionarului, utilizand
expresii sau cuvinte vag legate (din punct de vedere a-l masinii) de ceea ce cauta
acesta efectiv. Pentru acelasi termen sau informatie utilizatorii utilizeaza cuvinte
cheie diferite. Cea mai utilizata tehnica de gestiune a informatiei imprecise o
reprezinta logica fuzzy.
Nesiguranta: Un pacient poate prezenta un set de simptome care corespund la
mai multe diagnostice, fiecare cu probabilitatea sa de a fi cel real. In acest sens se
pot utiliza tehnici de analizaprobabilitatilor pentru a da un raspuns al masinii
satisfacator pentru om.
Inconsistenta informatiilor: Multe informatii din web sunt incomplete sau in
contradictie cu alte date de pe web astfel incat aplicarea rationamentului deductiv
si a logicii de catre masina duce la rezultate catastrofice. Rationamentul anulabil si
rationamentul paraconsistent (nedeductiv) sunt doua tehnici ce pot fi utilizate in
lucrul cu informatii neconsistente.
Erori intentionate: Furnizorii de informatii introduc intentionat greseli sau dau
informatii incomplete pentru a-si proteja interesele. Tehnica curenta pentru a
atenua aceste temeri este criptografia.
Arhitectura semanticii web
XML = un mod de a structura informatia utilizand tag-uri intr-un document.
Schema XML= regulile dupa care se citeste un document XML.
RDF = limbaj de descriere a informatiilor web si a relatiilor dintre acestea.
Modele tip-RDF: RDF/XML, N3, Turtle si RDFa.
Schema RDF = vocabularul care descrie clasele si proprietatile acestora
dintr-o resursa RDF (in principal ierarhia acestora).
OWL = vocabular suplimentar pentru descrierea claselor si proprietatile
acestora : apartenenta, relatii (egalitate, ordine etc), simetrie, enumerari
etc.
SPARQL = protocol de cautare si furnizare a datelor la cerere.
RIF = limbaj XML cu reguli inteliginile pentru calculator. Are mai multe
versiuni (dialecte): RIF Basic Logic Dialect (RIF-BLD), RIF Production Rules
Dialect (RIF PRD).
SOLUTII
•
Limbaje destinate special pentru gestiunea datelor
–
–
–
•
Resource Description Framework (RDF)
Web Ontology Language (OWL)
Extensible Markup Language (XML)
Proiecte de implementare a semanticii web
–
–
–
–
–
FOAF (Friend of a friend) = utilizarea standartdelor RDF pentru a descrie relatiile interumane si `lururi` implicate in aceste relatii
Dbpedia = posibilitatea de a publica date extrase automat din wikipedia in propria pagina;
SIOC (Semantically-Interlinked Online Communities) = modelare semantica a forumurilor de discutii, blogurilor, liste de recomandari, liste de
adrese e-mail, resurse disponibilizate, galerii de imagini etc.
GoPubMed = motor de cautare a informatiilor din texte medicale.
NextBio = baza de date si interfata de cautare privind molecule si gene.
EVOLUTIE
Procent din paginile web in care apar termenii …
EVOLUTIE
Numar de pagini web care utilizeaza …
EVOLUTIE
Procent al paginilor in care apare cuvantul …
WEB 2.0
• Trasaturi
–
–
–
–
–
–
–
–
–
Clasificarea extinsa a informatiilor
Utilizatorii fac mai mult decat sa obtina informatii
Utilizatorii contribuie la continutul paginilor
Distributie tip “long tail” a informatiilor
Continut dinamic
Verificare minima a informatiilor
Varietate
Numar mare de participanti
Fragilitate (spam, troling, asimetrie useri, informatii
false, trunchiate, gresite, amatorism etc)
WEB 2.0
• Utilizare
–
–
–
–
–
–
–
–
–
–
–
–
–
Podcasting (serii audio, video, documente electronice)
Blogging
Tagging (categorisirea informatiilor)
Descoperirea si distribuirea informatiilor
Social bookmarking = adaugare, adnotare, editare si distribuire de link-uri
spre interiorul paginilor web
Retele sociale
Vot pe web
Marketing
Educatie
Actiuni de caritate
Munca in folosul societatii
Aplicatii web-based si aducerea tehnologiilor desktop in browser
Distributia obiectelor media
Evolutia web
Educatia web 2.0
Evolutia web
Evolutia web
Link-uri utile
•
•
•
•
•
•
•
•
http://www.edudemic.com/the-35-best-web-2-0-classroom-tools-chosen-by-you/
http://edjudo.com/web-2-0-teaching-tools-links
http://web20guru.wikispaces.com/Web+2.0+Resources
http://oedb.org/ilibrarian/101-web-20-teaching-tools/
http://en.wikipedia.org/wiki/Web_2.0 (http://ro.wikipedia.org/wiki/Web_2.0)
http://www.webopedia.com/TERM/W/Web_2_point_0.html
http://webtrends.about.com/od/web20/a/what-is-web-30.htm
http://www.timsoft.ro/ke/modul1.html#2
Teme propuse
•
•
Cum au implementat web 2.0 Yahoo, Amazon, Microsoft si Google?
Evolutia web 1.0 -> 2.0 -> 3.0 -> 4.0