Robotii Web


Astronomie Biologie Chimie Desen Diverse Drept Economie Engleza Filozofie Fizica Franceza Geografie Germana Informatica Istorie Management Marketing Matematica Medicina Psihologie Romana Sport Tehnica

Adauga referat - poti sa ne ajuti cu un referat?

Politica de confidentialitate


• CREDITUL IPOTECAR PENTRU INVESTITII IMOBILIARE (economie) • Comertul cu amanuntul (economie) • IDENTIFICAREA CRIMINALISTICA (drept) • Mecanismul motor, Biela, organe mobile proiect (diverse) • O scrisoare pierduta (romana) • O scrisoare pierduta (romana) • Ion DRUTA (romana) • COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie) • COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie) • Starea civila (geografie)


• domnisoara hus • legume • istoria unui galban • metanol • recapitulare • profitul • caract • comentariu liric • radiolocatia • praslea cel voinic si merele da aur

Robotii Web

Vizite: ? Nota: ?

1. Prezentare generala m2o14oo
Robotii Web, regasiti si sub numele de paianjeni (spiders), reprezinta programe care traverseaza in mod automat structura hipertext a spatiului WWW, in scopuri de extragere a informatiilor folosind protocoalele Web standard.

Trebuie facuta o distinctie clara intre robotii Web si navigatoarele Web care sunt aplicatii actionate de om sau intre robotii Web si agentii Web care se bucura si de alte caracteristici, precum inteligenta, mobilitatea ori autonomia.

Activitatea unui robot Web este cea de a realiza o conexiune HTTP (HyperText Transfer Protocol) la un server Web continind un set de pagini, pornind de la un identificator uniform de resurse (URI), de a extrage informatiile dintr-un document HTML si din toate documentele desemnate de legaturile lui.

2. Utilizari
Robotii Web se pot utiliza in scopuri multiple, dintre care amintim:

analiza statistica
Prin traversarea unui intreg site Web, un robot poate furniza date privind media documentelor stocate pe un server, procentul de documente de un anumit tip, marimea medie a unei pagini, gradul de interconectare cu alte documente, locale sau la distanta etc. In fapt, primul robot implementat a fost conceput cu scopul de a contoriza serverele Web din lume, pentru a se cerceta cit de intins este spatiul hipertext.

mentinere
In prezent, este foarte important a se mentine in bune conditiuni starea hiperlegaturilor dintre documentele Web. Un robot poate ajuta la descoperirea si rezolvarea asa-numitelor "legaturi moarte" care pointeaza spre resurse inexistente. Desi serverele Web pot inregistra toate cererile care nu pot fi satisfacute din cauza specificarii adreselor invalide, administratorul unui site Web de proportii poate recurge la asistarea din partea unui robot (ca MOMSpider) pentru descoperirea automata a legaturilor eronate.

Robotii pot verifica si structura documentelor HTML, semnalind erorile de design si de stil ale acestora.

oglindire
Tehnica oglindirii (mirroring) este preluata de la arhivele FTP, reprezentind copierea la alta locatie a intregii structuri arborescente, in mod recursiv, a fisierelor unui site si reactualizarea periodica a acestora. Aceasta asigura fiabilitate, viteza mai mare de transfer, evitarea incarcarii traficului de retea sau acces neconectat (off-line).

Pentru Web, oglindirea poate fi realizata de un robot, care trebuie sa aiba grija de rescrierea referintelor la alte documente, la pastrarea integritatii hipertextului si la actualizarea regulata a paginilor WWW.

Oglindirea poate fi evitata, folosind in mod inteligent memoria cache a serverelor proxy (intermediare), care ofera posibilitati de actualizare selectiva si de organizare a resurselor.

descoperirea resurselor
Probabil cea mai spectaculoasa si importanta aplicatie a robotilor Web este utilizarea lor la descoperirea resurselor. Cresterea progresiva a volumului de informatii a dus la necesitatea conceperii de aplicatii pentru sumarizarea, indexarea, supraveghierea modificarilor informatiilor de pe Web.

Astfel, fiecare motor de cautare, continind baze de date privind localizarea si tipul de informatii dorite de utilizatori, apeleaza la serviciul robotilor Web pentru descoperirea resurselor Internet.

Un avantaj suplimentar este cel dat de monitorizarea modificarilor survenite in cadrul paginilor Web (servicii "Mind-It" sau "What's new").

utilizari combinate
Desigur, robotii Web pot indeplini sarcini multiple, ca de exemplu descoperirea resurselor si realizarea de statistici Web sau mentinerea integritatii legaturilor si, concomitent, detectarea schimbarilor documentelor HTML.

3. Pericole si costuri de utilizare ale robotilor
Prin traversarea unui numar mare de hiperlegaturi, robotii necesita o largime buna de banda, deoarece ei pot opera continuu perioade lungi de timp (saptamini sau chiar luni). Pentru a accelera aceste operatii, multi roboti au implementate tehnici de extragere paralela a datelor, metoda denumita operare in foc rapid (rapid fire), rezultind un trafic considerabil (o incetinire temporara a transferului de date). Mai mult, serverele Web pot fi supraincarcate de cereri multiple de accesare venite din partea robotilor in detrimentul cererilor agentilor-utilizator. Asadar implementarea robotilor permitind foc rapid trebuie evitata.

Un alt aspect care trebuie luat in consideratie este timpul de actualizare a bazelor de date ale motoarelor de cautare folosind pentru descoperirea resurselor robotii Web. Robotii de cautare a informatiilor vor trebui sa decida care informatii sunt importante a fi transmise programelor de indexare.

Un alt pericol deriva din exploatarea necontrolata a robotilor Web de catre utilizatorii finali care pot folosi optiuni inadecvate sau pot rula mai multe instante de program, conducind la abuzuri nedorite.

Robotii Web, in special cei netestati indeajuns, pot fi ineficienti sau pot poseda vicii de arhitectura si astfel sa dauneze traficului de informatii pe Internet, mai ales daca sunt folositi de persoane neavizate ori de neprofesionisti. Implementari eronate pot determina robotii sa intre in arii aproape infinite denumite gauri negre (atunci cind de exemplu un document are o legatura care se refera la el insusi, iar programul nu detecteaza acest aspect). De asemeni, robotii nu trebuie sa acceseze tipuri de date fara relevanta, avind dimensiuni considerabile (e.g. arhive, fisiere executabile, fisiere multimedia etc.).

4. Tipuri de roboti Web
Criteriile de clasificare a robotilor sunt multiple, vom incerca sa prezentam robotii Web dupa activitatile care pot sa le realizeze.

roboti academici - sunt acei roboti disponibili in medii academice, avind ca scop anumite activitati de colectare a datelor dintr-o universitate sau de mentinere a integritatii legaturilor dintr-un site academic.

roboti de proiectare - poseda capabilitati de proiectare si de asistare in activitatile de design a paginilor Web sau de proiectare a altor tipuri de roboti.

roboti conversationali - ofera un partener virtual de discutii in Internet, fiind de obicei integrati serviciilor de teleconferinte pe Web. Ca exemplu, putem mentiona Eliza.

roboti de comert - sunt roboti inlesnind activitatile de comert electronic, licitatii pe Web, bursa etc.

roboti distractivi - ofera diverse facilitati de amuzament (jocuri, predictii, recomandari de adrese interesante etc.) pentru utilizatorii care parcurg paginile Web.

roboti guvernamentali - sunt acei roboti vizind servere continind informatii de interes guvernamental sau diplomatic ori cu caracter secret.

roboti inteligenti - manipuleaza informatii, posedind inteligenta artificiala, fiind utilizati pentru explorarea inteligenta a resurselor Web (e.g. Harvest sau W3QS).

roboti de stiri - monitorizeaza grupurile de stiri de pe Internet, modificarile din cadrul site-urilor mass-media (ziare electronice, posturi radio sau de televiziune prezente pe Web etc.), schimbarile de adrese si altele.

roboti de cautare - sunt robotii utilizati de motoarele de cautare (ca de exemplu WebCrawler).

roboti de actualizare - se folosesc pentru actualizarea automata a hiperlegaturilor si pentru detectia schimbarii adreselor Web.

5. Catalogarea informatiilor utilizind roboti
In prezent asistam la o dezvoltare exploziva a spatiului WWW, intr-o faza de existenta a prea multor informatii, cu un continut prea dinamic, conducind la generarea unui haos in Internet.

Procesul de regasire a informatiilor se bazeaza pe faptul ca din intreg volumul de date numai o fractiune reprezinta documente relevante pentru utilizator. Cea mai populara tehnica este cea a indexarii documentelor pe baza cuvintelor cheie furnizate fie explicit de creatorul acestor documente, fie in urma unei catalogari automate realizate de un robot. Cautarea se realizeaza folosind algoritmi de parcurgere locala de tip DFS sau BFS sau prin procesarea intr-o ordine inteligenta a legaturilor spre alte documente.

Intrebarile care se pun sunt:

Cit de relevante sunt activitatile de indexare si de sumarizare automate?

Documentelor HTML le pot fi atasate anumite atribute care sa le descrie continutul?

Raspunsul la ultima intrebare este dat de urmatoarele aspecte:

Standardul HTML permite autorilor de pagini WWW sa enumere cuvintele cheie care sa descrie cel mai adecvat continutul lor informational, prin folosirea in antet a tag-ului META. Iata un exemplu:

O metoda complementara este utilizarea de tag-uri ascunse care sa fie exploatate de diversi roboti (de pilda tag-urile speciale ale programului Teleport).

Descrierea inteligenta a resurselor poate fi realizata cel mai bine cu RDF (Resource Description Framework). Deja exista tehnici de generare automata a metadatelor RDF pentru descoperirea resurselor Web, pornind de la titluri, cuvinte cheie, descrieri, data crearii, numarul total de cuvinte dintr-un document etc.

Pot fi folosite diverse alte metode (euristici): explorare structurala, utilizarea retelelor neuronale sau a algoritmilor genetici etc.

Pentru excluderea robotilor din zone Web lipsite de relevanta, continind date temporare ori private, s-a adoptat un standard pentru excluderea robotilor. Acest standard se bazeaza pe accesarea unui fisier text robots.txt (stocat pe serverul Web) de catre un robot de explorare, fisierul specificind ce parti vor fi evitate de la parcurgerea automata (pentru evitarea gaurilor negre sau din alte ratiuni).

Un exemplu de astfel de fisier este cel de mai jos:

#/robots.txt pentru https://www.infoiasi.ro
User-agent: * # toti robotii

Disallow: /tmp/ # date temporare
Disallow: /busaco/work/ # spatiu privat

In vederea evitarii indexarii continutului unei pagini Web se poate scrie in antetul ei:

In activitatea de catalogare a informatiilor, de multe ori intervine ierarhizarea datelor in functie de subiectul pe care-l trateaza, aceasta clasificare ducind la aparitia serviciilor director (de genul GENVL). Clasificarea dupa subiect este similara retelei lingvistice WordNet.

Un robot de indexare a informatiilor poate sa se confrunte cu diverse probleme precum mutarea URI-urilor, cautarea intr-o oglindire si nu intr-o locatie originala, duplicarea legaturilor si altele.

Un utilizator poate apela la un serviciu de inregistrare automata la o suita de motoare de cautare, de obicei gratuit, ca de exemplu AddMe!.

6. O formalizare a activitatii de cautare pe Web
Cele mai multe implementari de roboti se concentreaza asupra cautarii informatiilor hipermedia pe Web. Daca in 1994 unul dintre primele motoare de cautare si anume WWWW (World Wide Web Worm) avea un index de 110 mii de pagini accesibile, iar in noiembrie 1997 cele mai populare motoare de cautare indexasera in medie 150 de milioane de documente, se prognozeaza ca in anul 2000 sa se ajunga la 1 miliard de pagini indexate.

Desigur, si numarul de cereri din partea utilizatorilor a crescut foarte mult, de la 1500 de cereri pe zi in martie si aprilie 1994, pina la 20 de milioane de cereri pe zi la sfirsitul anului 1997 (conform statisticilor AltaVista, unul dintre cele mai cunoscute servicii avansate de cautare).

Pentru a obtine rezultate optime in activitatea de cautare a informatiilor, trebuiesc gasite diverse formalizari utile apoi in fazele de proiectare a robotilor si motoarelor.

In general, putem considera o structura Web (netemporala) ca o functie partiala de la multimea URI-urilor la secvente finite de octeti. Intuitiv, fiecare structura Web desemnata de un identificator din multimea URI corespunde unui obiect (un document HTML, un fisier text, o imagine etc.). Functia este partiala deoarece anumitor URI-urilor nu le corespunde nici o resursa.

Pentru intregul spatiu Web vom considera structura denumita WWW. In realitate structura WWW variaza in timp, fiindca URI-urile pot sa se modifice (la un moment de timp t, vom avea starea Web WWWt). Vom presupune ca WWW este consistenta local din punct de vedere temporal, pentru intervalul de timp d, probabilitatea ca din WWWt(url) = seq, t > t' > t + d sa rezulte WWWt' (url) = seq este extrem de ridicata, unde url apartine multimii de URI-uri, iar seq este o secventa de date. Altfel spus, exista un interval de timp suficient de mare astfel incit pentru acel interval structura Web poseda acelasi identificator uniform de resursa.

Vom defini un obiect Web ca o pereche (url, seq), unde url este un element din multimea de identificatori URI, iar seq este o secventa de octeti, cu seq = WWW(url). Spatiul Web poate deci fi privit ca o multime numarabila de obiecte Web.

Marea problema a motoarelor conventionale de cautare este ca se realizeaza numai indexarea textului si nu a structurii hipertext a documentelor HTML. Achizitia si indexarea automate a informatiilor text duc la o relevanta scazuta a rezultatelor cautate. Pentru indexarea hipertextului, trebuie avut in vedere aspectul dinamic al acestuia, reprezentat de diversele legaturi care trimit catre alte documente. Metodele traditionale folosite pur si simplu "uita" structura hipertext a documentelor, explorind doar continutul liniar, oferind astfel doar informatii textuale despre acel document si nu informatiile structurale, de tip hipertext. Din punct de vedere formal, cautarea se rezuma doar la informatiile date de seq si nu si de a doua componenta (url) a unui obiect Web. Ca exceptie partiala poate fi data asa-numita vizibilitate a unui obiect Web, masurind numarul de documente conectate de acel obiect. Motoare de cautare ca Excite sau Lycos exploateaza aceasta informatie. Problema este ca vizibilitatea nu ofera nimic despre continutul informativ al obiectului in cauza. Putem privi vizibilitatea ca o masura pentru popularitatea unei pagini Web, care nu are nimic de a face cu calitatea denotata de continutul ei intrinsec.

6.1 Hiperinformatia
Informatia data de dinamismul legaturilor dintr-un document Web va fi denumita hiperinformatie, care va fi adaugata informatiei textuale a obiectului, reuniunea celor doua tipuri de informatie furnizind informatia totala asupra Web-ului. Vom desemna aceste trei tipuri de informatie ca HYPERINFO, TEXTINFO si, respectiv, INFORMATION. Astfel, pentru fiecare obiect Web O vom avea INFORMATION(O) = HYPERINFO(O) + TEXTINFO(O). Aceste functii de masurare a informatiei vor fi dependente de cererea utilizatorului, cuantificind continutul informativ al unui obiect pentru o cerere specifica. Desigur, analiza continutului informativ a unui obiect Web O implica toate obiectele Web ce sunt accesibile via hiperlegaturi (i.e. "navigind" pe Web). Din ratiuni practice, aceasta explorare in profunzimea hipertextului va trebui sa se realizeze doar un numar finit de pasi (vizitari de legaturi).

Dat un obiect Web O, adincimea (relativa) a unui alt obiect Web O' este data de numarul minim de legaturi ce pot fi activate (parcurse) pentru accesarea lui O' pornind de la O.

Fixind o anumita adincime, putem selecta o vecinatate locala finita a unui obiect Web din spatiul hipertext World Wide Web. Problema este sa stabilim hiperinformatia de o adincime k pentru un obiect O, notind aceasta cu HYPERINFOaki. Informatia totala de adincime k va fi notata cu INFORMATIONaki.

Vom considera astfel functiile HYPERINFO, TEXTINFO si INFORMATION de la multimea obiectelor Web la multimea numerelor reale nenegative. Intuitiv, cu cit valoarea unei functii e mai mare, cu atit continutul informational al acelui obiect este mai relevant. Aceste functii vor fi marginite (exista un numar M astfel incit M > INFORMATION(O), pentru orice obiect O).

6.2 Legaturi simple
Vom considera mai intii cazul in care fiecare obiect Web poseda cel mult o legatura. Exista doua posibilitati: acea legatura sa fie o legatura interna (catre un fragment de informatie din acel document) sau legatura este intre obiectul Web A spre obiectul Web B (vezi figura de mai jos):

Figura 1. Legatura de la A la B
Solutia, simpla dar eronata, este sa se asocieze continutului textual al obiectului A si continutul textual al obiectului B, inlocuind legatura cu obiectul Web spre care pointeaza. Astfel, continutul informational al celor doua obiecte va fi similar, desi poate in realitate utilizatorul era interesat numai de informatiile din obiectul B. Aceasta problema devine mai evidenta daca vom considera cazul de marire a adincimei, avind situatia in care Bk este la adincime k de A, cu k destul de mare (e.g. k > 10):

Figura 2. Legatura de la A la Bk
Presupunem ca obiectele A, B1,..., Bk-1 au un continut informativ apropiat de zero, iar Bk are un continut informativ total ridicat. Conform metodei de mai sus, A va avea informatia totala mai mare decit cea a lui Bk, ceea ce este complet fals in realitate, conducind la o cautare eronata.

Informatia textuala ca sursa a unei legaturi dintr-un document nu poate fi considerata drept actuala, ci numai potentiala. Pentru utilizator exista un cost pentru a retine acea informatie textuala disponibila dupa parcurgerea legaturii (se pierde un timp de asteptare pentru incarcarea documentului). Astfel, intervine in calcul si adincimea (numarul de legaturi pe care trebuie sa le parcurga utilizatorul pina la accesarea documentului conectat cu documentul de la care a plecat).

Contributia informatiei textuale a obiectului B, avind adincimea k, la hiperinformatia obiectului A este data de relatia Fk·TEXTINFO(B), unde 0 < F < 1. Pentru situatia din figura 2., hiperinformatia lui A nu este:

TEXTINFO(B1) + TEXTINFO(B2) +...+ TEXTINFO(Bk) ci este furnizata de:
F·TEXTINFO(B1) + F2·TEXTINFO(B2) +...+ Fk·TEXTINFO(Bk)
Informatia textuala a lui A poate fi considerata ca fiind data de formula F0·TEXTINFO(A), obiectul A fiind la distanta nula de el insusi.

Se poate da si o relatie de recursie: INFORMATIONaki(A) = F·INFORMATIONak-1i(B), care furnizeaza tocmai formula enuntata mai sus.

6.3 Legaturi multiple

Vom considera acum cazul in care un obiect Web poseda mai mult de o legatura, luind insa adincimea egala cu 1. Vom avea situatia ilustrata in figura de mai jos:

Figura 3. Legaturi multiple
Nu putem masura hiperinformatia ca in situatia de la legaturi simple, deoarece am presupus functia de calcul marginita (nu putem suma contributia informationala a fiecarei legaturi: F·TEXTINFO(B1) + F·TEXTINFO(B2) +...+ F·TEXTINFO(Bn), fiindca numarul de legaturi ale unui document poate tinde la infinit).

De remarcat ca utilizatorul nu poate parcurge toate legaturile in paralel, ci in maniera secventiala, selectind la un moment dat doar una dintre ele. In cel mai bun caz, utilizatorul va urma cea mai informativa legatura, apoi cea de a doua in ordinea continutului informational si asa mai departe. Astfel, vom ordona legaturile in functie de continutul lor informational, presupunind ca TEXTINFO(B1) > TEXTINFO(B2) >...> TEXTINFO(Bn). Hiperinformatia asadar poate fi calculata prin relatia:

F·TEXTINFO(B1) + F2·TEXTINFO(B2) +...+ Fn·TEXTINFO(Bn)
Se poate observa ca functia este marginita de F/(F+1). In exemplul de fata am ales cea mai buna secventa de legaturi, considerind ca hiperinformatia reprezinta functia care masoara cel mai bine continutul informational potential, insa in realitate utilizatorul s-ar putea sa nu viziteze legaturile in ordinea relevantei lor si nu putem impune a priori ca oricare legatura ar avea vreo relevanta pentru utilizator. Legaturile nerelevante, cu scor nul, vor putea fi insa ignorate.

6.4 Cazul general - un exemplu
In cazul general vom avea legaturi multiple, cu un factor arbitrar k de adincime, si-l vom trata luind in consideratie cele enuntate mai sus. Informal, toate obiectele Web avind adincime mai mica decit k vor fi sortate, generind o secventa de selectie, in ordinea hiperinformatiei. Iata un exemplu:

Figura 4. Un exemplu de obiecte Web
Vom presupune ca F=0,5, TEXTINFO(B)=0,4, TEXTINFO(C)=0,3, TEXTINFO(D)=0,2 si TEXTINFO(E)=0,6. Prin secventa de selectie A-B-C-E-D (secventa optima de maximizare a hiperinformatiei), vom avea: 0,5·TEXTINFO(B) + 0,52·TEXTINFO(C) + 0,53·TEXTINFO(E) + 0,54·TEXTINFO(D) (=0,3625).

Remarci
O alta problema care poate apare este cea a legaturilor de intoarcere. Multe pagini Web au legaturi de intoarcere la documentul din care au fost accesate. Astfel, avem situatia din figura de mai jos, cind obiectele A si B au legaturi de la unul la altul:

Figura 5. Legaturi de intoarcere
In acest caz, informatia textuala a lui A se adauga in mod recursiv de un numar neprecizat de ori atunci cind vom calcula hiperinformatia obiectului A.

Exista posibilitatea aparitiei legaturilor duplicate (doua legaturi intr-un obiect Web pointind spre acelasi obiect Web). Solutia este evitarea unor astfel de probleme prin considerarea unei submultimi a multimii tuturor secventelor de selectie a legaturilor.

Un alt aspect interesant este cel de considerare a definitiei legaturii intr-un obiect Web. O legatura se numeste activa daca legatura poate fi vizualizata (vizitata) prin accesarea perechii (url, seq) cu ajutorul unui navigator HTML. In cadrul modelului vor trebui considerate numai legaturile active, care pot fi explorate in realitate, corespunzindu-le un URI valid.

Pentru procesul de cautare, fiecare tip de legatura va fi tratat in mod corespunzator. Legaturile locale (interne) specificate in documentele HTML prin #specificator vor fi ignorate. Cadrele (frames) vor trebui sa fie expandate, fiind inlocuite de continutul documentelor spre care pointeaza. Alte legaturi (spre imagini de exemplu) vor fi activate automat, desi in prezent este foarte dificil de a exploata continutul informational al documentelor care nu sunt de tip text.

6.5 Testarea
Tehnica de utilizare a hiperinformatiei in cadrul procesului de cautare pe Web poate fi implementata prin folosirea unui postprocesor pentru motoarele de cautare existente. In prima faza, cererile vor fi onorate de un motor de cautare traditional, iar paginile obtinute vor fi folosite ca intrare a postprocesorului manipulind hiperinformatia. Vor fi alese motoarele de cautare care vor furniza scorul de relevanta a paginilor gasite in functie de cererile utilizatorului. In procesul de testare, s-au folosit doi parametri Fin (uzual egal cu 0) si Fout (egal cu 0,75) dind valoarea minima si cea maxima intre care poate varia F. Au fost formulate 25 de cereri, evaluarea constind din calcularea unui scor variind intre 0 (complet nerelevant) si 100 (relevanta totala) pentru o multime de 100 de pagini furnizate de motorul de cautare.

In cadrul implementarii postprocesorului au fost luate in consideratie urmatoarele principii:

Datele obtinute de motoarele de cautare sunt filtrate astfel incit sa fie prezentate la intrare postprocesorului intr-un format neutru, independent de formatul de iesire furnizat de motorul de cautare.

Cererile sunt formulate aleatoriu, independente de domeniu si de tematica.

Alegerea paginilor a caror adrese sunt furnizate de motoarele de cautare se realizeaza in mod aleatoriu.

Evaluarea cautarilor (pentru un numar de cinci motoare Web) este ilustrata in diagrama de mai jos:

Figura 6. Cautarea traditionala vs. cautarea folosind hiperinformatia
Se pot compara rezultatele cautarilor si din tabelul urmator:

Excite HotBot Lycos WebCrawler OpenText M E D I A
Normal 80.1 62.2 59.0 54.2 63.4 63.2
Hiperinfo. 85.2 77.3 75.4 68.5 77.1 76.7

Tabelul 1. Comparatii intre cautari traditionale si cele bazate pe hiperinformatie
7. Conceperea unui robot Web
Inainte de a purcede la conceperea unui robot, folosind sau nu metode de calcul al hiperinformatiei, trebuiesc avute in vedere urmatoarele:

Chiar avem nevoie de un alt robot sau adoptam nevoilor noastre unul deja existent?

Robotul trebuie identificat usor de administratorul Web si autorul acelui robot trebuie sa fie contactat facil.

Robotul va trebui sa fie mai intii testat pe date locale, intr-o retea proprie, inainte de a fi disponibil in Internet.

Robotul va fi moderat in ceea ce priveste resursele: prevenirea focului rapid, eliminarea cautarilor redundante si inutile.

Robotul se va conforma standardului de excludere a robotilor.

Autorul robotului va analiza continuu activitatile robotului propriu.

Rezultatele furnizate de robot (diversele statistici sau alte date) vor putea fi facute disponibile spre consultare celor interesati.

Majoritatea robotilor Web actuali respecta recomandarile de mai sus.

8. Exemple
8.1 DataBots - un robot manipulind informatii
Creatie a companiei Imagination Engines Incorporated, DataBots este un robot utilizat in descoperirea informatiilor pe Web, folosind tabelele Excel pentru generarea unor retele neuronale menite a analiza datele luate din Internet. Paradigma utilizata este denumita Creativity Machine, permitind luarea decizilor asistata de calculator pe baza informatiilor extrase de robotul Web.

Structura acestui robot inteligent este data de figura de mai jos:

Figura 7. Structura interna a robotului DataBots
8.2 Wisebot - utilizat pentru administrarea site-urilor Web
Wisebot este o aplicatie a companiei Tetranet, putind fi utilizat la organizarea unui site Web. Robotul efectueaza o analiza a tuturor paginilor Web existente pe un server, retinind intr-o baza de date cele mai importante informatii despre ele (titlu, cuvinte-cheie, timpul ultimei actualizari etc.). Robotul poate automat genera cuvintele cheie aferente unei pagini, utilizind tehnologia Extractor, prin contorizarea celor mai frecvente cuvinte si luind in consideratie pozitia lor in cadrul paginii. Astfel, se construieste un index pentru intreg continutul hipertext al serverului, care va fi sursa pentru harta de navigare in cadrul site-ului (actualizata la momente regulate de timp in mod automat).

Acest robot este disponibil in mediile Windows. Pentru platformele UNIX, exista o multitudine de roboti similari, dintre care se pot mentiona tkWWW sau RBSE (Respository Based Software Engineering).

8.3 Inktomi - statistici Web

Robotul de cautare Inktomi a fost conceput in cadrul unui proiect de cercetare condus de Eric Brewer si Paul Gautier de la Universitatea Berkeley, cu scopul de a utiliza tehnicile de procesare paralela pentru indexarea, cautarea si analiza paginilor Web. Primele seturi de date au fost preluate in perioada iulie-octombrie 1995 colectindu-se 1,3 milioane de documente HTML unice, urmate in noiembrie 1996 de 2,6 milioane de documente HTML.

8.3.1 Experimentul
In cadrul prelucrarii datelor colectate de robot, s-au folosit urmatoarele aplicatii:

libink este o biblioteca de componente pentru extragerea si manipularea datelor hipertext, constind din patru module principale:

analizorul HTML este un scaner lexical inspirat din flex, configurabil si rapid;

analizorul URI este un analizor al identificatorilor uniformi de resurse (URI);

translatorul DNS converteste adresele simbolice ale serviciului numelor de domenii (DNS) in adrese IP numerice, utilizind o memorie cache suplimentara;

serviciile generale pentru tabele hash sunt folosite in cadrul procesului de prelucrare a datelor, implementind tabele hash distribuite.

style este un program standard UNIX raportind diverse proprietati statistice (lungimea medie a unei fraze, numarul mediu de propozitii dintr-o fraza complexa, numarul total de cuvinte etc.) utile analizei documentelor din perspectiva limbajului natural. In cadrul experimentului au fost considerate doar documente scrise in limba engleza.

weblint este un analizator structural de marcaje pentru documentele HTML, inspirat din utilitarul UNIX lint.

8.3.2 Rezultatele
Criteriile de analiza au fost urmatoarele:

lungimea documentelor

media numar de marcatori/lungimea paginii

utilizarea marcatorilor

utilizarea atributelor

utilizarea marcatorilor specifici unor navigatoare particulare

utilizarea portului de conectare

protocoalele in cadrul URI-urilor

tipurile fisierelor specificate in componenta URI-urilor

erorile de sintaxa

Iata citeva dintre rezultatele obtinute.

Lungimea documentelor
Pentru cele 2,6 milioane de documente HTML colectate de Inktomi, dupa inlaturarea marcajelor s-a calculat lungimea fiecarui document. Lungimea minima gasita a fost de 4,4 KB, lungimea maxima de 1,6 MB, iar lungimea media a fost de 2,0 KB.

Utilizarea marcatorilor
In ceea ce priveste distributia tag-urilor, numarul mediu de marcatori pe document a fost 71, iar numarul de marcatori unici pe document a fost 11. In figura de mai jos se poate remarca ponderea in procente a celor mai populare 10 tag-uri si numarul mediu de aparitii ale lor.

Figura 8. Cele mai utilizate 10 tag-uri
Utilizarea atributelor
Numarul mediu de atribute prezente intr-un document a fost 29, iar numarul mediu de atribute unice pe document a fost 4. In figura 9 se poate observa procentul de aparitie a primelor 10 atribute (firesc, atributul cel mai popular a fost href, urmat de src).

Figura 9. Cele mai utilizate 10 atribute
Utilizarea portului de conectare
Protocolul de transfer HTTP uzual foloseste portul 80 pentru accesarea paginilor Web. Acest port este utilizat in proportie de 93,6%. Numarul de porturi unice specificate in documentele hipertext a fost 418.

Protocoalele in cadrul URI-urilor
Extragind URI-urile specificate in fiecare pagina Web, s-au putut calcula procentele de aparitie a celor mai utilizate protocoale: HTTP, SMTP (mailto), FTP, GOPHER, NNTP (news) si TELNET.

Figura 10. Frecventa de utilizare a protocoalelor
Tipurile fisierelor
In cadrul fiecarui URI prezent intr-un document HTML au fost specificate:

0,7% arhive GNU ZIP (.gz .gzip .tar .tgz)
0,7% arhive ZIP (.zip)
0,6% arhive compress (.Z)
76,3% documente HTML (.html .htm)
2,2% document text (.txt)
1,8% documente PostScript (.ps .eps)
0,7% audio Sun (.au)
0,3% audio MS-Wave (.wav)
61,7% imagini GIF (.gif)
7,8% imagini JPEG (.jpeg .jpg .jpe)
0,3% video MPEG (.mpeg .mpg .mpe)
0,2% video QuickTime (.mov .qt)

Erorile de sintaxa
Programul weblint a gasit aproximativ 92000 (0,7%) de documente continind erori sintactice. Figura urmatoare furnizeaza primele 10 cele mai comune erori.

Figura 11. Cele mai frecvente 10 erori detectate
Legenda: html-outer - nu exista tag-urile <html>...</html> no-head - lipseste elementul <head> head-element - tag-urile specifice antetului paginii Web (<title>, <link>, <base> sau <base>) apar in afara acestuia no-body - lipseste elementul <body> must-follow - lipsesc marcatorii obligatorii in cadrul altui tag unclosed-element - tag-urile de sfirsit lipsesc netscape-markup - marcaje specifice Netscape (nu trebuie considerata neaparat o eroare, ci mai mult o abatere de la standardul HTML definit de Consortiul Web) empty-container - elemente vide, fara continut mis-match - tag-uri nepotrivite (de exemplu <h2>...</h3>) heading-order - ordine inadecvata a elementelor de tip Hx
8.4 LiveAgent Pro - pentru realizarea oglindirilor Web
Dezvoltat de AgentSoft, robotul LiveAgent Pro este destinat efectuarii automate a oglindirilor unui server Web la alta locatie. Alte facilitati ale aplicatiei sunt completarea automata a formularelor electronice, posibilitatea de programare prin intermediul scripturilor sau utilizarea robotului in Intranet.

9. Referinte bibliografice
A.Ardö, S.Lundberg - "A regional distributed WWW search and indexing service - the DESIRE way", WWW7 Conference Proceedings, 1998
D.Barker - "A Data Mining Bot That Gets Smarter As It Digs", BotSpot Magazine, sep.1998
D.Barker - "Documents Delivered to Your Door", BotSpot Magazine, dec.1997
D.Barker - "Fine-Tune Your Own Search Engine", BotSpot Magazine, iun.1998
S.Brin, L.Page - "The Anatomy of a Large-Scale Hypertextual Web Search Engine", WWW8 Conference Proceedings, Canada, Elsevier Science, May 1999
S.C.Buraga - "Identificarea resurselor Internet", Iasi, 1999: https://www.infoiasi.ro/Ibusaco/odix/uri.html
C.Gütl, K.Andrews, H.Maurer - "Future Information Harvesting and Processing on the Web", European Telematics: advancing the information society Proceedings, Barcelona, feb.1998
F.Heylighen, J.Bollen - "The World-Wide Web as a Super-Brain: from metaphor to model", in R.Trappl (ed.) - "Cybernetics and Systems", World Science, Singapore, 1996
C.Jenkins et al. - "Automatic RDF Metadata Generation for Resource Discovery", WWW8 Conference Proceedings, Canada, Elsevier Science, May 1999
M.Koster - "Robots in the Web: threat or treat?", ConneXions, Volume 9, No. 4, April 1995 (1997: Updated links and addresses): https://info.webcrawler.com/mak/projects/robots/threat-or-treat.html
M.Marchiori - "The Quest for Correct Information on the Web: Hyper Search Engines", WWW6 Conference Proceedings, France, Elsevier Science, 1997: https://www.scope.gmd.de/info/www6/technical/paper222/paper222.html
M.Ramsey - "WebSpiders", 1997
A.Woodruff et al. - "An Investigation of Documents from the World Wide Web", Computer Science Division, University of California at Berkeley, 1997: https://www.cs.berkeley.edu/Iwoodruff/inktomi/
* * * - "AddMe!": https://www.addme.com
* * * - "AltaVista": https://www.altavista.com
* * * - "Bot Spot": https://bots.internet.com
* * * - "Eliza": https://www-ai.ijs.si/eliza/eliza.html
* * * - "Excite": https://www.excite.com
* * * - "Harvest": https://harvest.transarc.com
* * * - "Inktomi": https://www.inktomi.com
* * * - "Lycos": https://www.lycos.com
* * * - "W3QS": https://www.cs.technion.ac.il/Ikonop/w3qs.html
* * * - "WebCrawler": https://www.webcrawler.com
* * * - "Webopedia": https://webopedia.internet.com/TERM/r/robot.html

Comentarii:

Noteaza documentul:
In prezent fisierul este notat cu: ? (media unui numar de ? de note primite).