Document, comentariu, eseu, bacalaureat, liceu si facultate
Top documenteAdmitereTesteUtileContact
      
    


 


Ultimele referate adaugate

Adauga referat - poti sa ne ajuti cu un referat?

Politica de confidentialitate



Ultimele referate descarcare de pe site
  CREDITUL IPOTECAR PENTRU INVESTITII IMOBILIARE (economie)
  Comertul cu amanuntul (economie)
  IDENTIFICAREA CRIMINALISTICA (drept)
  Mecanismul motor, Biela, organe mobile proiect (diverse)
  O scrisoare pierduta (romana)
  O scrisoare pierduta (romana)
  Ion DRUTA (romana)
  COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie)
  COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie)
  Starea civila (geografie)
 

Ultimele referate cautate in site
   domnisoara hus
   legume
    istoria unui galban
   metanol
   recapitulare
   profitul
   caract
   comentariu liric
   radiolocatia
   praslea cel voinic si merele da aur
 
despre:
 
JaBot - un agent inteligent poliglot pentru site-uri Web implementat in Java
Colt dreapta
Vizite: ? Nota: ? Ce reprezinta? Intrebari si raspunsuri
 
f3g9gc
Articolul prezentat de Tim Read si Elena Barcena de la Departamentul de Filologie si Lingvistica din cadrul Universitatii UNED, Madrid - Spania, la COLING-ACL '98, trateaza o problema foarte actuala a programarii Web si anume cea a conceperii de agenti inteligenti pentru site-urile Web si posibila legatura a acestora cu procesarea limbajului natural. Mai concret, autorii prezinta nu tip nou de agent inteligent cu o interfata pentru limbaj natural ce suporta mai multe limbi si care regaseste informatia dintr-un anumit site Web. Un alt atu al JaBot ar fi eficienta si timpul scurt de rulare, acesta fiind conectat la o harta lexical-semantica, si neruland direct in pagina Web. Aceasta harta (map) se bazeaza pe continutul site-ului Web considerat impreuna cu alte cunostinte lingvistice asociate. Introdus la inceputul anilor '90 de firma Sun Microsystems, limbajul Java s-a dovedit a fi un limbaj simplu, robust, dinamic, multithreaded, de scop general, complet orientat-obiect si independent de platforma. Aceste calitati il recomanda ca pe un limbaj de programare ideal pentru agenti si pentru aplicatiile lingvisticii computationale destinate Web-ului. Puterea limbajului Java poate fi regasita in patru aspecte esentiale, si anume: portabilitate, securitate, robustete si usurinta in utilizare (eficienta sporita pentru programator, in comparatie cu C++, de exemplu).
Unele aplicatii din domeniul celor mentionate mai sus incep sa apara pe Web; un astfel de exemplu este programul "Profesor Virtual" dezvoltat in Java de catre autorii acestui articol si de o echipa a universitatii UNED, program ce prezinta un mecanism destinat invatarii limbii engleze.

Dupa cum bine se stie, accesul la cantitatea vasta de informatie pe care ne-o ofera Web-ul ridica anumite probleme in ceea ce priveste catalogarea si indexarea intregii informatii disponibile. Marimea considerabila a Web-ului si continutul sau in continua schimbare presupun o actualizare continua a indecsilor in catalog. Tehnologia agentilor sau a robotilor, desemnati in terminologia programatorilor si prin termenul de bot, joaca un rol din ce in ce mai important in acest proces al maparii.
Robotii si Web-ul
Robotii (bots) se deosebesc de celelalte programe prin faptul ca ei poseda un oarecare nivel de inteligenta si independenta. Aparuti pentru prima oara in jurul anilor '60, robotii trebuie vazuti astazi prin prisma unei cu mult mai largi miscari spre sistemele distribuite bazate pe obiecte. Tendita actuala este de a utiliza sisteme de retele de calculatoare formate dintr-un numar mare de task-uri cooperante si dependente de componenta, in locul utilizarii unor programe masive. Unele dintre aceste componente vor lucra atunci cand li se va porunci sa lucreze, altele, robotii, vor avea un grad mai ridicat de autonomie, facilitand experienta on-line (interactiunea om-web devine mai placuta si mai productiva).




Motoarele de cautare pe Internet au reputatia de a fi neprietenoase neoferind prea mare ajutor in regasirea informatiei cerute, in ciuda faptului ca unele dintre ele ofera interactiune in limbaj natural elementar. Problema apare insa exact in momentul cand utilizatorul se conecteaza la un anumit site Web pentru a cauta informatia pe care persoana in cauza crede ca se gaseste in acel site. Cautarea este in general destul de dificila in sensul determinarii unor link-uri catre informatii realmente utile, deoarece baza tehnologiei actuale a motoarelor de cautare este de a utiliza siruri de literali bazate pe 'wild card', deci regasirea informatiei se realizeaza cu pattern matching referitor la cuvintele cheie introduse in interogare. Aceasta inseamna ca rezultatul cautarii ar putea foarte bine fi zero legaturi sau o lista foarte larga de legaturi catre informatii legate intr-o foarte mica masura de conceptul initial ce a fost cautat (presupunand ca persoana care efectueaza cautarea nu cunoaste cuvinte cheie ce se regasesc in intrarile indecsilor).
Pentru a rezolva aceste probleme, autorii mentionati la inceput au conceput si implementat un robot care functioneaza in interiorul unui site Web.
Constructia JaBot
In primul rand, denumirea de JaBot vine de la "Java-Based Bot", iar termenul de bot vine de la "robot", acestea din urma fiind ambele sinonime pentru "agenti inteligenti". Acest program a fost scris in intregime in Java. Cerinte:
Un robot care asista un site Web trebuie sa faciliteze explorarea continutului respectivului site, fara a fi limitat la manipularea de bucati de text in cautarea 'oarba'. Robotul trebuie sa fie flexibil, in sensul ca trebuie sa regaseasca termenii care raspund interogarii nu doar prin utilizarea literala a cuvintelor de intrare, ci mai degraba trebuie sa "inteleaga" conceptul ce i-a fost solicitat sa-l regaseasca, astfel facand posibila cautarea unei aceleiasi informatii utilizand termeni diferiti, dar echivalenti semantic. Aceasta problema apare deoarece legatura intre unitatile ligvistice si conceptuale nu este o legatura biunivoca (unu-la-unu).
Interfata agentului trebuie sa permita interogare in intregime in limbaj natural, permitand prezentarea intrebarilor intr-o maniera naturala. Interogarile pot fi formulate in limbaj natural, iar raspunsul este sub forma de legaturi in site-ul Web care se refera la informatii relationate cu interogarea, adica, se refera la continutul semantic si nu la continutul textual al interogarii.
Interfata trebuie sa fie multilingva, permitand astfel utilizatorilor sa exprime interogari intr-o limba diferita de cea a paginilor Web din acel site. Daca raspunsul va fi in limba in care a fost realizata interogarea depinde de modul in care a fost conceput site-ul; daca exista pagini implementate in mai multe limbi, atunci ar fi posibila furnizarea raspunsului in diferite limbi.
Fisierul binar ce corespunde agentului trebuie sa fie suficient de mic in vederea realizarii unui transfer rapid al acestuia prin retea.
Constructia agentului:
JaBot este dependent de domeniu, in sensul ca el opereaza numai pe site-ul Web pentru care a fost configurat. Acest lucru prezinta importanta practica deoarece limiteaza atat diversitatea conceptuala cat si cea lingvistica ce urmeaza a fi procesata (pana acum, aceasta abordare pare a fi cea mai avantajoasa pentru aplicatiile lingvisticii computationale). Altfel spus, utilizatorului programului JaBot vor formula interogari ce urmaresc localizarea unor informatii care probabil exista in acel site Web, si nu interogari cu un grad prea mare de generalitate (adica nu orice tip de intrebari).

Structura
JaBot contine trei module: - o interfata in limbaj natural - un motor de cautare - o lista interactiva de referinte la paginile Web ale site-ului pe care opereaza.

La pornire sunt incarcate doua fisiere, si anume: - un fisier ce contine unitatile lingvistice (avand o mica sau nula relevanta semantica in contextul extragerii de informatie din site-ul Web) - o corespondenta (map) lexicalo-semantica.

Fisierul ce contine unitatile lingvistice cuprinde o lista a elementelor gramaticale si lexicale, semne, cuvinte si alte siruri lingvistice care nu sunt folosite la localizarea intrarilor in site-ul Web.

Fisierul ce reprezinta corespondenta lexical-semantica contine elemente lexicale (ex: termeni si componente) ce corespund conceptelor extrase din paginile Web ale site-ului, precum si alte sinonime si cvasi- sinonime care pot fi folosite pentru a referi o anumita notiune.

Constructia fisierului unitatilor lexicale este mai usoara decat constructia celui de-al doilea fisier mentionat, deoarece pentru o anume limba elementele ce nu au informatie semantica raman constante, independent de site-ul Web. Deci, odata construite versiuni ale acestui fisier de date pentru principalele limbi de circulatie utilizate pe Web, acestea vor putea fi facute disponibile public pentru toate site-urile. Cele doua fisiere, adica cel al unitatilor lexicale si cel lexical- semantic au fost realizate in urma unui studiu empiric asupra modului in care sunt formulate interogarile privind continutul site-urilor Web.

Informatia lexicalo-semantica ce urmeaza a fi utilizata de catre motorul de cautare este extrasa din interogarile utilizatorului printr- un proces rudimentar de parsare, bazat pe restrictiile impuse de fisierul cu unitatile lexicale. In esenta, majoritatea cuvintelor gramaticale, precum si anumite alte parti literale de limbaj sunt inlaturate, ramanand astfel un sir de lexeme cheie care apartin categoriilor lingvistice deschise. Parserul nu ia in consideratie punctuatia interogarii, deoarece se presupune ca utilizatorul a introdus o unica intrebare, nu o serie de intrebari si nici nu a introdus alte propozitii cu functie informativa. Aceasta procedura este motivata prin faptul ca gramaticalitatea unui astfel de input electronic este de obicei foarte scazuta, ea apropiindu- se de interogarile orale.

Elementele lexicale ramase sunt utilizate de catre motorul de cautare, nu direct pe site-ul Web, ci asupra nodurilor din maparea lexical-semantica. Fiecare nod din corespondenta cuprinde o legatura la o pagina Web (sau la o sectiune) si o lista de cuvinte si expresii semantic echivalente, in domeniul in cauza. In urma cautarii, utilizatorului ii este furnizata o lista de link-uri ce corespund nodurilor activate in procesul de cautare, ordonate in functie de numarul de elemente prezente in fiecare nod. Prin dublu click pe o astfel de legatura prezenta in lista se regaseste informatia prin incarcarea paginii corespunzatoare in fereastra principala a browser-ului.

Proprietatea JaBot-ului de a suporta accesare in mai multe limbi depinde de codificarea abordata in construirea corespondentei lexical- semantice si a fisierului unitatilor lingvistice. Daca se include informatie in limbi straine in ambele fisiere, atunci vor fi posibile interogari in diferite limbi. Continutul site-ului Web (si prin urmare raspunsurile catre utilizator) ar putea fi, cu toate acestea, doar intr-o anumita limba, si anume cea a site-ului respectiv (aceasta daca nu cumva site-ul a fost construit in asa fel incat sa contina informatie multilingva).

Avantajul acestui agent inteligent pentru Web este acela ca el utilizeaza asocieri semantice, fiind astfel capabil sa gaseasca aceleasi referinte in urma diverselor interogari ce exprima un acelasi concept, dar referit altfel. In acest mod, regasirea informatiei se face "inteligent", adica programul incearca sa prelucreze inputul si "sa inteleaga" la ce anume se refera utilizatorul.

Limitari si posibile imbunatatiri
In primul rand, JaBot contine un grad relativ mic de complexitate lingvistica. Interogarile input sunt parsate semantic intr-un mod ce permite lui JaBot sa raspunda unui set elementar de interogari posibile pe web, cu un anumit grad se flexibilitate, insa parserul nu poate deosebi structuri de genul "cu exceptia", sau negari. De asemenea, considerarea punctuatiei si a conjunctiei ar permite interogari multiple. Ar mai putea fi luata in consideratie chiar si ordinea propozitiilor. Aceste probleme apar mai curand din punctul de vedere teoretico- lingvistic si mai putin din cel practic, deoarece nu s-au observat astfel de interogari ca input in procesul real de cautare pe web.

O alta problema pe care autorii o au in vedere pentru o viitoare versiune este ca JaBot sa poata manevra input complex, ambiguu sau incomplet, sa fie capabil sa ceara clarificari utilizatorului daca autoevaluarea parsarii nu este multumitoare.

De asemenea, de mare interes practic este construirea unui mecanism semi-automat pentru realizarea corespondentei lexical-semantice. Realizarea manuala a acestui fisier este mare consumatoare de timp, iar operatia de reactualizare este si ea foarte costisitoare.

O cea de a doua tendita de imbunatatire priveste localizarea si extragerea informatiei. La nivelul cel mai simplu, un agent este o bucata de cod a carui esentiala sarcina este de a imbunatati productivitatea prin automatizarea procesului. Unii agenti, "agentii inteligenti", se pare ca au o anumita autonomie sau realizeaza ceva ce se poate numi "inteligent" (ex: determinarea importantei unui e-mai primit prin scanarea mesajului pentru cuvinte cheie ca "deadline" sau "castig la JaBot reprezinta un instrument de cautare mai flexibil decat unul traditional care se bazeaza pe cautarea orientata pe literali, oferind posibilitatea regasirii unei anumite informatii fara a fi necesara cunoasterea exacta, din partea utilizatorului, a cuvintelor cheie existente in site-ul Web respectiv ca intrari (indecsi) pentru motorul de cautare. Mai mult, acest agent scris in Java este capabil sa raspunda la interogari formulate intr-un limbaj natural diferit de cel al site-ului.


Colt dreapta
Creeaza cont
Comentarii:

Nu ai gasit ce cautai? Crezi ca ceva ne lipseste? Lasa-ti comentariul si incercam sa te ajutam.
Esti satisfacut de calitarea acestui document, eseu, cometariu? Apreciem aprecierile voastre.

Nume (obligatoriu):

Email (obligatoriu, nu va fi publicat):

Site URL (optional):


Comentariile tale: (NO HTML)


Noteaza documentul:
In prezent fisierul este notat cu: ? (media unui numar de ? de note primite).

2345678910

 
Copyright© 2005 - 2024 | Trimite document | Harta site | Adauga in favorite
Colt dreapta