|
Politica de confidentialitate |
|
• domnisoara hus • legume • istoria unui galban • metanol • recapitulare • profitul • caract • comentariu liric • radiolocatia • praslea cel voinic si merele da aur | |
JaBot - un agent inteligent poliglot pentru site-uri Web implementat in Java | ||||||
|
||||||
f3g9gc Articolul prezentat de Tim Read si Elena Barcena de la Departamentul de Filologie si Lingvistica din cadrul Universitatii UNED, Madrid - Spania, la COLING-ACL '98, trateaza o problema foarte actuala a programarii Web si anume cea a conceperii de agenti inteligenti pentru site-urile Web si posibila legatura a acestora cu procesarea limbajului natural. Mai concret, autorii prezinta nu tip nou de agent inteligent cu o interfata pentru limbaj natural ce suporta mai multe limbi si care regaseste informatia dintr-un anumit site Web. Un alt atu al JaBot ar fi eficienta si timpul scurt de rulare, acesta fiind conectat la o harta lexical-semantica, si neruland direct in pagina Web. Aceasta harta (map) se bazeaza pe continutul site-ului Web considerat impreuna cu alte cunostinte lingvistice asociate. Introdus la inceputul anilor '90 de firma Sun Microsystems, limbajul Java s-a dovedit a fi un limbaj simplu, robust, dinamic, multithreaded, de scop general, complet orientat-obiect si independent de platforma. Aceste calitati il recomanda ca pe un limbaj de programare ideal pentru agenti si pentru aplicatiile lingvisticii computationale destinate Web-ului. Puterea limbajului Java poate fi regasita in patru aspecte esentiale, si anume: portabilitate, securitate, robustete si usurinta in utilizare (eficienta sporita pentru programator, in comparatie cu C++, de exemplu). Unele aplicatii din domeniul celor mentionate mai sus incep sa apara pe Web; un astfel de exemplu este programul "Profesor Virtual" dezvoltat in Java de catre autorii acestui articol si de o echipa a universitatii UNED, program ce prezinta un mecanism destinat invatarii limbii engleze. Dupa cum bine se stie, accesul la cantitatea vasta de informatie pe care ne-o ofera Web-ul ridica anumite probleme in ceea ce priveste catalogarea si indexarea intregii informatii disponibile. Marimea considerabila a Web-ului si continutul sau in continua schimbare presupun o actualizare continua a indecsilor in catalog. Tehnologia agentilor sau a robotilor, desemnati in terminologia programatorilor si prin termenul de bot, joaca un rol din ce in ce mai important in acest proces al maparii. Robotii si Web-ul Robotii (bots) se deosebesc de celelalte programe prin faptul ca ei poseda un oarecare nivel de inteligenta si independenta. Aparuti pentru prima oara in jurul anilor '60, robotii trebuie vazuti astazi prin prisma unei cu mult mai largi miscari spre sistemele distribuite bazate pe obiecte. Tendita actuala este de a utiliza sisteme de retele de calculatoare formate dintr-un numar mare de task-uri cooperante si dependente de componenta, in locul utilizarii unor programe masive. Unele dintre aceste componente vor lucra atunci cand li se va porunci sa lucreze, altele, robotii, vor avea un grad mai ridicat de autonomie, facilitand experienta on-line (interactiunea om-web devine mai placuta si mai productiva). Motoarele de cautare pe Internet au reputatia de a fi neprietenoase neoferind
prea mare ajutor in regasirea informatiei cerute, in ciuda faptului ca unele
dintre ele ofera interactiune in limbaj natural elementar. Problema apare insa
exact in momentul cand utilizatorul se conecteaza la un anumit site Web pentru
a cauta informatia pe care persoana in cauza crede ca se gaseste in acel site.
Cautarea este in general destul de dificila in sensul determinarii unor link-uri
catre informatii realmente utile, deoarece baza tehnologiei actuale a motoarelor
de cautare este de a utiliza siruri de literali bazate pe 'wild card', deci
regasirea informatiei se realizeaza cu pattern matching referitor la cuvintele
cheie introduse in interogare. Aceasta inseamna ca rezultatul cautarii ar putea
foarte bine fi zero legaturi sau o lista foarte larga de legaturi catre informatii
legate intr-o foarte mica masura de conceptul initial ce a fost cautat (presupunand
ca persoana care efectueaza cautarea nu cunoaste cuvinte cheie ce se regasesc
in intrarile indecsilor). JaBot contine trei module: - o interfata in limbaj natural - un motor de cautare - o lista interactiva de referinte la paginile Web ale site-ului pe care opereaza. La pornire sunt incarcate doua fisiere, si anume: - un fisier ce contine unitatile lingvistice (avand o mica sau nula relevanta semantica in contextul extragerii de informatie din site-ul Web) - o corespondenta (map) lexicalo-semantica. Fisierul ce contine unitatile lingvistice cuprinde o lista a elementelor gramaticale si lexicale, semne, cuvinte si alte siruri lingvistice care nu sunt folosite la localizarea intrarilor in site-ul Web. Fisierul ce reprezinta corespondenta lexical-semantica contine elemente lexicale (ex: termeni si componente) ce corespund conceptelor extrase din paginile Web ale site-ului, precum si alte sinonime si cvasi- sinonime care pot fi folosite pentru a referi o anumita notiune. Constructia fisierului unitatilor lexicale este mai usoara decat constructia celui de-al doilea fisier mentionat, deoarece pentru o anume limba elementele ce nu au informatie semantica raman constante, independent de site-ul Web. Deci, odata construite versiuni ale acestui fisier de date pentru principalele limbi de circulatie utilizate pe Web, acestea vor putea fi facute disponibile public pentru toate site-urile. Cele doua fisiere, adica cel al unitatilor lexicale si cel lexical- semantic au fost realizate in urma unui studiu empiric asupra modului in care sunt formulate interogarile privind continutul site-urilor Web. Informatia lexicalo-semantica ce urmeaza a fi utilizata de catre motorul de cautare este extrasa din interogarile utilizatorului printr- un proces rudimentar de parsare, bazat pe restrictiile impuse de fisierul cu unitatile lexicale. In esenta, majoritatea cuvintelor gramaticale, precum si anumite alte parti literale de limbaj sunt inlaturate, ramanand astfel un sir de lexeme cheie care apartin categoriilor lingvistice deschise. Parserul nu ia in consideratie punctuatia interogarii, deoarece se presupune ca utilizatorul a introdus o unica intrebare, nu o serie de intrebari si nici nu a introdus alte propozitii cu functie informativa. Aceasta procedura este motivata prin faptul ca gramaticalitatea unui astfel de input electronic este de obicei foarte scazuta, ea apropiindu- se de interogarile orale. Elementele lexicale ramase sunt utilizate de catre motorul de cautare, nu direct pe site-ul Web, ci asupra nodurilor din maparea lexical-semantica. Fiecare nod din corespondenta cuprinde o legatura la o pagina Web (sau la o sectiune) si o lista de cuvinte si expresii semantic echivalente, in domeniul in cauza. In urma cautarii, utilizatorului ii este furnizata o lista de link-uri ce corespund nodurilor activate in procesul de cautare, ordonate in functie de numarul de elemente prezente in fiecare nod. Prin dublu click pe o astfel de legatura prezenta in lista se regaseste informatia prin incarcarea paginii corespunzatoare in fereastra principala a browser-ului. Proprietatea JaBot-ului de a suporta accesare in mai multe limbi depinde de codificarea abordata in construirea corespondentei lexical- semantice si a fisierului unitatilor lingvistice. Daca se include informatie in limbi straine in ambele fisiere, atunci vor fi posibile interogari in diferite limbi. Continutul site-ului Web (si prin urmare raspunsurile catre utilizator) ar putea fi, cu toate acestea, doar intr-o anumita limba, si anume cea a site-ului respectiv (aceasta daca nu cumva site-ul a fost construit in asa fel incat sa contina informatie multilingva). Avantajul acestui agent inteligent pentru Web este acela ca el utilizeaza asocieri
semantice, fiind astfel capabil sa gaseasca aceleasi referinte in urma diverselor
interogari ce exprima un acelasi concept, dar referit altfel. In acest mod,
regasirea informatiei se face "inteligent", adica programul incearca
sa prelucreze inputul si "sa inteleaga" la ce anume se refera utilizatorul.
In primul rand, JaBot contine un grad relativ mic de complexitate lingvistica. Interogarile input sunt parsate semantic intr-un mod ce permite lui JaBot sa raspunda unui set elementar de interogari posibile pe web, cu un anumit grad se flexibilitate, insa parserul nu poate deosebi structuri de genul "cu exceptia", sau negari. De asemenea, considerarea punctuatiei si a conjunctiei ar permite interogari multiple. Ar mai putea fi luata in consideratie chiar si ordinea propozitiilor. Aceste probleme apar mai curand din punctul de vedere teoretico- lingvistic si mai putin din cel practic, deoarece nu s-au observat astfel de interogari ca input in procesul real de cautare pe web. O alta problema pe care autorii o au in vedere pentru o viitoare versiune este ca JaBot sa poata manevra input complex, ambiguu sau incomplet, sa fie capabil sa ceara clarificari utilizatorului daca autoevaluarea parsarii nu este multumitoare. De asemenea, de mare interes practic este construirea unui mecanism semi-automat pentru realizarea corespondentei lexical-semantice. Realizarea manuala a acestui fisier este mare consumatoare de timp, iar operatia de reactualizare este si ea foarte costisitoare. O cea de a doua tendita de imbunatatire priveste localizarea si extragerea
informatiei. La nivelul cel mai simplu, un agent este o bucata de cod a carui
esentiala sarcina este de a imbunatati productivitatea prin automatizarea procesului.
Unii agenti, "agentii inteligenti", se pare ca au o anumita autonomie
sau realizeaza ceva ce se poate numi "inteligent" (ex: determinarea
importantei unui e-mai primit prin scanarea mesajului pentru cuvinte cheie ca
"deadline" sau "castig la JaBot reprezinta un instrument de cautare
mai flexibil decat unul traditional care se bazeaza pe cautarea orientata pe
literali, oferind posibilitatea regasirii unei anumite informatii fara a fi
necesara cunoasterea exacta, din partea utilizatorului, a cuvintelor cheie existente
in site-ul Web respectiv ca intrari (indecsi) pentru motorul de cautare. Mai
mult, acest agent scris in Java este capabil sa raspunda la interogari formulate
intr-un limbaj natural diferit de cel al site-ului. |
||||||
|
||||||
|
||||||
Copyright© 2005 - 2024 | Trimite document | Harta site | Adauga in favorite |
|