Document, comentariu, eseu, bacalaureat, liceu si facultate
Top documenteAdmitereTesteUtileContact
      
    


 


Ultimele referate adaugate

Adauga referat - poti sa ne ajuti cu un referat?

Politica de confidentialitate



Ultimele referate descarcare de pe site
  CREDITUL IPOTECAR PENTRU INVESTITII IMOBILIARE (economie)
  Comertul cu amanuntul (economie)
  IDENTIFICAREA CRIMINALISTICA (drept)
  Mecanismul motor, Biela, organe mobile proiect (diverse)
  O scrisoare pierduta (romana)
  O scrisoare pierduta (romana)
  Ion DRUTA (romana)
  COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie)
  COMPORTAMENT PROSOCIAL-COMPORTAMENT ANTISOCIAL (psihologie)
  Starea civila (geografie)
 

Ultimele referate cautate in site
   domnisoara hus
   legume
    istoria unui galban
   metanol
   recapitulare
   profitul
   caract
   comentariu liric
   radiolocatia
   praslea cel voinic si merele da aur
 
despre:
 
TIPURI DE DATE - STUDIU
Colt dreapta
Vizite: ? Nota: ? Ce reprezinta? Intrebari si raspunsuri
 
l3u2uv
Factorii care determina alegerea metodei de analiza sunt conceperea studiului si variabilele ce urmeaza a fi analizate. Pentru alegerea statisticii optime, putem clasifica variabilele dupa cum urmeaza:

Scale de ratii: proportia a doua cantitati are o anumita relevanta; putem afirma astfel ca o valoare este de exemplu dubla fata de alta, inaltimea unui corp uman este o scala de ratii. Scalele de ratii se masoara in functie de un punct zero absolut.

Scale de interval: intervalul (sau distanta) dintre doua puncte pe scala are o semnificatie precisa - modificarea cu o unitate intr-un anumit punct al scalei este aceeasi cu modificarea cu o unitate intr-un alt punct.
De exemplu: temperatura in grade Celsius constituie o scala de interval
in timp ce scorul de anxietate calculat dintr-un chestionar, nu -. In cazul scalelor de interval, punctul zero este arbitrar. Temperatura in grade
Celsius nu este o scala de ratii pentru ca gradul zero este arbitrar. Intr-o scala de interval putem efectua adunari si scaderi. Toate scalele de ratii sunt si scale de interval.

Scala ordinala: Scala ne permite sa ordonam subiectii in sensul crescator al unei anumite variabile pe care am determinat-o.
Imposibilitatea ordonarii anumitor valori se datoreaza determinarii insuficient de precise a acestora.

Variabile nominale ordonate. Putem grupa subiectii in categorii pe care le putem ordona. De exemplu, putem chestiona pacientii daca starea lor subiectiva s-a imbunatatit: mult, putin, nu s-a modificat, e putin mai grava, mult mai grava.

Variabile nominale. Putem grupa subiectii in categorii ce nu necesita nici o ordonare. De exemplu, culoarea ochilor poate fi apreciata pe o scala nominala.

Variabile dicotomiale. Subiectii sunt grupati in doar doua categorii. De exemplu: supravietuitori si decedati. Acesta e un caz particular de scala nominala.
In mod evident, aceste clase nu se exclud reciproc, astfel ca o scala interval este in acelasi timp si o scala ordinala. Uneori e utila aplicarea unor metode potrivite unui nivel inferior de evaluare, ignorand o parte a informatiilor.
Scalele de ratii si de interval ne permit calcularea de medii si variante, precum si determinarea erorilor standard si a intervalelor de incredere ale acestora (varianta reprezinta un indice de dispersie al unei variabile, fiind patratul deviatiei standard). De exemplu: comparand doua grupuri, putem afla diferenta mediilor si putem estima limitele in cadrul carora aceasta diferenta ar trebui sa existe in interiorul populatiei din care s-a extras esantionul.
Pentru esantioane extinse, estimarea intervalelor de incredere nu prezinta probleme. Mediile vor urmari distributiile normale (distributia normala reprezinta o dispersie particulara a valorilor unei variabile in jurul unei medii, urmand o lege matematica zisa normala: legea lui Gauss).
Distributia normala este utilizata in scopul de a determina probabilitatea unor caracteristici masurate pe o scala numerica continua, iar variantele estimeaza satisfacator valorile populatiei din care au fost extrase.
In cazul esantioanelor restranse, trebuie sa presupunem ca observatiile
insile urmeaza o distributie normala. Numeroase scale de interval urmeaza o distributie normala, iar daca nu, ele pot fi modificate in acest sens, prin intermediul unei transformari potrivite.
Anumite softuri verifica normalitatea unei distributii; atitudinea cea mai uzuala ramane totusi constructia graficului pentru a verifica aspectul sau de clopot simetric.

Atentie! In aceasta situatie, notiunea de normal nu este contrariul celei de anormal, ci reprezinta o legitate matematica.

Distributia normala se caracterizeaza prin: medie si deviatia standard, numiti si parametrii distributiei. Metodele ce utilizeaza distributia normala sunt numite parametrice, in timp ce acelea care isi asuma o distributie particulara a variabilelor sunt cunoscute sub denumirea de non-parametrice.
(In cazul esantioanelor extinse cu distributie normala, testul utilizat pentru compararea mediilor acestora poate fi considerat si el ca fiind non parametric).
Cu conditia ca distributia sa fie normala, metodele bazate pe prelucrarea acesteia sunt cele mai puternice. Daca distributia normala nu se aplica, se vor utiliza metode bazate pe siruri. In cazul metodelor de masurare obisnuite sau slabe, cele mai simple analize produc doar teste de semnificatie, mai putin satisfacatoare.

COMPARAREA A DOUA GRUPURI

Metodele utilizate in compararea a doua grupuri sunt prezentate in urmatorul tabel:

Tipul de date Marimea esantionului Metode
Interval - extins, > 50 pentru
- distributia normala pentru medii
- metoda t pentru 2 esantioane (I)


- testul U Mann- Whitney fiecare esantion
-restrans, < 50 pentru fiecare esantion cu distributie normala si varianta uniforma
-restrans, < 50 pentru fiecare esantion fara sa respecte distributia normala
(II)
Ordinale - oricare
- testul U Mann - Whitney
Nominale ordonate - extins, n > 30 - Hi patrat pentru date ordonate (III)
Nominale fara a fi ordonate
- extins, cu frecventele
- testul Hi patrat (IV) cele mai probabile > 5

- reducerea numarului de
- restrans, cu mai mult de
20% din frecvente probabile < 5 categorii prin combinarea sau excluderea prin potrivire (Hi patrat pentru esantioane restranse) (V)
Dicotomiale - extins cu toate
- compararea a 2 proportii frecventele probabile > 5


- restrans cu cel putin o frecventa probabila < 5
(VI)
- - testul Hi patrat
- - Odds ratio (VII)
- testul Hi patrat cu corectia Yates (VIII)
- testul exact al lui Fisher
(IX)
Figura 22. Metode statistice pentru compararea a doua grupuri (Cifrele romane ingrosate din paranteza marcheaza teste statistice care vor fi explic ate ulterior)

Date intervale.
Pentru esantioane extinse, de exemplu cu mai mult de 50 de subiecti
in fiecare grup, intervalele de incredere pentru medie pot fi determinate prin aproximatia normala.
Pentru esantioane restranse, intervalele de incredere ale mediilor pot fi determinate utilizand distributia t sau pot fi transformate in distributii normale. Daca nu, testul de semnificatie al ipotezei nule si anume, cum ca mediile ar fi egale, se poate realiza utilizandu-se testul U al lui Mann -;
Whitney. (Ipoteza nula reprezinta o presupunere referitoare la diversi parametri ce caracterizeaza populatiile care sunt testate, opusa ipotezei alternative.
De cele mai multe ori, ipoteza nula statueaza faptul ca nu exista diferente intre populatii.) Acesta este util in cazul in care datele sunt cenzurate, adica atunci cand valorile sunt prea mici sau prea mari pentru a putea fi masurate. Aceasta se intampla, de exemplu, atunci cand anumite concentratii sunt prea mici pentru a fi masurate si sunt calificate ca fiind nedetectabile.
In cazul in care datele se inscriu intr-o distributie normala, compararea variantelor grupurilor se poate face utilizandu-se testul F. (X)

Date ordinale.
Tendinta membrilor unui grup de a-i depasi pe cei ai altui grup se testeaza prin intermediul testului U al lui Mann-Whitney.

Date nominale ordonate.
In primul rand, datele se aseaza intr-un tabel de contingenta - una dintre variabile fiind reprezentata de grup, iar cealalta de datele nominale ordonate. Un test Hi patrat va testa ipoteza nula si anume aceea ca nu exista nici o relatie intre grup si variabila, dar fara a tine cont de ordonare.
Aceasta se realizeaza prin utilizarea testului Hi patrat pentru date ordonate, test ce tine cont de ordonarea datelor si ofera astfel un test mai puternic.

Date nominale.
Datele se aseaza intr-un tabel de contingenta (ca si in cazul precedent).
Testul utilizat va fi Hi patrat pentru tabele de contingenta. Conditia validitatii testului, aceea ca cel putin 80% din frecventele probabile sa fie >
5, trebuie satisfacuta prin combinarea sau renuntarea la categorii asemanatoare. Daca tabelul se reduce astfel la 2 x 2, fara a indeplini conditia de validitate, se va utiliza testul exact al lui Fisher.

Date dicotomiale.
In cazul esantioanelor extinse, datele vor fi prezentate fie ca doua proportii, si se va utiliza aproximatia normala pentru determinarea intervalului de incredere pentru diferenta, fie se va intocmi un tabel de contingenta 2 x 2 si se va utiliza testul Hi patrat. Acestea sunt metode echivalente. De asemenea, se poate calcula si Odds ratio. Daca esantionul este restrans, se va aplica testul Hi patrat cu corectia Yates. Ca o metoda alternativa, propunem testul exact al lui Fisher.
Testele utilizate
(I) Testul t si testul t pentru doua esantioane
Distributia t este una similara celei normale, fiind utilizata in testarea de ipoteze ce implica date numerice (exemplu: medii). Testul t, denumit uneori si Student, a fost imaginat de William Gosset, matematician ce lucra
in cadrul Companiei de bere Guinnes din Irlanda. Politica companiei nu permitea publicarea de materiale, astfel incat Gosset a fost nevoit sa utilizeze pseudonimul Student.
Testul t tine cont de deviatia standard a esantionului. Metoda t pentru doua esantioane tine cont de deviatia standard a fiecarui esantion. Desigur,
in acest caz ipoteza de lucru este mult mai vasta: la presupunerea ca fiecare esantion sa prezinte o distributie normala (utilizata in cadrul testului t) se adauga aceea ca variantele sau deviatiile standard ale celor doua grupuri sa fie egale (variante omogene), precum si aceea ca observatiile apar independent unele de celelalte. Aceasta ultima ipoteza, extrem de importanta, este in general neglijata, fiind influentata decisiv de catre conceperea studiului. Testele se regasesc in pachetele Statistics si Systat.

(II) Testul U Mann -; Whitney
Testul mai este cunoscut sub diferite denumiri: testul sumei de siruri
Wilcoxon, testul sumei de siruri Mann-Whitney-Wilcoxon. Reprezinta o excelenta alternativa non-parametrica a testului t, fiind utilizabil atunci cand una sau mai multe din ipotezele necesare testului t nu sunt indeplinite.
Este utilizat in compararea mediilor a doua grupuri dar, de fapt, testul compara egalitatea medianelor.
Testul necesita o munca intensa, fiind un mare consumator de timp.
Sunt necesare date brute ,nefiind acceptate in calcul medii sau deviatii standard. Testul se regaseste in cea mai mare parte a pachetelor statistice
(Minitab, SPSS, Statistics).

(III) Testul Hi patrat pentru date ordonate
Testul este in fapt un test Hi patrat modificat, ce tine cont ca are de-a face cu date nominale ordonate.

(IV) Testul Hi patrat
Testul este metoda cea mai frecvent utilizata in cazul compararii de frecvente sau proportii, deoarece poate fi utilizat in cazul a doua sau mai multe esantioane. Testul Hi patrat se calculeaza relativ usor; are o mare gama de aplicatii, (Exemplu: aprecierea diferentelor in proportii sau independenta intre doi factori, in aprecierea oportunitatii aplicarii unui test) si acestea il fac sa fie unul extrem de utilizat.
Ipoteza nula afirma ca nu exista nici o asociatie intre variabile; se determina apoi in cazul fiecarei variabile frecventa, ca si ipoteza nula ar fi veridica. Alternativa ipotezei nule este existenta unei relatii intre variabile.
Testul apare in numeroase pachete statistice (Sistat, Minitab,
Statistics).
Gradele de libertate se utilizeaza in doua situatii: testul t si testul Hi2.
Numarul gradelor de libertate depinde de doi factori:
Numarul de grupe care se doreste a fi comparate
Numarul de parametrii care trebuie estimati pentru a calcula deviatia standard al comparatiei de interes.
Asadar factorul care indica numarul parametrilor care sunt liberi sa varieze, poarta denumirea de grade de libertate.
Gradele de libertate reprezinta numarul comparatiilor independente care pot fi realizate intre subiectii unui esantion. Se refera la numarul comparatiilor independente printr-o distributie de esantionare. Intr-un tabel de contingenta este cu o unitate mai putin decat numarul randurilor inmultit cu numarul coloanelor. De exemplu: pentru un tabel de contingenta 2x2 care compara rezultatul a doua grupe (exemplu: supravietuitor sau decedat) gradul de libertate este 1.

(V)Testul Hi patrat pentru esantioane restranse
Validitatea testului Hi patrat sta si astazi sub semnul regulii elaborate de W.G.Cochran: testul Hi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depasesc 1.
(Nota: Regula se aplica frecventelor probabile, nu celor observate. )
Desigur, regula ridica semne de intrebare, dar pana astazi ramane singura metoda de verificare a validitatii.
In cazul in care criteriul nu este satisfacut, putem combina sau renunta la siruri sau coloane ale tabelului de contingenta, spre a obtine valori probabile mai mari. Daca tabelul s-a redus pana la 2 x 2 si nu
indeplineste in continuare conditia mai sus enuntata, se pot aplica in continuare corectii de alta natura (ex.: corectie de continuitate).

(VI) Compararea a doua proportii
Exista 4 situatii: a. In cazul proportiei observate in cadrul unui singur esantion, se poate utiliza o aproximatie a distributiei binomiale bazata pe distributie Z (se extrage din tabelul distributiei Z), in scopul determinarii intervalului de incredere sau al compararii proportiei observate cu un standard. b. Pentru compararea de proportii sau frecvente in cazul a doua esantioane independente, fie se va extinde procedura distributiei Z, fie, ca alternativa, se va utiliza testul Hi patrat. c. In cazul compararii de proportii sau frecvente pentru trei sau mai multe esantioane independente, se va utiliza testul Hi patrat. d. In cazul compararii de proportii sau frecvente in cazul a doua esantioane interdependente, sau corelate, se va utiliza un test
Hi patrat modificat, numit Mc Nemar. Testele se regasesc in pachetele Sistat, Minitab, Statistics.

(VII) Odds ratio
Odds ratio reprezinta o estimare a riscului relativ si se defineste prin raportul sanselor subiectului expus la factorul de risc si ale sanselor martorului expus la acelasi factor de risc.

(VIII) Testul Hi patrat cu corectia Yates
Corectia Yates, cunoscuta si sub denumirea de corectie de continuitate, implica micsorarea cu 0,5 unitati a diferentei dintre frecventa observata si cea probabila in cadrul numaratorului lui x2 (din formula)
inainte de ridicarea la patrat; astfel, valoarea lui x2 scade. Scazand valoarea lui x2, sansele ca ipoteza nula sa fie respinsa scad, astfel ca si riscul de a face o greseala de tipul I (respingerea ipotezei nule atunci cand aceasta este
in fapt veridica) scade semnificativ. Creste insa riscul unei erori de tipul II
(acceptarea unei false ipoteze atunci cand ea este in fapt falsa). Unii statisticieni recomanda utilizarea corectiei de continuitate in cazul unui tabel de contingenta 2 x 2. Altii se impotrivesc corectiei.
In literatura medicala, testul Hi patrat se aplica atat cu, cat si in lipsa corectiei.

(IX) Testul exact al lui Fisher
Conditia de validitate limiteaza semnificativ utilizarea testului Hi patrat. In cazul in care o frecventa probabila este sub valoarea 2, sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5, se recomanda utilizarea testului exact al lui Fisher. (Subliniem din nou: frecvente probabile, nu frecvente observate!)
Testul exact al lui Fisher reprezinta deci o alternativa a testului Hi patrat in examinarea asociatiilor in cadrul unui tabel de contingenta 2 x 2, atunci cand frecventele probabile sunt mici. Testul exact al lui Fisher se regaseste in majoritatea pachetelor statistice existente.

(X) Testul F
Testul t pentru esantioane independente pleaca de la ipoteza ca variantele esantioanelor sunt egale. Daca dimensiunea esantioanelor este diferita, se va verifica in prealabil printr-un test egalitatea variantelor. Daca variantele sunt semnificativ diferite, se va proceda in continuare la o ajustare a gradelor de libertate, iar in calcule se vor utiliza variante estimate separat.
Testul F este utilizat in compararea variantelor. Testul consta din formarea proportiei celor doua variante cu valoare mai mare la numarator si compararea proportiei astfel formate cu valoare critica a distributiei probabilistice a lui F. Daca proportia este semnificativ mai mare decat 1, variantele vor fi declarate ca nefiind egale.
Pachetele statistice executa testul F de regula in acelasi program care executa si testul t. Daca testul F nu este semnificativ, sau ofera rezultate echivoce, se va utiliza varianta variantelor egale. Ca si in cazul testului t, testul F nu se poate folosi in cazul in care variabilele studiului nu respecta o distributie normala. Folosit astfel, ofera rezultate false, in sensul in care variantele nu ar fi egale, pe cand in realitate variabilele nu respecta distributia normala. In cazul distributiilor ce nu respecta normalitatea, se recomanda proceduri non-parametrice.

UN SINGUR ESANTION, SAU ESANTIOANE PERECHI

Metodele de analize pentru un singur esantion sau pentru esantioane perechi sunt prezentate in urmatorul tabel:

Tipul de date Marimea esantionului METODA
UTILIZATA
Intervale - extins > 100
- distributie normala
- metoda t imperecheata

- testul Wilcoxon
imperecheat (XI)
- restrans< 100 diferente normale
- restrans< 100
- diferente non-normale
Ordinale - oricare
- testul semn (XII)
Nominale ordonate - oricare
- testul semn
Nominale - oricare
- testul Stuart (XIII)
Dicotomiale - oricare
- testul Mc Nemar (XIV)
Figura 23. Metode de analiza statistica pentru un singur esantion sau pentru esantioane perechi. (Cifrele romane ingrosate din paranteza marcheaza teste statistice care vor fi explicate ulterior)
Date interval.

Pentru esantioane extinse ( n > 100), intervalul de incredere pentru diferenta mediei se va determina utilizandu-se aproximatia normala. In cazul esantioanelor restranse, cu conditia ca diferentele sa se inscrie pe o distributie normala, se va utiliza testul t imperecheat. Aceasta presupunere este deseori justa, atata timp cat cele mai multe variatiuni interindividuale sunt inlaturate, iar erorile sistematice sunt in cea mai mare parte




reprezentate de erori de masurare. In plus, eroarea este rezultatul sumei a doua erori de masurare, avand astfel tendinta de a urma oricum o distributie normala. Daca nu, transformarea datelor originale va conduce frecvent la diferente normale. Daca nu se poate sustine ipoteza distributiei normale, se va utiliza testul Wilcoxon imperecheat.
Rareori se solicita diferenta in variabilitate a datelor imperecheate.
Aceasta poate fi testata prin determinarea diferentelor dintre cele doua conditii si suma lor. Daca nu exista modificari in varianta, corelatia dintre diferenta si suma va avea valoarea zero (testul lui Pitman). Aceasta nu este evident, dar este adevarat.

Date ordinale.
In cazul in care datele nu formeaza o scala intervala, diferenta dintre conditii nu are relevanta. Dar putem spune in ce directie se indreapta diferenta, fapt ce poate fi examinat prin testul Semn.

Date nominale ordonate.
Se va utiliza testul Semn; modificarile intr-o directie in sens crescator se vor considera pozitive, in directie opusa in sens descrescator negative, fara modificare = 0.

Date nominale.
Dificultatea apare la mai mult de doua categorii. Se va utiliza generalizarea Stuart la mai mult de doua categorii ale testului Mc Nemar
(testul Stuart este considerat ca fiind unul dificil).

Date dicotomiale.
In acest caz, comparam proportiile unor indivizi intr-o anumita stare, sub cele doua conditii. Testul potrivit este cel al lui Mc Nemar.

Teste utilizate
(XI) Testul Wilcoxon imperecheat, sau Wilcoxon signed ranks test (testul semnului sirurilor).
Testul Wilcoxon imperecheat este un test non-parametric utilizat ca alternativa la testul t imperecheat, atunci cand variabilele analizate nu urmeaza o distributie normala, mai ales in cazul esantioanelor restranse, in scopul determinarii diferentelor dintre doua esantioane impercheate.
Ipoteza de la care se pleaca este aceea ca medianele celor doua esantioane perechi ar fi egale.
Testul constituie o excelenta alternativa la testul t, fiind aproape la fel de puternic (cu exceptia respingerii ipotezei nule, atunci cand ea este falsa) ca si testul t in detectarea diferentelor atunci cand variabilele urmeaza o distributie normala. Cand variabilele nu sunt normal distribuite, este mai puternic decat testul t. Din acest motiv, testul Wilcoxon
impercheat este din ce in ce mai utilizat in cercetarea medicala.
Calculul traditional al acestui test implica un efort considerabil in utilizarea unor tabele extensive. Connover si Inran, in 1981, au imaginat o abordare simplificata, dar care ofera o foarte buna aproximatie a metodei.
Aceasta procedura converteste variabilele intr-un sir, iar mai apoi calculeaza testul t utilizand sirurile mai sus obtinute. Sunt necesare datele brute, nefiind acceptate in calcul valorile mediei sau ale diferentei standard.
Se impun doua comentarii de final. In primul rand, deoarece testul utilizeaza siruri obtinute din variabilele initiale, calculul intervalului de
incredere nu se justifica. In al doilea rand, utilizarea justificata a statisticii non-parametrice este extrem de importanta in obtinerea concluziilor corecte. Utilizarea acestor metode este facila, intrucat sunt cuprinse in aproape toate pachetele statistice.

(XII-XIII) Testul Semn
Testul Semn este un test de semnificatie, reprezentand o metoda non parametrica utilizata in cazul esantioanelor ce nu respecta distributia normala. Testul utilizeaza in cadrul ipotezei nule, mediana in loc de medie.
In cazul in care se doreste compararea distributiei unei variabile cu trei sau mai multe categorii in esantioane perechi, iar categoriile sunt ordonate, se va urmari o modificare de la un capat al distributiei spre celalalt. Pentru aceasta, se recomanda testul Semn. Daca categoriile nu sunt ordonate, se va utiliza testul Stuart (situatie ce apare rar).

(XIV) Testul lui Mc Nemar
Testul lui Mc Nemar este echivalentul testului t imperecheat, atunci cand avem de-a face cu variabile nominale si de fapt o varianta a testului semn.
Ipoteza nula este aceea ca proportiile perechi sunt egale, iar ipoteza alternativa afirma ca proportiile perechi nu sunt egale. Testul lui Mc Nemar urmeaza o distributie de tipul celei Hi patrat, cu un singur grad de libertate.
Acest test este o versiune a testului Semn.

RELATIA DINTRE DOUA VARIABILE

Relatia dintre doua variabile trebuie privita ca o asociere intre doua caracteristici, dar ideea poate fi extinsa pentru a prezice valoarea unei caracteristici prin cunoasterea celeilalte.
Relatiile cu variabilele dicotomiale pot fi studiate ca diferenta dintre doua grupuri, grupurile fiind definite de cele doua stari ale variabilei dicotomiale. Datele dicotomiale nu apar in text, dar se regasesc in tabel.

Intervale
Intervale non Ordinale normale normale
Intervale normale


-regresie (XV) si
-corelatie (XVI)

-corelatie de siruri (XVII)

-regresie
-corelatie de siruri


Intervale non normale
-regresie
-corelatie de siruri
-corelatie de siruri -corelatie de siruri
Ordinale - corelatie de siruri -corelatie de siruri -corelatie de siruri
Nominale ordonate
-corelatia de siruri
Kendall (XVIII)
-corelatia de siruri
Kendall
-corelatia de siruri
Kendall
Nominale - analiza variantei -testul Kruskal
-testul Kruskal
Wallis
Wallis (XIX)
Dicotomiale - testul t
-esantioane extinse testul normal
-testul U Mann Whitney
-testul U Mann Whitney
- testul normal


Nominale
Nominale Dicotomiale ordonate
Intervale normale
-corelatie de siruri - analiza variantei
-testul t
-testul normal
(XX)
Intervale non normale
-corelatia sir
Kendall
-testul Kruskall
Wallis
-esantioane extinse testul normal
-testul U Mann Whitney
Ordinale -corelatia sir
-testul Kruskal
Wallis
-testul U Mann
Whitney
Kendall
Nominale ordonate
- testul Hi patrat pentru date ordonate
- testul Hi patrat -testul Hi patrat pentru date ordonate
Nominale - testul Hi patrat - testul Hi patrat - testul Hi patrat
Dicotomiale - testul Hi patrat
- testul Hi patrat -testul Hi patrat pentru date ordonate
-testul exact Fisher
Figura 24. Metode de analiza statistica pentru testarea relatiei intre doua variabile. (Cifrele romane ingrosate din paranteza marcheaza teste statistice care vor fi explicate ulterior)
Intre doua date intervale. Se utilizeaza doua metode: regresia si corelatia. Se prefera, de regula, regresia, deoarece ofera informatii atat despre existenta relatiei, cat si despre natura acesteia. Corelatia masoara intensitatea relatiei. In cazul regresiei, norul de puncte trebuie sa urmeze o distributie normala cu o varianta uniforma. Pentru estimare, coeficientul de corelatie necesita conditia ca ambele variabile sa urmeze o distributie normala, dar pentru verificarea ipotezei nule e suficient ca doar una dintre variabile sa urmeze o distributie normala. Daca nici una dintre variabile nu poate urmari o distributie normala si nici nu poate fi transformata in acest sens, atunci se va utiliza o corelatie de siruri.
Intre date intervale si date ordinale. Se va calcula coeficientul corelatiei de siruri.
Intre date interval si date nominale ordonate. Se va utiliza testul T al lui Kendall (corelatie de siruri), deoarece acesta poate analiza un numar mare de relatii mai precis decat testul al lui Spearman. Ca o alternativa se va efectua analiza variantei (ca si cea descrisa pentru date intervale si nominale).
Aceasta metoda necesita asumarea unei distributii normale cu varianta uniforma a variabilelor intervalului. Cele doua metode nu sunt echivalente.
Intre date intervale si nominale. Daca scala intervala urmareste o distributie normala, se va utiliza analiza unidirectionata a variantei. Daca conditia nu este indeplinita, se va utiliza analiza Kruskal Wallis a variantei prin siruri.
Intre doua date ordinale. Se va calcula coeficientul corelatiei de siruri: al lui Spearman sau T al lui Kendall.
Ambii coeficienti ofera solutii similare in testarea ipotezei nule a lipsei de relatie. In cazul datelor cu numeroase legaturi pentru compararea intensitatii diferitelor relatii, se va prefera testul T al lui Kendall.
Intre date ordinale si date nominale ordonate. Se va calcula coeficientul corelatiei de siruri T al lui Kendall.
Intre date ordinale si date nominale. Se va aplica analiza unidirectionata a variantei prin siruri Kruskal Wallis.
Intre doua date nominale ordonate. Se va utiliza testul Hi patrat pentru date ordonate.
Intre date nominale ordonate si date nominale. Se va utiliza testul Hi patrat pentru tabele de contingenta.
Intre doua date nominale. Se va utiliza testul Hi patrat pentru tabele de contingenta, cu conditia ca valorile probabile sa fie suficient de mari. Altfel, se va aplica corectia Yates sau testul exact Fisher.

Teste utilizate
(XV-XVI) Corelatia si regresia
Conceptele de corelatie si regresie au fost statuate de catre Sir
Francis Galton, matematician si medic, var al lui Sir Charles Darwin, in urma cercetarilor sale privind ereditatea. Insa teoria corelatiei si a regresiei a fost conceputa de catre Karl Pearson.
Corelatia descrie relatia dintre doua date numerice iar masura sa o constituie coeficientul de corelatie (a lui Pearson); acesta poate lua valori
intre -;1 si +1. Punctul -;1 caracterizeaza o relatie perfect liniara negativa, punctul +1 o relatie perfect liniara pozitiva iar punctul 0 lipsa unei relatii liniare intre cele doua variabile. Corelatia nu ofera o descriere corecta a relatiilor dintre variabile atunci cand distributia uneia este asimetrica sau contine valori extreme. In acest caz se va proceda in prealabil la o transformare a variabilelor (ex. o transformare in siruri sau logaritmica).
Colton indica urmatoarea regula in interpretarea coeficientului de corelatie: intervalele (0; 0,25) respectiv (0; -0,25) relatie slaba sau lipsa acesteia; intervalele (0,25; 0,5) respectiv (-0,25; -0,5) indica un anumit grad de relatie, intervalele (0,5; 0,75) respectiv (-0,5; -0,75) o relatie de la moderat la semnificativ iar valorile ce depasesc 0,75 sau sunt mai mici de
(-0,75) indica o relatie stransa.
Din cauza marii variabilitati a celor mai multe caracteristici biologice, acelasi autor considera cazurile de coeficienti ce depasesc in valoare absoluta 0,95 ca fiind rezultatul unei erori sau a unui artefact.

Doua atentionari legate de corelatie!
Prima: Coeficientul de corelatie masoara strict o relatie liniara fara a tine cont de o relatie descrisa printr-o ecuatie ce defineste o curba. In aceste situatii pot sa apara coeficienti fara valoare semnificativa chiar daca relatia exista. O solutie in aceste cazuri este reprezentarea norului de puncte.
A doua: Corelatia nu implica cauzalitate. Afirmatiile cum ca o caracteristica o cauzeaza pe cealalta trebuie justificata pe baza observatiilor experimentale sau a argumentelor logice iar nu pe baza coeficientului de corelatie.
Regresia este metoda ce estimeaza relatia numerica existenta intre variabile. Metoda e numita uneori regresie lineara, regresie simpla lineara sau regresie minim patratica. Vom lamuri in cele ce urmeaza acesti termeni.
Termenul de regresie lineara se refera la faptul ca atat corelatia cat si regresia masoara in exclusivitate o relatie de natura lineara intre doua variabile. Atunci cand se utilizeaza termenul de regresie simpla acesta se refera la situatia in care este utilizata o anumita variabila independenta in scopul predictiei alteia. Exista si varianta regresiei multiple in care sunt utilizate in ecuatia predictiei mai multe variabile independente.
Regresia minim patratica descrie metoda matematica prin care se obtin estimatii statistice in ecuatia regresiei.
In general atunci cand termenul de regresie este utilizat singur el se refera la regresia simpla lineara bazata pe metoda minim patratica. Metoda minim patratica este calea de a determina ecuatia care defineste linia care ilustreaza in modul cel mai fidel reprezentarea unui nor de puncte de natura lineara.
E important sa se sublinieze ca atat corelatia cat si regresia descriu exclusiv relatii lineare; de aceea, fara examinarea prealabila a variabilelor
in cazul calcularii coeficientilor de corelatie sau a ecuatiilor de regresie se poate gresi prin omiterea unei eventuale relatii non-lineare.
O alta eroare ce poate sa apara frecvent in cazul regresiei este situatia
in care multip le observatii referitoare la acelasi subiect sunt tratate ca si cum ele ar fi independente.
Corelatia nu depinde de unitatea de masura pe cand regresia depinde. O consecinta a acestui fapt este echivalenta dintre doua corelatii
(ex. x si y respectiv y’ si y unde x si y sunt variabilele originale iar y’=a+bx este obtinuta din ecuatia de regresie). Acestea ne ofera o metoda alternativa de testare a semnificatiei regresiei. In plus panta liniei de regresie are acelasi semn (+sau -) ca si coeficientul de corelatie.
Numeroase pachete statistice realizeaza analiza corelatiei si a regresiei: ex. SPSS, SYSTAT, Minitab.

(XVII) Corelatia de siruri
(XVIII) Corelatia de siruri a lui Kendall

Corelatia de siruri cunoscuta si sub denumirea de corelatie de siruri a lui Spearmen testeaza ipoteza nula a inexistentei unei relatii intre siruri prin calcului coeficientului (rho) a lui Spearman. Acesta poate lua valori intre
-;1 si +1 iar interpretarea lui este similara celei date de coeficientul lui
Pearson.
Atentie! Coeficientul defineste relatia dintre siruri si nu intre valorile determinate.
Pentru a verifica daca un coeficient de corelatie (fie a lui Pearson fie de siruri a lui Spearman) este semnificativ diferit de 0 putem utiliza testul t.
Corelatia de siruri Kendall, definita prin coeficientul lui Kendall - t
(tau) calculeaza pe langa existenta relatiei dintre siruri (Spearman) si intensitatea acestei relatii.
In cazul fiecarei perechi de subiecti vom observa daca subiectii sunt ordonati in acelasi mod de catre cele doua variabile -;realizand o pereche concordanta, daca sunt ordonati in sensuri opuse -; realizand o pereche discordanta sau egali pentru una din variabile -; nefiind astfel ordonati.
Coeficientul lui Kendall reprezinta diferenta dintre proportiile de perechi concordante si discordante. t (tau) va fi +1 daca sirurile sunt identice (toate perechile ordonate in acelasi sens) si -;1 daca sirurile sunt opuse (toate perechile vor fi ordonate in sensuri opuse).

(XIX) Testul Kruskal -; Wallis
Testul Kruskal Wallis, metoda non-parametrica, reprezinta in cazul a mai mult de doua esantioane, analogul pentru siruri a analizei unidirectionate a variantei. Comparatiile din final pentru perechi de medii se vor face utilizandu-se un test al sumelor de siruri Wilcoxon modificat
(test U Mann - Whitney modificat).
Analogul pentru siruri a analizei bidirectionate a variantei este testul
ANOVA bidirectionat pentru sirurile lui Friedman.

(XX) Analiza variantei -; ANOVA
Analiza variantei (abreviat ANOVA) este metoda utilizata atunci cand se doreste compararea a mai mult de doua medii. Este deci evident o metoda parametrica. Metoda fereste cercetatorul de “inflatia de erori” care ar putea sa apara prin utilizarea altor teste. (ex. prin compararea a doua cate doua medii -; prin testul t).
Analiza variantei este putin utilizata pana in ziua de azi in cadrul cercetarii clinice (unele studii in oncologie, patologie, chirurgie, psihiatrie) poate si din cauza complexitatii sale.
Iata logica acestei metode statistice. ANOVA tine cont de variatiile tuturor variabilelor si le imparte in: a. variatii intre fiecare subiect si media esantionului din care acesta face parte si b. variatii intre mediile fiecarui esantion si media generala (media mediilor tuturor esantioanelor luate in studiu).
Daca mediile esantioanelor sunt mult diferite intre ele, vor exista variatii considerabile intre ele si media generala (comparat cu variatiile din cadrul fiecarui esantion). Daca mediile esantioanelor nu prezinta mari diferente atunci variatia dintre ele si media generala nu va fi mai mare decat variatiile dintre subiectii fiecarui esantion. In aceasta situatie se poate utiliza testul F pentru doua variante pentru testarea ratiei dintre variantele mediilor si variantele din cadrul fiecarui grup.
Ipoteza nula pentru testul F este aceea ca cele doua variante ar fi egale; daca este adevarat variatiile intre medii sunt mult mai mari decat variatiile intre observatiile individuale in cadrul oricarui grup. De aceea nu exista suficiente dovezi pentru a concluziona ca mediile ar fi diferite intre ele.
Cu toate ca putem considera ANOVA ca pe un test al egalitatii mediilor, el de fapt testeaza variantele. In cazul in care ipoteza nula este respinsa concluzionam ca nu toate mediile sunt egale; dar nu stim oricum care dintre ele nu sunt egale de aceea in continuare se impun proceduri de comparare. (ex. Tukey’s HDS Procedure, Scheffe’s Procedure, Newman -;
Keuls Procedure, Dunnett’s Procedure etc.).
Cand ANOVA opereaza cu o singura variabila independenta se cheama unidirectionata iar cand opereaza cu doua variabile independente -; bidirectionata.
Utilizarea testului ANOVA impune acceptarea a trei premise:
1. Valorile variabilei dependente trebuie sa fie normal distribuite in cadrul fiecarui grup ca si la toate nivelele variabilei dependente
2. Varianta populatiei statistice este aceeasi in fiecare grup, respectiv

2= s2
2= s 3
2 s 1

3. Cazurile observate reprezinta un esantion reprezentativ (de exemplu alcatuit prin tragere la sorti) si fiecare caz este independent (valoarea unei observatii nu este dependenta in nici un mod de valoarea alteia)
Nu toate prezumtiile de mai sus sunt de importanta egala. De exemplu rezultatele testului F nu sunt puternic e afectate de o moderata abatere de la normalitate in special in cazul esantioanelor mari. (daca esantioanele sunt restranse, in acest din urma caz este de preferat utilizarea testului Kruskal Wallis. Testul F este insa in mod deosebit de sensibil la cea de a doua prezumtie si anume la omogenitatea variantei. Inconvenientul se poate elimina daca se lucreaza cu esantioane de talie egala sau macar foarte apropiata; daca nu e posibil se procedeaza la transformarea datelor (siruri, logaritmi) sau la extragerea de esantioane egale din esantioanele initiale (cu riscul pierderii de informatie). Ultima prezumtie este deosebit de importanta: investigatorul trebuie sa se asigure ca are de-a face cu observatii independente. Problema se pune in mod special pentru studiile care urmaresc masuratori repetate la aceiasi subiecti, situatie ce trebuie rezolvata intr-un mod particular (subiectii sunt propriul lor martor).
Anova bidirectionata, operand cu doua variabile independente, ofera
in plus fata de varianta unidirectionata si posibilitatea combinarii contributiei celor doua variabile, prin urmare a stabilirii unei interactii intre cei doi factori. Daca reprezentarea grafica a liniilor ce unesc mediile este paralela, inseamna ca nu exista interactie intre factori, iar efectul poate fi considerat aditiv. Daca liniile se intersecteaza, semnificatia este a unei interactiuni, efectul fiind multiplicativ.
Anova poate fi aplicata si pentru compararea a mai mult de doua variabile independente, comparand de exemplu factorii A, B si C astfel:
Interactiunea intre A si B, intre A si C, intre B si C apoi intre A, B si C.
O alta aplicatie de mare utilitate pentru studiile biomedicale a testului Anova este punerea in evidenta a unor factori de confuzie, prin subdivizarea randomizata a subiectilor in blocuri si compararea factorului cercetat intre blocuri.
Pachete statistice ce utilizeaza ANOVA: SPSS, SYSTAT, EPIINFO, etc.

METODE STATISTICE PENTRU VARIABILE MULTIPLE
ANALIZA MULTIFACTORIALA

Tehnicile statistice implicand variabile multiple sunt tot mai frecvent utilizate in cercetarea medicala; le vom ilustra in continuare pe cele mai semnificative dintre ele.
Vom prezenta in primul rand modelul regresiei multiple in care mai multe variabile independente sunt utilizate in explicarea sau predictia unei singure valori numerice, fiind extensia naturala a modelului regresiei pentru o singura variabila independenta - model prezentat anterior. Este de asemenea important de retinut faptul ca toate celelalte metode avansate (cu exceptia meta-analizei) pot fi privite ca fiind modificari sau extensii ale modelului regresiei multiple. Toate aceste metode (cu exceptia meta analizei) implica mai mult de doua variabile corespunzatoare unui subiect si se caracterizeaza prin explicarea sau predictia unei valori.
Scopul acestui capitol este acela de a prezenta logica diferitelor metode si de a arata cum sunt ele utilizate si interpretate in cadrul cercetarii medicale. Utilizarea lor din ce in ce mai frecventa se datoreaza si raspandirii calculatoarelor; altfel putine dintre ele ar fi folosite din cauza consumului mare de timp si calculelor extrem de complicate.
Pentru a interpreta in mod corect studiile concepute pentru a da prognosticuri sau a identifica factori de risc, medicul trebuie sa faca cunostinta cu metodele analizei multifactoriale.
Inainte de a trece la explicarea acestor metode se impune un scurt comentariu vis-a vis de terminologie. Unii statisticieni utilizeaza termenul de multivariat atunci cand se refera la situatii ce implica mai mult de o variabila dependenta. Urmand aceasta definitie la modul strict, regresia multipla si alte metode ce vor fi discutate ar fi clasificate ca si tehnici multivariate.
Se va utiliza termenul de multivariat intr-un sens mai larg, cu referire la metode ce examineaza efectul simultan a multiple variabile independente; conform acestei definitii toate tehnicile care vor fi discutate sunt considerabile ca multivariate.
VARIABILA
VARIABILA
METODE
INDEPENDENTA
DEPENDENTA
UTILIZATE
Nominala Nominala Analiza liniar logaritmica
Nominala si numerica Nominala dicotomiala Regresie logistica
Nominala si numerica Nominala (doua sau
Analiza discriminanta mai multe valori)
Nominala Numerica ANOVA
Numerica Numerica Regresie multipla
Numerica si nominala Numerica (cenzurata) Regresia COX
Numerica ANCOVA
Nominala de factori de confuzie Nominala Mantel -; Haenszel
Doar numerica -
Analiza factorului si analiza grupului
(cluster)
Figura 25. Metode de analiza statistica pentru variabile multiple

Pentru a utiliza: analiza discriminativa ANOVA, regresia multipla
ANCOVA, analiza factorului si analiza grupului este necesara asumarea anumitor premize: normalitate multivariata, independenta.
Termenul de variabila independenta defineste un grup de variabile sau variabile X iar variabila dependenta defineste variabilele ale caror medii sunt comparate -; sau variabile Y. Pentru simplificare s-au omis variabilele ordinale. Atunci cand variabilele sunt ordinale ele au fost tratate ca si nominale

Predictia realizata cu mai mult de o variabila - regresia multipla

Regresia simpla liniara e utilizata in predictia valorii unei variabile dependente tinand cont de variabila independenta X dupa modelul:

Y = a+bX unde b este numit coeficientul de regresie iar testul t poate fi utilizat pentru a stabili daca intre X si Y exista o relatie semnificativa (prin testarea b0).
Extensia regresiei simple la doua sau mai multe variabile independente reprezinta regresia multipla; de exemplu in cazul a 4 variabile ea urmeaza modelul:

Y = a + b1x1 + b2x2 +b3x3 + b4x4 unde xi -; reprezinta variabilele independente bi -; reprezinta coeficientul de regresie asociat lui xi
Formulele pentru a si b devin tot mai complexe odata cu cresterea numarului de variabile independente. Oricum calculele se realizeaza de catre un computer.
Orice ecuatie care urmeaza modelul de mai sus se cheama combinatie lineara, ea reprezinta o metoda eficienta in a sumariza valoarea mai multor variabile ca o singura valoare.
Modelul traditional al regresiei multiple implica variabile numerice dar putem utiliza si variabile independente nominale nu si variabile dependente nominale. Includerea variabilelor nominale independente in ecuatia regresiei multiple se realizeaza prin codarea “dummy” (realizata prin valorile 0 si 1); astfel ele devin variabile “dummy”.
Regresia multipla masoara in exclusivitate relatia liniara dintre variabile independente si dependente, ca si in cazul regresiei simple. Daca se banuieste ca relatia nu ar fi liniara se pot include termeni patratici sau valori logaritmice in ecuatia regresiei in functie de timpul relatiei presupuse.
Coeficientii de regresie sunt interpretati in mod diferit in cazul regresiei multiple (fata de regresia simpla). Daca in cazul regresiei simple coeficientul b indica masura in care predictia valorii lui Y se modifica de fiecare data cand x creste cu o unitate, in cazul regresiei multiple un anume coeficient de regresie dat indica modificarea valorii lui Y atunci cand x creste cu o unitate, mentinand constante valorile tuturor celorlalte variabile din ecuatia regresiei.
Pentru a verifica masura in care fiecare coeficient de regresie este diferit de 0 se pot utiliza testele t sau F (stabilirea relatiei de semnificatie), sau se poate utiliza distributia t in stabilirea intervalelor de incredere pentru fiecare coeficient de regresie.
Coeficientii de regresie in cazul regresiei multiple pot fi de doua tipuri: nestandardizati si standardizati. Cei nestandardizati pot fi utilizati in cazul unor subiecti individuali in predictia valorilor lui Y. Dar marimea acestora nu poate fi utilizata in a decide care variabile independente sunt cele mai importante deoarece marimea lor este raportata la scala pe care variabilele sunt masurate (ca si in cazul regresiei simple). O modalitate de a elimina efectul scalei este standardizarea coeficientilor de regresie; aceasta se realizeaza prin scaderea valorii medii a lui x si impartirea la deviatia standard inainte de analiza astfel ca toate variabilele au media 0 si deviatie standard 1. Apoi se pot compara intre ei coeficientii de regresie. Cu cat coeficientul standard este mai mare cu atat valoarea statistica a lui t este mai mare. Principalul dezavantaj al standardizarii este imposibilitatea utilizarii acestora in orice situatie.
Uneori se doreste includerea in ecuatia regresiei multiple doar a variabilelor care influenteaza predictia in mod semnificativ.
Reducerea numarului de variabile se poate realiza de exemplu prin renuntarea la variabilele ce nu prezinta un coeficient de regresie semnificativ dupa construirea ecuatiei regresiei multiple.
Programe utilizate de calculator pot selecta un set optim de variabile.
Exista variantele selectiei anterograde si a eliminarii retrograde. Cand cele doua se utilizeaza conjugat metoda este denumita regresie (sau selectie)
“pas cu pas”.

Regresia polinomiala
Regresia polinomiala reprezinta un caz particular al regresiei multiple in care fiecare termen al ecuatiei contine diferite puteri ale lui x.
Regresia polinomiala ofera o modalitate de aplicare a modelului regresiei
in cazul relatiilor neliniare si reprezinta o alternativa la transformarea datelor pe o scala liniara. De exemplu urmatoarea ecuatie poate fi utilizata
in predictia unei relatii patratice:
Y = b0 + B1x + b2x2

Observatii lipsa
Numarul de potentiale observatii lipsa creste in studii ce implica variabile multiple. In functie de cauza observatiilor lipsa se poate apela la diferite solutii: scoaterea din studiu a subiectilor cu observatii lipsa, scoaterea din studiu a variabilelor ce prezinta valori lipsa sau inlocuirea anumitor valori din datele lipsa, folosind spre exemplu media valorilor altor subiecti. In acest caz cercetatorii vor cere sfatul unui statistician.

Validarea incrucisata
Procedurile matematice utilizate in ecuatia regresiei nu pot distinge
intre variatiile reale si cele intamplatoare. De aceea in cazul in care ecuatia este utilizata pentru predictia unor scoruri (ce vor fi utilizate pentru urmatorii subiecti) ea trebuie validata pe un al doilea esantion -; procedeu numit validare incrucisata. Metoda ofera o evaluare realista a utilitatii predictiei oferite de ecuatia regresiei.

Cerinte privind marimea esantionului
Determinarea marimii esantionului in cazul regresiei multiple sau a oricarei tehnici multivariate este un pas dificil. Exista in acest sens anumite reguli ce pot fi urmate.
O recomandare frecventa este aceea ca numarul de subiecti sa fie de
10 ori mai mare ca si cel al variabilelor independente. Ipotezele privind normalitatea sunt complicate in functie de modul in care variabilele sunt privite: fixe sau intamplatoare. Oricum un esantion extins de subiecti diminua problemele ce pot sa apara din incalcarea ipotezelor.
Variabile de confuzie: analiza covariantei

Analiza covariantei (ANCOVA) este tehnica statistica utilizata pentru a verifica influenta unei variabile de confuzie. Variabilele de confuzie apar cel mai frecvent atunci cand anumiti subiecti nu pot fi atribuiti la intamplare diferitelor grupuri, sau atunci cand subiectii apartin deja unor esantioane dinainte stabilite.
Coeficientul de regresie pentru orice variabila independenta data este interpretat ca fiind egal cu modificarea valorii variabilei dependente, mentinand toate celelalte variabile independente constante; de aceea modelul regresiei este o metoda acceptabila in controlarea unei variabile de confuzie.
Metodele utile in controlarea variabilelor de confuzie sunt analiza covariantei (ANCOVA) si procedura Hi patrat -; Mantel -; Haenszel. Dupa cum am precizat ANCOVA se utilizeaza atunci cand variabila dependenta este numerica iar cele independente apartin unei scale nominale -; fiind variabile de confuzie. Daca atat variabilele independente cat si cele dependente sunt nominale se va utiliza testul hi patrat Mantel -; Haenszel.
In cazul a doua grupuri ANCOVA pleaca de la presupunerea ca relatia dintre variabila x (numita co-variabila) si variabila dependenta Y este aceeasi in cazul ambelor grupuri. Ipoteza e echivalenta cu a afirma ca pantele de regresie sunt identice pentru cele doua grupuri. ANCOVA verifica coincidenta liniilor de regresie pornind de la ipoteza egalitatii pantelor.
ANCOVA poate fi desigur utilizata si in a verifica variabile de confuzie pentru mai mult de doua grupuri. In plus se pot studia si mai multe variabile de confuzie in cadrul aceluiasi studiu; acestea pot fi atat nominale cat si numerice.
Ca o observatie de final ANCOVA poate fi considerata o metoda particulara in compararea a doua linii de regresie.

Predictia unui rezultat cenzurat: Regresia COX

Atunci cand rezultatul urmarit nu s-a obtinut in cazul tuturor subiectilor unui esantion, se impune utilizarea unor metode speciale.
Studiile de analiza a supravietuirii se inscriu in aceasta categorie; cercetatorii nu pot astepta, in general, decesul tuturor subiectilor luati in studiu pentru a prezenta rezultatele privind supravietuirea. Din perspectiva analizei, problema este una a observatiilor cenzurate, situatie in care subiectii au fost luati in observatie pe intervale diferite de timp, iar in cazul unora rezultatele nu sunt cunoscute.
Deseori in trialurile clinice sau studiile de cohorta, investigatorii doresc sa analizeze efectul simultan al mai multor variabile asupra supravietuirii.
Cum am aratat anterior (vezi tabelul) in cazul variabilelor cenzurate, dependente de timp utilizam tehnica regresiei lui Cox. In esenta metoda urmareste variatia cu timpul a variabilelor independente (co-variabilelor) in ecuatia regresiei. Variabila dependenta este timpul de supravietuire a subiectului i -; notata cu Yi. In regresia Cox pot fi utilizate variabile independente numerice sau nominale.
Coeficientii regresiei Cox pot fi utilizati pentru a determina riscul relatiei intre fiecare variabila independenta si variabila dependenta, ajustata
in functie de efectul tuturor celorlalte variabile din ecuatie. Metoda hi patrat este utilizata pentru testarea semnificatiei.

Predictia variabilelor nominale

Modele de regresie discutate pana in acest moment au o caracteristica comuna: variabila dependenta F este numerica. In continuare vom descrie trei modele utilizate in cazul in care variabila dependenta este nominala: regresia logistica, analiza discriminanta si analiza liniar -; logaritmica.
Alegerea utilizarii fiecarei metode se face in functie de: valoarea lui Y -; daca ea are mai mult de doua valori scala utilizata in masurarea variabilei independente.

Regresia logistica
Regresia logistica este o metoda ce apare tot mai frecvent in literatura medicala - fiind recomandata in cazul in care variabilele independente includ valori numerice cat si nominale iar variabila dependenta este binara (sau dicotomiala), putand fi insa utilizata si atunci cand Y ia mai mult de doua valori.
Un avantaj major al utilizarii metodei este acela ca nu necesita asumarea de ipoteze asupra distributiei variabilelor independente. Alt avantaj se refera la coeficientul de regresie -; acesta poate fi interpretat in termeni de risc relativ in cazul studiilor de cohorta sau de odds ratio in cazul studiilor caz -; martor.

Analiza discriminanta
Regresia logistica este utilizata aproape exclusiv in stiintele biologice. Analiza discriminanta reprezinta o tehnica inrudita, utilizata mai putin frecvent in medicina, insa ea este uzuala in cazul stiintelor sociale.
Similitudinea cu regresia logistica consta in utilizarea ei in predictia de variabile nominale. Cele doua metode difera prin asumarea (in cazul analizei discriminante) a ipotezei conform careia variabilele independente urmeaza o distributie normala multivariata iar acest lucru trebuie avut in vedere in cazul in care anumite variabile x sunt nominale.
Procedura implica determinarea unor functii discriminante -; combinatii liniare simple ale variabilelor independente, care separa sau se deosebesc in cadrul esantioanelor ce sunt definite prin valorile variabilelor dependente. Numarul necesar de functii discriminante este determinat prin intermediul unui test statistic multivariat numit lambda () al lui Wilks.
Coeficientii functiilor discriminante pot fi standardizati iar apoi interpretati
in acelasi mod ca si in cazul regresiei multiple -; pentru a trage concluzii referitoare la care variabile sunt importante in discriminare in cadrul esantioanelor.
Cu toate ca analiza discriminanta este recomandata pentru a explica sau a descrie factorii care se deosebesc in cadrul esantioanelor de interes, procedura poate fi de asemenea utilizata pentru a clasifica viitorii subiecti.
Clasificarea implica determinarea unei ecuatii separate de predictie, corespunzatoare fiecarui esantion, care sa ofere probabilitatea de a apartine de acel esantion. In cazul clasificarii unui viitor subiect, se calculeaza predictia pentru fiecare esantion iar subiectul este clasificat ca apartinand esantionului cu care se aseamana cel mai mult.

Analiza liniar-logaritmica
Analiza liniar-logaritmica poate fi interpretata ca un model de regresie in care toate variabilele (independente si dependente) sunt nominale. Metoda reprezinta echivalentul testului hi patrat atunci cand avem de-a face cu mai mult de doua variabile (nominale). Tehnica se numeste liniar-logaritmica deoarece implica utilizarea logaritmului frecventelor observate in tabelul de contingenta. Analiza liniar-logaritmica se bazeaza pe modelul multiplicativ, care in general este transformat intr-un model aditiv prin aplicarea logaritmului la modelul multiplicativ.
Metoda poate fi de asemenea utilizata in analiza tabelelor de contingenta multidimensionale in cazul in care nu se face distinctia intre variabilele independente si dependente (desigur toate nominale).
Faptul ca analiza liniar-logaritmica nu necesita distingerea intre variabilele independente si cele dependente -; marcheaza o diferenta majora fata de alte modele de regresie -; aceea ca coeficientii de regresie nu se interpreteaza in analiza liniar-logaritmica.

Alte metode pentru variabile multiple

Pentru a realiza acest capitol cat mai complet cu putinta vom mentiona alte 4 metode utilizate ocazional in literatura medicala: analiza factorului, analiza de grup (Cluster), analiza multivariata a variantei
(MANOVA) si corelatia canonica. Aceste metode apar mai frecvent in literatura psihiatrica si in cea a stiintelor comportamentului, dar uneori apar si in alte specialitati. Aceste metode implica masuratori multiple referitoare la fiecare subiect dar urmaresc scopuri diferite -; sunt utilizate pentru a raspunde la diferite probleme din cercetare.

Analiza factorului
Analiza factorului este metoda statistica utilizata pentru a determina care elemente se combina spre a genera un “factor” dat (o caracteristica reprezentand trasaturile comune ale elementelor), fiind cel mai frecvent utilizata in literatura psihiatrica.
In cazul unei cercetari in care obiectivul principal este analiza factorului, se determina un set de variabile la un esantion extins de subiecti
(pentru a fi semnificativ numarul de subiecti va fi de minimum 10 ori numarul de variabile). Variabilele nu sunt definite ca independente sau dependente, considerandu-se astfel ca se lucreaza doar cu variabile independente.
Analiza factorului analizeaza corelatiile dintre variabile producand combinatii liniare intre acestea, similare ecuatiei regresiei. Diferenta fata de regresie consta in faptul ca fiecare combinatie liniara numita “factor” este determinata astfel incat prima explica cele mai multe variatii intre variabile, a doua explica cele mai multe variatii restante dupa ce primul “factor” a fost luat in consideratie etc.
Cu toate ca teoretic numarul de factori este egal cu cel al variabilelor luate in studiu, in final se alege un numar restrans de factori considerati ca fiind semnificativi. Cercetarea se concepe in general tinand cont de importanta factorilor propusi a fi elaborati.

Analiza de grup (Cluster)
Analiza de grup este o metoda statistica avansata, care-si propune elaborarea unei clasificari (sau taxonomii), intr-o serie se subiecti. Analiza de grup este o tehnica conceptual similara analizei factorului. Diferenta consta in faptul ca analiza de grup incearca sa gaseasca similitudini intre subiectii luati in studiu si nu intre variabilele ce au fost determinate.
Obiectul analizei de grup consta in determinarea unei clasificari sau a unei scheme taxonomice care sa descrie variante dintre subiecti.
Conceptual exista similitudini cu analiza discriminanta cu exceptia ca cercetatorul nu stie carui grup ii apartine subiectul. Ca si in cazul analizei factorului, nu exista variabile dependente.
In medicina tehnica a fost utilizata in domeniul cercetarii interdisciplinare.
Analiza multivariata a variantei (MANOVA)
Analiza multivariata a variantei si corelatia canonica sunt similare
intrucat ambele utilizeaza variabile multiple dependente dar si variabile multiple independente. (Ele nu apar in tabel).
Conceptual, analiza multivariata a variantei (MANOVA) este o simpla extensie a analizei variantei (ANOVA) in cazul in care exista doua sau mai multe variabile dependente. Ca si in cazul ANOVA, MANOVA este recomandata utilizata atunci cand variabilele independente sunt nominale iar cele dependente sunt numerice. MANOVA inlocuieste in acest caz ANOVA pentru a elimina numeroase teste succesive de semnificatie si cresterea posibilitatii ca diferenta a sanselor sa fie declarata semnificativa. In plus MANOVA permite statisticienilor sa analizeze relatiile complexe dintre variabilele dependente.

Analiza corelatiei canonice
Analiza corelatiei canonice implica de asemenea variabile multiple: independente si dependente. Aceasta metoda este recomandata atunci cand ambele tipuri de variabile sunt numerice si studiul isi propune sa cerceteze relatia dintre setul de variabile independente si setul de variabile dependente determinate la acelasi set de subiecti.
Analiza corelatiei canonice formeaza o combinatie liniara a variabilelor independente pentru predictia nu doar a unui singur rezultat ci realizeaza o combinatie liniara a rezultatelor.
Cele doua combinatii liniare de variabile independente si dependente, sunt determinate astfel incat corelatia dintre ele sa fie cit mai mare cu putinta. Corelatia dintre perechea de combinatii liniare se numeste corelatie canonica. Apoi, ca si in cazul analizei factorului, o a doua pereche de combinatii liniare deriva din variatiile restante dupa ce prima pereche este indepartata. In general e suficienta analiza primelor doua sau trei perechi de combinatii liniare.
Analiza corelatiei canonice nu este inca utilizata frecvent in medicina dar se spera in perspectiva o mai larga raspandire a ei.
PREZENTAREA DATELOR


Prezentul capitol isi propune explicarea diferitelor modalitatii de organizare si prezentare a datelor. Oricare ar fi tema aleasa, cercetatorul colecteaza informatii si, in general, doreste sa le transforme in tabele, grafice sau sa le ilustreze prin calculare de procentaje sau medii. Din punct de vedere statistic nu are nici o insemnatate daca observatiile se refera la persoane, animale, obiecte sau evenimente. Ceea ce conteaza insa este tipul variabilelor si scala in care acestea au fost masurate, deoarece aceste caracteristici sunt cele care determina ulterior tipurile de tabele, grafice sau tabele de rezumare, care prezinta cel mai corect datele si reusesc sa transmita observatiile celor interesati.

Variabilele nominale (date calitative) mai sunt numite si observatii categoriale intrucat impart variabilele in functie de anumite categorii.
(Variabilele dicotomiale, asa cum am mai spus reprezinta o forma particulara de variabile nominale -;utilizand d

Colt dreapta
Creeaza cont
Comentarii:

Nu ai gasit ce cautai? Crezi ca ceva ne lipseste? Lasa-ti comentariul si incercam sa te ajutam.
Esti satisfacut de calitarea acestui document, eseu, cometariu? Apreciem aprecierile voastre.

Nume (obligatoriu):

Email (obligatoriu, nu va fi publicat):

Site URL (optional):


Comentariile tale: (NO HTML)


Noteaza documentul:
In prezent fisierul este notat cu: ? (media unui numar de ? de note primite).

2345678910

 
Copyright© 2005 - 2025 | Trimite document | Harta site | Adauga in favorite
Colt dreapta