Tecniche di analisi dei dati
Tecniche di analisi dei dati
Questo sito utilizza cookie, anche di terze parti. Se vuoi saperne di più leggi la nostra Cookie Policy. Scorrendo questa pagina o cliccando qualunque suo elemento acconsenti all’uso dei cookie.I testi seguenti sono di proprietà dei rispettivi autori che ringraziamo per l'opportunità che ci danno di far conoscere gratuitamente a studenti , docenti e agli utenti del web i loro testi per sole finalità illustrative didattiche e scientifiche.
Tecniche di analisi dei dati
Appunti corso del Professor Burigo A.A. 2006/2007
STATISTICA DESCRITTIVA
Variabili discrete e continue
Discrete = enumerazioni
Continue = misurazioni che necessitano di uno strumento di misura
Scale di misura
Nominale = semplici etichette verbali o numeriche
Ordinale = etichette che possono essere ordinate per ranghi
A intervalli = scale in cui l’unità di misura è costante
A rapporti = esiste lo zero assoluto
Indici di tendenza centrale
MODA valore che si presenta con la più alta frequenza à distribuzione uni e plurimodale
(indice di tendenza centrale di una scala nominale)
MEDIANA valore centrale (oppure la media dei due valori centrali) di un insieme di numeri ordinati per grandezza (indice di tendenza centrale di una scala ordinale)
MEDIA somma delle misure osservate diviso il numero di osservazioni fatte
(indice di tendenza centrale di una scala a intervallo o a rapporto)
QUARTILI valori che dividono un insieme di dati (precedentemente ordinati) in quattro parti
à il secondo quartile coincide con la mediana
Qy = (n+1)/4 ´ y
RANGHI numeri che vengono utilizzati per ordinare (i dati) e raggruppare (i soggetti)
VARIANZA [s2]quadrato dello scarto quadratico medio (o deviazione standard)
Distribuzione normale e standardizzata
Una distribuzione gaussiana (o normale) è una distribuzione teorica. È di importanza fondamentale poiché in alcune analisi statistiche è un parametro che occorre assumere e verificare.
Proprietà principali della distribuzione normale sono:
- è simmetrica e unimodale
- moda, mediana e media coincidono
- è definita da due parametri: media e deviazione standard
- riguarda SOLO variabili continue (in alternativa distribuzioni binomiali)
- l’area sottesa dalla curva è sempre uguale a 1
STATISTICA INFERENZIALE
“La statistica inferenziale si occupa sia della stima dei parametri della popolazione attraverso i campioni, sia della verifica delle ipotesi: individuare le distribuzioni campionarie è di fondamentale importanza per poter inferire in termini probabilistici i parametri della popolazione”
Distribuzione campionaria della media
Proprietà dei parametri della distribuzione campionaria delle medie:
- La media delle medie del campione coincide con la media della popolazione dalla quale i campioni sono estratti
- All’aumentare di n la variabilità (o varianza) della distribuzione campionaria delle medie diminuisce fino a tendere a zero (per la legge dei grandi numeri)
Teorema del limite centrale
Dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle distribuzione delle popolazione (con un campione di ampiezza > 30)
Sapendo che la distribuzione campionaria delle medie assume forma normale, è allora possibile sfruttare le sue proprietà per la stima dei parametri (o per la verifica delle ipotesi)
Verifica delle ipotesi
Analizzare le differenze tra i risultati osservati e quelli attesi. Difficilmente si ottiene una perfetta sovrapposizione in quanto i dati della popolazione sono teorici. Per questo motivo si ragiona in termini di distanza (tra i due valori).
H0 = l’ipotesi nulla è l’ipotesi sottoposta a verifica
H1 = l’ipotesi alternativa è l’ipotesi antagonista alla nulla e rappresenta la conclusione raggiunta quando l’ipotesi nulla è rifiutata. È l’ipotesi che lo sperimentatore spera di raggiungere
H0 + H1 = Evento certo à non può accadere un evento al di fuori delle due ipotesi
=> Obiettivo: rifiutare l’ipotesi nulla
Ipotesi unidirezionali e bidirezionali
Ipotesi unidirezionale (o a una coda): si ha quando si ipotizza un cambiamento della variabile dipendente in una SOLA direzione: la variabile o aumenta o diminuisce.
Ipotesi bidirezionale (o a due code): si ha quando si ipotizza un cambiamento QUALSIASI della variabile dipendente.
Errori statistici
- ERRORE DI I TIPO: si incontra quando si decide di rifiutare l’ipotesi nulla quando in realtà è vera. Le differenze trovate sono dovute esclusivamente al caso.
- ERRORI DI II TIPO: si incontra quando si decide di accettare l’ipotesi nulla quando in realtà è falsa. Le differenze ci sono ma non vengono considerate.
|
DECISIONE |
|
Rifiuto H0 |
Accetto H0 |
|
H0 vera |
Errore del I tipo |
DECISIONE CORRETTA |
H0 falsa |
DECISIONE CORRETTA |
Errore del II tipo |
NB: la potenza di un test (1 – β) indica l’efficienza nel poter evitare di prendere decisioni errate. Diventa molto importante durante la preparazione di un esperimento in quanto viene utilizzata nel calcolo dei soggetti necessari per un esperimento.
METODOLOGIA
Il disegno sperimentale
Nel disegno sperimentale si possono avere due o più gruppi distinti a cui sottoporre le due o più variabili indipendenti (o condizioni della variabile) oppure si può avere un solo gruppo a cui sottoporre le diverse variabili o condizioni delle variabili.
Allora: - GRUPPO SPERIMENTALE e GRUPPO DI CONTROLLO
- CONDIZIONE SPERIMENTALE e CONDIZIONE DI CONTROLLO
Variabile dipendente e indipendente
Una variabile è tutto ciò che potenzialmente potrebbe cambiare al variare di una qualsiasi condizione. In particolare possiamo avere:
Variabili indipendenti: variabili manipolabili o non manipolabili decise dallo sperimentatore
Variabili dipendenti: variabili che dipendono da quelle indipendenti
Disegno “tra i soggetti” (BETWEEN) e “entro i soggetti” (WITHIN)
BETWEEN à Per definizione si ha un disegno tra i soggetti quando ogni soggetto riceve un solo livello della variabile indipendente.
WITHIN à Per definizione si ha un disegno entro i soggetti quando ogni soggetto viene testato per TUTTI i livelli della variabile indipendente.
MISTO à Per definizione si ha un disegno misto quando ogni soggetto viene testato per più di un livello della variabile indipendente ma NON tutti.
Disegno entro soggetti (WITHIN)
Vantaggi: 1. Mantiene la variabilità dei soggetti costante (mentre nel disegno between non è possibile visto che vengono utilizzati soggetti diversi)
2. Aumenta la potenza riducendo la variabilità dovuto al caso
3. Riduce il numero di soggetti necessari per l’indagine sperimentale
Svantaggi: 1. Effetto dell’ordine (bilanciamento)
2. Fatica
Scelta del test statistico
Come scegliere il test statistico migliore? Esperienza, comprendere la logica dietro ad un test, utilizzo delle tabelle decisionali, conoscenza elementi di statistica base.
DOMANDE DA PORSI
- Qual è l’ipotesi di ricerca?
- I dati sono a livello di scala continua o discreta, ordinale o ad intervalli?
SCALA A INTERVALLI (o superiore) à test parametrico
SCALA ORDINALE (o inferiore) à test non parametrico
- Quante variabili abbiamo inserito nell’esperimento?
- Quanti gruppi di persone abbiamo testato? I gruppi sono indipendenti?
- I dati raccolti hanno forma normale? SI à test parametrico
NO à test non parametrico
I test parametrici
I più usati in assoluto in psicologia cognitiva, della percezione, in studi con tempi di reazione, etc.
Vantaggi - Riuscire a cogliere in maniera più efficiente le differenze tra le condizioni sperimentali di quanto non sia possibile fare con i non-parametrici (maggiore potenza statistica).
CONDIZIONI DA RISPETTARE
- Misurazioni su scala ad intervalli (o superiore)
- Alto numero di misurazioni
- Normalità delle distribuzioni di riferimento
- Omogeneità delle varianze
I test NON parametrici
I più usati in psicologia sociale, della memoria, etc.
Vantaggi - Essere più semplici da un punto di vista procedurale, di analisi, e di interpretazione, e di non dover rispettare le condizioni imposte dai test parametrici.
CONDIZIONI DA RISPETTARE
- Misurazioni su scala sia nominale che ordinale
- Lavora anche con campioni di numerosità ridotta
NB: Hanno lo svantaggio di avere una minore potenza statistica
TEST NON PARAMETRICI
Il test del c2
La statistica c2 (chi quadro) lavora con le frequenze di un evento e quindi analizza la loro distribuzione e permette di misurare la discrepanza tra frequenze osservate e frequenze teoriche.
CONDIZIONI:
- Distribuzione dei soggetti di un gruppo nelle diverse categorie.
- Le categorie devono essere mutuamente esclusive e ben definite.
- Il test del c2 tratta con categorie o frequenze, e MAI con punteggi.
- Il numero di soggetti in ogni categoria è legato alle caratteristiche della categoria stessa, quindi non è possibile cambiarlo. Un alto numero di soggetti risolve questo inconveniente.
Condizione con una variabile:
FORMULA: c2 = S [(fo – fa)2 / fa]
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = n – 1 (dove n è il numero dei livelli della variabile)
Condizione con due variabili:
Per calcolo le frequenze attese moltiplico i due totali marginali per ogni cella e dividendo per il numero totale dei soggetti. La formula rimane la stessa della condizione a una sola variabile.
FORMULA: c2 = S [(fo – fa)2 / fa]
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = (r – 1)(c – 1) (dove r sta per numero di righe e c di colonne)
TEST SIGNIFICATIVO SE: c2 => c2critico
La correlazione
La correlazione è un test per calcolare in quale misura due variabili covariano (variano insieme).
Il coefficiente di correlazione può essere definito come un numero che sintetizza il rapporto tra le due variabili X e Y in termini di forza e direzione.
FORMA: - Tipo lineare che rappresentata graficamente si avvicina ad una retta
Questa si divide in due in base alla direzione:
à Direttamente (relazione positiva) o inversamente (relazione neg.) proporzionale
- Tipo curvilineo o non lineare
NB: La correlazione non si occupa della relazione causa-effetto, ma solo del rapporto tra variabili.
Coefficiente di correlazione: la r di Pearson
La correlazione lineare di Pearson si basa sui punteggi ottenuti dai soggetti.
FORMULA: r = zxzy/N
zx e zy sono i punteggi standardizzati di x e y e N è il numero dei soggetti
r può assumere tutti i valori tra –1 e +1
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = n – 2 (dove n è il numero dei soggetti presi in esame)
TEST SIGNIFICATIVO SE: r => rcritico
Coefficiente di determinazione: r2
Questo coefficiente misura l’ammontare della variabile Y che viene spiegata dalla sua relazione con la variabile X. In altre parole è la percentuale di variazione di una variabile che può essere attribuita alla variazione dell’altra.
à ricordarsi le matrici di correlazione
Coefficiente di correlazione: la rs (o rs) di Spearman
La rs di Spearman misura la correlazione tra due variabili ma in base al calcolo dei ranghi e alla loro assegnazione. Quindi una relazione positiva in questo caso prevede che a ranghi alti in una variabile corrispondano ranghi alti anche nell’altra (non si tratta di punteggi!!).
FORMULA: rs = 1 – (6 Sd2 /(n(n2 –1))) n è numero di soggetti e Sd2 è sommatoria delle
differenze dei ranghi tra soggetti al quadrato
VALORE CRITICO: per determinare il valore critico occorrono α e n
TEST SIGNIFICATIVO SE: rs => rs critico
Il test di Wilcoxon
CONDIZIONI:
- Disegni within subjects à un solo gruppo
- Differenza tra DUE condizioni o variabili
Ricordarsi: i test non-parametrici sono usati quando i dati sono espressi su scala ordinale, ma anche quando le distribuzioni delle variabili sotto esame non siano note e quando il campione è piccolo.
PROCEDIMENTO: Sommatoria dei ranghi delle differenze positive (T+) e negative (T-).
Il T preso in esame è quello minore tra i due.
VALORE CRITICO: per determinare il valore critico occorrono α e N
N = n – ties (dove n è il numero di soggetti e ties di differenze nulle)
TEST SIGNIFICATIVO SE: T =< Tcritico
Il test di Mann-Whitney
CONDIZIONI:
- Disegni between subjects
- Differenza tra due gruppi di osservazioni con UNA sola variabile
- Campioni di numerosità ridotta
- Test non sensibile agli outliers (al contrario del t-test) in quanto lavora con i ranghi
PROCEDIMENTO: Ordino tutti i punteggi e calcolo i ranghi, poi faccio la sommatoria dei ranghi dei due diversi gruppi à gruppo 1 = SR1 e gruppo 2 = SR2
FORMULA: U1 = n1n2 + [n1(n1 +1)/2] - SR1 e U2 = n1n2 + [n2(n2 +1)/2] - SR2
Si considera la U minore tra le due ottenute
n1 e n2 = numero dei soggetti dei due gruppi
VALORE CRITICO: per determinare il valore critico occorrono α e N (= n1+n2)
TEST SIGNIFICATIVO SE: U =< Ucritico
Il test di Friedeman
CONDIZIONI:
- Disegni within subjects à un solo gruppo
- Differenza tra tre o più condizioni (o livelli) e si basa sul confronto per ranghi
PROCEDIMENTO: Calcolo i ranghi delle varie condizioni per ogni singolo soggetto, faccio la sommatoria dei ranghi per ogni condizione e infine faccio la somma dei quadrati delle singole condizioni à SRx
FORMULA: cr2 = [(12/(Nk(k + 1)))(SRx)] – 3N (k +1)
VALORE CRITICO: per determinare il valore critico occorrono α e N (= numero sogg gruppo)
TEST SIGNIFICATIVO SE: cr2 => cr2critico
Il test di Kruskal-Wallis
CONDIZIONI:
- Disegni between subjects
- Differenza tra tre o più condizioni
- Test non sensibile agli outliers in quanto lavora con i ranghi
- Test particolarmente diffuso dal momento che è un valido sostituto dell’ANOVA quando i parametri di omogeneità non sono soddisfatti
PROCEDIMENTO: Ordino tutti i punteggi e calcolo i ranghi, poi faccio la sommatoria dei ranghi delle diverse condizioni à cond. 1 = T1, cond. 2 = T2, cond. n = Tn
Infine calcolo T che è la sommatoria delle diverse Ti
FORMULA: H = [12/N(N+1)(T2/n)] N = numero dei soggetti
n = numero dei soggetti per condizione
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = C – 1 (dove C è il numero di condizioni prese in esame)
TEST SIGNIFICATIVO SE: H => Hcritco
Il test di Wald-Wolfowitz o “run test”
Il seguente test calcola se due gruppi di osservazioni appartengono o meno alla stessa popolazione e si basa sul conteggio dei “run” presenti nei dati organizzati per rango.
“Un RUN è una sequenza di osservazioni continue da uno dei due gruppi”
NB: La logica è che un numero troppo elevato di run lunghi rappresenta una sistematicità che non dovrebbe presentarsi in una serie di numeri casuali
CONDIZIONI:
- Disegni between subjects
- Due gruppi appartengono o meno alla stessa popolazione?
- Test non sensibile agli outliers
PROCEDIMENTO: Calcolo il numero di run e lo confronto con quello critico
VALORE CRITICO: per determinare il valore critico occorrono α e la numerosità del campione
TEST SIGNIFICATIVO SE: run =< runcritico
TEST PARAMETRICI
Il vantaggio principale dei test parametrici è che offrono un maggior potere statistico (i test non-parametrici rimangono comunque un’alternativa valida).
I test parametrici sono basati sul concetto di variabilità o varianza (dei punteggi dei soggetti) e il loro punto-forza risiede nel fatto che questa variabilità o varianza può essere ripartita tra diverse fonti: varianza dovuta alla manipolazione e varianza dovuta al caso.
CONDIZIONI NECESSARIE per l’applicazione:
- Misurazioni su scala ad intervalli (o a rapporti)
- Alto numero di misurazioni
- Normalità delle distribuzioni di riferimento
- Omogeneità delle varianze tra le condizioni (per questo motivo si cerca di avere lo stesso numero di soggetti per ogni condizione)
I GRADI DI LIBERTÀ
I gdl assumono un’ importanza maggiore nei test parametrici in quanto le varianze vengono calcolate sulla variabilità dei punteggi, cioè considerando la “libertà” dei punteggi di variare.
Il t-test
CONDIZIONI:
- Misura se vi è una differenza significativa tra DUE condizioni o gruppi.
- Disegni sia between che within.
- La popolazione di osservazioni può NON avere forma normale.
- Il t-test si usa frequentemente in quanto offre la possibilità di analizzare molte situazioni:
- Verifica di ipotesi rispetto alla media
- Verifica della differenza di due medie
- con s2 nota
- con s12 ¹ s22
- Verifica di ipotesi rispetto alla media
FORMULA: t = [(x - m)]/[s/rq(n)] dove rq = radice quadrata
e n = numero delle misurazioni totali
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = (n-1) (dove n sta per il numero delle misurazioni)
- Verifica della differenza di due medie BETWEEN (corrispettivo del Mann-Whitney)
FORMULA: t = [(x1-x2) – (m1- m2)] / sX1-X2
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = (n1 + n2 – 2) (dove n1=numero dei soggetti del G1 e n2 del G2)
- Verifica della differenza di due medie in disegni WITHIN
FORMULA: t = [(D - mD)] /sD
VALORE CRITICO: per determinare il valore critico occorrono α e il grado di libertà
GDL = (n-1) (dove n sta per il numero di misurazioni appaiate)
TEST SIGNIFICATIVO SE: t => tcritico
La regressione
La regressione è una tecnica statistica che permette di valutare la relazione tra due variabili.
La regressione è più informativa della correlazione in quanto è possibile formulare ipotesi di causa-effetto. Inoltre con la regressione multipla è possibile valutare la relazione tra variabile dipendente e più variabili indipendenti.
CONDIZIONI:
- Definizione chiara di variabile dipendente e indipendente.
- Stabilisce una relazione di causa-effetto tra variabili.
La regressione semplice
La regressione calcola se i cambiamenti della variabile dipendente possono essere determinati dai cambiamenti della variabile indipendente e in aggiunta, ci permette da fare delle previsioni.
EQUAZIONE DI REGRESSIONE:
La relazione tra variabile dipendente ed indipendente può venire espressa con una formula. Nel caso le due variabili siano legate da una relazione costante, il loro rapporto verrà espresso da una retta. La formula che meglio esprime questo rapporto è la retta di regressione.
La regressione multipla
La regressione è anche in grado di testare la relazione tra una variabile dipendente e più variabili indipendenti; la regressione multipla.
Dal momento che la regressione viene espressa da una retta, nel caso della regressione multipla, abbiamo il problema di dover inserire tutti i coefficienti nella formula.
METODO STEPWISE:
Il metodo “stepwise” può andare “in avanti” o procedere “all’indietro”.
- Il metodo “in avanti” parte da una formula “vuota” e procede in avanti testando (e aggiungendo) tutte le variabili che riescono a spiegare la variabilità della variabili dipendente.
- Il metodo “all’indietro” parte dalla formula contenente tutte le variabili e scartando quelle che non spiegano in nessun modo la variabilità (alcune variabili possono essere forzate).
RESIDUI DI REGRESSIONE
Dal momento che la regressione non giunge ad una stima perfetta della variabile dipendente, esiste una differenza tra il valore atteso e valore reale. Questo valore viene chiamato “residuo”.
I residui permettono un’analisi degli outliers, in quanto rappresentano quei dati che non possono essere spiegati dal modello.
L’analisi della varianza (ANalysis Of VAriance)
Per i confronti semplici tra due medie si utilizza il t test.
Se si vuole confrontare una variabile a più livelli o confrontare più variabili sperimentali (sia WITHIN che BETWEEN), il test più appropriato è l’ANOVA.
CONDIZIONI DI APPLICABILITÀ GENERALI:
- Più di due gruppi o condizioni (vedi invece t test)
- Disegni sia between che within
- Le osservazioni devono essere assegnate ai trattamenti in modo casuale
- La distribuzione della popolazione deve (dovrebbe) essere normale
- Omogeneità della varianza delle popolazioni relative ai trattamenti, in particolare con gruppi di soggetti di numerosità molto diversi (test di Bartlett o Levene)
Il test opera una partizione della varianza in componenti più ridotte. Le differenze tra le medie riflettono una variabilità casuale (differenze delle medie tra i gruppi e varianza dei soggetti) e una variabilità dovuta al trattamento.
Si ottiene una distribuzione di F data da F = varianza trattamento + errore casuale
errore casuale
Allora…
- Se F calcolata è maggiore di 1 (F>1) allora la F sarà probabilmente significativa.
- Maggiore è la varianza dovuta al trattamento e maggiore sarà il valore di F
TEST SIGNIFICATIVO SE: F => Fcritico
ANOVA a UNA VIA per disegni BETWEEN
CONDIZIONI: - Una variabile indipendente
- Disegno between
PROCEDIMENTO:
NB: La varianza totale nei disegni “between subjects” deriva dalla varianza entro i soggetti e dalla varianza tra i soggetti (o dovuta al trattamento). Una volta calcolati i gradi di libertà, la varianza dovuta all’errore (entro soggetti o stesso gruppo) e quella dovuta al trattamento (tra soggetti o gruppi). Si calcola la F con la formula.
a = numero gruppi |
VARIANZA NEL BETWEEN |
||
Totale |
Tra soggetti |
Entro soggetti |
|
GDL |
N – 1 |
a – 1 |
a(n – 1) |
VARIANZA |
MS |
MSeffect |
MSE(error) |
FORMULA: F(gdltra,gdlentro) = MSeffect (o dovuta al trattamento)
MSE (o dovuta all’errore)
NB: Riportare sempre nella discussione oltre la F il valore di MSE (varianza dovuta all’errore).
ANOVA a UNA VIA per disegni WITHIN
CONDIZIONI: - Una variabile indipendente
- Disegno within
- Vantaggio di ridurre l’errore casuale, aumentando la potenza e di ridurre lo svantaggio degli effetti dovuti all’ordine di presentazione.
PROCEDIMENTO:
NB: La varianza totale nei disegni “within subjects” è data dalla somma della varianza entro i soggetti (o varianza dovuta al trattamento), della varianza dei soggetti e della varianza residua.
Una volta calcolati i gradi di libertà, la varianza dovuta all’errore (varianza residua) e quella dovuta al trattamento (entro soggetti o condizioni). Si calcola la F con la formula.
a = numero gruppi |
VARIANZA NEL WITHIN |
||
Totale |
Entro soggetti |
Residua |
|
GDL |
N – 1 |
a – 1 |
(a – 1)(n – 1) |
VARIANZA |
MS |
MSeffect |
MSE(error) |
FORMULA: F(gdlentro,gdlresidua) = MSeffect (o dovuta al trattamento)
MSE (o dovuta all’errore)
NB: Riportare sempre nella discussione oltre la F il valore di MSE (varianza dovuta all’errore).
ANOVA a PIÙ VIE nei disegni BETWEEN e WITHIN
L’utilità dell’ANOVA emerge quando ci si trova di fronte ad un disegno complesso (almeno 2 x 2) e dove l’interazione tra due variabili è l’obiettivo della ricerca.
I disegni con più di una variabile indipendente vengono chiamati “disegni fattoriali” e la loro utilità principale consiste nella valutare l’interazione tra le variabili in gioco.
STUDIO DEGLI EFFETTI
Per individuare le fonti dell’interazione si inizia con lo studiare gli “effetti semplici” o i “main effects”, ovvero esaminare l’andamento dei risultati associati ad un livello della variabile indipendente al variare sistematico dell’altra variabile indipendente.
ANOVA a PIÙ VIE nel disegno MISTO
La logica del disegno misto si basa sulla scomposizione della varianza utilizzando la combinazione dei tre metodi visti fino ad ora: varianza nel disegno between, nel disegno within e la loro interazione.
Vantaggi dei disegni misti:
- Minimizzano l’effetto di “carryover” dei disegni within
- Permettono lo studio dell’apprendimento
- Permettono lo studio dei cambiamenti di una variabile nel tempo (longitudinali).
TEST POST-HOC
I test post hoc entrano in gioco ogni qual volta si renda necessario analizzare lo studio delle interazioni (ma anche le differenze tra i livelli di una sola variabile).
Confronti a priori (o pianificati)
I confronti a priori (o pianificati) sono i confronti permessi da delle specifiche ipotesi e predizioni (riguardo gli effetti) precedenti all’analisi dei dati.
I confronti a priori possono venire eseguiti anche senza prima eseguire l’ANOVA, ad esempio tramite una serie di t-test (confronti a coppie). Non occorre apportare nessuna correzione al livello di significatività (a).
TEST:
LSD: alternativa al t-test semplice, numero ridotto di confronti
Bonferroni: rigoroso, confronti pianificati molto numerosi
Confronti a posteriori (o non pianificati) e le correzioni sull’a
Dal momento che aumentando il numero dei confronti aumenta anche la probabilità di commettere un errore del I tipo occorre controllare il valore di significatività a.
Non possiamo abbassare il valore di a per tutti i confronti perché aumenteremmo la probabilità di un errore di II tipo, si considerano allora i confronti da effettuare come una famiglia di confronti dove il valore di a deve essere mantenuto costante.
TEST:
Bonferroni: anche per i confronti a posteriori, non molto potente
Scheffè: tutti i casi
Dunnett: confronto tra gruppo di controllo e tutti gli altri
Tukey: tutti i possibili confronti a coppie (- potente)
Newman-Keuls: tutti i possibili confronti a coppie (+ potente)
Test post hoc: nei disegni misti
Nel caso in cui ci si trovi ad analizzare un disegno misto non è possibile stabilire il termine di errore appropriato. Test post hoc per questi tipi di disegni non vengono calcolati. L’alternativa consiste nell’eseguire una serie di t-test (o post hoc non incrociati) per i confronti di interesse.
INDICE ED ELENCO DEGLI ARGOMENTI
STATISTICA DESCRITTIVA (pag. 1)
- Variabili discrete e continue
- Scale di misura
- Indici di tendenza centrale
- Indici di variabilità
- Distribuzione normale e standardizzata
STATISTICA INFERENZIALE (pag. 1)
- Distribuzione campionaria della media
- Teorema del limite centrale
- Verifica delle ipotesi
- Ipotesi unidirezionali e bidirezionali
- Errori statistici
METODOLOGIA (pag. 2)
- Il disegno sperimentale
- Variabile dipendente e indipendente
- Disegno “tra i soggetti” (BETWEEN) e “entro i soggetti” (WITHIN)
- Scelta del test statistico
- I test parametrici
- I test NON parametrici
TEST NON PARAMETRICI (pag. 4)
- Il test del c2
- La correlazione
- Il test di Wilcoxon
- Il test di Mann-Whitney
- Il test di Friedeman
- Il test di Kruskal-Wallis
- Il test di Wald-Wolfowitz o “run test”
TEST PARAMETRICI (pag. 6)
- Il t-test
- La regressione
- L’analisi della varianza (ANOVA)
TEST POST-HOC (pag. 9)
- Confronti a priori (o pianificati)
- Confronti a posteriori (o non pianificati) e le correzioni sull’a
- Test post hoc: nei disegni misti
Fonte: http://appunti.buzzionline.eu/downloads/analisidati0607.doc
Autore del testo : Marco
Tecniche di analisi dei dati
Visita la nostra pagina principale
Tecniche di analisi dei dati
Termini d' uso e privacy