Reliability

Share this


Test-retest reliability

La test-retest reliability valuta la stabilità dei punteggi in somministrazioni successive dello strumento; se la sintomatologia esplorata non è cambiata nell'intervallo fra le due valutazioni, il punteggio della scala dovrebbe essere sostanzialmente sovrapponibile e quindi la correlazione fra le due valutazioni dovrebbe essere elevata. La stabilità al test-retest è particolarmente importante per gli strumenti che valutano le caratteristiche o i tratti di personalità, per i quali bassi coefficienti di correlazione possono indicare che la scala è instabile o per la presenza di item che esplorano stati o per difficoltà di comprensione degli item. Per le patologie acute la test-retest reliability è inappropriata. La stabilità di una scala è importante quando questa venga impiegata più volte, a varia distanza di tempo, come nel caso della ricerca psicofarmacologica clinica, poiché solo una buona affidabilità al test-retest può consentire l'attribuzione di eventuali variazioni di punteggio all'azione del trattamento e non all'instabilità dello strumento. Il grado di correlazione al test-retest varia in funzione della distanza di tempo intercorrente fra le successive valutazioni; per intervalli di tempo limitati (1-2 settimane) il coefficiente dovrebbe essere superiore a .80, mentre sono accettabili anche valori di .69 o più per tempi intorno al mese. Data la variabilità nel tempo della sintomatologia psichiatrica, per la valutazione della test-retest reliability si fa spesso ricorso alla registrazione di interviste (con pazienti reali o simulati) su videocassette che vengono poi riproposte a tempi diversi.
 

Inter-rater reliability

Particolarmente importante è l'inter-rater reliability, cioè il grado di correlazione fra i punteggi assegnati allo stesso campione di pazienti da parte di due o più valutatori indipendenti che usano la stessa RS. Generalmente la valutazione viene fatta indipendentemente dai due (o più) valutatori presenti alla stessa intervista, anche se sarebbe metodologicamente più corretto che i valutatori intervistassero separatamente il paziente.

La stima dell'affidabilità di una scala richiede che il campione esaminato possieda una discreta variabilità in modo che si possa evidenziare la capacità dello strumento di discriminare i soggetti tra di loro: la buona affidabilità, infatti, presuppone che i valutatori siano concordi non solo nella valutazione ma anche nella discriminazione. L'inter-rater reliability, perciò, non si esprime soltanto in termini di accordo percentuale tra i valutatori, ma in termini di correlazione fra un insieme di fenomeni. Si deve tener conto, infatti, che una parte della concordanza è dovuta al caso: in una scala a 4 livelli (da 1 a 4), per esempio, i valutatori hanno il 25% di probabilità di concordare solo in funzione della casualità. Uno dei metodi più usati è il coefficiente r di Pearson, il quale però non corregge per gli errori sistematici (p. es., la costante sottostima di un valutatore rispetto ad un altro). Più affidabile è il K di Cohen e, soprattutto, il weighted K (wK) di Hall, che è stato sviluppato appositamente per la valutazione dell'accordo fra valutatori diversi di una RS.

Molto spesso l'inter-rater reliability e l'accordo tra valutatori sono considerati due concetti equivalenti ed intercambiabili: si tratta di una convinzione del tutto erronea poiché l'essenza della reliability è la condivisione, è il condividere la discriminazione fra soggetti, mentre l'accordo tra valutatori riguarda il singolo soggetto e, come è ovvio, con un solo soggetto non può esserci discriminazione.

Nel caso, del tutto improbabile, che due valutatori concordino al 100% che l'entità del miglioramento in risposta ad un certo trattamento, in un campione di pazienti, è esattamente sovrapponibile, ci troveremmo di fronte ad un perfetto accordo tra valutatori ma la reliability sarebbe indeterminata.
 

Intra-rater reliability

Le capacità del clinico di valutare i pazienti possono cambiare (migliorare!) mano a mano che il valutatore acquisisce esperienza e pertanto la correlazione fra valutazioni effettuate a distanza di tempo può ridursi. Per valutare questo tipo di affidabilità (intra-rater reliability), essendo impossibile avere a disposizione a distanza di tempo lo stesso paziente con la stessa sintomatologia, si ricorre alla valutazione di casi registrati su videotape e si calcola quindi il grado di correlazione tra i punteggi ottenuti nelle diverse sessioni.
 

Parallel forms reliability

La parallel forms reliability viene utilizzata quando esistono due versioni diverse di una stessa scala (p. es., una versione estesa ed una breve) e si deve valutare se entrambe misurano la stessa entità; in questo caso è richiesto un elevato coefficiente di correlazione (in genere superiore a .80) perché le due versioni possano essere considerate corrispondenti.

 

 

 

> Lascia un commento   > Torna all'indice

Totale visualizzazioni: 289