Trattamento statistico dei dati analitici

Download Report

Transcript Trattamento statistico dei dati analitici

Trattamento statistico dei dati
analitici
Errori nell’analisi chimica
Qualsiasi misura comprende un certo margine
d’errore.
Gli errori vengono distinti in due classi
fondamentali:
Errori sistematici o determinati
Errori accidentali o indeterminati
La somma dell’errore sistematico e casuale
di ciascuna misurazione è il suo scarto
Errori sistematici
• Sono strettamente legati alle prestazioni e alla
taratura degli strumenti e al metodo analitico
adottato.
• Gli errori sistematici si ripetono sempre con lo
stesso segno
• Le fonti di errore sistematici possono essere
individuate facilmente mediante un controllo
della taratura degli strumenti
Errori accidentali
• Diversamente da quelli sistematici sono
inevitabili e non possono mai essere
eliminati completamente.
• Possono essere additivi e sottrativi
• L’influenza di questi errori sul risultato
analitico può essere stimata mediante
l’analisi statistica dei dati raccolti
attraverso una serie ripetuta di misure
Precisione degli strumenti analitici
La possibilità di commettere errori dipende
anche dalle prestazioni degli strumenti di
misura.
La precisione degli strumenti ovvero la loro
capacità di fornire letture riproducibili,
viene in genere dichiarata dal costruttore,
secondo procedimenti di taratura e verifica
ben definiti
Misurazione e incertezza
• Il valore vero di una grandezza è solo
un’astrazione, perché qualunque valore è il
risultato di una misurazione, e misure diverse
possono fornire risultati diversi secondo il
particolare procedimento adottato
• Ogni misurazione possiede una quota di
incertezza strettamente connessa con l’azione
stessa del misurare
• Ogni misurazione rappresenta solo una stima
più o meno attendibile del valore vero
Definizioni
• Popolazione: numero infinito di
misurazioni di una data grandezza
• Campione: numero finito di misure della
stessa grandezza
• Valore vero: migliore stima disponibile di
quella data grandezza
Compito dell’analista
• L’analista deve operare cercando di minimizzare
lo scarto tra le proprie misure e il valore vero
riducendo nel contempo l’incertezza.
• Lo scopo di una misurazione è quindi parte
integrante e fondamentale del processo che non
può concludersi con la semplice indicazione di
un numero con la relativa unità di misura. Il dato
analitico che conclude un’analisi chimica
dovrebbe riportare anche i margini di incertezza
che sono associati al valore comunicato
In sintesi
Un errore di misurazione si verifica
coerentemente
per cui è classificato sistematico
causa minore accuratezza
L’effetto può essere ridotto misurando
uno standard e applicando un fattore
di correzione
incoerentemente
per cui è classificato casuale
causa minore precisione
L’effetto può essere
ridotto ripetendo
le misure e mediando i risultati
Espressione del risultato di una
serie di misure
Il risultato di un’analisi non deriva da una
singola misura ma da una serie di misure.
Per rappresentare in modo adeguato
l’insieme delle misure di una serie si
usano un indicatore di posizione e un
indicatore di dispersione
L’indicatore di posizione esprime il valore
ritenuto migliore e rappresentativo di tutto
l’insieme di misure.
Viene scelto per indicare il valore vero e
quindi ha a che fare con l’esattezza
L’indicatore di dispersione si riferisce
all’incertezza del risultato e contiene
l’indicazione dell’intervallo numerico entro
il quale potrebbe rientrare il valore vero; si
riferisce quindi alla precisione della serie
di misure.
Scelta del valore centrale
Quando si applica un metodo analitico si effettua una serie di misure e
in numero tanto più grande quanto più dispersi sono i risultati. Poi
quando si è raccolto un insieme di risultati occorre scegliere un valore
centrale che sia rappresentativo di tutto l’insieme. Tale valore può
essere determinato in base a criteri diversi adottando uno dei seguenti
parametri:
• Media aritmetica
• Mediana
• Moda
Valori anomali e aberranti
In un insieme di dati spesso può capitare
che uno o più valori si discostino troppo
dalla media, suggerendo l’ipotesi che si
tratti di valori anomali ( o aberranti).
Per evidenziare con metodi statistici la
presenza di dati aberranti e se è il caso di
poterli scartare si suggerisce il test di
Dixon ( Q – test)
Test di Dixon
Si confronta lo scarto tra il dato sospetto e
quello ad esso più vicino con il range,
tenendo conto del numero complessivo
dei dati.
Nel caso più semplice di un numero di dati
non superiore a 7 per decidere quale dato
scartare si procede come segue:
• Si calcola il range ( R = valore massimo – valore minimo)
• Si calcola la differenza in valore assoluto tra il valore sospetto e
quello ad esso più vicino (Δ)
• Si calcola il rapporto Q = Δ/R
• Si confronta Q con il valore Qtab riportato in apposite tabelle.
• Il valore da scegliere nella tabella è diverso a seconda del numero
di dati della serie e della probabilità entro cui si vuole operare
• Se Q > Q tab , al livello di probabilità scelto, il dato è anomalo e
quindi va scartato
• Diversamente il dato sospetto deve essere mantenuto
Valori di Q tab per il test di Dixon
Numero di prove
Q tab per il 90%
3
0,94
4
0,76
5
0,64
6
0,56
7
0,51
Esercizio
Il valore certificato della concentrazione delle proteine in un
alimento è del 3,45%.
Le misure eseguite hanno dato i seguenti valori:
3,50 3,44 3,44 3,46 3,45 3,44 3,46
Si sospetta il valore 3,50 anomalo.
Verificare con il test di Dixon
Q= 0,04/0,06 = 0,67
Il valore ottenuto è maggiore di 0,51 ( vedi tabella) .
Ciò significa che per il 90% di probabilità quel valore è
aberrante.
Accettando tale livello di probabilità il valore 3,50 va
scartato. Questo modifica sia la media che la deviazione
standard
Indicatori di posizione: scelta del
valore centrale di una serie di dati
• Come indicatore di posizione si sceglie
abitualmente la media aritmetica.
• Lo scarto tra la media delle misure e il
valore vero esprime l’esattezza del
risultato analitico
• Lo scarto di un singolo valore dal valore
vero indica l’accuratezza di quella
misurazione
Esattezza e accuratezza
L’esattezza e l’accuratezza indicano
quanto un singolo dato
(accuratezza), o la media aritmetica di
una serie di dati (esattezza), si
avvicina al valore vero.
Vengono espressi in termini di :
• Errore assoluto
Eass = Xi – μ ( errore riferito ad una singola misura)
Eass = m – μ ( errore riferito a una media)
Dove Xi = singola misura
μ = valore vero
m = media
• Errore relativo
Erel = Xi – μ / μ ( errore riferito ad una singola misura)
Erel = m – μ /μ ( errore riferito a una media)
Dove Xi = singola misura
μ = valore vero
m = media
• Errore relativo percentuale
( basta moltiplicare l’errore relativo per 100)
Esercizio N°1:
Il valore certificato della concentrazione
delle proteine in un alimento è del 3,45%.
Le misure eseguite hanno dato i seguenti
valori:
3,50 3,44 3,44 3,46 3,45 3,44 3,46
L’accuratezza della terza misurazione è:
3,44 - 3,45 = - 0,01
La media è 3,46
L’esattezza del risultato è
3,46 - 3,45 = 0.01
Esercizio N°2
Un analista misura la concentrazione di cloruri in
una soluzione standard preparata da un ente
preposto alla certificazione della qualità dei
laboratori chimici e stabilisce che il valore più
probabile è di 35 mg/L mentre il valore certificato
è 40 mg/L.
L’errore assoluto è 5 mg/L e sembra piuttosto
piccolo
L’errore relativo è 0,125 ossia 12,5%, un valore
non trascurabile
Esercizio N° 4
Il limite della concentrazione di piombo nelle acque
è di 0,050 mg/L e un analista alle prime armi ha
determinato 0,011mg/L.
Il valore accertato è 0,008 mg/L per cui l’errore
assoluto è molto piccolo ossia 0,003 mg/L e
quello relativo percentuale più del 37% quindi
piuttosto alto.
La valutazione delle prestazioni dell’analista non
deve essere però così negativa perché a
concentrazioni così basse è difficile ottenere
risultati migliori e d’altra parte siamo al di sotto
del valore limite cioè lontano da livelli che
potrebbero creare problemi sul piano sanitario e
legale
Indicatori di dispersione
Un importante criterio di valutazione della
qualità di una serie di misure consiste nel
determinare la dispersione intorno al
valore centrale che è in relazione con la
precisione della serie di dati
La precisione indica quindi l’accordo di
una serie di dati tra di loro. Viene espressa
come deviazione dei dati dalla loro media
aritmetica.
Parametri della dispersione
• Range: differenza tra valore massimo e minimo
di una serie di misure
• Varianza: somma dei quadrati delle differenze
fra ogni dato e il valore medio diviso per i gradi
di libertà (n-1)
• La deviazione standard (σ ): la radice quadrata
della varianza
• Coefficiente di variazione(CV) è la deviazione
standard espressa come percentuale sulla
media CV = σ/m X 100
Esercizio N°5
Nella determinazione della durezza di
un’acqua si sono ottenuti i seguenti
risultati:
22,4 22,6 22,7 23,0 23,1
Calcolare:
Range
Varianza
Deviazione standard
Distribuzione delle misure
Quando si ha a che fare con una serie numerosa di dati,
per stabilire quanto siano dispersi e con quale frequenza si
presenti ciascuno di essi si può costruire un istogramma
• Si costruisce una tabella con tutti i valori ottenuti
• Si prendono i due valori estremi a e b
• Si sceglie un intervallo Δx che sia un opportuno sottomultiplo della
differenza (b-a) , ma comunque non minore della sensibilità di
misura
• Si riporta in un grafico in ascissa i valori degli intervalli così costruiti
ed in ordinate il numero di volte che la misura ci ha dato il valore
compreso in quel dato intervallo( frequenza).
• Si costruisce così un grafico di frequenze che chiamiamo
istogramma
Curva di Gauss
• Se al limite facciamo intervalli sempre più
piccoli possiamo tracciare una curva che
prende il nome di Curva di Gauss.
• Tale curva è simmetrica intorno al valore
centrale che corrisponde al massimo e
che è il valore più probabile della
grandezza misurata ( corrisponde alla
media)
Raccolta e registrazione dati
1) Tabelle
Se la relazione è di tipo
lineare è possibile
calcolare un valore X
corrispondente ad un
dato valore Y mediante
il metodo della
interpolazione lineare.
Xm - Xm-1 = Ym - Ym-1
Xm+1 - X m-1 Ym+1 - Ym-1
x
y
2) Grafici
Più spesso si costruisce il grafico della funzione e
poi si interpolano i valori cercati per via grafica.
Va osservato che non sempre i punti
sperimentali giacciono esattamente su una retta.
In questo caso si deve tracciare una retta che
passi ad occhio il più possibile vicino a tutti i
punti sperimentali oppure si può calcolare la
funzione che meglio si adatta ai punti
sperimentali ( best fitting)
Cifre significative
• Il dato analitico è un numero che deriva da una
misura sperimentale
• Il risultato di una prova è un numero che si
ottiene da precedente dopo aver elaborato
grafici di taratura ed effettuato calcoli
• Il dato analitico deve essere registrato in modo
da contenere esclusivamente cifre significative
cioè le cifre che sono giustificate dalle
prestazioni degli strumenti (legate all’incertezza
della misura) e, in generale dal metodo usato
per l’analisi.
Si devono riportare le cifre significative note
con certezza più la prima cifra incerta,
indicando di fianco l’intervallo di incertezza
•
•
•
•
Bilancia digitale con precisione di + 0,1 mg
Bilancia digitale con precisione di + 0,02g
Potenziometro con precisione di + 1 mV
Spettrofotometro con precisione di + 0,001 A
4,0057 + 0,0001g
4,00 + 0,02 g
434 + 1mV
0,987 + 0,001A
Metodo dei minimi quadrati: best fitting
• Quando tra due variabili vi è una relazione
di tipo lineare, per tracciare la retta che più
si avvicina ai punti viene utilizzato il
metodo del best fitting.
C.F.Gauss
Manca di mentalità matematica tanto
chi non sa riconoscere rapidamente
ciò che è evidente, quanto chi si
attarda nei calcoli con una precisione
superiore alla necessità
Berzelius
Cerca di trovare un metodo di analisi tale
che l’esattezza del risultato dipenda il
meno possibile dall’osservatore e , dopo
averlo scelto, considera attentamente
quali sono i fattori inevitabili che possono
introdurre degli errori nel risultato, e se
questi errori saranno in difetto o in
eccesso
Laplace
Quanto più numerose sono le osservazioni e quanto meno esse
differiscono l’una dall’altra, tanto più i loro risultati si avvicinano al
vero. Questa condizione può essere soddisfatta mediante la scelta
dei metodi di osservazione, mediante l’impiego di strumenti precisi e
mediante la cura posta nell’esecuzione delle misure; applicando la
teoria delle probabilità si calcolano quindi i risultati medi migliori,
cioè quelli che danno il valore minimo dell’errore.
Questo però non basta; è necessario valutare la probabilità che gli
errori dei risultati ottenuti siano compresi entro determinati limiti, in
quanto altrimenti si ha una conoscenza solo imperfetta del grado di
esattezza ottenuto.
Le formule che consentono di raggiungere questo scopo
costituiscono perciò un autentico progresso ed un importante
completamento del metodo scientifico.