Prove di Ipotesi per Outliers di Dati

Da Alan Anderson, David Semmelroth

Parechji testi statistichi formali chì sò cuncepiti per rilevà valori anormali. Trè da questi piglianu a forma di testi d'ipotesi. Un test d'ipotesi hè una prucedura per determinà se una proposizione pò esse rifiutata basatu annantu à i dati campionarii. I test di ipotesi implicanu sempre paragunà una statistica di prova da i dati à una distribuzione adatta per determinà se una data ipotesi hè supportata da i dati.



Test di Grubbs

Cù un test di Grubbs, supponi chì u dataset chì sia testatu per i valori più alti hè normalmente distribuitu. L'ipotesi nulle è alternative sò e seguenti:



H 0: Ùn ci hè micca valute.

H 1: Ci hè almenu un outlier.



A statistica di prova hè a seguente:

image0.jpg

induve



G = A statistica di prova per u test di Grubbs

Yi = Un elementu unicu in u gruppu di dati in prova

Y = U campione significa

s = A campione di deviazione standard

A statistica di prova produce l'elementu campionu chì hè u più luntanu da u campione mediu (pusitivu o negativu) espressu cum'è deviazioni standard. Per esempiu, se a media campionaria hè 5, l'elementu campione più grande hè 11, è a deviazione standard campionaria hè 2, allora a statistica di prova sarebbe (11-5) / 2 = 6/2 = 3 deviazioni standard luntanu da a media .

U valore criticu hè u seguitu:

image1.jpg

Induve

n hè a dimensione di u campionu tiratu da a pupulazione.

t hè un valore tiratu da a distribuzione t di u Studiente; hà una zona di coda ghjusta uguale à u livellu di significazione è n - 2 gradi di libertà (df).

U test pò esse effettuatu per determinà s'ellu ci hè un valore outlier, se u valore massimu hè un outlier, se u valore minimu hè un outlier, ecc.

Per esempiu, i seguenti mostranu i risultati di l'applicazione di u test di Grubbs à i rendimenti S&P 500 da 2009-2013. U test hè fattu per truvà un solu outlier. I risultati di i test di Grubbs per un outlier:

Data: SPRiturni

echinacea à chì serve

G = 3.8509, U = 0.9404, valore p = 0.01177

Ipotesi alternativa: Valore u più bassu -0.0253283545257448 hè un valore outlier

Cù un livellu di significazione uguale à 0,05, è un valore p di 0,01177, u valore p hè inferiore à u livellu di significazione. Dunque, l'ipotesi nulla di micca outliers hè respinta. Inoltre, u test indica chì u valore minimu in u set di dati hè un outlier.

Test di Chi-quadru

Pudete pruvà per i valori outliers cù a distribuzione chi-quadru. L'ipotesi nulle è alternative sò e seguenti:

H 0: Ùn ci hè micca valute.

H 1: Ci hè almenu un outlier.

A statistica di test hè basata annantu à e differenze trà i membri attuali di un dataset è i membri currispundenti di una distribuzione di probabilità assunta, cum'è a normale.

Per esempiu, i seguenti mostranu i risultati di l'applicazione di u test chi-quadru à i rendimenti S&P 500 da 2009-2013:

Test di chi-quadratu per l'outlier

Data: SPRiturni

X-squared = 14.8292, valore p = 0.01177

Ipotesi alternativa: Valore u più bassu -0.0253283545257448 hè un valore outlier

Cù un livellu di significazione uguale à 0,05, è un valore p di 0,01177, u valore p hè inferiore à u livellu di significazione. Dunque, l'ipotesi nulla di micca outliers hè respinta. Inoltre, u test indica chì u valore minimu in u set di dati hè un outlier.

Prova Q di Dixon

Cù u test Q di Dixon, supponi chì u ghjocu di dati in prova per i valori più alti hè normalmente distribuitu. L'ipotesi nulle è alternative sò e seguenti:

H 0: Ùn ci hè micca valute.

H 1: Ci hè almenu un outlier.

A statistica di prova hè a seguente:

mucinex 1200 mg effetti collaterali

image2.jpg

Gap si riferisce à u valore assolutu di a differenza trà un outlier è u prossimu valore più vicinu in u dataset. Range si riferisce à a differenza trà u più grande valore in u dataset è u più chjucu valore in u dataset.

Unu di l'inconvenienti di u test Q di Dixon hè chì si pò applicà solu à un campione chì cuntene trà 3 è 30 osservazioni.

Ciò chì seguita mostra i risultati di l'applicazione di u test Q di Dixon à i rendimenti S&P 500 durante i primi 30 ghjorni di cummercializazione di u 2009:

Test di Dixon per i valori più alti

Dati: SPR

Q = 0,4359, valore p = 0,03185

Ipotesi alternativa: Valore u più bassu -0.0116057775514049 hè un valore outlier

Cù un livellu di significazione uguale à 0,05, è un valore p di 0,03185, u valore p hè inferiore à u livellu di significazione. Dunque, l'ipotesi nulla di micca outliers hè respinta. Inoltre, u test indica chì u valore minimu in u set di dati hè un outlier.