![]() |
|
||||||||||||||||
![]() |
||||||||||||||||
Pràctica |
![]() |
Exercicis
|
||||||||||||||
Els contrastos d'hipòtesis.
La prova khi quadrat ![]() |
Glossari
|
|||||||||||||||
Proves de normalitat ![]() |
||||||||||||||||
Ajust a un model donat per una distribució de probabilitat discreta | |||||||||||||
Sovint cal calcular les freqüències esperades a partir del model teòric donat per una distribució de probabilitat amb nom. En alguns casos, ens trobem amb el fet que la freqüència esperada d'algun valor és molt petita i això pot distorsionar els càlculs. En altres moments, tenim sospites de quin és el model de probabilitat escaient (distribució binomial o de Poisson o uniforme...), però no coneixerem a priori els paràmetres que determinen la distribució i els assignem el valor que ens sembla més versemblant a partir de les dades recollides. Els objectius d'aquesta pràctica són:
![]() Quants sisos traurem? El model és la distribució binomial | |||||||||||||
![]() |
Precisions per a la correcta
aplicació de la prova de ![]() |
||||||||||||
|
|
||||||||||||
![]() |
Exemple 1: ajust al model binomial | ||||||||||||
S'han tirat 980 vegades 10 daus i s'han obtingut aquestes freqüències: 0 sisos, 97 vegades; 1 sis, 260; 2 sisos, 309; 3 sisos, 210; 4 sisos, 79 vegades; 5 sisos, 18; 6 sisos, 5; 7 sisos, 2 vegades; en cap cas més de 7 sisos. Podem admetre la hipòtesi que els daus són equilibrats? En aquest exemple, interessen les freqüències esperades per a la distribució binomial B(n=10,p=1/6) (model teòric esperat si el dau fos equilibrat).
Veureu un valor p pràcticament igual a 0. Recordeu que això comporta que podem rebutjar la hipòtesi nul·la: el model no és, doncs, aquell amb què s'ha aplicat el test. Ara bé, si parem atenció a la primera precisió, cal reunir en una sola classe, 5 o més, totes les observacions corresponents a 5, 6, 7, 8, 9 o 10 sisos perquè la freqüència esperada, a saber 12,763 + 2,127 + 0,243 + 0,018 + 0,001 = 15,152, passi de 5. La freqüència observada en aquesta classe serà 18 + 5 + 2 = 25. Per fer-ho:
Observeu que el valor p segueix sent pràcticament igual a zero. Tot seguit, analitzem amb deteniment la situació amb el benentès que és segur que el model teòric de l'experiència de tirar 10 daus enlaire i comptar el nombre de sisos que surten és la distribució binomial. Com és que l'ajust no es pot considerar vàlid de cap manera? Segurament, perquè els daus no estaven equilibrats; el paràmetre p del model no ha de serp = 1/6. Aquest valor l'estimarem a partir de les mateixes dades. |
|||||||||||||
![]() |
Determinació del valor de la probabilitat d'èxit | ||||||||||||
|
El model teòric per l'experiència de l'exemple 1 (llançament de 10 daus i recompte del nombre de sisos) i les dades observades ha de ser un model binomial B(n=10,p) en el qual falta determinar la p. Quin seria el valor més versemblant de p (probabilitat de treure un sis)? Si calculem la mitjana del nombre de sisos que han sortit, resulta ser igual a 1,99796 sisos en cada tirada de 10 daus. Per calcular aquesta mitjana amb l'Excel:
Sabem també que, per a moltes repeticions, aquest nombre s'ha
d'aproximar a la mitjana de la distribució de probabilitat associada
a l'experiència. La mitjana de la distribució binomial és
n · p. Així podem establir que el valor més
versemblant de p és aquell que compleix
Comprovareu un valor p molt alt: les dades recollides concorden amb les que resulten de la distribució binomial. Si voleu actuar amb rigor complet, recordeu que per a una correcta aplicació de la prova estadística:
La fórmula =PRUEBA.CHI(B2:B8;C2:C8), calcula el valor p, sense necessitat de reflexionar sobre el graus de llibertat. Tot i així, ens podem preguntar quants graus de llibertat s'han de considerar? El nombre de graus de llibertat que s'ha de considerar és de 5, que resulta de les 7 classes, menys 1 (que es treu sempre) menys una altra perquè hem estimat un paràmetre (p = 0 . 2) a partir de les dades recollides. Per fixar els graus de llibertat manualment, cal repetir
el procediment del principi de En qualsevol cas, adoneu-vos de l'alt nivell de significació
(o més correctament, valor p) que ha sortit i de les conclusions
que ens ofereix. No podem rebutjar de cap manera la hipòtesi que
correspon a l'ajust de les dades de les tirades dels daus mitjançant
la distribució |
||||||||||||
![]() |
Exemple 2: és realment un bon model la distribució de Poisson? | ||||||||||||
El fitxer MORACC.XLS, que forma part dels fitxers del curs, enregistra quants dies dels anys 1982, 1983 i 1984 es varen produir 0, 1, 2... accidents mortals de trànsit en el territori espanyol. Ens fixarem amb el full Dades 84, en el qual surten dades procedents del Boletín Informativo de Accidentes 1984 publicat per la Direcció General de Trànsit del Ministeri de l'Interior. En aquesta mateixa publicació s'ajusta aquesta distribució estadística per una distribució de Poisson. Estudiarem si l'ajust indicat és correcte. La variable NACCID pren els valors enters 1, 2, 3..., accidents/dia i la variable FREQ enregistra les freqüències absolutes de l'anterior variable. Per exemple, NACCID=2, FREQ=9 indica que (només) 9 dies de l'any 1984 hi van haver 2 accidents mortals a Espanya; NACCID=10, FREQ=25 vol dir que 25 dies diferents al llarg d'aquell any hi van haver 10 accidents mortals. Adoneu-vos, dramàticament, que cap dia es van produir 0 accidents mortals!
Volem fer la prova amb el model de Poisson, que queda determinat amb la mitjana. Com que no la sabem, la deduirem de les dades:
Ara hem d'obtenir les freqüències esperades amb el model de Poisson.
Si apliqueu el que heu fet als apartats anteriors, sense oblidar que s'ha estimat un paràmetre, arribareu a la conclusió que tenim molts criteris per rebutjar la hipòtesi nul·la. No sembla escaient el model de Poisson. Tanmateix, si voleu actuar amb tot el rigor, cal ajuntar en una sola classe les dades corresponents a FREQ={0, 1, 2, 3} i en una altra classe les dades corresponents a FREQ={15, 16, 17, 18, 19}. Feu-ho i podreu constatar que la conclusió no canvia pas amb relació al que ja s'ha vist. Als exercicis us demanem que estudieu de manera anàloga al que heu fet en el darrer exemple, els fulls corresponents a l'any 1982 i a l'any 1983 i que feu d'altres estudis d'ajust a un model de probabilitat. |
|||||||||||||
![]() |
|||||||||||||
Ampliacions, aclariments i comentaris | |||||||||||||
![]() |
Sobre el nombre de graus de llibertat amb què cal aplicar la prova de khi quadrat
Ens plantegem estudiar quins valors poden tenir les freqüències observades en una experiència en què els valors observats poden ser {0, 1..., 10} de manera que en total hi hagi 980 observacions i que la mitjana sigui 2. Amb aquestes dades, si coneixem les freqüències f(0), f(1)..., f(8) mitjançant un sistema d'equacions podem determinar f(9) i f(10). Efectivament, ha de ser:
Per això, el nombre de graus de llibertat de la distribució khi quadrat que s'associa a la variació de l'estadístic X2 en aquest cas estarà donat per K - 1 - 1 = K - 2, on K és el nombre de classes en què es presenten agrupades les dades. Aquest nombre es disminueix en una unitat perquè tant les freqüències esperades com les observades han de sumar un nombre igual al de repeticions que hem fet; i es disminueix en una unitat més (en total 2, doncs) perquè s'ha estimat la mitjana. La qüestió de fixar els graus de llibertat que acabem de comentar equival a la següent: la taula adjunta només pot ser completada d'una manera (si els valors són coherents) a fi i efecte que la suma de les freqüències absolutes sigui 100, la mitjana dels valors observats sigui 3,2 i la desviació estàndard sigui 0,6. Podríem dir que només hi ha dos graus de llibertat per a les freqüències.
Mitjançant un sistema d'equacions podem trobar x, y i z. Per una raó anàloga a aquesta que si estimem dos paràmetres a partir de les dades estadístiques recollides (com passa per exemple en els casos en què la distribució que s'ha de considerar sigui la normal i ens calgui estimar la mitjana i la desviació estàndard) el nombre de graus de llibertat serà el nombre de classes menys 3 (1 pel total d'observacions i 2 perquè estimem dos paràmetres a partir de les dades). |
||||||||||||
![]() |
|||||||||||||