![]() |
|
|||||||||||||||||
![]() |
|||||||||||||||||
Pràctica | ![]() |
![]() |
![]() |
|
|
Exercicis
|
|||||||||||
L'estadística bivariant | ![]() |
|
Glossari
|
||||||||||||||
Relacions entre variables numèriques | |
En aquesta pràctica revisareu els procediments gràfics i numèrics que permeten l'estudi de les relacions entre variables quantitatives. Els objectius són, doncs:
Aquestes qüestions es treballaran des del punt de vista descriptiu i es completen a les pràctiques següents amb l'estudi de la regressió i la seva utilitat per a la predicció de valors. Per altra banda, en els darrers mòduls d'aquest curs, es plantejaran amb més rigor alguns aspectes inferencials. |
|
![]() |
Núvol de punts o diagrama de dispersió |
En aquesta pràctica treballareu amb el fitxer IRIS.XLS, que conté dades de flors (lliris) de tres varietats diferents. Estudiarem, en primer lloc, el comportament conjunt de les variables AMPLPETA i LONGPETA que recullen, respectivament, les mesures de l'amplada i la longitud dels pètals.
Ja teniu dibuixat el núvol de punts que relaciona les variables amplada i longitud dels pètals. Si analitzeu el diagrama que en resulta, s'observa una forta relació entre les dues variables i l'existència de subpoblacions. Núvol de punts Analitzeu, a continuació, la relació que hi ha entre les variables LONGSEPA i AMPLSEPA (mesures de la longitud i de l'amplada dels sèpals). Per estudiar la relació gràfica entre aquestes dues variables, cal repetir el procediment anterior, seleccionant, primerament, els valors de les variables (rang B2:C151). Situeu el gràfic en el rang M2:Q21. Núvol de punts Segurament, les conclusions que podeu treure, en aquest cas, són diferents. En general, i sense tenir en compte les varietats, heu observat que sembla que hi ha una correlació lineal acceptable entre la longitud i l'amplada dels pètals; és a dir, com més gran és el pètal, també més ample i la relació es pot explicar per un model lineal. En canvi en el cas dels sèpals, la correlació lineal és força baixa. En el segon apartat de la pràctica, confirmareu o no aquestes conclusions inicials. Ara bé, no es veuen, a simple vista, on estan situades les tres varietats diferents de flors. L'Excel permet destacar en el gràfic els punts de cada subpoblació i això ens podrà ajudar en una anàlisi de les relacions entre variables. Per poder seguir aquest procediment, és imprescindible que les dades estiguin ordenades respecte a les varietats. En el full Iris ja és així; altrament hauríem de començar per l'ordenació de les dades de manera que les de cada varietat definissin un rang rectangular (vegeu la pràctica 2 del mòdul 1). En primer lloc modificarem el darrer gràfic que hem vist, que tenim a M2:Q21 i que relaciona visualment les variables LONGSEPA i AMPLSEPA, però ara es diferenciaran les dades que corresponen a cada varietat de lliris.
A continuació, haureu de fer el mateix per les altres dues varietats.
Us ha quedat un gràfic semblant a aquest:
Fixeu-vos com ara s'observen millor les tres subpoblacions. També podeu observar com hi ha dos punts de les varietats 2 i 3 que estan allunyats de la resta; intuïtivament podríem dir que són valors atípics en el conjunt de la varietat corresponent. Si feu el mateix amb les variables LONGPETA i AMPLPETA (que corresponen a les columnes D i E), obteniu un gràfic com aquest:
Podeu comparar les distribucions de les diferents subpoblacions en cada cas; ben segur que la valoració intuïtiva de la possible correlació no serà la mateixa pels punts d'un color o pels punts d'un altre o globalment.
|
|
![]() |
Correlació lineal |
De seguida que s'ha fet una ullada inicial als gràfics anteriors, sorgeix la necessitat de tenir una confirmació numèrica de les conclusions intuïtives a què s'ha arribat. El recurs més emprat amb aquesta finalitat és el coeficient de correlació lineal (o de Pearson), amb totes les observacions que cal tenir presents sobre el seu significat. En l'Excel, hi ha dues maneres de calcular el coeficient de correlació lineal. La primera consisteix a fer servir la funció =COEF.DE.CORREL(;), que podeu entrar directament en una cel·la com una fórmula i que podeu trobar, junt amb les altres funcions estadístiques, accedint a Insertar | Función i triant Estadísticas del desplegable Categoria de la función. Calculem aquest coeficient per als pètals i per als sèpals:
A partir d'aquests valors, podeu confirmar les observacions intuïtives que havíeu fet. Una altra manera de calcular aquest coeficient consisteix a fer servir una de les opcions d'Herramientas | Análisis de datos que, com sempre, ha d'estar ben instal·lada i activa.
Apareix la taula següent: Aquí teniu tots els coeficients de correlació lineal que es donen entre aquestes quatre variables. Fixeu-vos en els valors que ja havíeu calculat abans i en les correlacions que apareixen entre les variables que no havíeu estudiat. |
|
![]() |
Correlació lineal i classificació en categories |
En l'anàlisi de la correlació entre les variables del fitxer IRIS hem vist certa tendència a l'associació negativa entre algunes variables. No sembla gens normal aquest fet entre les mesures de les magnituds d'una mateixa flor. Això voldria dir, per exemple, que com més ample sigui el pètal hi ha tendència a que el sèpal sigui més estret, fet que no sembla que tingui justificació. En aquest apartat analitzarem aquest resultat a la llum del fet que en la població hi ha tres subpoblacions definides per tres varietats diferents de flors. A la vista dels diagrames de dispersió amb les varietats diferenciades sembla del tot necessari aquest estudi: les varietats semblen, a priori, molt difrenciades l'una de l'altra
Heu arribat a : Observeu que ja no hi ha cap coeficient de correlació negatiu; si ens restringim a l'anàlisi de les subpoblacions, la tendència a l'associació és sempre positiva (de vegades feble, però així ja és normal).
Fixem-nos en les variables LONGSEPA i AMPLSEPA que globalment no mostraven gens de relació. Si ens restringim a les flors de la varietat 1, la correlació entre elles és 0,742; per a la varietat 2, la correlació corresponent és 0,382, i per a la varietat 3, finalment, és 0,279. A l'altre extrem de constatació de la (possible) no-significativitat del coeficient de correlació en un col·lectiu que té subpoblacions, parem atenció en les varietats LONGPETA i AMPLPETA. Globalment, el coeficient de correlació és 0,963; potser se'ns acut de dir: com que sembla normal, hi ha una gran relació entre aquestes dues variables. Fal·làcia? Potser sí. Per a la varietat 1, correlació 0,332; varietat 2, correlació 0,787; varietat 3, correlació 0,322. Les circumstàncies especials de les dades fan que una tendència a l'associació positiva (que és certa, però més aviat feble) doni una aparença global d'un grau de relació extraordinari.
|
|
![]() |
Covariància i correlació lineal |
En el document de fonaments teòrics d'aquest mòdul s'ha comentat el fet que la covariància entre dues variables estadístiques depèn de manera decisiva de les unitats amb què s'han expressat les variables i que, per buscar un paràmetre que expliqui també la variació conjunta, però passant per sobre de les unitats, s'introdueix el coeficient de correlació de Pearson. En aquesta part de la pràctica ho fareu visual amb les variables ALT1 i PES1 del fitxer DADES74.XLS, que estan expressades respectivament en centímetres i en quilograms. En primer lloc, definireu dues noves variables que correspondran aproximadament al pes i a l'altura expressats respectivament en lliures (i decimals de lliura) i en peus (i decimals de peu).
| |
![]() |
|