Statistica con Excel e Calc
Statistica con Excel e Calc
Questo sito utilizza cookie, anche di terze parti. Se vuoi saperne di più leggi la nostra Cookie Policy. Scorrendo questa pagina o cliccando qualunque suo elemento acconsenti all’uso dei cookie.I testi seguenti sono di proprietà dei rispettivi autori che ringraziamo per l'opportunità che ci danno di far conoscere gratuitamente a studenti , docenti e agli utenti del web i loro testi per sole finalità illustrative didattiche e scientifiche.
Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione).
Statistica con Excel e Calc
APPUNTI SULLA STATISTICA DESCRITTIVA DI BASE
In queste pagine vengono esaminate alcune funzioni dei fogli elettronici – Excel e Calc – per agevolmente e velocemente trattare le informazioni che riguardano alcuni fenomeni naturali e sociali. In particolare vengono trattati alcuni metodi della “Statistica descrittiva” , che è una parte della “Statistica”, la disciplina che fornisce alle scienze metodi efficienti per la raccolta e l’analisi dei dati, mediante appunto le funzioni e i grafici di Excel o di Calc.
Excel è un software della Microsoft Corp. mentre Calc , che è gratuito, è inserito nella suite di Openoffice.
Attualmente Excel è il foglio di calcolo più diffuso, ma molte funzioni di Calc sono equivalenti alle corrispondenti funzioni di Excel.
La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa. La statistica studia come raccogliere i dati e come analizzarli per ottenere l'informazione che permetta di rispondere alle domande che ci poniamo. Si tratta di avanzare nella conoscenza partendo dall'osservazione e dall'analisi della realtà in modo intelligente e obiettivo. È l’essenza del metodo scientifico.[da Wikipedia]
Uno dei principali obiettivi della statistica è quello di dare una descrizione quanto più accurata possibile di una certa popolazione statistica. E’ facilmente comprensibile la difficoltà, anche in termini di costi, ad organizzare rilevazioni su popolazioni statistiche molto grandi. E noto che, ad esempio, quando si effettuano rilevazioni sul probabile orientamento politico dei cittadini, viene considerato un certo campione limitato, ma significativo, della popolazione. Occorre cioè raccogliere un insieme limitato dell’intera popolazione statistica, basando la scelta sulla casualità e non sulla soggettività.
Per lo studio statistico di un certo fenomeno di ciascun elemento di un campione occorre scegliere il carattere o i caratteri da studiare, a volte prevedendo anche le modalità del carattere , o semplicemente modalità, cioè i valori che il carattere scelto assume nella varie unità statistiche. Le modalità possono essere quantitative o qualitative: Le prime definiranno dei caratteri quantitativi, le seconde dei caratteri qualitativi.
Esempio 1 Una Università degli Studi vuole effettuare un’indagine sugli iscritti al 1° anno di corso delle varie facoltà, considerando come carattere la provenienza geografica di ciascun iscritto. Le modalità scelte di tale carattere possono essere:
N = Nord Italia ; C = Centro Italia ; S= Sud Italia ; I= Isole ; X = comunitario ; E = extra Europeo. In questo caso si hanno modalità qualitative.
Esempio 2 Per determinare l’altezza media degli alunni di una scuola occorre considerare come campione un certo numero casuale di alunni , come carattere l’altezza e come modalità i valori delle singole altezze in cm. o metri. In questo caso si hanno modalità quantitative.
Nel caso di un carattere, come nei due esempi precedenti, si hanno rappresentazioni tabellari dei dati che possono essere semplici o composte. Nel caso in cui si vuole studiare un fenomeno statistico prendendo in esame due caratteri presenti contemporaneamente in un’indagine si hanno rappresentazioni tabellari a doppia entrata.
In queste pagine prenderemo in esame solo lo studio di un solo carattere alla volta.
Una volta raccolte le diverse modalità del carattere in esame su ciascuna unità statistica può essere utile innanzitutto calcolare le frequenze di occorrenza di ciascuna modalità (frequenza oppure frequenza assoluta, f.a.) per costruire una prima distribuzione di frequenza.
La distribuzione di frequenze consiste nell’elenco ordinato delle modalità diverse con l’indicazione delle corrispondenti frequenze assolute.
Il concetto può essere chiarito con il seguente esempio.
Esempio 3. In una classe sono presenti 5 allievi alti 170 cm e 3 alti 174 cm; allora si ha che la modalità 170 si presenta in quella classe con frequenza 5 e la modalità 174 con frequenza 3
Esempio 4. Si abbia la tabella che segue in cui sono riportate le altezze in metri di 18 ragazzi di una classe del primo anno di scuola superiore.
Ragazzi |
Altezze |
A |
1,74 |
B |
1,68 |
C |
1,68 |
D |
1,69 |
E |
1,71 |
F |
1,63 |
G |
1,68 |
H |
1,71 |
I |
1,65 |
L |
1,74 |
M |
1,78 |
N |
1,72 |
O |
1,71 |
P |
1,71 |
Q |
1,65 |
R |
1,61 |
S |
1,71 |
T |
1,72 |
Accanto a questa tabella possiamo riportare la tabella della distribuzione di frequenza (f.a.) del numero di allievi alti 1,61 mt, 1,63 mt, … 1,78 mt.
Tabella distribuzione di frequenza delle altezze di una classe
altezze |
f.a. |
1,61 |
1 |
1,63 |
1 |
1,65 |
2 |
1,68 |
3 |
1,69 |
1 |
1,71 |
5 |
1,72 |
2 |
1,74 |
2 |
1,78 |
1 |
totale |
18 |
Si chiama frequenza relativa f.r. invece il rapporto tra il numero di volte che appare una certa modalità e il numero totale dei dati.
altezze |
f.a. |
f.r. |
1,61 |
1 |
0,06 |
1,63 |
1 |
0,06 |
1,65 |
2 |
0,11 |
1,68 |
3 |
0,17 |
1,69 |
1 |
0,06 |
1,71 |
5 |
0,28 |
1,72 |
2 |
0,11 |
1,74 |
2 |
0,11 |
1,78 |
1 |
0,06 |
totale |
18 |
1,00 |
La frequenza relativa di una modalità tiene conto della sua incidenza sul totale. Ad esempio dalla tabella precedente si vede che il 28% dei ragazzi sono alti 1,71 mt.
I dati dell’ultima riga si riferiscono al totale degli allievi, in questo esempio 18, e al totale delle percentuali che per ciascuna distribuzione di frequenze relative è sempre 1, cioè 100%.
Esercizio 1
I 25 alunni di una classe hanno ottenuto i voti riportati nella tabella seguente in una certa prova scritta
7 |
8 |
5 |
7 |
4 |
6 |
5 |
7 |
8 |
7 |
6 |
5 |
4 |
5 |
6 |
7 |
7 |
8 |
6 |
6 |
4 |
6 |
7 |
7 |
6 |
Il voto, espresso con valori che vanno da 1 a 10 secondo le normative scolastiche, rappresenta il carattere mentre la modalità del carattere è il valore, per cui 6 è una modalità del carattere, 8 è un’altra modalità e così via.
Quali sono le frequenze assolute (f.a.) delle modalità 7 e 8 e quali le loro frequenze relative (f.r.) ?
Risposta ____________________________
Esercizio 2
Con riferimento alla serie dei voti riportati nell’esercizio precedente, completa la seguente tabella
Modalità (voto) |
f.a. |
f.r. |
1 |
|
|
2 |
|
|
3 |
|
|
4 |
|
|
5 |
|
|
6 |
|
|
7 |
|
|
8 |
|
|
9 |
|
|
10 |
|
|
La funzione di excel che permette di contare le f.a. è =+ CONTA.SE la cui sintassi è
=+CONTA.SE(INTERVALLO;CRITERI)
la descrizione della formula è : conta il numero di celle in un intervallo che corrispondono al criterio dato
Esempio 5 Siano dati i voti (sette voti!) di riga 1- dalla cella B1 alla cella H1 -, per contare velocemente con excel quanti sono i 6, quanti i 7 e così via, le formule da scrivere nelle colonne B2.. B5 sono
=+ CONTA.SE(B1:H1;6)
=+ CONTA.SE(B1:H1;7)
=+ CONTA.SE(B1:H1;8)
=+ CONTA.SE(B1:H1;9)
|
Colonna A |
Colonna B |
Colonna C |
Colonna D |
Colonna E |
Colonna F |
Colonna G |
Colonna H |
Riga 1 |
voti |
7 |
8 |
6 |
7 |
9 |
7 |
8 |
Riga 2 |
n. di 6 |
1 |
|
|
|
|
|
|
Riga 3 |
n. di 7 |
3 |
|
|
|
|
|
|
Riga 4 |
n. di 8 |
2 |
|
|
|
|
|
|
Riga 5 |
n. di 9 |
1 |
|
|
|
|
|
|
Vedremo più avanti come si scrivono e come si copiano velocemente le formule di excel
Esempio 6 Con riferimento all’esercizio 1, per conoscere le frequenze relative (f.r.) dei singoli voti sul totale dei voti (25) occorre applicare la seguente formula matematica
n. della modalità (del singolo voto)
-------------------------------------------------
n. totale delle modalità (cioè dei voti)
Pertanto per conoscere la f.r. del voto 6 sull’insieme dei voti – che sono 25- basterà calcolare il seguente rapporto 7/25, poiché la frequenza (f.a.) con cui si presenta il voto 6 nell’insieme è 7 , cioè 6 incide 7 volte su 25 . Il valore che si ottiene è 0,28 che può essere scritto anche nei seguenti altri modi : 28% oppure 28/100.
Il significato dell’espressione 28% vuole dire semplicemente che 28 voti su 100 voti valgono 6 , come è anche chiaro scrivendo 28/100 ( si legge 28 su 100)
Analogamente possiamo calcolare le f.r. degli altri voti che sono dati dai seguenti calcoli
n. dei 4 / n. totale delle modalità = 3/5 = 0.12
n. dei 5 / n. totale delle modalità = 4/25 = 0,16
n. dei 6 / n. totale delle modalità = 7/25 = 0,28
n. dei 7 / n. totale delle modalità = 8/25 = 0,32
n. degli 8 / n. totale delle modalità = 3/25 = 0,12
Esercizio 3 Esprimi i valori delle f.r. dell’esempio precedente in percentuale
Esercizio 4 Prova a calcolare la somma delle f.r. dell’esempio 5 e cerca di spiegare il valore ottenuto.
Esempio 7 Se i valori delle f.r. dei voti di una classe di 50 allievi fossero uguali a quelli dell’esempio 5, gli alunni che hanno ottenuto il voto 7 sarebbero 16. Come si calcola questo numero?
-
un primo metodo deriva da considerazioni di semplice logica : 50 è il doppio di 25 , quindi altri 8 alunni hanno ottenuto 7;
-
un secondo metodo , più matematico, è dato dalla seguente proporzione
8:25 = X : 50 da cui X = (8*50)/25 = 16 .
Esempio 8 E se gli alunni fossero 76 e le f.r. le stesse ,quanti sono gli alunni che hanno ottenuto 7 e quanti 5?
X(7) = (8*76)/25 = 24,32 X(5) = ( 4*76)/25) = 12,16
Esercizio 5 Cerca di spiegare in modo convincente i valori ottenuti con l’esempio 8 e il perché dei valori con la virgola decimale.
Esercizio 6 In corrispondenza di 5 modalità qualitative X1,X2,X3,X4,X5 sono stati calcolati dei sistemi di frequenze relative:individua quella errata.
-
(0,31 - 0,18 - 0,05 - 0,40 - 0,06 )
-
(0,28 - 0,20 - 0,05 - 0,42 - 0,05)
-
(0,30 - 0,23 - 0,05 - 0,35 - 0,07)
-
(0,29 - 0,22 - 0,05 - 0,38 - 0,06)
-
(0,31 - 0,20 - 0,04 - 0,35 - 0,06)
Esercizio 7 Cerca fra le seguenti la sola variabile qualitativa
-
Il numero dei figli di ogni famiglia esaminata
-
Il colore delle piante in osservazione
-
Il diametro in millimetri dell’imboccatura delle provette controllate
-
Il volume delle uova di struzzo esaminate
-
La distanza Sole-Terra calcolata il 25 marzo 1958
Esercizio 8 In un negozio sono stati venduti i seguenti articoli: A125, A128, A126, A175, A125, A154, A126, A125, A124, A148, A152, A124, A125, A148. Calcola la frequenza relativa e percentuale dell’articolo A125 secondo lo schema che segue
Il numero delle ……………………….. statistiche è …
La ……………………………….. dell’articolo A125… è f.a. …… .
La …………………. relativa è f.r. …0,2857 .
La frequenza …………………………………. è 28,57%.
Esercizio 9 I generi cinematografici preferiti da un gruppo di persone intervistate sono: comico, fantascienza, avventura,comico, thriller, fantascienza, comico, romantico, avventura, avventura, comico, avventura, romantico, thriller, comico, avventura, avventura, thriller.
Calcola la frequenza relativa e quella percentuale di chi preferisce i film d’avventura. [R. 0,33; 33%]
Esercizio 10 Le misure dei salti in lungo di un atleta, espresse in metri, sono: 6,50, 6,30, 6,32, 6,30, 6,35, 6,25, 6,35, 6,21,6,25, 6,35, 6,30, 6,25, 6,25, 6,35, 6,21, 6,40, 6,35, 6,25, 6,21, 6,35, 6,35, 6,32. Calcola la frequenza percentuale dei salti di 6,35 m e di 6,25 m. [ R. 31,8%; 22,7%]
Esercizio 11 Un negozio di calzature ha rilevato le seguenti misure di paia di scarpe da uomo vendute in una settimana:43, 42, 43, 40, 39, 42, 45, 44, 42, 45, 40, 42, 42, 46, 44, 42. Calcola la frequenza relativa e quella percentuale della calzatura numero 42. [ R. 0,375; 37,5%]
Domande per l’interrogazione
-
Di un certo campione statistico spiega la differenza tra carattere (o caratteri) da studiare e modalità, semplicemente modalità, del carattere ( o dei caratteri).
-
La filiale di una banca vuole effettuare un’indagine sui clienti che sono stati finanziati nel suo primo anno di attività. Considerando come carattere la tipologia del lavoro esercitato da ciascun cliente, le modalità scelte di tale carattere (il lavoro) sono quelle della tabella che segue
pensionato |
dipendente pubblico |
dipendente privato |
professionista |
casalinga |
Successivamente la stessa filiale come carattere per un’indagine per conoscere l’evoluzione della sua attività considera il finanziamento che ciascun cliente ha ottenuto. La modalità pertanto è la somma in euro erogata a ciascun cliente secondo la tabella seguente
€ 1000 |
€ 2000 |
€ 3000 |
€ 5000 |
€ 10000 |
€ 20000 |
> € 20000 |
Spiega perché il primo carattere è qualitativo mentre il secondo è quantitativo.
-
Spiega la differenza tra frequenza assoluta ( f.a.) e frequenza relativa (f.r.).
-
E’ data la seguente tabella relativa ai voti ottenuti in inglese dai 24 allievi di una classe
Alunni con voto |
|
|
meno di 6 |
3 |
0,125 |
6 |
12 |
0,50 |
7 |
4 |
0,167 |
8 |
3 |
0,125 |
oltre 8 |
2 |
0,083 |
Qual è la colonna delle frequenze assolute e quale delle frequenze relative?
-
Con riferimento alla tabella precedente quanti sono in percentuale gli allievi con una media minore di 6 , quanti oltre 8 ?
-
Se l’ultima colonna della tabella fosse relativa ad un numero molto elevato di allievi :
a) su 100 allievi quanti sarebbero quelli che hanno
- la media > 8 ? _________
- la media uguale a 6 ? __________
- la media uguale a 7 ? ___________
b) su 200 allievi quanti sarebbero quelli che hanno
- la media > 8 ? ___________
- la media uguale a 6 ? __________
- la media uguale a 7 ? ___________
c) su 250 allievi quanti sarebbero quelli che hanno
- la media > 8 ? _________
- la media uguale a 6 ? __________
- la media uguale a 7 ? ____________
ISTOGRAMMA DI FREQUENZA
Di una distribuzione di frequenze è possibile dare anche una rappresentazione grafica mediante gli istogramma di frequenze . Gli istogramma di frequenze sono dei diagrammi che hanno sulle ascisse le modalità e sulle ordinate le corrispondenti frequenze relative.
Gli istogrammi relativi alla distribuzione di frequenze dell’esercizio 5 è riportata in fig. y). Analogamente per la distribuzione altezze ragazzi si può avere l’istogramma di frequenze del numero di ragazzi alti 1,61mt, …1,78 mt.
In fig. y) abbiamo in ascissa le modalità voto in decimi del carattere in studio (voto) di una certa prova scritta, in ordinata le corrispondenti f.a.
In fig. x) abbiamo in ascissa le modalità voto in decimi del carattere in studio (voto) di una certa prova scritta, in ordinata le corrispondenti f.r.
Come si può notare, gli istogrammi consentono di costruire tanti rettangoli quante sono le modalità aventi altezze proporzionali alle frequenze.
Nel caso di numerose modalità come quelle che si avrebbero nel caso di una indagine delle altezze di tutti gli alunni delle classi prime di una scuola secondaria superiore è preferibile calcolare le frequenze assolute o relative riferendosi a degli intervalli di valori ovvero a classi di modalità.
Il numero e l’ampiezza delle classi di modalità vengono decise in modo tale da ottenere un’utile sintesi dei dati senza una perdita eccessiva d’informazione. Considerando ancora l’esempio precedente- qullo delle altezze- , si possono raggruppare le modalità nelle seguente 5 classi.
Tab. 1
1^fascia da 1,61a 1,63 |
2^fascia da 1,64 a 1,67 |
3^fascia da 1,68 a 1,71 |
4^fascia da 1,72 a 1,75 |
5^fascia da 1,76 a 1,79 |
L’ultima fascia – la 5?- può anche essere scritta
5^fascia >1,76 |
Andiamo ora a verificare quante modalità appartengono a ciascuna classe. Con un foglio di calcolo si ottengono i valori delle tabella seguente
N. ragazzi per fascia |
|
2 |
|
2 |
|
9 |
|
4 |
|
1 |
|
Totale ragazzi 18 |
|
L’istogramma delle frequenze relative per fascia è:
ottenuta dalla seguente tabella Tab. 2
1^ |
11,11% |
2^ |
11,11% |
3^ |
50,00% |
4^ |
22,22% |
5^ |
5,56% |
totale frequenze |
100,00% |
In cui sono riportate le frequenze relative delle classi, cioè il rapporto fra la frequenza assoluta di ciascuna classe di modalità e il totale delle frequenze. Ciascuna riga indica il peso di ogni singola modalità in rapporto alle altre.
La nuova presentazione dei dati fornisce informazioni più utili rispetto a quelle della tabella iniziale. E’ facile rendersi conto che esiste una fascia centrale in cui cadono le altezze della maggior parte dei ragazzi . La distribuzione delle altezze (vedere l’istogramma ricavato con il foglio di calcolo excel) mostra inoltre un tipico andamento a campana : i dati statistici si addensano centralmente mentre vanno via via decrescendo di numero se ci si sposta a sinistra o a destra.
L’organizzazione del foglio di calcolo viene fatta seguendo i seguenti passi:
-a) si scrive la tabella dei dati iniziali (celle A4-B22) : (1^ vettore ) (Tab.1)
-b) si scrive l’elenco delle “classi”:(2^ vettore ) come segue
-
1,63
1,67
1,71
1,75
1,79
In questo vettore “1,63” va inteso come le altezze <=1,63 mt.” , “ 1,67 “come “ tutte le altezze comprese tra 1,64 e 1,67 mt. ” e così via.
-c) si scrive la funzione excel FREQUENZA come segue
+=FREQUENZA(matrice_dati;matrice_classi)
Dove “matrice_dati” è nel nostro caso il 1^ vettore, mentre “matrice_classi” è il 2^ vettore.
Importante sottolineare il modo con cui si inserisce la funzione FREQUENZA
poiché il risultato di FREQUENZA è una matrice-vettore- va prima selezionato l’intervallo delle caselle in cui deve essere scritto il risultato (H5-H9) e poi la funzione va inserita tramite i tre tasti ctrl + ↑ +Invio premuti contemporaneamente
Esempio 9 La tabella che segue riporta i voti ottenuti dai 24 candidati di una classe agli esami di Stato. Aggregare i dati nelle 4 fasce indicate e costruite il relativo istogramma
Voti 70 65 60 74 73 100 88 90 67 92 93 62 85 87 94 96 62 63 71 78 80 60 60 66
Tabella fasce |
1^fascia da 60 a 70 |
2^fascia da 71 a 80 |
3^fascia da 81a 90 |
4^fascia da 91a 100 |
Dal relativo foglio di calcolo si ottiene
Voti |
|
|
|
|
|
|
|
70 |
|
|
Tabella fasce |
|
|
|
N. voti per fascia |
65 |
|
|
1^fascia da 60 a 70 |
|
70 |
10 |
|
60 |
|
|
2^fascia da 71 a 80 |
|
80 |
5 |
|
74 |
|
|
3^fascia da 81a 90 |
|
90 |
4 |
|
73 |
|
|
4^fascia da 91a 100 |
|
100 |
5 |
|
100 |
|
|
|
|
|
Tot |
24 |
88 |
|
Tabella frequenze relative |
|
|
|
|
|
90 |
|
1^ |
41,67% |
|
|
|
|
67 |
|
2^ |
20,83% |
|
|
|
|
92 |
|
3^ |
16,67% |
|
|
|
|
93 |
|
4^ |
20,83% |
|
|
|
|
62 |
|
tot. |
100,00% |
|
|
|
|
85 |
|
|
|
|
|
|
|
87 |
|
|
|
|
|
|
|
94 |
|
|
|
|
|
|
|
96 |
|
|
|
|
|
|
|
62 |
|
|
|
|
|
|
|
63 |
|
|
|
|
|
|
|
71 |
|
|
|
|
|
|
|
78 |
|
|
|
|
|
|
|
80 |
|
|
|
|
|
|
|
60 |
|
|
|
|
|
|
|
60 |
|
|
|
|
|
|
|
66 |
|
|
|
|
|
|
|
I dati ottenuti dal foglio di calcolo precedente possono essere riassunti nella tabella seguente
Classi di voto |
f.a. |
f.r. |
70 |
10 |
0,42 |
80 |
5 |
0,21 |
90 |
4 |
0,17 |
100 |
5 |
0,21 |
Totale 24 allievi |
100,00% |
A questa tabella possono essere aggiunte altre informazioni come le frequenze cumulate (fr.c) e le frequenze relative cumulate (f.r.c.).
Esse sono rispettivamente le frequenze assolute e relative degli elementi che presentano una modalità del carattere inferiore o uguale alla modalità che si sta esaminando.
|
fr.a |
f.r. |
fr.c |
f.r.c |
70 |
10 |
0,42 |
10 |
0,42 |
80 |
5 |
0,21 |
15 |
0,63 |
90 |
4 |
0,17 |
19 |
0,79 |
100 |
5 |
0,21 |
24 |
1,00 |
Tot |
24 |
100,00% |
|
|
La nuova tabella ci permette di trarre valutazioni numeriche più ampie e sintetiche. Ad esempio si comprende subito che circa il 60 % degli allievi ha conseguito il diploma con un voto che supera appena il livello di sufficienza (60/100-80/100).
Esempio 10 Si consideri la seguente distribuzione delle industrie meccaniche di una certa nazione secondo il fatturato annuo in milioni di euro:
Fatturato |
250-500 |
500-800 |
800-1300 |
1300-1900 |
Aziende |
20 |
40 |
60 |
90 |
Vediamo di determinare i dati richiesti dalla seguente tabella
Classi di modalità |
f.a. |
f.r. |
Ampiezza di classe |
Densità di frequenza |
Valore centrale |
250-500 |
|
|
|
|
|
500-800 |
|
|
|
|
|
800-1300 |
|
|
|
|
|
1300-1900 |
|
|
|
|
|
Totale delle modalità |
|
|
|
|
|
Le f.a. per ciascuna classe sono già date, per cui la colonna f.a. è completata dai valori 20, 40, 60, 90 . Il totale delle modalità è 210.
Le frequenze relative, come già sappiamo si ottengono dividendo ciascuna frequenza assoluta per il totale delle modalità. Per cui la colonna f.r. riporterà i valori calcolati nel modo seguente:
20/210 ; 40/210 ; 60/210 ; 90/210 . Il totale delle frequenze relative è 1,00 cioè 100%.
Le ampiezze di classe si calcolano facilmente effettuando la differenza tra Val max- Val min. Pertanto la colonna delle ampiezza di classe riporterà i valori ottenuti dalle differenze seguenti:
500-250=250 ; 800-500=300 ; 1300-800=500 ; 1900-1300=600
L’ultima colonna è facile riempirla: basta fare la media aritmetica dei valori estremi di ciascuna classe. Quindi :
(500+250) /2= 375 (800+500)/2=650 (1300+800)/2=1050 (1900+1300)/2=1600
Quindi €375 milioni è il valore centrale (fatturato medio) della 1^ classe , € 650 milioni è il fatturato medio della 2^ classe e così via.
Discorso a parte merita la colonna “Densità di frequenza”.
La densità di frequenza di ciascuna classe si calcola facendo il rapporto della frequenza assoluta per l’ampiezza di classe. Per ciascuna classe si ottengono rispettivamente i valori: 20/250= 0,08 40/300= 0,13 60/500= 0,12 90/600= 0,15
Esercizio 12 Completa la tabella dell’esempio 10.
Esercizio 13 Rispondi alle seguenti domande: a) qual è la percentuale delle industrie meccaniche con fatturato annuo superiore a 500 milioni e non superiore a 1300 b) qual’ è il fatturato medio supponendo la frequenza di ciascuna classe sia concentrata sul valore centrale?
c) qual è la classe con il maggior valore della densità? d) Dai una definizione tua sul concetto di “ densità di frequenza” magari aiutandoti con il seguente esempio:data una classe con 25 alunni si vuole conoscere la densità ovvero una stima chiara su quali valori è concentrata la valutazione degli alunni secondo le classi –minore di 6 , tra 5 e 7, oltre l’8- I valori sono : 5 alunni hanno un voto al di sotto del 6 , 16 alunni hanno un voto tra 6 e 7 e 4 alunni hanno il voto al di sopra di 8. Qual è la densità maggiore , ovvero qual’è la classe con il valore più alto del numero di voti?
Esempio 11 E’ corretto dire che la classe con la densità di frequenza più elevata è la classe modale?
Esercizio 14 Qual è la classe modale dell’esempio 10 e quale quella della classe dell’esercizio 2?
Le tabelle e le distribuzioni di frequenze con modalità divise in classi ci permettono di comprendere come il carattere in esame si manifesta nel campione statistico oggetto di studio. Nel caso altezze per classi dell’esempio omonimo altezze per classi è evidente come la modalità 9 del carattere 1,71 caratterizza la relativa distribuzione di frequenza. Gli alunni con altezza tra 1,68 e 1,71 cm sono in maggior numero. A volte è più utile , per possibili raffronti con altri collettivi, sintetizzare in un unico valore una particolare caratteristica delle distribuzioni di frequenze: Questo unico valore generalmente tiene conto della centralità di una distribuzione. Un’altra caratteristica di una distribuzione misura la dispersione di tutte le modalità al centro della distribuzione: Nel primo caso si parla di medie. Nel secondo caso si parla errore quadratico medio. Parliamo ora di medie.
Tra le più diffuse abbiamo :
- mediana
- media aritmetica semplice
- media aritmetica ponderata
- media geometrica semplice
- media geometrica ponderata
- media armonica semplice
- media armonica ponderata
INDICI STATISTICI DI POSIZIONE CENTRALE: MEDIA, MEDIA GEOMETRICA,MODA, MEDIANA
MEDIA ARITMETICA SEMPLICE
Con riferimento all’esempio Altezze allievi , la fascia centrale (altezze comprese tra 1,68 e 1,71) è quella in cui cade il maggior numero di dati. Se si vuole un’informazione più precisa sull’altezza “media” si può ricorrere alla valutazione della media aritmetica :
la media aritmetica di n dati numerici x1, x2, x3, … xn è la somma dei dati divisa per n .
In questo caso si parla di media aritmetica semplice
Nel nostro caso la media aritmetica semplice è
1,61+ 1,63 + 1,65 + 1,65 …. +1,75 + 1,77
--------------------------------------------------- = 1,695
18
Tale valore si colloca nella fascia centrale.
In excel la media aritmetica di una matrice di dati è noto che si calcola con la funzione MEDIA, che si scrive
+=MEDIA(C1..Cn)
dove C1 e Cn sono i valori,o le celle dove sono scritti i valori, di cui si vuole determinare la media aritmetica. Nel caso di più valori C1 e Cn rappresentano quello iniziale e quello finale.
Esempio 12 Calcolare la media aritmetica dei seguenti valori: 45 , 37 , 43 , 41 , 34 riportati nelle celle A4 ..A8
Predisponendo un foglio di calcolo come il seguente
-
A
B
C
45
37
43
Media
=+MEDIA(A4:A8)
41
34
nella cella C6 , dove è stata scritta la formula MEDIA (A4..A8) apparirà il numero 40 risultato della calcolo della MEDIA. Infatti MEDIA= (45+37+43+41+34)/5= 40
La media calcolata in questo caso è detta semplice. Se i termini della distribuzione hanno frequenza diversa da 1, allora , dette f1, f2, f3, …, fn le frequenze degli n valori per la definizione di media aritmetica si ha:
x1 f1+ x2 f2 + …xn fn = m’ ∑f
da cui m’= (x1 f1+ x2 f2 + …xn fn)/ ∑f
la media m’ così calcolata prende il nome di media aritmetica ponderata.
Esempio 13 Su 100 numeri , venti volte compare il 4, quaranta volte il 5 , trenta volte il 6 e dieci volte il 7. Trova, a mano o con la calcolatrice, la media aritmetica dei numeri.
20*4 + 40*5 + 30*6 +10*7 530
Indicando con X’ la media dei numeri si ha X’= ----------------------------------- = ------ = 5,30
100 100
Σ f*X Σ f*X
In formule X’= ------------ = ---------
Σ *f N
Esempio 14 Le votazioni finali di uno studente in Matematica, Fisica, Inglese e Chimica sono rispettivamente 82, 86, 90 e 70 . Se l’importanza attribuita a queste materie è rispettivamente 3,5,3,1 determina la votazione media.
Σ p*X 3*82 + 5*86 + 3*90 +1*70
Usando il calcolo della media ponderata si ha: X’= --------- = ---------------------------------- = 85
Σ p 3+5+3+1
Dove Σ p rappresenta la somma dei pesi dei voti.
Esercizio 15 Quattro gruppi di studenti composti da 15, 20, 10 e 18 individui hanno un’altezza media di rispettivamente 162,148,153 e 140 cm, Trova l’altezza media di tutti gli studenti [R. 150 cm]
Esercizio 16 Se i redditi medi annuali dei lavoratori agricoli e non agricoli di un certo paese ammontano a € 9000 e € 15000 potrebbero i redditi medi di entrambi i gruppi ammontare a ½*(9000+15000) = € 12000? [R. la risposta è affermativa solo se….il numero dei lav agricoli e .. sono uguali ]]
Esercizio 17 Con riferimento all’esercizio precedente, se ci fossero 11 lavoratori non agricoli per ogni lavoratore agricolo la media quanto vale? [R. 14500]
Esempio 15 La tabella che segue riporta i pesi di 100 studenti. Trova con excel il peso medio
Peso (Kg) |
Valori centrali delle classi (X) |
frequenza |
f*X |
60-62 |
61 |
5 |
305 |
63-65 |
64 |
18 |
1152 |
66-68 |
67 |
42 |
2814 |
69-71 |
70 |
27 |
1890 |
72-74 |
73 |
8 |
584 |
|
N= Σ f = 100 |
Σ f*X= 6745 |
Dalla tabella si vede che gli studenti di peso compreso tra 60 Kg e 62 Kg vengono considerati come se fossero di peso 61 Kg , quelli tra 63 Kg e 65 Kg di peso 64 Kg e così via.
Σ f*X Σ f*X 6745
X’ = peso medio= ---------- = --------- = -------- = 67,45 Kg
Σ f N 100
In Excel la funzione da usare per un calcolo veloce della media ponderata è.
+MATR.SOMMA.PRODOTTO(intervallo celle 1 vettore; intervallo celle 2 vettore)/ +SOMMA(intervallo celle 2vettore)
dove nell’intervallo celle 1 vettore vi sono i valori e nell’intervallo celle2 vettore i pesi
(esempio pane burro prosciutto dalla cartella Excel)
Esempio 16 voto di laurea
Premessa: Secondo gli ordinamenti previgenti la media di laurea risulta dalla trasformazione in centodecimi della media dei voti degli esami di profitto, che, invece , è espressa in trentesimi: l’operazione consiste nel sommare tutti i voti utili e dividere la somma ottenuta per il numero degli esami utili che abbiano un voto, escluse le idoneità, il risultato si moltiplica per “110” e si divide quindi per 30. In questo modo si ottiene la cosiddetta media aritmetica a cui poi si somma il voto della discussione della tesi di laurea per il voto finale. Se il voto ottenuto dalla somma della media dei voti e del voto della discussione della tesi supera 110 si ottiene la cosiddetta lode (laude).
Uno studente ha ottenuto i voti di profitto della tabella che segue per i 24 esami del corso di laurea frequentato. Calcola il voto di laurea, sapendo che la Commissione nella discussione della tesi ha riconosciuto al lavoro un punteggio aggiuntivo di laurea di 6 punti.
Voti di profitto |
30 |
28 |
28 |
30 |
30 |
26 |
30 |
30 |
27 |
30 |
30 |
30 |
30 |
29 |
30 |
27 |
|
28 |
28 |
26 |
30 |
30 |
28 |
30 |
28 |
13*30 + 6*28 + 2*27 + 2*26 + 29
Il calcolo è il seguente M’= ------------------------------------------= 28,958
13+6+2+2+1
quindi 28,958 *110/30 = 106,18 106,18+ 6 = 112,12 trasformato
in 110/110 cum laude
Esercizio 18 voto di laurea con la riforma
Premessa: Secondo il DM 509/99 e DM 270/04 la media di laurea viene definita media ponderata che rapporta i voti ai crediti: escluse sempre le idoneità, si moltiplica ogni voto per i crediti dell’esame corrispondente, si sommano i prodotti e si divide tale somma per il totale dei crediti dei crediti conseguiti attraverso esami con voto. Anche in questo caso il risultato si moltiplica per “110” e si divide quindi per 30.
Sia data la tabella seguente relativa a soli 5 esami di profitto con i relativi crediti. Calcola con Excel la media del voto di profitto.
Esami |
voto |
crediti |
Analisi matematica 1 |
30 |
6 |
Fisica generale 1 |
27 |
8 |
Geometria 1 |
27 |
4 |
Chimica |
25 |
5 |
Fondamenti d’informatica 1 |
30 |
4 |
[R. 27,74]
PROPRIETA’ DELLA MEDIA ARITMETICA
Dimostriamo che la somma delle differenze tra X1, X2,..., XN e la loro media X’ è uguale a zero
Siano d1=X1-X’ , d2= X2-X’,…, dN=XN-X’, allora la somma delle differenze
Σ di = Σ (Xi-X’)= Σ Xi- NX’= Σ Xi- N(Σ X’/N )= ΣXi- ΣXi=0
Esempio 17 La media dei seguenti numeri 4, 12 ,-7, 3 vale 3 .Calcoliamo le differenze di tra di essi e la media X’ : d1= 4-3 =1 , d2= 12-3= 9 , d3=-7-3= -10, d4=3-3=0 . La loro somma vale 1+9-10+0=0
Se N numeri X1, X2, …,XN hanno differenze da un qualsiasi numero A pari rispettivamente a d1=X1-A, d2=X2-A, dN=XN-A si ha che
Σ di
X’= A + ------
N
Esempio 18 Per i quattro numeri dell’esempio 16 se si sceglie ad esempio 2 come valore di A- probabile valore medio e che in realtà non è !!! -, si ha che il vero valore medio è dato dai seguenti calcoli: d1= 4-2=2 , d2=12-2=10, d3=-7-2=-9, d4=3-2=1 . Σdi vale 2+10-9-1= 2
Σ di 2
Allora X’ = A+ ------= 2+ --= 3
4 2
Quest’ultima proprietà è importante quando si deve calcolare la media aritmetica dei dati raggruppati.
Esercizio 19 Usiamo quest’ultimo metodo per calcolare la media dei numeri 5, 8, 11, 9, 12, 6, 14 e 10, scegliendo come media provvisoria prima 9 e poi 20.
Soluzione : le differenze tra i numeri dati e 9 sono -4, -1, 2, 0, 3, -3, 5, 1 e la somma Σdi di tali differenze vale 3 .
Allora Σdi 3
X’= A+ ---- = 9+ --- = 9,375
N 8
Analogamente: le differenze tra i numeri dati e 20 sono -15, -12, -11 -8 , -14, -6, -10
La somma di tali differenze è -85 .
Allora Σdi -85
X’= A+ ---- = 20+ ----= 9,375
N 8
LA MEDIA ARITMETICA DEI DATI RAGGRUPPATI
Usiamo il metodo appena visto per calcolare la media aritmetica dell’esempio15 di cui riportiamo la tabella modificata con il calcolo delle differenze d non appena abbiamo provato un valore a caso della media , A= 67 .
Peso (Kg) |
Valori centrali delle classi (X) |
frequenza |
f*X |
60-62 |
-6 61-67 |
5 |
-30 |
63-65 |
-3 64-67 |
18 |
-54 |
66-68 |
0 67-67 |
42 |
0 |
69-71 |
3 70-67 |
27 |
81 |
72-74 |
6 73-67 |
8 |
48 |
|
N= Σ f = 100 |
Σ f*d = 45 |
Allora Σ di 45
X’= A+ ----- = 67+ ----- = 67,45 Kg
N 100
Esercizio 20 Usando il foglio di calcolo Calc oppure Excel, calcola lo stipendio medio settimanale dei 65 impiegati della ditta XYZ i cui dati sono nella tabella che segue. Scegli come valore medio probabile A= € 275
X |
d |
f |
f*d |
€ 255 |
|
8 |
|
€ 265 |
|
10 |
|
€ 275 |
|
16 |
|
€285 |
|
14 |
|
€ 295 |
|
10 |
|
€305 |
|
5 |
|
€315 |
|
2 |
|
|
N= |
Σ f*d = |
[R. € 279,77]
Una volta calcolata la media si può vedere quanto i valori reali della distribuzione differiscano da essa. Si possono cioè calcolare gli scarti dalla media.
Ciò si fa semplicemente eseguendo la differenza tra ogni valore della distribuzione e il valore medio.
Gli scarti dalla media godono di alcune proprietà che valgono sia per la media semplice che per quella ponderata :
-
la somma degli scarti dalla media è sempre nulla
-
La somma dei quadrati degli scarti dalla media è minima
Se le modalità del carattere sono distribuite per classi, cioè se si ha una distribuzione per classi , per il calcolo della media aritmetica semplice o ponderata si procede come segue :
-
si calcolano i valori centrali delle classi, cioè le medie aritmetiche tra gli estremi della classe;
-
si usano i valori centrali per il calcolo della media come se fossero i valori della distribuzione.
Esempio 19 Calcola la media aritmetica ponderata relativamente ai dati della seguente tabella
Reddito (in €) |
Numero famiglie |
3000 -4000 |
80 |
4000 - 6000 |
70 |
6000 - 10000 |
200 |
10000 - 12000 |
320 |
12000 - 15000 |
180 |
15000 - 20000 |
150 |
Totale |
1000 |
Il reddito medio per famiglia si calcola nel modo seguente:
-
si calcolano i valori centrali delle classi
-
(3000+4000)/2=3500 (4000+6000)/2= 5000 (6000+ 10000)/2=8000
-
(10000+12000)/2=11000 (12000+15000)/2=13500 (15000+20000)/2=17500
La media aritmetica ponderata si calcola:
m’= (3500*80+5000*70+ 8000*200 +11000*320+ 13500*180+ 17500*150 )/ 1000 = 10805
Esercizio 21 La distribuzione di frequenza dei Pontefici secondo la durata del loro pontificato in anni è indicata nella seguente tabella
frequenza |
103 |
57 |
51 |
30 |
10 |
8 |
4 |
Tot. 263 |
Durata |
0-4 |
4-8 |
8-12 |
12-16 |
16-20 |
20-24 |
Oltre 24 |
|
In modo approssimativo, calcola la durata media del pontificato dei 263 papi.
Esempio 20 Calcola la media aritmetica dei seguenti valori:21 ,19 , 23 . . 18 , 150
Si ha MEDIA = 46,2
In questo caso il valore della media aritmetica non è molto rappresentativo :si discosta di molto da tutti i dati. Ciò è dovuto alla presenza del valore 150 che condiziona pesantemente la media.
LA MEDIA GEOMETRICA
La media aritmetica non sempre è adatta a fornire informazioni rispondenti a certe esigenze come quelle che si possono trarre dall’esempio che segue
Esempio 21 Un ciclista professionista si deve preparare al Giro d’Italia.
L’allenatore gli fornisce l’indicazione principale secondo cui settimana per settimana la media di km d’allenamento percorsi deve aumentare e in particolare le seguenti direttive per un allenamento su strada più idoneo ad aumentare la resistenza agli sforzi e la loro durata.
-
durata allenamento 8 settimane;
-
prima settimana Km da percorrere 450
-
per le successive tre settimane deve incrementare il numero dei Km da percorrere del 15% rispetto al valore precedente ;
-
durante la quinta settimana deve diminuire del 20% i Km d’allenamento rispetto alla quarta;
-
la sesta e la settima settimana prevedono un aumento del 25% rispetto al periodo precedente;
-
durante l’ultima settimana deve diminuire del 30% rispetto alla penultima.
In base a quanto scritto, l’allenatore predispone allora la seguente tabella in cui i valori della seconda riga sono ottenuti scrivendo le seguenti funzioni nelle rispettive celle
Casella precedente x (1+ coefficiente di variazione)
B |
C |
D |
E |
F |
G |
H |
I |
450 |
=+B4*1,15 |
=+C4*1,15 |
=+D4*1,15 |
=+E4*(1-0,2) |
=+F4*1,25 |
=+G4*1,25 |
=+H4*(1-0,3) |
A B C D E F G H I
Settimana |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
KM da percorrere |
450 |
518 |
595 |
684 |
548 |
684 |
855 |
599 |
Alla riga dei km percorsi può essere aggiunta un’ulteriore riga in cui ogni valore è ottenuto dividendo i km di una settimana per quelli della settimana precedente.
C |
D |
E |
F |
G |
H |
I |
=+C4/B4 |
=+D4/C4 |
=+E4/D4 |
=+F4/E4 |
=+G4/F4 |
=+H4/G4 |
=+I4/H4 |
Questo rapporto si chiama indice a base mobile. I vari rapporti che si ottengono ci danno una misura della variazione percentuale dell’intensità dell’allenamento in km. percorsi tra una settimana e l’altra
Settimana |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Km da percorrere |
450 |
518 |
595 |
684 |
548 |
684 |
855 |
599 |
Indice a base mobile |
-- |
1,15 |
1,15 |
1,15 |
0,80 |
1,25 |
1,25 |
0,70 |
Il prodotto tra i vari indici è pari a 1,15 x 1,15 x 1,15 x 0,80 x 1,25 x 1,25 x 0,70 = 1,33
Questo dato rappresenta l’aumento percentuale settimanale di allenamento.
Questo valore si può anche ottenere dal rapporto tra l’ultimo valore (599) e il primo (450)
|
|
|
|
|
|
|
|
|
KM |
450 |
518 |
595 |
684 |
548 |
684 |
855 |
599 |
|
|
1,15 |
1,15 |
1,15 |
0,80 |
1,25 |
1,25 |
0,70 |
|
|
|
|
|
|
|
|
|
|
|
Prodotto 1,15 x 1,15 x 1,15 x 0,80 x 1,25 x 1,25 x 0,70 = |
1,33 |
L’aumento percentuale settimanale medio di allenamento quanto vale? Questo valore non è dato dalla semplice media aritmetica ma da un’altra media , chiamata media geometrica ,che si ottiene, chiamando Ii il generico indice,da :
I1 x I2 x I3 x I4 x I5 x I6 x I7 =1,33
Cioè Ig^7 = 1,33 da cui Ig= radice settima di 1,33 = 1,042
Il dato mensile medio a questo punto se fosse sostituito a ciascun indice darebbe un indice complessivo pari a 1,33. Questo valore è proprio 1,042.
La media geometrica indica che l’aumento dei km percorsi settimanali del 4,2% . Tale aumento medio determina l’aumento complessivo del 33% .
Analogamente a quanto detto per la media aritmetica, se i dati dell’insieme compaiono più volte la media geometrica che si ottiene per essi è la media geometrica ponderata
Siano in totale n dati di cui x1 è ripetuto p1 volte , x2 ripetuto p2 volte ,…, xn ripetuto pn volte , la media geometrica ponderata sarà:
M g ‘ =
In cui n= p1+p2+…+pn
La media geometrica è nulla se uno dei suoi termini è nullo.
MODA E MEDIANA
Come visto con l’esempio 20 , per alcune distribuzioni statistiche la media aritmetica non è molto significativa , poiché dipende da tutti i dati dell’insieme . Vi sono alcuni valori medi che non dipendono da tutti i dati statistici , ma solo da alcuni di essi , per questo sono dette medie lasche: tra di esse si annoverano la MODA e la MEDIANA .
La MODA è una media lasca che non dipende da tutti i valori della distribuzione dei dati ma solo da alcuni e soprattutto dalla loro frequenza. La MEDIANA è ancora una media lasca in quanto non dipende da tutti i termini della distribuzione dei dati ma solo dal loro ordinamento e dalla loro frequenza. la MEDIANA divide l’insieme ordinato dei dati statistici in due parti che contengono ognuna la metà dei dati. Se la distribuzione dei dati è pari di elementi , la mediana è un valore compreso tra i due termini centrali, in generale la media aritmetica dei due valori centrali.
In excel le rispettive funzioni sono += MODA (intervallo celle) e +=MEDIANA(intervallo celle)
Ad esempio il foglio che segue fa capire come funzionano le tre funzioni di cui si è appena detto
Calcolare la Media, Moda, Mediana di un gruppo di numeri |
|
|
D14: =MEDIA(B2:E12) |
Aprire il file Funzioni_statistiche_MEDIA-MODA-MEDIANA
GLI INDICI DI VARIABILITA’
Vi sono alcune distribuzioni statistiche in cui la media pur dando una valutazione globale e sintetica del fenomeno non è più sufficiente a descrivere come variano i dati, in che misura ad esempio essi si discostano dal valore medio.. Se si analizza la tabella che segue , che riporta i voti conseguiti da due studenti in una certa disciplina:
Mario |
4 |
5 |
6 |
7 |
8 |
Giovanni |
3 |
5 |
6 |
7 |
9 |
Si osserva che in entrambi i casi la media aritmetica vale 6 pur variando i dati in maniera diversa . Si rende necessario far ricorso a nuove funzioni che misurino la variabilità dei dati , detti anche indici di dispersione Tra essi si annoverano :
-
il campo di variazione ( detto anche bias)
-
lo scarto semplice medio
-
lo scarto quadratico medio
CAMPO DI VARIAZIONE
Il campo di variazione(bias) è dato dalla differenza tra l’elemento massimo e quello minimo della distribuzione dei dati.
Nell’esempio il campo di variazione della distribuzione dei voti di Mario è 4 mentre per Giovanni vale 6. Ciò vuol dire che i voti di Giovanni si disperdono in un intervallo più grande di quello dei voti di Mario.
LO SCARTO SEMPLICE MEDIO
Data la distribuzione x1, x2, …,xi, …., xn indicato con M un valore medio, ad esempio la media aritmetica, le differenze :
x1-M, x2-M , …., xi-M, ….,xn-M
sono gli scarti ( o scostamenti) semplici dei valori di x rispetto al valore medio. Li abbiamo già calcolati nell’esempio 16. La somma di tutti gli scarti semplici è uguale a zero:
∑ (xi-M)=0
La media aritmetica dei valori assoluti degli scarti semplici è lo scarto semplice medio:
∑ |xi-M|
δ = --------------------
n
lo scarto semplice medio della distribuzione dei voti di Mario è δ=1,2
ciò significa che i voti di Mario si discostano mediamente dalla media aritmetica di una frazione pari a 1,2 di voto.
LO SCARTO QUADRATICO MEDIO
Se x1, x2, … Xi, … xn è la distribuzione statistica e x1-M, x2-M , …., x -M, …., xn-M
Sono gli scarti semplici , lo scarto quadratico medio è la media quadratica degli scarti semplici
-------------------
∑ (xi-M)2
σ = √ --------------------
n
Lo scarto quadratico medio è anche detto deviazione standard
Il quadrato dello scarto quadratico medio si chiama varianza
Lo scarto quadratico medio è un indice di variabilità più sensibile dello scarto semplice medio. Nel caso della distribuzione di voti di Mario , la varianza vale 1,41.
PROPRIETA’ DELLO SCARTO QUADRATICO MEDIO
Lo scarto quadratico medio rappresenta un indice statistico importante che può essere sintetizzato dalla seguente tabella
Il 68,27% dei casi è compreso tra M- σ e M+ σ ( cioè uno scarto quadratico medio da ogni parte della media |
Il 95,45% dei casi è compreso tra M- 2 σ e M+ 2 σ ( cioè due scarti quadratici medi da ogni parte della media |
Il 99,73% dei casi è compreso tra M-3 σ e M+ 3 σ ( cioè tre scarti quadratici medi da ogni parte della media |
Nella figura che segue si vede come dal valore medio il 95% circa dei casi si distribuiscono in due σ
Un esempio reale per comprendere il significato di questo valore
La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile).
Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere facilmente molti fenomeni; per detti fenomeni anche i concetti di media e di deviazione standard continuano a essere validi, anche se spesso solo il primo può essere definito con una notevole precisione.
Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 20 cm, cioè il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm.
L'importanza di questi concetti
Molte persone dopo aver fatto le analisi del sangue, si preoccupano che un dato valore sia fuori range. Qual è l'errore logico che commettono? Di solito uno dei due:
■credere che il range di normalità sia assoluto: al di fuori di esso c'è patologia;
■non conoscere la distribuzione del parametro.
Il primo punto è quello che genera maggiori preoccupazioni; in realtà i parametri clinici si distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento cercano di indicare con buona probabilità quando si è di fronte a un individuo normalmente sano. Un po' come se si dicesse che gli italiani maschi sono alti da 165 a 185 cm: un soggetto alto 163 cm è comunque normale, mentre un soggetto adulto alto 140 cm è sicuramente affetto da nanismo.
Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento, ma anche la distribuzione completa dei valori nella popolazione, cioè capire la "gaussiana" dei valori normali e conoscere la sua deviazione standard.
Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di 95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75-115.
Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se abbiamo capito il concetto di gaussiana, non è tanto importante capire se un parametro è vicino alla media della popolazione, quanto se ne è talmente lontano da avere pochissime probabilità di essere sani!
ESERCIZI 1
-
Scrivi la media aritmetica dei numeri 8,3,5,12,10 _____________
-
Se 5 ,8,6 e 2 capitano con frequenze rispettivamente 3,2,4 e 1 quanto vale la media aritmetica ?_______________
3) Ai tre numeri 5; 12; 15 si attribuiscono, nell'ordine, i seguenti pesi: 2; 4; 5
Qual è la loro media ponderata ? ( barra con una x la risposta giusta )
a) 12,09 b)10,7 c) 44,3 d) 133 e) 2,9
4 ) Consideriamo la sequenza di numeri: 48, 54, 50, 75, 80. Qual è la media
geometrica? (barra con una x la risposta giusta )
a) 58,7 b) 60 c) 61,4 d) 54 e) 62,8
5 ) Un gruppo di persone è stato classificato secondo il peso e si è rilevato che su
30 persone 12 hanno un peso compreso tra i 65 e i 70 kg. Quale delle seguenti
affermazioni è errata? (barra con una x la risposta giusta )
a) Il valore centrale della classe è 67,5.
b) La frequenza assoluta della classe è 12.
c) La frequenza relativa della classe è 2,5%.
d) La classe ha ampiezza 5.
e) Le unità statistiche considerate sono 30.
6 ) In una stanza ci sono cinque persone che hanno un’età media di 32 anni. Se
le età di quattro persone sono rispettivamente: 25, 35, 40, 26, qual è l’età della
quinta persona? ( barra con una x la risposta giusta )
a) 26 b) 34 c) 30 d) 38 e) 42
7) In un cantiere lo stipendio mensile dei quattro apprendisti è € 600, dei venti operai è € 1000, del capocantiere € 2000. Calcola la media aritmetica degli stipendi. [R. € 976]
ESERCIZI 2
-
Determina il salario medio di un gruppo di operai in base ai dati della tabella
Salari |
Numero di operai |
600 |
15 |
650 |
20 |
680 |
17 |
[R. 633,21]
-
In una famiglia le età del padre, della madre e dei tre figli sono rispettivamente 40, 37, 12, 10 e 9 anni. Calcola la media geometrica delle loro età.
-
In una comitiva di amici ci sono quattro ragazzi che hanno 18 anni, sette che ne hanno 20 e due che ne hanno 21. Calcola la media geometrica ponderata.
-
Uno studente ha dato 14 esami con la media esatta del 27. Al quindicesimo esame prende 30. Quanto diventa la sua media? ( segna con una x la risposta giusta)
a) 27 b) 30 c) 28,5 d) (27*14+30)/15 e) (27+30*14)/15
5) Laura si ricorda che i suoi tre figli hanno l'altezza media di 150 cm. È un valore particolare che si ricorda bene. Deve compilare una scheda relativa a suo figlio Mario, ma non si ricorda quale dei seguenti quattro valori sia la sua altezza. Degli altri figli, Luca ed Anna, ha già compilato il giorno prima schede analoghe: uno è alto 145 cm e l'altra 153 cm. Qual è l'altezza di Mario (arrotondata ai centimetri)?
A) 148 cm B) 149 cm C) 150 cm D) 152 cm
Perché__________________________________________
ESERCIZI 3
1) Usando la funzione +MEDIA.GEOMETRICA() , calcola la media geometrica dei tre numeri 10,20 e 60. [R. 22,9]
2) Usando la funzione +MEDIA.GEOMETRICA() , calcola la media geometrica del rendimento complessivo di due trasformatori di cui il primo rende 81% e il secondo il 64%. [R. 72%]
3) Usando la funzione +MATR.SOMMA.PRODOTTO/+SOMMA risolvi il seguente problema: per superare un esame uno studente deve sostenere una prova pratica, una prova scritta e una prova orale e ottenere una media superiore a 60. La prova pratica è meno importante di quella scritta , la quale a sua volta è meno importante di quella orale. Esse hanno pesi 1,2 e 3 . Se uno studente merita 78 alla prova pratica, 44 alla prova scritta e 66 a quella orale, quanto vale la media ponderata. [R. 60,67]
4) L’età media degli 6 giocatori di una squadra sportiva è di 19 anni. Sai che due di essi hanno 18 anni, due ne hanno 24 ed uno 17. Quale potrebbe essere, tra le seguenti, l'età del sesto giocatore?
A) 18 B) 19 C) 20 D) 21
Perché?__________________________________________________
5) Nell'istogramma a quadretti ogni alunno ha indicato il modo (a piedi, in automobile o coll'autobus) in cui di solito arriva a scuola. I maschi hanno usato una crocetta (x), le femmine un cerchietto (o). Tra il complesso degli alunni il modo più frequente è l'arrivo a piedi. Anche tra i maschi e tra le femmine è più frequente l'arrivo a piedi che quello in auto o in bus? Perché? _________________________________________________________________
6) Nell'istogramma a quadretti ogni alunno ha indicato il modo (a piedi, in automobile o coll'autobus) in cui di solito arriva a scuola. Qual è la percentuale degli alunni (maschi e femmine insieme) che non arriva a scuola a piedi?
(A) 75% (B) 60% (C) 50% (D) 45% (E) 40%
Qual è la percentuale delle femmine che non arriva a scuola a piedi?
(A) 80% (B) 67% (C) 60% (D) 45% (E) 33%
7) Dati i valori 4, 8, 15 calcola lo scarto semplice medio rispetto alla mediana e rispetto alla media aritmetica .
[R. 3,66 ; 4]
8) Dati i valori 4, 8, 15 calcola lo scarto quadratico medio rispetto alla mediana e rispetto alla media aritmetica .
[R. 4,65 ; 4,55]
ESERCIZI RIEPILOGATIVI
1) Rappresenta mediante un istogramma la tabella
Modalità |
8 |
12 |
16 |
19 |
22 |
28 |
Frequenza |
2 |
3 |
1 |
3 |
5 |
2 |
2) Data la tabella
X |
8,5 |
7 |
6,3 |
9,2 |
4 |
6,8 |
Frequenza |
2 |
3 |
1 |
3 |
5 |
2 |
calcola la media aritmetica, il campo di variazione , lo scarto semplice medio e lo scarto quadratico medio
3) Al censimento del 1991, la popolazione residente nei 377 Comuni del Lazio risultava così distribuita (fonte: ISTAT):
|
Comune capoluogo |
Comuni non capoluogo |
Totale |
Viterbo |
58.353 |
218.545 |
276.898 |
Rieti |
42.859 |
101.152 |
144.011 |
Roma |
2.693.383 |
968.562 |
3.661.945 |
Latina |
105.543 |
366.074 |
471.617 |
Frosinone |
45.525 |
431.234 |
476.759 |
Totale |
2.945.663 |
2.085.567 |
5.031.230 |
Determina:
la popolazione media: a) dei capoluoghi; b) dei Comuni non capoluogo; c) di tutti i Comuni
della regione
4) E’ data la seguente tabella in excel
|
A |
B |
1 |
Prezzo unitario |
Numero unità |
2 |
20 |
500 |
3 |
25 |
750 |
4 |
35 |
200 |
5 |
Formula |
|
6 |
|
|
Calcola la media del costo dei prodotti (Sugger. La formula da usare è quella della media pesata)
5)Considerando le seguenti modalità ( B= Buono, R=Riutilizzabile , D=Difettoso) rilevate in un lotto di 25 pezzi provenienti da una linea di produzione:
tabella della qualità di 25 pezzi prodotti
B |
B |
D |
R |
B |
D |
B |
R |
R |
B |
B |
R |
B |
R |
B |
B |
R |
B |
B |
B |
D |
B |
R |
B |
D |
|
|
|
|
|
Completa la corrispondente distribuzione di frequenze
Qualità del pezzo |
f.a. |
f.r. |
Difettoso |
4 |
|
Riutilizzabile |
7 |
|
Buono |
14 |
|
Totale |
25 |
|
6) La tabella seguente riporta la distribuzione di frequenze del numero di figli per famiglia di un certo paese
n. figli |
fr.a |
f.r. |
0 |
5 |
|
1 |
12 |
|
2 |
19 |
|
3 |
9 |
|
4 |
4 |
|
5 |
1 |
|
Totale |
50 |
|
-
Calcola l’incidenza , ovvero la frequenza relativa, delle varie modalità del carattere considerato sul totale
-
Esaminando i dati della tabella, rispondi alla seguente domanda:
-
Quale è la percentuale delle famiglie che ha 2 figli?
7) La tabella precedente può essere arricchita da altre due tipi di informazione: le frequenze cumulate (fr.c) e le frequenze relative cumulate (f.r.c.) , che sono, rispettivamente, le frequenze assolute e relative degli individui che presentano una modalità del carattere inferiore od uguale alla modalità che si sta trattando. La nuova tabella ha la forma:
n. figli |
f.a. |
f.r. |
fr.c. |
f.r.c. |
0 |
5 |
|
|
|
1 |
12 |
|
|
|
2 |
19 |
|
|
|
3 |
9 |
|
|
|
4 |
4 |
|
|
|
5 |
1 |
|
|
|
Totale |
50 |
|
|
|
Dai valori che hai scritto nelle varie colonne ricavi i seguenti valori?
a) 45 famiglie, pari al 90% del totale hanno NON più di tre figli vero____ falso___
b) solo una famiglia su 50 ha 5 figli? vero____ falso ____
c) il 10% delle famiglie ha un solo figlio vero____ falso ____
Rispondi inoltre alle seguenti domande
-
Quante famiglie hanno meno di 3 figli?
-
Quale è la percentuale delle famiglie che hanno più di 2 figli?
8 ) Gli importi in euro della spesa giornaliera di una famiglia di due persone nel corso di un mese sono stati i seguenti: 20, 27, 52, 5, 8, 6, 4, 10, 13, 49, 8, 7, 11, 13, 24, 10, 56, 4, 7, 9, 14, 18, 21, 59, 13, 12, 4, 5, 9, 12.
Costruisci la distribuzione delle frequenze per classi di ampiezza 10 e calcola le frequenze percentuali.
[R. 46,7%, 30%, 10%, 0%, 3,3%, 10%]
9)I prezzi al kg dell’uva Regina rilevati al mercato all’ingrosso di frutta e verdura presso 12 rivenditori sono:1,98, 2,02, 1,99, 2,12, 2,06, 2,09, 1,99, 1,94, 2,05, 2,08, 1,95, 1,97. Costruisci la distribuzione di frequenza per classi di ampiezza 0,05, a partire da 1,90, e calcola le frequenze percentuali. [R.16,7%, 33,3%, 16,7%, 25%, 8,3%]
10) I voti riportati in storia dai 250 alunni delle dieci classi di una scuola sono distribuiti come indicato nella tabella seguente:
Voto |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Frequenza (numero di alunni ) |
6 |
15 |
23 |
27 |
41 |
75 |
31 |
21 |
8 |
3 |
Rappresenta in un istogramma le frequenze relative e calcola il voto medio
11)Rappresenta con un istogramma la seguente distribuzione
Classi |
100-300 |
300-500 |
500-700 |
700-900 |
900-1100 |
1100-1300 |
Frequenza |
3 |
6 |
4 |
3 |
4 |
5 |
12) Le misure di resistenza su 8 resistori ha dato i risultati che seguono:
ohm |
801 |
802 |
802 |
804 |
801 |
803 |
802 |
802 |
Calcola la resistenza media.
13)Scrivi il motivo, nelle righe che seguono , per cui non è possibile definire la media geometrica se qualche modalità è negativa o nulla
_______________________________________________________________________________
_______________________________________________________________________________
_______________________________________________________________________________
14)Il reciproco della media geometrica di più dati è uguale alla media geometrica dei loro reciproci secondo l’espressione che segue
N _________________ 1
Mg= √ X1 * X2 *….XN = ----------------------------------
N _________________
Mg= √ Y1 * Y2 *….YN
Dove X1= 1/Y1 , X2 = 1/ Y2 …… XN = 1/YN
Predisponi un foglio di calcolo in cui venga mostrata l’uguaglianza appena scritta per i seguenti tre valori x1 = 2 x2 = 4 x3 = 8
[R. Mg= 4 ; 1/Mg=0,25]
15) Dopo un trattamento con un erbicida le 400 piante trattate possono essere classificate come segue: morte (300), vive (75), danneggiate (25). Valuta la distribuzione delle frequenze assolute e relative e inoltre rappresenta i dati secondo la tipologia “a torta”.
Classi |
f.a. |
f.r |
Morte |
|
|
Vive |
|
|
Danneggiate |
|
|
Fonte: http://www.itisferentino.it/updown/news_allegati/STATISTICA%20%20CON%20EXCEL.doc
Sito web da visitare: http://www.itisferentino.it/
Autore del testo: non indicato nel documento di origine
Nota : se siete l'autore del testo sopra indicato inviateci un e-mail con i vostri dati , dopo le opportune verifiche inseriremo i vostri dati o in base alla vostra eventuale richiesta rimuoveremo il testo.
Parola chiave google : Statistica con Excel e Calc tipo file : doc
Statistica con Excel e Calc
Visita la nostra pagina principale
Statistica con Excel e Calc
Termini d' uso e privacy