VIQ - Laboratorio 1
21 marzo 2019
Obiettivo: Apprendere le tecniche base per la statistica descrittiva con fogli elettronici.
Strumento: Microsoft Excel
Esercizio 1
Dataset
Classifica Marcatori Serie A, Campionato 2016/17
- URL: http://softeng.polito.it/courses/VIQ/datasets/Marcatori2017.csv
- Scaricata a partire dai dati pubblicati da Repubblica.it [1].
Task
-
Caricare i dati relativi al dataset dei marcatori
-
Utilizzare il menù Dati e scegliere Carica dati esterni
-
Selezionare come file di testo il file CSV
▸ I dati sono delimitati o ad ampiezza fissa?
▸ Qual è il delimitatore?
-
-
Calcolare gli indici sommari della distribuzione dei gol:
-
Tendenza centrale: media, mediana, midrange, moda
-
Dispersione: deviazione standard, MAD, IQR, range
▸ Quali indici sono disponibili come funzioni predefinite in Excel?
▸ Quali sono quelli più indicati a descrivere la distribuzione?
-
-
Calcolare la tabella di distribuzione delle frequenze per il numero di gol in due modi:
-
utilizzando la funzione Pivot
- selezionare i dati e scegliere Inserisci e poi Tabella pivot
- inserire il numero di gol come etichetta di riga
- inserire il giocatore nei valori come conteggio
-
utilizzando la formula
COUNTIF
/CONTA.SE
, che accetta come parametri- l'intervallo di celle in cui contare
- il valore di cui contare le occorrenze
Esempio:
A B C D 1 2 5 =CONTA.SE(A1:A4;C1)
2 3 ↑ numero di valori = 5 3 7 4 5
Suggerimento: per copiare la formula utilizzare un riferimento (con
$
). -
-
Costruire una tabella di distribuzione delle frequenze che riporti, per ciascuna squadra, il numero di giocatori che hanno segnato almeno un gol per quella squadra.
- Si usino sia l'approccio Pivot, sia quello con le formule.
-
Dato il numero di gol per ogni giocatore, calcolare la tabella di distribuzione delle frequenze per intervalli di valori (bin):
- si definiscano 10 intervalli di uguale ampiezza
- gli intervalli devono coprire tutto il range ed avere ampiezza pari ad un numero intero
- sfruttare la possibilità di utilizzare con
COUNTIF
/CONTA.SE
un criterio, ad es."<4"
, che può essere costruito concatenando un operatore di confronto con un valore. Il valore può essere preso da una cella: ad esempio il criterio"<" & C1
permette di contare quanti valori sono minori del valore presente nella cella C1.
Esempio:
A B C D 1 2 4 =CONTA.SE(A1:A4;"<"&C1)
2 3 ↑ numero di valori < 4 3 7 4 5 ▸ Come sono definiti gli intervalli?
▸ Gli estremi degli intervalli sono inclusi o esclusi?
-
Rappresentare le tabelle di distribuzione delle frequenze in maniera grafica. Occorre definire una variabile numerica (la frequenza) ed una variabile categorica (l'intervallo di gol). Si possono utilizzare diversi oggetti visivi ed attributi [2].
-
Posizione di oggetti (punti) (Scatter/Dispersione o Line/Linea)
-
Lunghezza di barre (Bar/Barre)
-
Area (Bubble/Bolle)
Per definire correttamente quali valori utilizzare e come, è spesso necessario utilizzare Select/Seleziona dati. La finestra permette di indicare quali intervalli contengono i dati per X e Y.
▸ Quanto è facile ottenere la visualizzazione desiderata?
▸ I grafici generati rispondono ai principi di integrità?
-
Esercizio 2
Dataset
Patrimoni Trasparenti, patrimoni dichiarati dei parlamentari Italiani.
- URL: http://softeng.polito.it/courses/VIQ/datasets/openpolis-patrimoni-trasparenti.zip
- Fornito dall'associazione OpenPolis
Task
-
Caricare i dati relativi ai redditi per l'anno 2014 presenti nel dataset.
-
Calcolare gli indici sommari per la distribuzione dei redditi (colonna
totale_730_dichiarante
).▸ Quali indicatori sommari sono più utili per descrivere la distribuzione dei redditi?
-
Produrre la tabella di distribuzione delle frequenze.
▸ Quali intervalli è opportuno usare?
▸ È più utile una suddivisione lineare o logaritmica?
-
Visualizzare la distribuzione dei redditi utilizzando una delle rappresentazioni dell'esercizio precedente.
▸ Quale rappresentazione è più appropriata?
[1] I dati sono stati scaricati tramite il codice disponibile in questo Gist.
[2] I grafici sono riportati a puro titolo di esempio, non si riferiscono ai dati dell'esercizio e non sono da riprodurre tali e quali.