Newer
Older
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
VIQ - Laboratorio 1
===================
*18 marzo 2021*
**Obiettivo:**
Apprendere le tecniche base per la statistica descrittiva con fogli elettronici.
**Strumento:**
Microsoft Excel
Esercizio 1
-----------
**Dataset**
Classifica Marcatori Serie A, Campionato 2020/21, 27ª giornata
- URL: <http://softeng.polito.it/courses/VIQ/datasets/Marcatori2021.csv>
- Scaricata a partire dai dati pubblicati da [La Gazzetta dello Sport](https://www.gazzetta.it/calcio/serie-a/marcatori/).
**Task**
1. Caricare i dati relativi al dataset dei marcatori
- Utilizzare il menù *Dati* e scegliere *Carica dati esterni*
- Selezionare come file di testo il file CSV
▸ I dati sono delimitati o ad ampiezza fissa?
▸ Qual è il delimitatore?
2. Calcolare gli indici sommari della distribuzione dei gol:
- Tendenza centrale: media, mediana, midrange, moda
- Dispersione: deviazione standard, MAD, IQR, range
▸ Quali indici sono disponibili come funzioni predefinite in Excel?
▸ Quali sono quelli più indicati a descrivere la distribuzione?
3. Calcolare la tabella di distribuzione delle frequenze per il numero di gol in due modi:
1. utilizzando la funzione Pivot
- selezionare i dati e scegliere *Inserisci* e poi *Tabella pivot*
- inserire il numero di gol come etichetta di riga
- inserire il giocatore nei valori come *conteggio*
2. utilizzando la formula `COUNTIF`/`CONTA.SE`, che accetta come parametri
- l'intervallo di celle in cui contare
- il valore di cui contare le occorrenze
Esempio:
<table style="width:62%;">
<colgroup>
<col width="9%" />
<col width="8%" />
<col width="6%" />
<col width="6%" />
<col width="30%" />
</colgroup>
<thead>
<tr class="header">
<th></th>
<th align="center">A</th>
<th align="center">B</th>
<th align="center">C</th>
<th align="center">D</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>1</strong></td>
<td align="center">2</td>
<td align="center"></td>
<td align="center">5</td>
<td align="center"><code>=CONTA.SE(A1:A4;C1)</code></td>
</tr>
<tr class="even">
<td><strong>2</strong></td>
<td align="center">3</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"><span class="math inline">↑</span> numero di valori = 5</td>
</tr>
<tr class="odd">
<td><strong>3</strong></td>
<td align="center">7</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"></td>
</tr>
<tr class="even">
<td><strong>4</strong></td>
<td align="center">5</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"></td>
</tr>
</tbody>
</table>
**Suggerimento:** per copiare la formula utilizzare un riferimento (con `$`).
4. Costruire una tabella di distribuzione delle frequenze che riporti, per ciascuna squadra, il numero di giocatori che hanno segnato almeno un gol per quella squadra.
- Si usino sia l'approccio *Pivot*, sia quello con le formule.
5. Dato il numero di gol per ogni giocatore, calcolare la tabella di distribuzione delle frequenze per intervalli di valori (*bin*):
- si definiscano 10 intervalli di uguale ampiezza
- gli intervalli devono coprire tutto il range ed avere ampiezza pari ad un numero intero
- sfruttare la possibilità di utilizzare con `COUNTIF`/`CONTA.SE` un criterio, ad es. `"<4"`, che può essere costruito concatenando un operatore di confronto con un valore. Il valore può essere preso da una cella: ad esempio il criterio `"<" & C1` permette di contare quanti valori sono minori del valore presente nella cella *C1*.
Esempio:
<table style="width:65%;">
<colgroup>
<col width="9%" />
<col width="6%" />
<col width="6%" />
<col width="6%" />
<col width="34%" />
</colgroup>
<thead>
<tr class="header">
<th></th>
<th align="center">A</th>
<th align="center">B</th>
<th align="center">C</th>
<th align="center">D</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>1</strong></td>
<td align="center">2</td>
<td align="center"></td>
<td align="center">4</td>
<td align="center"><code>=CONTA.SE(A1:A4;"<"&C1)</code></td>
</tr>
<tr class="even">
<td><strong>2</strong></td>
<td align="center">3</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"><span class="math inline">↑</span> numero di valori < 4</td>
</tr>
<tr class="odd">
<td><strong>3</strong></td>
<td align="center">7</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"></td>
</tr>
<tr class="even">
<td><strong>4</strong></td>
<td align="center">5</td>
<td align="center"></td>
<td align="center"></td>
<td align="center"></td>
</tr>
</tbody>
</table>
▸ Come sono definiti gli intervalli?
▸ Gli estremi degli intervalli sono inclusi o esclusi?
6. Rappresentare le tabelle di distribuzione delle frequenze in maniera grafica. Occorre definire una variabile numerica (la frequenza) ed una variabile categorica (l'intervallo di gol). Si possono utilizzare diversi oggetti visivi ed attributi [1].
- Posizione di oggetti (punti) (*Scatter/Dispersione* o *Line/Linea*)

- Lunghezza di barre (*Bar/Barre*)

- Area (*Bubble/Bolle*)

Per definire correttamente quali valori utilizzare e come, è spesso necessario utilizzare *Select*/*Seleziona dati*. La finestra permette di indicare quali intervalli contengono i dati per *X* e *Y*.
▸ Quanto è facile ottenere la visualizzazione desiderata?
▸ I grafici generati rispondono ai principi di integrità?
Esercizio 2
-----------
**Dataset**
Patrimoni Trasparenti, patrimoni dichiarati dei parlamentari Italiani.
- URL: <http://softeng.polito.it/courses/VIQ/datasets/openpolis-patrimoni-trasparenti.zip>
- Fornito dall'associazione [OpenPolis](http://www.openpolis.it)
**Task**
1. Caricare i dati relativi ai redditi per l'anno 2014 presenti nel dataset.
2. Calcolare gli indici sommari per la distribuzione dei redditi (colonna `totale_730_dichiarante`).
▸ Quali indicatori sommari sono più utili per descrivere la distribuzione dei redditi?
3. Produrre la tabella di distribuzione delle frequenze.
▸ Quali intervalli è opportuno usare?
▸ È più utile una suddivisione lineare o logaritmica?
4. Visualizzare la distribuzione dei redditi utilizzando una delle rappresentazioni dell'esercizio precedente.
▸ Quale rappresentazione è più appropriata?
[1] I grafici sono riportati a puro titolo di esempio, non si riferiscono ai dati dell'esercizio e non sono da riprodurre tali e quali.