Skip to content
Snippets Groups Projects
README.md 7.27 KiB
Newer Older
Diego Monti's avatar
Diego Monti committed
VIQ - Laboratorio 1
===================

*18 marzo 2021*

**Obiettivo:**
Apprendere le tecniche base per la statistica descrittiva con fogli elettronici.

**Strumento:**
Microsoft Excel

Esercizio 1
-----------

**Dataset**

Classifica Marcatori Serie A, Campionato 2020/21, 27ª giornata

-   URL: <http://softeng.polito.it/courses/VIQ/datasets/Marcatori2021.csv>
-   Scaricata a partire dai dati pubblicati da [La Gazzetta dello Sport](https://www.gazzetta.it/calcio/serie-a/marcatori/).

**Task**

1.  Caricare i dati relativi al dataset dei marcatori
    -   Utilizzare il menù *Dati* e scegliere *Carica dati esterni*
    -   Selezionare come file di testo il file CSV

        ▸ I dati sono delimitati o ad ampiezza fissa?

        ▸ Qual è il delimitatore?

2.  Calcolare gli indici sommari della distribuzione dei gol:
    -   Tendenza centrale: media, mediana, midrange, moda
    -   Dispersione: deviazione standard, MAD, IQR, range

        ▸ Quali indici sono disponibili come funzioni predefinite in Excel?

        ▸ Quali sono quelli più indicati a descrivere la distribuzione?

3.  Calcolare la tabella di distribuzione delle frequenze per il numero di gol in due modi:
    1.  utilizzando la funzione Pivot
        -   selezionare i dati e scegliere *Inserisci* e poi *Tabella pivot*
        -   inserire il numero di gol come etichetta di riga
        -   inserire il giocatore nei valori come *conteggio*
    2.  utilizzando la formula `COUNTIF`/`CONTA.SE`, che accetta come parametri
        -   l'intervallo di celle in cui contare
        -   il valore di cui contare le occorrenze

        Esempio:

        <table style="width:62%;">
        <colgroup>
        <col width="9%" />
        <col width="8%" />
        <col width="6%" />
        <col width="6%" />
        <col width="30%" />
        </colgroup>
        <thead>
        <tr class="header">
        <th></th>
        <th align="center">A</th>
        <th align="center">B</th>
        <th align="center">C</th>
        <th align="center">D</th>
        </tr>
        </thead>
        <tbody>
        <tr class="odd">
        <td><strong>1</strong></td>
        <td align="center">2</td>
        <td align="center"></td>
        <td align="center">5</td>
        <td align="center"><code>=CONTA.SE(A1:A4;C1)</code></td>
        </tr>
        <tr class="even">
        <td><strong>2</strong></td>
        <td align="center">3</td>
        <td align="center"></td>
        <td align="center"></td>
        <td align="center"><span class="math inline"></span> numero di valori = 5</td>
        </tr>
        <tr class="odd">
        <td><strong>3</strong></td>
        <td align="center">7</td>
        <td align="center"></td>
        <td align="center"></td>
        <td align="center"></td>
        </tr>
        <tr class="even">
        <td><strong>4</strong></td>
        <td align="center">5</td>
        <td align="center"></td>
        <td align="center"></td>
        <td align="center"></td>
        </tr>
        </tbody>
        </table>

    **Suggerimento:** per copiare la formula utilizzare un riferimento (con `$`).

4.  Costruire una tabella di distribuzione delle frequenze che riporti, per ciascuna squadra, il numero di giocatori che hanno segnato almeno un gol per quella squadra.

    -   Si usino sia l'approccio *Pivot*, sia quello con le formule.

5.  Dato il numero di gol per ogni giocatore, calcolare la tabella di distribuzione delle frequenze per intervalli di valori (*bin*):
    -   si definiscano 10 intervalli di uguale ampiezza
    -   gli intervalli devono coprire tutto il range ed avere ampiezza pari ad un numero intero
    -   sfruttare la possibilità di utilizzare con `COUNTIF`/`CONTA.SE` un criterio, ad es. `"<4"`, che può essere costruito concatenando un operatore di confronto con un valore. Il valore può essere preso da una cella: ad esempio il criterio `"<" & C1` permette di contare quanti valori sono minori del valore presente nella cella *C1*.

    Esempio:

    <table style="width:65%;">
    <colgroup>
    <col width="9%" />
    <col width="6%" />
    <col width="6%" />
    <col width="6%" />
    <col width="34%" />
    </colgroup>
    <thead>
    <tr class="header">
    <th></th>
    <th align="center">A</th>
    <th align="center">B</th>
    <th align="center">C</th>
    <th align="center">D</th>
    </tr>
    </thead>
    <tbody>
    <tr class="odd">
    <td><strong>1</strong></td>
    <td align="center">2</td>
    <td align="center"></td>
    <td align="center">4</td>
    <td align="center"><code>=CONTA.SE(A1:A4;&quot;&lt;&quot;&amp;C1)</code></td>
    </tr>
    <tr class="even">
    <td><strong>2</strong></td>
    <td align="center">3</td>
    <td align="center"></td>
    <td align="center"></td>
    <td align="center"><span class="math inline"></span> numero di valori &lt; 4</td>
    </tr>
    <tr class="odd">
    <td><strong>3</strong></td>
    <td align="center">7</td>
    <td align="center"></td>
    <td align="center"></td>
    <td align="center"></td>
    </tr>
    <tr class="even">
    <td><strong>4</strong></td>
    <td align="center">5</td>
    <td align="center"></td>
    <td align="center"></td>
    <td align="center"></td>
    </tr>
    </tbody>
    </table>

    ▸ Come sono definiti gli intervalli?

    ▸ Gli estremi degli intervalli sono inclusi o esclusi?

6.  Rappresentare le tabelle di distribuzione delle frequenze in maniera grafica. Occorre definire una variabile numerica (la frequenza) ed una variabile categorica (l'intervallo di gol). Si possono utilizzare diversi oggetti visivi ed attributi [1].

    -   Posizione di oggetti (punti) (*Scatter/Dispersione* o *Line/Linea*)

        ![](figure/scatter.png)

    -   Lunghezza di barre (*Bar/Barre*)

        ![](figure/bars.png)

    -   Area (*Bubble/Bolle*)

        ![](figure/bubble.png)

    Per definire correttamente quali valori utilizzare e come, è spesso necessario utilizzare *Select*/*Seleziona dati*. La finestra permette di indicare quali intervalli contengono i dati per *X* e *Y*.

    ▸ Quanto è facile ottenere la visualizzazione desiderata?

    ▸ I grafici generati rispondono ai principi di integrità?

Esercizio 2
-----------

**Dataset**

Patrimoni Trasparenti, patrimoni dichiarati dei parlamentari Italiani.

-   URL: <http://softeng.polito.it/courses/VIQ/datasets/openpolis-patrimoni-trasparenti.zip>
-   Fornito dall'associazione [OpenPolis](http://www.openpolis.it)

**Task**

1.  Caricare i dati relativi ai redditi per l'anno 2014 presenti nel dataset.

2.  Calcolare gli indici sommari per la distribuzione dei redditi (colonna `totale_730_dichiarante`).

    ▸ Quali indicatori sommari sono più utili per descrivere la distribuzione dei redditi?

3.  Produrre la tabella di distribuzione delle frequenze.

    ▸ Quali intervalli è opportuno usare?

    ▸ È più utile una suddivisione lineare o logaritmica?

4.  Visualizzare la distribuzione dei redditi utilizzando una delle rappresentazioni dell'esercizio precedente.

    ▸ Quale rappresentazione è più appropriata?

[1] I grafici sono riportati a puro titolo di esempio, non si riferiscono ai dati dell'esercizio e non sono da riprodurre tali e quali.