SINTESI

(Sistema INTerattivo per l'EStrazione delle Informazioni).

Nell'ambito dei servizi offerti per attività didattica e di ricerca, il Laboratorio di Geomatica - Circe mette a disposizione degli utenti SINTESI, un'interfaccia grafica WEB per l'estrazione di dati e la creazione interattiva di carte tematiche.

Il servizio permette all'utente che si collega via rete, di accedere alle banche dati e di estrarre e salvare su file (in formato ASCII) i dati prescelti, sui quali poter effettuare elaborazioni ed analisi con i programmi preferiti. Attualmente sono disponibili dati censuari ed elettorali. I primi sono di fonte ISTAT), e più precisamente:

- 14^ Censimento Popolazione e Abitazioni 2001 dati comunali
- 13^ Censimento Popolazione e Abitazioni 1991 dati comunali
- 12^ Censimento Popolazione e Abitazioni 1981 dati comunali
- 5^ Censimento Agricoltura 2000 dati comunali
- 4^ Censimento Agricoltura 1990 dati comunali
- 8^ Censimento Industria e Servizi 2001: confronto 2001-1991 (addetti UL 2001, ATECO 1991) dati comunali
- 8^ Censimento Industria e Servizi 2001: confronto 2001-1991 (UL 2001, ATECO 1991) dati comunali
- 8^ Censimento Industria e Servizi 2001: confronto 2001-1991 (addetti UL 1991, ATECO 1991) dati comunali
- 8^ Censimento Industria e Servizi 2001: confronto 2001-1991 (UL 1991, ATECO 1991) dati comunali
- 7^ Censimento Industria e Servizi 1991 (addetti delle Unità Locali) dati comunali
- 7^ Censimento Industria e Servizi 1991 (Unità Locali) dati comunali
- 7^ Censimento Industria e Servizi 1991 (addetti delle imprese) dati comunali
- 7^ Censimento Industria e Servizi 1991 (imprese) dati comunali
- 7^ Censimento Industria e Servizi 1991 (addetti delle Unità Locali artigiane) dati comunali
- 7^ Censimento Industria e Servizi 1991 (Unità Locali artigiane) dati comunali
- 6^ Censimento Industria e Servizi 1981 (addetti delle Unità Locali) dati comunali
- 6^ Censimento Industria e Servizi 1981 (Unità Locali) dati comunali
- 6^ Censimento Industria e Servizi 1981 (addetti delle imprese) dati comunali
- 6^ Censimento Industria e Servizi 1981 (imprese) dati comunali

I secondi, provenienti dal Ministero dell'interno e dall'Osservatorio Elettorale del Consiglio Regionale del Veneto, riguardano:
- Elezioni Politiche Camera dei Deputati 2001 (proporzionale)
- Elezioni Politiche Camera dei Deputati 1996 (proporzionale)
- Elezioni Europee 2004 (Veneto)
- Elezioni Regionali 2005 (Veneto)
- Elezioni Regionali 2000 (Veneto)

N.B.Tra i dati del IV Censimento Generale dell'Agricoltura (21 ottobre 1990 ~ 22 febbraio 1991) mancano quelli relativi alla provincia di Siracusa.
I dati del Censimento Industria e Servizi 1991 sono accessibili solo agli utenti abilitati del dominio "iuav.it".

L'indirizzo internet per accedere a SINTESI è:
http://circe.iuav.it/sintesi/index.html

0. Approfondimento sui contenuti

0.1. Definizioni

1. Organizzazione dei dati

Le banche dati presenti in SINTESI risiedono su un database MySQL e sono organizzate secondo la classica struttura tabellare, costituita di righe (o record) e colonne (o campi). In ogni tabella ciascuna riga rappresenta un'unità statistica, cioè un oggetto (nel nostro caso si tratta di Comuni) descritto da un insieme di caratteri (attributi o variabili). Ogni unità statistica è descritta da un ugual numero di variabili di tipo numerico. Per fare un esempio, nella banca dati del Censimento Popolazione e Abitazioni del 1981, per ogni unità statistica (Comune) sono riportati i valori numerici di 527 variabili (caratteri del Comune: ad esempio il numero dei residenti, il numero delle persone laureate, ecc.) e alcuni attributi alfanumerici, quali ad esempio il nome del Comune stesso, i nomi della Provincia e della Regione di appartenenza, il codice ISTAT.

2. L'interfaccia di SINTESI: caratteristiche generali

2.1. Impostazione dei parametri per l'estrazione dei dati

Con SINTESI si può accedere alle banche dati che risiedono sul server del Laboratorio di Geomatica - Circe ed effettuare le elaborazioni desiderate.
La procedura di selezione dei dati è gestita da un'interfaccia grafica che consente di impostare in modo semplice i parametri e le condizioni per la scelta delle unità statistiche (Comuni) e delle variabili che le descrivono.

Dalla home page è possibile scegliere se lavorare con i Dati Elettorali oppure con i Dati ISTAT, inoltre si può accedere alla pagina di visualizzazione dei codici ISTAT dei Comuni italiani.
Dopo aver indicato su quale tipo di dati effettuare la selezione, si passa alla fase operativa durante la quale l'utente è chiamato ad impostare i parametri e le condizioni che determinano la selezione delle unità statistiche e dei loro attributi.
Questa procedura avviene in tre fasi successive, a ciascuna delle quali corrisponde una pagina WEB:

SINTESI - Impostazione dei parametri (fase I);
SINTESI - Impostazione dei parametri (fase II);
SINTESI - Impostazione dei parametri (fase III).

Impostazione dei parametri ( fase I)

Viene richiesta la scelta di due parametri:

1. la banca dalla quale estrarre i dati;
2. l'unità amministrativa (Regione o Provincia) di cui fanno parte i Comuni che dovranno essere selezionati.

Impostazione dei parametri ( fase II)

Nella parte superiore della pagina è visualizzato il riepilogo delle scelte effettuate nella fase precedente.
In questa fase viene richiesto all'utente di fornire due ulteriori parametri:
1. la Regione o le Province, a seconda di quanto indicato nella fase precedente, a cui appartengono i Comuni da selezionare;
2. il metodo da utilizzare per la selezione delle unità statistiche; dall'elenco a discesa è possibile scegliere una tra le tre opzioni proposte:
Tutte le unità - Per nome - Selezione logica.

Ipostazione dei parametri ( fase III)

Questa è la pagina finale per l'inserimento dei parametri. Nella parte superiore sono visualizzate le scelte effettuate dall'utente nelle fasi precedenti. Di seguito si trovano gli elementi di interfaccia che consentono di specificare gli ultimi parametri di selezione. Questi elementi, liste di scelta multipla e caselle di testo, possono variare a seconda del metodo di selezione delle unità statistiche prescelto nella fase II.

In tutte le fasi di selezione dei parametri viene richiesta la conferma circa la correttezza delle scelte effettuate. Se si preme il bottone OK si confermano i parametri inseriti e si passa alla fase successiva. Se invece si preme Cancella, si ripristinano i valori inizialmente presenti nella pagina.

2.2. La scelta dell'output

Terminata correttamente l'impostazione dei parametri della fase III, premendo il pulsante OK si attiva la procedura di selezione ed estrazione dei dati. Terminata l'elaborazione, viene visualizzata una nuova pagina di interfaccia che consente di scegliere il modo di utilizzo dei dati estratti. L'utente può:

- visualizzare i dati estratti per poi salvarli su file;
- produrre una carta tematica e salvarla su file in formato PDF.

Indicare quale operazione si desidera effettuare e premere il pulsante OK.

3. I parametri per la selezione dei dati

3.1. Selezione dei parametri (fase I)

3.1.1. Elenco delle banche dati

Da una lista di selezione, l'utente può scegliere una tra le banche dati proposte; da quella indicata verranno estratti i dati.
Un'altra lista di selezione consente di indicare se si desidera selezionare i Comuni in base alla Regione o alle Province di appartenenza.

3.2. Selezione dei parametri (fase II)

3.2.1. Selezione della Regione o delle Province

Se si è scelto di selezionare i Comuni in base alla Regione, viene visualizzata una lista di selezione con i nomi delle Regioni italiane: l'utente dovrà indicare uno tra i nomi presenti nell'elenco proposto. Se si è scelto di selezionare i Comuni in base alla Provincia, viene visualizzata una lista di selezione con i nomi delle Province italiane: l'utente dovrà indicare uno o più (fino a un massimo di dieci) tra i nomi presenti nell'elenco proposto.

3.2.2. Il metodo per la selezione delle unità statistiche

SINTESI propone tre possibili modalità (mutuamente esclusive) per selezionare le unità statistiche (casi, righe) dalle banche dati:

Tutte le unità: seleziona tutti i casi della banca dati scelta.

Per nome: seleziona solo i casi i nomi dei quali corrispondono a quelli indicati dall'utente nella fase successiva.

Selezione logica: seleziona solo i casi che presentano (o non presentano) un opportuno insieme di caratteri. La selezione opera in base alle informazioni contenute nella banca dati di input. Per selezionare si dovrà specificare, nella fase successiva in un'apposita casella di testo, la condizione logica alla quale un caso deve soddisfare per essere selezionato.

Se si sceglie il metodo Per nome o il metodo Selezione logica, nella successiva fase III sarà necessario selezionare almeno un nome di Comune, ovvero definire una condizione logica di selezione, prima dell'avvio della procedura di estrazione dei dati. In caso contrario verrà visualizzato un messaggio di errore.

I metodi Tutte le unità e Per nome sono sufficientemente intuitivi per non richiedere ulteriori spiegazioni, mentre è importante specificare dettagliatamente le possibilità offerte dal metodo Selezione Logica.

3.2.2.1. La condizione logica per la selezione delle unità statistiche

Una condizione logica specifica le combinazioni accettabili dei valori delle variabili per la selezione delle unità statistiche.
In generale, le regole sintattiche consentite per la scrittura della condizione logica rappresentano un sottoinsieme delle query SQL.

Gli elementi di base che costituiscono una condizione logica sono:

NUMERI: interi o decimali (ad es. 1, -3.2, 3001);

IDENTIFICATORI DI VARIABILE: che consistono della lettera 'v' o 'V' e di un intero (l'intero è il numero d'ordine della variabile, cos� come indicato nell'elenco di selezioni delle variabili nella fase III);

OPERATORI ARITMETICI: '+' '-' '*' '/'. Essi debbono stare tra i numeri o gli identificatori di campo sui quali operano;

OPERATORI DI RELAZIONE: '<' '>' '=' '>=' '<=' '<>' (l'ultimo simbolo sta per 'diverso da'). Essi debbono stare tra i due termini sui quali operano: numeri, o identificatori di variabile, o gruppi più complessi che includono almeno un operatore aritmetico e vanno pre-valutati;

OPERATORI LOGICI: 'AND' 'OR' 'XOR' 'NOT';

OPERATORE DI APPARTENENZA AD UN INSIEME: 'IN'.

Si possono usare parentesi rotonde per cambiare la priorità delle operazioni. Ad un medesimo livello di parentesi, un'espressione è valutata da sinistra a destra secondo le REGOLE DI PRIORITÀ seguenti:

1.vengono valutati prima gli operatori aritmetici, poi quelli di relazione ed infine quelli logici;

2.'*' e '/' sono valutati prima di '+' e '-';

3.'NOT' è valutato con precedenza sugli altri operatori logici;

Gli operatori aritmetici agiscono su quantità reali (numeri, contenuti di campi o risultati di operazioni aritmetiche precedenti) e producono un valore numerico decimale (reale).

Gli operatori di relazione confrontano valori numerici (numeri forniti dall'utente, contenuto di campi, risultati di operazioni aritmetiche) e producono un valore di verità (VERO se la condizione è soddisfatta, FALSO altrimenti).

Gli operatori logici operano su due valori di verità e generano un valore di verità. Fa eccezione 'NOT', che agisce su un solo termine, il quale convenzionalmente segue l'operatore. Si ricordi che:

AND restituisce vero solo quando entrambi i termini sono veri;

OR restituisce vero quando almeno uno dei termini è vero;

XOR (OR Esclusivo) restituisce vero quando uno e solo uno dei suoi termini è vero;

NOT restituisce vero quando agisce su falso e viceversa.

L'operatore IN opera su due termini. Il primo è un indicatore di campo ed il secondo è una lista di valori separati da virgola e racchiusi tra parentesi tonde (( )).
Un esempio di uso dell'operatore IN è riportato nel paragrafo successivo.
SINTESI controlla la sintassi dell'espressione digitata dall'utente e l'accettabilità degli indicatori di variabile. Se l'espressione è scritta correttamente in fase di elaborazione verranno selezionate le unità che rispondono alla condizione impostata; in caso contrario sarà visualizzato un messaggio di errore.
N.B. Nel caso in cui un'espressione contenga una divisione per zero, il valore di verità risulta sempre FALSO.

3.2.2.2. Esempi di scrittura di condizione logica per la selezione delle unità statistiche

Esempio 1

La condizione

v4 > 5000 AND v5 < v6+v7 AND v2 IN('024','028')

produrrà la selezione dei soli casi per i quali la variabile v4 ha un valore maggiore di 5000 e contemporaneamente il valore della variabile v5 sia minore della somma dei valori delle variabili v6 e v7 e il valore della variabile 2 sia uno tra '024' e '028'.

Esempio 2

La condizione

(v2 <> '025' OR v4 > 15000) AND v5/v4*100 > 60
viene interpretata come segue:
la valutazione inizia dall'espressione in parentesi: questa è VERA solo quando il valore della variabile v2 è diverso da '025' oppure se il valore della variabile v4 è maggiore di 15000; perché tutta l'espressione risulti vera, è necessario che, contemporaneamente, il valore dell'operazione v5/v4*100 sia maggiore di 60. Si pensi ad esempio che la variabile v2 corrisponda al codice di Provincia, v4 al numero degli elettori, v5 al numero di votanti. La condizione di selezione individua un Comune non in provincia di Belluno, oppure con più di 15000 elettori e nel quale abbia votato almeno il 60% degli aventi diritto.

3.3. Selezione dei parametri (fase III)

3.3.1. La selezione delle unità statistiche

La modalità di selezione delle unità statistiche varia in funzione del metodo di selezione prescelto nella fase II. Se l'utente ha scelto di estrarre tutti i casi presenti nella banca dati, non deve essere specificato niente altro. Se invece la selezioni dei casi avviene per nome, viene mostrata una lista dei nomi di tutti i casi presenti nella banca dati e l'utente può selezionare col mouse quelli desiderati. Infine, se è stata prescelta la selezione per condizione logica, viene mostrata una finestra di dialogo all'interno della quale dovrà essere scritta la condizione logica che individua le unità statistiche da estrarre.

3.3.2. La selezione delle variabili

L'utente deve scegliere le variabili dall'elenco che viene proposto automaticamente. Utilizzando il mouse dovranno essere selezionate da un minimo di una fino ad un massimo di dieci variabili. In caso contrario il programma di estrazione dei dati emetterà un avviso di errore.
N.B. ll totale di variabili, indicatori e campi alfanumerici che possono essere estratti contemporaneamente non può superare il numero di DIECI.

3.3.3. La selezione degli indicatori predefiniti

Non è obbligatorio scegliere uno o più indicatori.
Per indicatore si intende un valore calcolato, in base ad una determinata formula logico-matematica, a partire dai valori delle variabili presenti nella base di dati. Qualche esempio per chiarire meglio il concetto:

L'indice di vecchiaia o di invecchiamento, è definito come "il rapporto avente a numeratore la popolazione di 65 anni e più e a denominatore quella di 0-14 anni". Se ci interessa estrarre questo dato dalla banca dati del "Censimento popolazione e abitazioni 1991", non lo troveremo nell'elenco delle variabili, ma in quello degli indicatori predefiniti, in quanto il suo valore viene calcolato "al volo" utilizzando la formula (v46+v47)/(v38+v39+v40), nella quale:
v38 = Totale popolazione residente con meno di 5 anni v39 = Totale popolazione residente da 5 a 9 anni v40 = Totale popolazione residente da 10 a 14 anni v46 = Totale popolazione residente da 65 a 74 anni v47 = Totale popolazione residente da 75 anni e piè.

Altro esempio, riguardante questa volta i dati elettorali.
Se, relativamente alla banca dati "Elezioni regionali Veneto 2000", ci interessa conoscere la percentuale di voti ottenuta dalla lista vincitrice in ciascuno dei comuni selezionati, non potremo ricavare tale informazione dai dati originali, in quanto questi riportano solamente la percentuale di voti conquistata da ogni singola lista. Per avere l'informazione richiesta, sarà pertanto necessario selezionare dalla lista degli indicatori quello descritto come Percentuale di voti della lista vincitrice: in tal caso sarà SINTESI che, in base ad una operazione di confronto predefinita che calcola il maggiore tra una serie di valori, individuerà automaticamente il valore cercato e lo aggiungerà ai dati estratti. In questo caso il sistema confronterà i valori delle percentuali ottenute da ciascuna lista e, tra questi, individueraà ed estrarrà quello più alto.
Dall'elenco che viene proposto l'utente può selezionare fino ad un massimo di nove indicatori. Se ne vengono selezionati di più il programma di estrazione dei dati emetterà un avviso di errore.
L'eventuale assenza della lista degli indicatori significa che per la base dati selezionata non sono previsti indicatori predefiniti.

3.3.4. La selezione dei campi alfanumerici

Non è obbligatorio scegliere uno o più campi alfanumerici.
Dall'elenco che viene proposto l'utente può selezionare fino ad un massimo di nove campi alfanumerici (label o etichette). Se ne vengono selezionati di più il programma di estrazione dei dati emetterà un avviso di errore.
L'eventuale assenza della lista dei campi alfanumerici significa che non ne sono previsti per la base dati selezionata.

3.3.5. Le espressioni per la selezione di variabili e nuovi indicatori

Non è obbligatorio indicare una espressione di selezione.
L'utente ha la possibilità di scrivere, in un'apposita casella di testo, un'espressione che gli permette di indicare sia le variabili da estrarre dalla banca dati, sia di costruire e, naturalmente, estrarre nuovi indicatori calcolati a partire dai valori delle variabili presenti nella banca dati.
Ad esempio, nella banca dati del censimento popolazione e abitazioni del 1981, non viene riportato il valore del tasso di occupazione (calcolato come il rapporto tra popolazione occupata e popolazione attiva). Se ci interessa avere sul file di output proprio questo dato, possiamo utilizzare le variabili presenti nella banca dati (popolazione occupata e popolazione attiva) e gli operatori matematici messi a disposizione da SINTESI per costruire la formula che ci consentirà di ottenere il valore cercato. La formula, che nel caso in esempio è (v153/v157)*100, è uno degli elementi che costituiscono l'espressione.

3.3.5.1. Gli elementi per la costruzione delle espressioni

Un'espressione specifica gli elementi che dovranno essere estratti dalla banca dati e trascritti sul file di output. Gli elementi di base che costituiscono un'espressione sono:

IDENTIFICATORI DI VARIABILE: che consistono della lettera 'v' o 'V' e di un intero (l'intero è il numero d'ordine della variabile, cos� come indicato nell'elenco di selezioni delle variabili nella fase III);

OPERATORI ARITMETICI: '+' '-' '*' '/'. Essi debbono stare tra i numeri o gli identificatori di campo sui quali operano;

NUMERI: interi o decimali (ad es. 1, -3.2, 3001);

Gli identificatori di variabile, i numeri e gli operatori aritmetici possono essere utilizzati per costruire delle espressioni complesse (formule), utili per poter calcolare nuovi valori da registrare in output. Anche in questo caso, come precedentemente segnalato per la condizione logica utilizzata per la selezione delle unità statistiche, è possibile - anzi consigliato - fare uso delle parentesi tonde per cambiare la priorità delle operazioni ('*' e '/' sono valutati prima di '+' e '-') e per migliorare la leggibilità della formula stessa.
SINTESI controlla la sintassi dell'espressione digitata dall'utente e l'accettabilità degli indicatori di variabile e delle formule. Se l'espressione è scritta correttamente in fase di elaborazione verranno calcolati i valori corrispondenti all'espressione indicata; in caso contrario sarà visualizzato un messaggio di errore.

3.3.6. La selezione del formato per il file di output

L'utente può salvare i dati selezionati in formato ASCII con i campi separati da virgola ',' o dal carattere punto e virgola ';'. Tali formati sono riconosciuti dai più diffusi fogli elettronici e database.

Ciascuna operazione di trascrizione può avvenire in uno solo dei due formati. Vengono scritti tanti record quanti sono i casi selezionati e, per ciascuno di essi, i valori delle variabili e degli indicatori e i campi alfanumerici prescelti vengono salvati nel modo specifico del formato selezionato.


SINTESI © Copyright by Massimo Mazzanti
(Università Iuav di venezia - Laboratorio di Geomatica - Circe)