Tutti i dati del Sistema Scuola Italia

di Antonio Massariolo, Il Bo Live, 3.6.2021.

In Italia la quota di spesa che è destinata all’istruzione, considerata sulla percentuale della spesa pubblica, resta fra le più basse dell’Ue. Gli ultimi dati Eurostat si riferiscono al 2017 ed inseriscono l’Italia nel gruppo di Paesi che investono in istruzione poco più del 4% del proprio prodotto interno lordo. L’Italia infatti investe il 4,04%, in linea con la Spagna (4,07%) ma decisamente meno di Francia (5,45%), Germania (4,53%) e Regno Unito (5,36%). Ai primi posti per investimento rispetto al PIL nazionale troviamo Danimarca, Svezia e Norvegia, rispettivamente con 7,33%, 7,06% e 6,94%.

L’investimento nella scuola significa investire nel Paese, nelle generazioni più giovani che sono il futuro della nazione. Investire però significa anche permettere a ragazze e ragazzi, bambine e bambini, di poter accedere all’istruzione. Sappiamo che la pandemia ha rivoluzionato totalmente la modalità con cui si è fatta istruzione nell’ultimo anno e mezzo. Questa però è una situazione straordinaria dalla quale indubbiamente ne usciremo, e si spera il più presto possibile.

Ciò che dobbiamo chiederci, e da qui l’idea di questo reportage a puntate, è se in situazioni ordinarie il nostro Paese è pronto ad accogliere o riaccogliere fisicamente gli studenti e le studentesse.

Un’analisi concreta delle infrastrutture scolastiche è quindi necessaria per capire se gli edifici che quotidianamente accolgono quasi il 16% della popolazione italiana, sono sicuri, accessibili e pronti al ritorno in aula.

Il numero degli studenti in Italia infatti è di 8.229.189 persone, a cui bisogna aggiungere 902.487 docenti e 213.132 persone che fanno parte del personale ATA cioè il personale amministrativo, tecnico e ausiliario degli istituti. Questo significa che ogni giorno quasi nove milioni e mezzo di persone in Italia stanno sotto un tetto di un edificio pubblico per almeno cinque ore. Va da se che la domanda sorge spontanea: qual è lo stato di questi edifici?

“Ogni giorno quasi nove milioni e mezzo di persone in Italia stanno sotto un tetto di un edificio pubblico per almeno cinque ore

Sappiamo che l’Italia ha un territorio variegato, spesso montuoso in cui proprio le montagne di mezzo, cioè quei territori che Marco Boscolo disegnava come “non ancora vette da conquistare o ammirare paesaggisticamente, ma contemporaneamente non-pianura, e quindi non adatti allo sviluppo urbano e industriale”, sono il 23% del territorio nazionale in cui però si vive, si lavora, si va a scuola. Capire se anche gli edifici presenti in queste zone sono raggiungibili, sia con i mezzi pubblici che con quelli privati, o se sono accessibili a persone con disabilità è importante per analizzare la salute della scuola italiana.

Sappiamo anche che per quanto riguarda l’abbandono scolastico e la povertà educativa in Italia c’è più di qualche campanello d’allarme. Nel primo caso vediamo che in diverse regioni del nostro Paese la percentuale di abbandono scolastico dai 18 ai 24 anni è superiore al 17%.

Le cause sono molteplici e abbiamo già cercato di analizzarle in un altro reportage, facendo emergere come anche in una Regione come la Lombardia, con un PIL pro Capite tra i più alti d’Europa e 1,6 milioni di minori, il tema della povertà educativa sta diventando sempre più cruciale.

Questa è solo la premessa che ci ha portati a cercare di fare un’analisi precisa e dettagliata delle caratteristiche di tutti gli edifici italiani che sono utilizzati per l’istruzione. Qui di seguito riportiamo il percorso che abbiamo fatto, consapevoli che è il percorso seguito da chi scrive, per un lavoro giornalistico, e che non ha pretese d’essere “il percorso giusto” o dare lezioni di metodo a nessuno.

Per una completa trasparenza, facendo una metafora alpinistica visto che abbiamo citato le montagne italiane, l’obiettivo di questo reportage è quello di cercare di tracciare una via che possa essere seguita anche da altre persone che magari vogliono solo cercare di arrivare a vette vicine.

Per questo riteniamo utile rendere pubblico il nostro cammino, la nostra traccia, come si farebbe dopo aver aperto una nuova via alpinistica, segnalando nel modo più chiaro possibile le difficoltà trovate, precedenti tracce prese in considerazione ed eventuali punti in cui prestare molta attenzione. Chi scrive non è quindi da ritenersi uno sherpa, ma potete vederlo più come un appassionato che lungo il cammino ha incontrato persone che gli hanno dato un fondamentale aiuto per proseguire e per fare un pezzo di percorso assieme. Se la metafora alpinistica vi stride, potete considerare questo lavoro, più che una guida scientifica e tecnica su come geolocalizzare, una guida galattica per geolocalizzatori, con tutto il romanzato del caso.

L’obiettivo

L’obiettivo iniziale del progetto era quello di creare un dataset completo di tutte le scuole e gli edifici attivi, prendendo in considerazione la loro posizione e 44 diversi indicatori racchiusi in 4 macro categorie, che potessero aiutarci a rispondere alla domanda: “siamo pronti per far tornare a scuola i nostri ragazzi e le nostre ragazze?”.

“A scuola tutto bene?” quindi è la domanda che sorge spontanea, ed il titolo dell’intero reportage non può che essere stato ispirato da Brunori Sas ed il suo album “A casa tutto bene”.

“Tra settembre e ottobre tutti si accorgono che comincia un nuovo anno scolastico e si concentrano per qualche ora sul tema. Due domande al ministro di turno (nove diverse nomine dal 2005 a oggi), qualche numero sugli iscritti, le classi, un mini focus sui cambiamenti eventuali e su possibili nuove riforme e poi di nuovo più niente”. Così scriveva Elisabetta Tola su Valigia Blu il 16 dicembre 2019. Nel frattempo i Ministri sono diventati 11 diversi, il ministero stesso è stato scorporato passando da MIUR (Ministero dell’istruzione, dell’università e della ricerca) a MUR (Ministero dell’università e della ricerca) e MI (Ministero dell’istruzione) e l’autrice di quell’articolo è divenuta caporedattrice de Il Bo Live. E’ proprio grazie ad Elisabetta Tola che è arrivato il primo input fondamentale per realizzare, o quantomeno cercare di farlo, un dataset il più completo possibile.

L’assemblaggio del dataset

Tutti i dati a cui facciamo riferimento sono stati scaricati dal Portale Unico dei Dati della Scuola realizzato dal Miur. Sono tutti dati open, rilasciati dal ministero, che però sono già divisi in macro categorie. Ciò che ci interessava fare era prendere l’anagrafica di tutti gli edifici delle scuole italiane, estrapolare solamente quelle attive e per ognuna di loro analizzare questi 44 indicatori racchiusi in 4 macro categorie.

Gli indicatori che abbiamo voluto prendere in considerazione sono: presenza di scuolabus, presenza di trasporti pubblici urbani, presenza di trasporti pubblici interurbani, presenza di trasporti ferroviari, raggiungibilità dell’edificio con mezzi privati, servizio di trasporto di persone con disabilità o altro in materia di trasporti; conoscere se l’edificio è adibito ad uso scolastico, se è utilizzato anche per altri usi, l’anno di costruzione, l’anno di un eventuale adattamento e il numero di piani di cui è composto l’edificio; se la scuola ha vincoli idrogeologici, di paesaggio, se è in zona sismica e se ha una progettazione antisismica; se la scuola ha superato le barriere architettoniche, se ha delle rampe di accesso per persone con disabilità, se ha le scale a norma, se ha l’ascensore per persone con disabilità, o se ha servizi igenici e porte di larghezza adeguata, se ha percorsi interni ed esterni per persone con disabilità o se ha altri accorgimenti in merito; se la scuola ha attuato accorgimenti per la riduzione dei consumi energetici, se ha i doppivetri nei serramenti, se ha l’isolamento nella copertura, se ha l’isolamento delle pareti esterne (quello che volgarmente chiamiamo cappotto), se ha la zonizzazione dell’impianto termico, se ha installato i pannelli solari o altri accorgimenti per ridurre i consumi energetici; infine abbiamo voluto analizzare se la scuola ha il certificato di agibilità/abitabilità, quello di collaudo statico, quello di omologazione della centrale termica, quello di prevenzione incendi CPI o in caso il nullaosta provvisorio, se ha collaudato l’impianto di spegnimento, se ha una documentazione della valutazione del rischio, se è un edificio vetusto e se ha un piano di emergenza.

Dopo una prima fase di analisi dei vari dati scaricati dal portale del Miur, tutti con file .csv, è stato fatto un merge tra i vari datasetmantenendo però solamente le scuole che sono attive. Qui, e mi scuso con i lettori ma è inevitabile essere un po’ più tecnico e quindi risultare pedante, dobbiamo fare un passo indietro.

Ad inizio aprile, periodo in cui abbiamo estratto i dati, il ministero aveva rilasciato l’anagrafica dell’anno scolastico 2020/2021 ma i dati completi, quindi con gli indicatori sopra citati, solamente del AA 2018/19 o precedenti. Gioco forza quindi rifarci a quell’anno.

Una prima attenzione nel percorso si deve accendere proprio sulla scelta di che dati scaricare ed unire. È importante sapere infatti che l’anagrafica delle scuole presentava in tutto 51.194 righe con 20 variabili al suo interno, mentre gli altri nove dataset presi in considerazione avevano al loro interno 58.845 righe e tra le 6 e le 21 variabili a testa. Molte di queste variabili naturalmente si ripetevano e la scelta della colonna fissa per unire i vari dataset è ricaduta su il “codice scuola”, cioè una serie di lettere e numeri che di fatto sono l’identificativo di ogni scuola.

La diversità di righe è dovuta a due fattori principali: il primo è che ogni scuola ha al suo interno diversi edifici, quindi ogni “codice scuola” può essere distribuito, nel dataset finale, su più righe diverse. Il secondo motivo è che non tutte le anagrafiche presenti nel csvdelle scuole rappresentano istituti attivi. Per scelta quindi noi abbiamo scremato solo quelli attivi unendo i vari dataset tra loro. Per tutto il progetto abbiamo lavorato in ambiente R.

Il completamento del dataset

Una volta assemblato il nostro dataset siamo andati ad analizzare eventuali mancanze di dati. 1.773 indirizzi non erano disponibili e quasi altrettanti CAP. Per recuperare i CAP il passaggio è stato abbastanza intuitivo e semplice (abbiamo effettuato un merge tra i CAP rilasciati dall’Istat ed i CAP mancanti), mentre per gli indirizzi è stato inevitabile un controllo manuale degli stessi. Inevitabile perché, come abbiamo già detto, il territorio italiano è diverso e variegato, fatto di piccoli borghi che non spesso sono raggiungibili o hanno un’indicazione chiara nell’indirizzo. Questo tema è stato il filo rosso che ha unito tutto il progetto, ed in seguito lo ritroveremo ancora più chiaro.

L’analisi quantitativa del dataset

Il risultato finale del merge tra i vari dataset è di un unico documento di 58.598 righe e 69 colonne, alle quali infine si aggiungeranno le due dovute alle coordinate geografiche, ma ci arriveremo con calma. Il numero di righe, 58.598, è quindi il frutto dell’unione delle 51.194 dell’anagrafica e delle 58.845 righe degli altri, con le variabili che abbiamo visto prima.

A questo punto, una volta assemblato il dataset su cui lavoreremo per effettuare la geolocalizzazione, abbiamo fatto un’analisi quantitativa delle righe uniche. Con la funzione ‘length(unique())’ abbiamo visto come i codici scuola univoci fossero 47.469. Queste quindi dovrebbero essere le diverse scuole attive, secondo i dati MIUR riferiti all’anno scolastico 2018/19, in Italia.

Per controllare che tutti i dati si siano uniti in modo corretto abbiamo fatto un controllo a campione su dieci diversi ‘Codici Scuola’, andando a confrontare i risultati del dataset finale con gli originali del ministero (i codici presi a campione sono stati: TPAA05802X, ALEE037029, NAAA21407R, RMEE8GP035, RMAA83702C, BSTD02701Q, FGIC85900G, ANEE81003X, REEE84403X, AGAA85601R).

La geolocalizzazione: OSM VS Google Map

Ciò che storicamente manca, e che era il risultato più ambizioso del progetto, è una totale geolocalizzazione di tutte le scuole italiane. Il ministero infatti, nonostante diverse sollecitazioni, non ha mai rilasciato i dati geolocalizzati. Diversi inoltre, nel corso degli anni, sono stati i tentativi civici e non per creare un dataset con anche le coordinate latitudinali e longitudinali di ogni edificio scolastico.

I mezzi e gli strumenti per geolocalizzare un indirizzo in rete sono molti, sia gratuiti che non. Farlo però per più di 50 mila indirizzi diversi è un lavoro lungo e complesso. Proprio qui abbiamo riscontrato i primi ostacoli impegnativi nel nostro percorso. Innanzitutto in Italia i numeri civici non sono dati aperti, e questo inevitabilmente può portare ad una geolocalizzazione meno precisa di quanto possa risultare se avessimo chiaramente le coordinate di tutti i civici nel nostro Paese. Il primo bivio quindi l’abbiamo preso proprio in questo momento, abbandonando l’idea iniziale di cercare di creare una visualizzazione grafica della mappa finale in 3d e precisa per ogni indirizzo. L’idea era venuta guardando un progetto di data visualization su mappa di Parallel, che linkiamo qui di seguito.

La voglia di provare a geolocalizzare tutti gli edifici scolastici però non era venuta meno. L’obiettivo inoltre, era quello di liberare questi dati e renderli aperti per tutta la comunità di esperti o addetti ai lavori. Avere un dataset pulito con le coordinate e tutte le scuole di una determinata zona potrebbe facilitare non poco il lavoro di chi vuole approfondire, giornalisticamente o no, lo stato degli edifici anche a livello più locale.

Quando si parla di open data e di geolocalizzazione, in Italia si parla soprattutto di alcune associazioni ed alcune persone che da anni portano avanti una visione open dei dati. In questo caso i consigli ricevuti da Andrea Borruso, che ha trovato gentilmente il tempo di analizzare in più incontri il dataset e fornirmi preziose indicazioni di merito, sono stati molto importanti.

Geolocalizzare e rendere aperti i dati significa prendere la via di Open Street Map (o OSM come a volte vedrete scritto). Nonostante l’avvertimento sia di Borruso che di un altro esperto, Maurizio Napolitano, sulla difficoltà del percorso, la testardaggine ha prevalso.

Utilizzando come spunto uno script in R per geolocalizzare un bunch di indirizzi, trovato su towards data science, abbiamo provato a recuperare le coordinate di una piccola parte del dataset (50 indirizzi). Per farlo lo script di fatto richiedeva a Nominatim di cercare l’indirizzo su open street map e di riportare le relative coordinate latitudinali e longitudinali in un file in cui precedentemente era stato chiesto di riportare anche il codice scuola (utile per effettuare poi il merge) e l’indirizzo stesso.

Questa parte del nostro percorso è stata indubbiamente la più lunga e complessa. Tornando alla metafora alpinistica in questa fase del cammino le gambe non avevano più intenzione di sopportare la fatica. Lo script necessitava una grande pulizia e sistemazione, in quanto spesso riportava errori e in alcuni casi bloccava il lavoro.

Di fondamentale importanza qui, è stata un’altra persona, senza la quale probabilmente il mio cammino si sarebbe interrotto. Grazie all’aiuto e alla disponibilità di questa eccellente ricercatrice (ma soprattutto, e fortunatamente, amica, che a leggere la metafora alpinistica sicuramente sorriderà) abbiamo rivisto l’intero script, aggiunto delle “eccezioni” (tryCatch) per fare in modo che non si interrompesse in caso di mancanza di riferimenti in Nominatim, preparato il dataset per la geolocalizzazione e fatto partire il lavoro. Nominatim stesso richiede di non effettuare più di una query al secondo quindi il calcolo sulla durata del lavoro di geolocalizzazione, con 54.598 query da effettuare è presto fatto: più di 16 ore.

Al termine del processo gli indirizzi analizzati e dei quali sono state riportate le coordinate, sono stati 40.187 (estrapolati con la funzione ‘drop_na’). Gli indirizzi non geolocalizzabili invece, sono stati 18.345, mentre una piccola parte del dataset (60 righe) ha riportato un errore e di fatto non è stata processata. Come potete immaginare gli oltre 18 mila indirizzi non localizzati rappresentano un problema insormontabile per raggiungere la nostra meta secondo la traccia che avevamo in mente.

È come se improvvisamente nel nostro cammino ci fossimo trovati davanti ad uno sbarramento nel sentiero. Aggirarlo era impossibile quindi l’unica soluzione è stata quella di tornare indietro sui nostri passi. Gran parte di questi oltre 18mila indirizzi infatti, in open strreet map non esistono proprio, ed anche diversi di quelli localizzati hanno riportato coordinate generiche riferite alla via in questione e non al numero civico. Non tutti i numeri civici infatti, sono presenti in OSM, per il motivo che abbiamo visto prima.

Non rimaneva quindi che tornare indietro e cercare una via diversa. L’alternativa ad open street map era caratterizzata dall’utilizzo delle API key, cioè quegli strumenti messi a disposizione degli sviluppatori per utilizzare una determinata applicazione precedentemente sviluppata. Di servizi del genere ce ne sono diversi, tutti con caratteristiche che si possono differenziare tra loro. Abbiamo deciso di utilizzare probabilmente il più conosciuto tra tutti: Google.

Una volta creata la API key nella parte dedicata agli sviluppatori di applicazioni di Google, abbiamo nuovamente sistemato il datasetper prepararlo al meglio per la geolocalizzazione (tramite l’utilizzo della libreria tidyr è stata creata una nuova colonna, chiamata ‘location’, in cui si sono unite diverse colonne utili a rendere il più chiaro possibile la stringa da far analizzare a Google tramite le sue API: nome scuola, tipologia indirizzo, denominazione indirizzo, numero civico, descrizione comune e cap).

Tramite la libreria ggmap abbiamo fatto partire lo script. Il servizio di geocoding di Google, al contrario di Nominatim di open street map, non è gratuito. Il costo è di 0.005 dollari per ogni richiesta, significa 5 dollari per mille richieste. Per geolocalizzare tutti gli indirizzi del nostro dataset, il costo totale è stato di circa 293 dollari, cioè 242,44 euro.

La pulizia del dataset

Il dataset finale, risultato della geolocalizzazione con le API di Google è composto quindi da 58.598 righe e 71 colonne, comprese le due con i dati di latitudine e longitudine. Il lavoro però non è ancora finito, alcuni indirizzi non hanno riportato coordinate precise. Per analizzare ed eventualmente correggere ciò è necessario andare a vedere se i dati inseriti nelle colonne lat e lon rientrano nel range di latitudine e longitudine del territorio italiano.

Una volta sistemati gli indirizzi che risultavano esterni al territorio italiano, è bene dichiarare che la mappa può ancora una volta presentare delle inesattezze. Siamo consapevoli infatti che altri indirizzi possono essere stati geolocalizzati in modo non perfetto, sia per quanto riguarda i numeri civici, ed i motivi li abbiamo già analizzati prima, sia proprio per quanto riguarda eventuali Comuni sbagliati (esempio concreto: una scuola con sede in Piazza Azzurri d’Italia a Borore, un Comune in Provincia di Nuoro, è stata geolocalizzata nella più famosa Piazza Azzurri d’Italia a Trieste). Proprio qui, chiediamo anche a voi che ci leggete di segnalarci, tramite questo form, eventuali inesattezze.

L’ultimo passaggio che bisogna fare prima di visualizzare tutti questi dati che abbiamo ricavato, è quello di pulire al meglio possibile il dataset. Questo passaggio è stato effettuato anche prima di iniziare la geolocalizzazione, ma ora è utile andare a vedere che non ci siano stati problemi di formattazione, di caratteri non alfanumerici in posizioni errate o altre problematiche dovute da una non corretta formattazione (esempio: alcuni civici mancanti riportavano NA, altri N.A., altri ancora null).

Per la pulizia del dataset è stato usato sia R che Open Refine, un tool gratuito e molto utile in questi casi.

Fatto quest’ultimo passaggio il nostro dataset è pronto per l’uso: ecco a voi la mappa con tutti gli edifici di tutte le scuole italiane.

Ed ora: siamo arrivati in vetta? Non proprio, ora siamo esattamente nel punto in cui chiedi all’amico: “Quanto manca?” e lui ti risponde: “Tranquilla siamo quasi arrivati, dietro la curva spiana”.

A scuola tutto bene. Un’analisi dello stato di salute delle scuole italiane ultima modifica: 2021-06-03T10:37:07+02:00 da

Cookie	Durata	Descrizione
d	3 months	Quantserve sets this cookie to anonymously track information on how visitors use the website.
_gat	1 minute	This cookie is installed by Google Universal Analytics to restrain request rate and thus limit the collection of data on high traffic sites.