CM62

Correlazioni spurie

Franco Zavatti

Come scriverebbe WUWT:"Dal Dipartimento delle correlazioni fasulle o almeno problematiche" (v. anche il sito di Tyler Vigel) alcune relazioni in cui mi sono imbattuto. Una è ben nota (o almeno credo che lo sia) ed è la relazione tra temperatura (anomalia) e concentrazione di anidride carbonica mostrata in fig.1 (pdf). Nel grafico in alto (a) la sovrapposizione o meno delle due curve dipende solo dalla scelta delle scale. Il grafico in basso (b) mostra allo stesso tempo una buona (ottima?) correlazione tra l'anomalia di temperatura e il logaritmo neperiano (ln) della concentrazione di CO2 e ampi scostamenti sistematici, con massimi dell'ordine di ±0.2-0.3°C.
Fig.1. a) Anomalia di temperatura HadCrut4, emisfero nord e concentrazione di CO2 (Mauna Loa) dal 1868 al 2014. b) Relazione tra anomalia e ln di CO2. Da notare l'ottima correlazione e il coefficiente di determinazione R2 che spiega il 75% della varianza e nello stesso tempo gli ampi e sistematici scostamenti dalla retta di regressione.

Credo si possa dire che una (cor)relazione tra temperatura e CO2 esista, anche se non così diretta come i numerosi proclami quotidiani affermano. E, sempre ammesso che esista una connessione causa-effetto, la fig.1 non ci dice chi è l'una e chi l'altro. E poi, sempre supponendo la CO2 uniformemente distribuita attraverso il globo (well-mixed, il che non è vero), in questa figura stiamo confrontando l'anidride carbonica globale con le temperature dell'emisfero nord (HadCrut4-nh) e questo potrebbe distorcere i risultati.
Comunque, per confermare quanto ottenuto, in fig.2 (pdf) mostro le stesse relazioni, applicate a un sottoinsieme di HadCrut4-nh, le temperature medie europee che i lettori trovano sempre nella barra destra di CM, rese disponibili da Luigi Mariani anche in forma di anomalia media annuale. Io chiamo questi dati EAA (European Average Anomaly).
Fig.2.Come fig.1, per le anomalie annuali dei dati europei messi a disposizione da L. Mariani (barra destra di CM). Qui i coefficienti mostrano una situazione peggiore e la dispersione dei dati è circa tre volte maggiore rispetto alla fig.1.

Intanto notiamo che ora la pendenza è maggiore (+36%); che i coefficienti di correlazione (0.64) e di determinazione (0.41) ci parlano di una relazione più incerta rispetto alle temperature emisferiche di fig.1; che le oscillazioni sistematiche attorno alla retta continuano a sussistere e anzi sono più ampie (massimi tra 0.5 e 1.0°C). Queste oscillazioni ci dicono che, ad esempio, a parità di temperatura la concentrazione di CO2 cambia abbastanza: ad esempio per un'anomalia media di 1.2°C, la CO2 passa da 362 (8.5) a 388 (8.6) ppmv, nell'ultimo periodo preso in considerazione dal grafico (b) e le fluttuazioni di temperatura sembrano casuali rispetto alla crescita di CO2). Viceversa, ci dicono anche che a parità di CO2 la temperatura può fluttuare (ha fluttuato) anche di oltre 2.5°C. Nonostante questo, però, una relazione lineare è ancora un'opzione valida.

Forse la colpa delle oscillazioni è da ascrivere ai dati emisferici (più o meno completi) e confrontare la concentrazione di CO2 con le anomalie globali può essere la cosa giusta da fare. Così in fig.3 (pdf) mostro le relazioni precedenti, adesso relative ai dati NOAA (medie annuali). Da notare che questi dati hanno subito il processo che ormai molti chiamano "karlizzazione", cioè le modifiche descritte in Karl et al., 2015.
Fig.3. Come fig.1 e fig.2, relativamente alle anomalie medie annuali.

E qui appare il miracolo: sono presenti fluttuazioni nel periodo in cui la CO2 aveva valori compresi tra 294 (5.67,~1877) e 315 (5.74,~1952) ppmv ma poi tutto si distende dolcemente e i parametri di correlazione assumono percentuali "bulgare"; la pendenza ritorna ad essere quella di fig.1; le fluttuazioni diventano irrilevanti e, ancora, sono "dolci", senza fastidiosi valori fuori dal coro.
Chissà come mai è successo questo: forse qualcuno può pensare alla proverbiale accuratezza dei dati NOAA, alla loro distribuzione uniforme sul globo terrestre e alla limpidezza dei metodi di riduzione ma credo sia più facile "vedere" Vulcano che, nell'Iliade, martella il bronzo per costruire lo scudo di Achille su richiesta di sua madre Teti. Non voglio fare la trasposizione dai personaggi letterari ai soggetti attuali: lascio il sottile piacere ai lettori.

Vorrei ricordare, a proposito del martellamento dei dati, alcune frasi riportate nell'articolo di Kelly,2016 (citato su CM qui) che si riferiscono ad un articolo di J. Hansen (et al, 1981) e in particolare alla frase "A remarkable conclusion from Figure 3 is that the global temperature is almost as high today as it was in 1940". Kelly scrive: "At the time, he showed 1980 temperatures were about 0.15°C cooler than 1940. Now, NASA shows 1980 temperatures about 0.2°C warmer than 1940. They have made a relative shift of +0.35°C, and the adjustment represents ~40% of the century variation."

Confronti con la popolazione

Altre relazioni, con parametri statistici altrettanto buoni, si trovano tra temperatura e popolazione (di cui qui uso valori globali e valori per l'Europa). Ripetendo lo schema usato nella prima parte del post, la fig.4 (pdf) mostra la relazione tra le anomalie annuali di HadCrut4-nh e la popolazione mondiale, a parità di anno. Sono anche presenti i fit lineare e parabolico con i loro parametri statistici: rimando alle righe in fondo al paragrafo per il senso da dare al coefficiente di correlazione lineare (ρ) nel caso di fit parabolico.
Fig.4. Relazione tra popolazione mondiale ed anomalia di temperatura emisferica HC4 e fit.

Questa figura è caratterizzata da due periodi (tra 2.5 e 3.7 e tra 6.5 e 7.3 miliardi di abitanti) in cui la popolazione cresce a temperatura costante e da un periodo intermedio con crescita lineare rispetto alla temperatura.
La fig.5 (pdf) mostra la relazione tra EAA e la popolazione europea e, nel quadro in basso, l'andamento annuale della stessa popolazione.
Fig.5. Relazione tra temperatura di 27 stazioni europee (EAA) e tasso demografico europeo, tra il 1950 e il 2014.

Anche qui sembra essere presente una crescita a parità di temperatura media, tra 530 e 620 milioni e una crescita lineare tra 620 e 720 milioni di abitanti (su un intervallo di temperatura di circa 1°C); l'ultimo periodo, tra 720 e 730 milioni di abitanti, è caratterizzato da forti oscllazioni della temperatura (di quasi 2°C) a fronte di una bassa crescita demografica e parziale decrescita, probabilmente a partire dal 1996, come si vede nel quadro inferiore della figura.

Nella fig.6 (pdf) viene fatto il confronto tra la temperatura globale (noaa, terra+oceano) e la crescita della popolazione mondiale. In questo caso la relazione lineare è netta e non si pone il problema di un fit parabolico. I parametri statistici hanno, ancora, valori molto vicini all'unità e la dispersione dei dati diminuisce al crescere della popolazione e della temperatura.
Fig.6. Relazione tra temperatura e popolazione tra il 1950 e il 2015. In basso il tasso demografico annuale sullo stesso periodo.

Il confronto tra popolazione mondiale e concentrazione di CO2 viene fatto in fig.7 (pdf), dove appare chiara la difficoltà dei minimi quadrati ordinari (OLS) a derivare una pendenza quando entrambe le variabili sono affette da errore consistente e non sono rispettate le regole alla base del metodo (v. ad esempio https://judithcurry.com/2016/03/09/on-inappropriate-use-of-least-squares-regression/ ; http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2631298 ; http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2725743 ). Infatti qui il fit lineare sembra peggiore di quello parabolico mentre i parametri sono particolarmente significativi. Il confronto con i parametri del fit parabolico non ha molto senso: infatti si parla di correlazione lineare e i parametri statistici del fit parabolico sono calcolati dalla funzione di cross-correlazione a lag=0 e dal suo quadrato. Hanno quindi poco significato e li uso solo come vaga idea della bontà del fit.
E queste considerazioni valgono anche per i grafici precedenti in cui la variabile in ascissa (variabile indipendente) è affetta da errore.

Fig.7. Relazione tra la dimensione della popolazione mondiale e la concentrazione di CO2.

La fig.7, ancora una volta, non ci dice se la popolazione cresce perché la CO2 (in crescita indipendente, naturale, anche con frazioni antropiche) genera condizioni più favorevoli allo sviluppo (più caldo, più cibo) o se una popolazione che cresce in modo indipendente genera con le sue attività una maggiore concentrazione di CO2. L'IPCC ha scelto quest'ultima prospettiva (v. il terzo degli articoli linkati sopra) o, ed è la stessa cosa, quanto illustrato in fig.3.

Le tre variabili aleatorie usate (Temperatura, Concentrazione di CO2, Popolazione) potrebbero essere indipendenti o al massimo debolmente dipendenti; nessuno, a mia conoscenza, ci dice che tra loro esiste un nesso di causa-effetto. Io vedo solo la (corretta) ipotesi di lavoro che ci sia un tale nesso tra alcune di queste variabili, ipotesi tutta da verificare, possibilmente senza forzature (politiche e di carriera) e, soprattutto, senza che su di essa si prendano decisioni politico-economiche.
La ormai lunga lista di osservazioni che contrastano con le previsioni (o proiezioni) derivate dall'accettazione dell'ipotesi di cui sopra mi fanno pensare che siamo non troppo lontani dall'argomento del "fuori tema" che segue.

Fuori tema (o quasi)

Da sempre avevo pensato di mostrare ai miei studenti la dipendenza e l'indipendenza delle variabili aleatorie usando un esempio che avevo solo immaginato: la relazione tra la produzione di riso in Cina e la quantità di tabacco da pipa usato nel campionato mondiale di "lento fumo". Purtroppo non ero mai riuscito a trovare i dati, in particolare quelli relativi al "lento fumo", per confermare la mia idea. In questi ultimi giorni ho risolto parzialmente il problema (anche se in ritardo): ho imparato che i campionati di fumo si svolgono con una quantità fissa di tabacco (3 g) e ho trovato la classifica del campionato mondiale di lento fumo tenuto a Monastier di Treviso nel 2015. Ho anche trovato la classifica dei 10 paesi con migliore e peggiore resa (tonnellate per ettaro) di risone (il riso raccolto sul campo, ancora con i gusci di protezione, prima dei trattamenti). Allora ho messo in relazione il tempo impiegato dai primi 10 classificati ai campionati di fumo (il vincitore ha fumato 3 ore e 10 minuti con 3 grammi di tabacco) e le due rese di risone. Il risultato è in fig.8 (pdf)

Fig.8. Correlazione tra due variabili del tutto indipendenti.

Tutti i grafici e i dati relativi a questo post si trovano nel sito di supporto qui

Bibliografia

  • Hansen J., Johnson D., Lacis S., Lebedeff S., Lee P., Rind D., Russel G.: Climate Impact of Increasing Atmospheric Carbon Dioxide, Science, 213, N.4511, 957-966, 1981.
  • Karl T.R., Arguez A., Huang B., Lawrimore J.H., McMahon J.R., Menne M.J., Peterson T.C., Vose R.S., Zhang H.M: Possible artifacts of data biases in the recent global surface warming hiatus, Science,348, 6242, 1469-1472, 2015. DOI: 10.1126/science.aaa5632
  • Kelly M.J.: Trends in Extreme Weather Events since 1900 - An Enduring Conundrum for Wise Policy Advice, J. Geogr. Nat. Disast., 6, 155, 2016. DOI: 10.4172/2167-0587.1000155


    01.04.16