tirsdag 10. april 2012

Hide the .......

"Hide the decline" var et mantra som er repetert inn i det absurde etter spredningen av eposter fra CRU, men det er ikke det denne posten skal handle om. Derimot skal denne bloggen handle om hvordan signalet i en del presentasjoner blir skjult i gode data.

I de 13 følgende grafene er data fra Blindern brukt som eksempel (Liten advarsel: De følgende skrittene blir trivielle, og sikkert kjedelige):

Første, og det mest opplagte en kan gjøre med et datasett er å plotte ut de direkte målte verdiene:

Timesverdier for en måned.
Som en ser er det mye sprik i datasettet, men en får et inntrykk av hvordan ting har variert i perioden (her Mars 2012 på Blindern. Noe mer inntrykk av variasjoner i perioden får en om en legger inn et glidende middel:
Timesverdier med tilhørende glidende døgnmiddel.
I neste skritt legger jeg inn døgnmiddelverdiene og maks og min temperatur.
Timesverdier, glidende døgnmiddel (grønn), døgnverdier: middel (fiolett), maks (rød), og min (blå)
Sammenligner du døgnmiddelverdiene med den glidende middelverdien ser en raskt at den glidende middelverdien gir større variabilitet. Grunnen til å benytte døgnverdier istedenfor glidende verdier er at det er letter å referere til døgnverdier. Den største variabiliteten representerer observasjonene, men bruk av maks og min temp fanger opp denne variabiliteten.
Som over for et år
Bruker en døgnverdier for å presentere mer enn korte perioder blir dette raskt uoversiktelig, noe de neste figurene viser.
Døgnmiddel for et år
En måte å ta ta i dette er som overgangen fra time til døgn: å lage middler for lengre perioder. I påfølgende figur er glidende 30 døgnsmiddel lagt inn.
Døgnmiddel med glidende månedsmiddel
Eller en kan legge inn månedsmiddler for de vanlige månedene.
Som over med tillegg av månedmiddeltemperaturen.
Når en igjen øker tidsvinduet begynner i hvertfall jeg å miste litt oversikten over hva som er viktig i
dette datasettet.
Som over for 10 år
Ikke minst om det blir et stort datasett på for liten plass:
Som over for ca 70 år
Å fjerne døgnverdiene hjelper litt. er det antydning til endring mot slutten tro?
Månedsmiddeltemperturer for 74 år.
Et glidende middel på 12 måneder, og årsmiddelverdier sier litt, men det er mye forstyrrelser i bildet:
Månedsmiddeltemperaturer for 74 år, med glidende 12 månedrsmiddel og årsmiddelverdier.
Et vanlig grep er å fjerne normalen og dermed gjengi temperaturen som et avvik fra normalen. Figuren under er som den over, men nå for avviket fra normalen.
Som over, men for avvik fra normalen
Fortsatt er det mye støy i bildet. Ikke støy i form av uriktig informasjon, men støy i form av unødvendig informasjon. Jeg fjerner nå månedsverdiene, og sitter igjen med følgende graf:
Årlige avvik fra normalen
I grafen over sitter vi igjen med de årlige verdiene for avviket fra normalen når det gjelder temperaturen på Blindern. Som jeg antydet tidligere er det en tendens til oppvarming mot slutten av perioden. En videre filtrering/midling vil kunne trekke frem denne endringen ytterligere.

Hvorfor gidder jeg å bruke tid på dette? Det lurer jeg også, men det kan hende at noe av det som er vist over brukes ubevist til å spre støy i debatten. I enkelte fora på nettet har det med å bruke faste månedsintervaller, eller år blitt trukket frem som et forsøk på å skjule naturlig variabilitet. Det er det ikke, men denne typen filtering av data står for en forenkling av datasettet. I andre sammenhenger brukes det flittig grafer som viser månedsverdier (i avvik fra normalen) for å dokumentere blant annet manglende oppvarming av kloden. Som vist over kan korte tidsintervall være en måte å skjule endringer over tid i kortere fluktuasjoner.

#######################
All grafikken her er lagd med dette scriptet i R. Skal du benytte det må du endre innlesingen da den er intern i met.no sine datasystem.

Ingen kommentarer:

Legg inn en kommentar