De rol van data science binnen Samen Meten: een interview met Sjoerd

Bij het RIVM Rijksinstituut voor Volksgezondheid en Milieu (Rijksinstituut voor Volksgezondheid en Milieu) zijn veel verschillende medewerkers betrokken bij Samen Meten. Sommigen houden zich bezig met communicatie en vormen de link naar de community. Hen zien jullie vaak op evenementen of buurtavonden. Het Samen Meten team ontwikkelt en test ook sensoren, er zijn collega's die het dataportaal beheren en er zijn data scientists die zich bezighouden met de data die binnenkomen. Een van hen is Sjoerd. In dit interview lees je meer over wat het werk van een data scientist bij Samen Meten inhoudt.

Wat doe jij als data scientist bij Samen Meten?

Als data scientist kijk ik naar de sensordata van burgerwetenschappers en de sensoren die zij gebruiken. Hoe goed meet de sensor? Welke kalibratie heeft de sensor nodig? De kalibratie is een correctiefactor om de meting te corrigeren voor afwijkingen. Hierdoor is de data beter bruikbaar om uitspraken te doen over bijvoorbeeld de hoeveelheid fijnstof in de lucht.

Sommige fijnstofsensoren, zoals de SDS011, zijn gevoelig voor luchtvochtigheid. Daarom ontwikkelen we een methode om de invloed van het weer op de meting zo goed mogelijk ‘weg te werken’. Hiermee kalibreren we de data waardoor deze een goed inzicht kunnen geven in de hoeveelheid fijnstof in een bepaald gebied. Hierdoor is de data meer betrouwbaar.

Bij sensoren voor stikstofdioxide (NO₂), werkt het anders. Deze sensoren moeten individueel gekalibreerd worden omdat de sensor geen concentratie meet maar een voltage (stroom). Tijdens de kalibratie zetten we het ruwe signaal om naar een bruikbare eenheid, zodat de data ons ook echt iets vertellen over de concentratie NO₂ in de lucht.

Heb je voorbeelden van projecten waar je aan meewerkt?

Binnen FAIRMODE (Forum for air quality modelling) werk ik samen met Europese collega’s aan kalibratiemethoden voor fijnstofsensoren. Wij leren van elkaar en onderzoeken of, en hoeveel, het uitmaakt welke kalibratiemethode je gebruikt. Hier komt later dit jaar een publicatie over.

Voor het CLAIRE-project onderzoeken we met 100 boxen met NO₂ sensoren of deze sensoren een bestaand rekenmodel voor NO₂ kunnen versterken en verbeteren. Ook hiervoor kijken we naar de kwaliteit van de kalibratie.

Ook is er aandacht voor houtstook, en of je dit kan detecteren met fijnstofsensoren. Dit doen we op wijkniveau. Als data scientists kijken we nooit naar individuele sensoren, maar we baseren ons op een gemiddelde van meerdere sensoren.

Waarom is het belangrijk om naar groepjes sensoren te kijken?

Bij sensoren is er altijd een kans dat de sensor niet goed meet. Ook zijn de data die doorkomen minder betrouwbaar dan data van officiële meetstations. Daarom kijken we altijd naar de data van meerdere sensoren, ‘de kracht van het grote getal’ is voor ons belangrijk. Dit geeft ons de mogelijkheid om de luchtkwaliteit met meer detail in kaart te brengen, zoals op wijkniveau. Voor de eigenaar van een sensor kan de data van één enkele sensor wel heel hyperlokaal wat zeggen, maar het is dan belangrijk om de context waarin de sensor hangt te kennen en mee te nemen.

Wat zijn uitdagingen van citizen science data?

Er zijn drie uitdagingen die ik zou willen noemen: de diversiteit, gevoeligheid en kwaliteit van de sensoren en sensordata.

Een eerste uitdaging is de grote diversiteit van sensoren en locaties die binnen citizen science worden gebruikt. Aan de ene kant zijn er veel verschillende sensoren en behuizingen, van verschillende fabrikanten of gebouwd door burgers zelf. Daarnaast zijn de data van burgers heel divers omdat sensoren op allerlei verschillende plekken hangen en op verschillende hoogtes. Deze informatie, deze metadata, hebben we niet. We weten ook niet zo goed hoeveel verschil het maakt. Door gemiddeldes van groepjes sensoren te nemen hopen we deze diversiteit uit te middelen.

Een tweede uitdaging is de gevoeligheid van de sensor voor de (weers)omstandigheden. Dit moeten we kalibreren. Voor NO₂ sensoren geldt dat het heel erg uitmaakt wanneer je kalibreert: in welke maand, overdag of ’s nachts. Je wil het liefste alle omstandigheden hebben gehad tijdens de kalibratie, maar dan zou je een halfjaar of jaar moeten kalibreren. Gezien de korte levensduur van de sensor (minder dan twee jaar) is dat niet praktisch. Daarom denken we na over een kortere kalibratietijd met aanvullend een kalibratie op afstand (zoals bij de fijnstofsensoren).

Voor fijnstofsensoren kalibreren we op afstand: groepjes sensoren worden vergeleken met het referentiestation en er komt een correctiefactor voor de groep. Hiermee zorg je dat de metingen van de groep sensoren worden bijgesteld als er bijvoorbeeld veel luchtvochtigheid is. Een aandachtspunt is dat je de onderlinge verschillen binnen het groepje sensoren dus niet rechttrekt.

Een derde uitdaging is de kwaliteit van de sensor. Een meting komt altijd met een onzekerheidsmarge, en dit kan verschillen gedurende de dag. Dit maakt de sensor het meest geschikt om grote verschillen te meten, en verdelingen over het land waar te nemen. Daarnaast is de levensduur van de sensor maar kort. Veel sensoren vallen uit en dit zorgt ervoor dat het uitrekenen van een jaargemiddelde een uitdaging is. Je kan bijvoorbeeld net een periode hebben gemist met hele hoge of lage fijnstofwaardes, en dit beïnvloedt je jaargemiddelde concentratiewaarde. We denken na hoe we dit kunnen oplossen. Het jaargemiddelde is van belang om de luchtkwaliteit aan de normen te toetsen.

Wat zijn vragen die je vaak krijgt?

Kan ik mijn sensor in juridische context gebruiken? Kan ik het effect van maatregel X aantonen met sensoren, zoals verkeersmaatregelen of een luchtwasser in de stal?

Dit soort vragen vind ik lastig. Sensoren zijn erg geschikt om een algemeen beeld te krijgen en grote of structurele verschillen in kaart te brengen. Maar de kwaliteit van de data is niet altijd goed en de kalibraties die we doen zijn complex. Het effect van één enkele maatregel kan je moeilijk onderscheiden van de variatie van de sensorwaarde . Dit betekent dat je het effect van de maatregel niet kan onderscheiden van de variatie in de sensorwaarden. Ook moet je minstens een jaar meten om hier wat over te zeggen. Ondanks deze uitdagingen zijn de sensormetingen belangrijk omdat ze aanleiding kunnen geven om een officiële meting uit te voeren.

Hoe denk je dat citizen science er in de toekomst uitziet?

Ik verwacht dat de sensor beter wordt. In Europa heb je definities van type metingen, zoals wat een wettelijke meting is, en wat een indicatieve meting is. Dit is door de Europese Commissie wettelijk bepaald (zie hier). Ik hoop dat in de toekomst de sensoren, alleen of in groepsverband, de status van ‘indicatieve meting’ behalen en daarmee moeten worden meegenomen in het beoordelen van de luchtkwaliteit. Ook hoop en verwacht ik dat we in de toekomst als RIVM Rijksinstituut voor Volksgezondheid en Milieu (Rijksinstituut voor Volksgezondheid en Milieu) onze functie behouden om de data van sensoren in de gaten te houden als het gaat om kwaliteit en waar nodig daaraan bij te dragen met kalibraties.

Heb je tips voor burgerwetenschappers?

Wees je je bewust van wat je sensor wel en niet kan.
Kijk naar meer dan je eigen sensor, kijk bijvoorbeeld ook naar andere sensoren in je eigen wijk. Volgen zij hetzelfde patroon? Komen de waarden overeen? Dan is het meer waarschijnlijk dat je meting klopt.
Kijk naar de plausibiliteitsscore op het dataportaal. Dit is ook een manier om te kijken of het waarschijnlijk is dat je meting klopt.
Kijk eens naar de presentaties van de SLA Participatiedag, hier hebben we vanuit Samen Meten onze meest recente bevindingen gedeeld