Protocol archiveren RWS projectdata

Rijkswaterstaat besteedt veel geld aan onderzoek- en monitoringprojecten om door middel van velddata kennis te vergroten. Veel van deze data zijn later ook bruikbaar voor andere projecten en kennisvragen. Vandaar dat Rijkswaterstaat een structuur heeft opgezet om deze data – na afloop van de projecten – te archiveren en te ontsluiten. In dit protocol geven we aan de hand van antwoorden op een aantal vragen aan hoe deze overdracht loopt. Niet alle keuzes kunnen op basis van dit protocol worden gemaakt; het is een kwestie van gezond verstand en pragmatisch redeneren (hoeveel tijd en geld kost de archivering en hoe waardevol schatten we het hergebruik in)?

Dit protocol is 20 mei 2019 vastgesteld door de RWS-Stuurgroep Beschikbaar maken Waterdata. Ervaringen met toepassing van dit protocol in de praktijk zal tot aanpassingen leiden. Eventuele opmerkingen kunt u sturen naar de Service Desk Data.

Waar werken we naartoe?

Na overdracht van de gegevens, slaan we de gegevens (= data + metadata) op in een repository (dat is een soort directorystructuur op een schijf) en in webservices (kaarten en data; klik op 'voorvertoning'). De repositories zijn door iedereen zonder wachtwoord te benaderen en de kaarten zijn publiekelijk beschikbaar via Waterinfo Extra in het tabblad 'Download data'. De gebruiker kan ze daar downloaden als csv-bestand. De kaarten worden in de Waterinfo Extra viewer getoond, maar kunnen ook gemakkelijk ingelezen worden in GIS programma’s. De projecten worden zodanig beschreven op Waterinfo Extra dat gebruikers voldoende info hebben om de data op een juiste manier te gebruiken (zie tabblad ‘Projecten’).

Wie zien we als gebruikers?

De data komen voor iedereen beschikbaar. Als doelgroep zien we vooral de professional bij Rijkswaterstaat, collega-overheden, kennisinstellingen en adviesbureaus. Op deze doelgroep richten we ons als we keuzes moeten maken voor het archiveren en ontsluiten van gegevens.

Welke gegevens archiveren we?

  • We archiveren alleen velddata, die in de toekomst mogelijk nuttig kunnen zijn voor andere kennisvragen. Experimenten in het veld of in het lab vallen hier niet onder. Is het mogelijk om hier vooraf meer criteria voor aan te geven? Nee.
  • We archiveren alleen data die over Rijkswateren gaan of daarmee een relatie hebben (zoals watertoevoer van waterschappen).
  • Ook data van oude projecten (desnoods 100 jaar terug) willen we graag archiveren.
  • We archiveren alleen data die kwalitatief goed genoeg zijn voor hergebruik. De metadata moet op orde zijn. Denk aan een beschrijving van de bemonsteringsmethode en eventuele data-opwerking. Ook moet de dataset behoorlijk volledig zijn, geen dubbele waarden bevatten en goed gecodeerd zijn (de relaties in een relationele database moeten integer zijn).

Wie bepaalt welke gegevens we wel of niet archiveren?

De projectleider van het onderzoek- of monitoringproject bepaalt welke gegevens hij of zij aanbiedt voor archivering. Harm de Coninck of Willem Faber (beide van RWS-WVL) kunnen adviseren en kunnen eventueel beargumenteerd een deel van de gegevens weigeren.

Archiveren en ontsluiten we alleen Rijkswaterstaat gegevens?

In principe wel, maar er kunnen uitzonderingen zijn. Soms zijn we gedeeld eigenaar en soms zijn anderen eigenaar, maar heeft vooral Rijkswaterstaat belang bij het archiveren en ontsluiten van de gegevens. In dat geval archiveren en ontsluiten wij de gegevens. Leg in dat geval vast met de andere partij dat wij het databeheer (mede op hun verzoek) doen. Een e-mail volstaat hiervoor. Stuur deze vastlegging aan Harm de Coninck door.

In hoeverre moeten de gegevens opgewerkt worden?

We kunnen zowel ruwe als opgewerkte data archiveren. Dat wil niet zeggen dat we alles willen bewaren. We hanteren NIET het criterium dat een data-analyse, zoals in het project is uitgevoerd om tot de dataset te komen, opnieuw uitgevoerd moet kunnen worden! We vertrouwen op de kwaliteitscontrole die reeds in het project is uitgevoerd. Scripts hoeven dus ook niet bewaard te worden (maar kunnen wel worden bewaard in de repository als het nodig is). Zeker de omvang van ruwe data uit sensoren (hoogfrequent in tijd en ruimte) of video-beelden kunnen zeer omvangrijk zijn. Daar zitten we (en de gebruikers) meestal niet op te wachten. Opwerking naar een grootheid waarmee je een analyse wilt uitvoeren (bijvoorbeeld bodemligging of aantal per vierkante meter) ligt meer voor de hand. Ook verder opgewerkte data (tot bijvoorbeeld kaartjes) kunnen worden gearchiveerd (mits goed gedocumenteerd).

Ben ik verplicht om de data te standaardiseren?

Waterdata worden bij voorkeur opgenomen in een van de databases die RWS gebruikt (zie tabel onder).

Alleen als dat niet mogelijk is, wordt gebruik gemaakt van de repository van waterinfo extra.

OVERZICHT BELANGRIJKSTE KERNDATABASES RWS
Database Inhoud

WADAR/DONAR

Fysische/chemische data

Aquadesk

Biologie algemeen (benthos, plankton)

SOVON Vogels
WMR Vissen

Welk format gebruiken we om te archiveren?

Voor langdurige, software onafhankelijke archivering, willen we van alle zo veel mogelijk data csv-files hebben. Daarnaast (maar niet als alternatief!) mogen data in andere software-formats geleverd worden (zoals Excel of Arc Gis).Sommige datasets lenen zich niet voor csv-files. In dat geval mag voor andere formats gekozen worden (zoals NETCDF of TIFF).

Om de meetlocaties te visualiseren in de viewer en data (als het csv-bestanden zijn) te ontsluiten gebruiken we webservices; deze willen we zowel in WMS- als WFS-formaat hebben. Bij voorkeur ook met een leesbare legenda (tekst bestand met kleurschaal voor de verschillende waarden en/of klassen). Rasterdata is eventueel ook mogelijk.

Hoe moet mijn data-files worden opgebouwd?

In de csv-files worden velden gescheiden door een punt-komma (;) en als decimaalteken wordt een punt gebruikt (.).  Bij voorkeur wordt tekst omgegeven door aanhalingstekens (").

De csv-files, WMS/WFS-webservices, NETCDF of TIFF-files moeten minimaal velden bevatten met de volgende informatie:

  • coördinaten
  • coördinatenstelsel dat is gebruikt. Bij voorkeur WGS84 of EPSG code, anders een goede beschrijving. (RD is eigenlijk al niet genoeg, het zou op zijn minst RD-New moeten zijn, ofwel EPSG:28992). Zie voor meer informatie https://epsg.io en/of https://www.spatialreference.org.
  • indien relevant; de diepte (inclusief referentievlak) van de bemonstering
  • datum en tijd (incl tijdzone) van de bemonstering
  • grootheid (bijv concentratie, massa per m2)
  • parameter (bijv soortnaam, chemische stofnaam)
  • eenheid
  • waarde van de meting
  • bemonsteringstechniek
  • waardebepalingstechniek
  • en alle overige informatie die voor gebruikers relevant zijn (denk aan gefiltreerd/ particulair, in een bepaalde korrelgroottefractie, welk orgaan, etc.)
  • data moeten voorzien zijn van metadata zoals gedefinieerd door RWS (link naar RWS metadata editor of/en de INSPIRE metadata editor of/en een Excel invultabel met relevante velden)

Of in het geval van een ASCII raster moeten deze gegevens beschikbaar zijn gemaakt in een bestandje (1 per ASCII-bestand).

Hoeveel tijd kost de overdracht van gegevens?

Dit hangt sterk af van a) de hoeveelheid gegevens, b) het type gegevens en c) of het databeheer in het project goed is uitgevoerd (bijvoorbeeld of de relevante metadata [zie hierboven] tijdens het project zijn verzameld en gearchiveerd).

Wie betaalt de overdracht, archivering en ontsluiting?

De projectleider van het onderzoek- of monitoringproject betaalt de werkzaamheden om de data in het juiste format, met de juiste metadata en de juiste documentatie aan te bieden. Het IV-Watermanagement programma (beheert door Willem Faber) betaalt de kosten voor archivering en ontsluiting via de repository en Waterinfo Extra.

Wie is eigenaar van de gearchiveerde gegevens?

Na overdracht is blijft het dienstonderdeel dat het project heeft getrokken eigenaar van de data en documentatie. Dat betekent niet dat die eigenaar besluit over hoe de data worden beheerd. Daar is het afdelingshoofd WVL-Data en Informatiemanagement (Marieke Teerds) verantwoordelijk voor. Zij (en niet meer de projectleider van het onderzoek- of monitoringproject) kunnen wijzigingen doorvoeren in data en teksten. Uiteraard is dit de formele regel; in goed overleg blijft het een gezamenlijke taak.

Wie voert de overdracht van data uit?

In de praktijk zal dit vaak een onderaannemer zijn in het onderzoek- of monitoring-project, maar ook medewerkers van Rijkswaterstaat in het project kunnen dit doen. Projectgegevens hoeven niet altijd grote, complexe datasets te zijn (zie bijvoorbeeld de historische waterstanden van het Noordzeekanaal).

Wie voert de archivering en ontsluiting uit?

Deltares en Wageningen Marine Research (WMR) beheren de repository en de webservices voor Rijkswaterstaat. WMR richt zich vooral op de ecologische data en Deltares op de overige data. Zij beheren dus ook de projectdata van projecten waarbij ze zelf niet betrokken waren.

Mogen anderen de data ook ontsluiten?

Ja, de data zijn door iedereen vrij te gebruiken zonder enige restrictie. Het is fijn als er bronvermelding plaats vindt naar Rijkswaterstaat (met name naar het betreffende project) en de dataleverancier binnen dat project. Wij zien graag dat andere partijen de data ‘ophalen’ vanaf de webservices; dat waarborgt dat aanpassingen aan de data direct van toepassing zijn op gebruik van de data elders.

Welke informatie over mijn project en projectdata moet ik aanleveren?

Je moet een beschrijving van het project aanleveren, die als internettekst opgenomen kan worden in Waterinfo Extra. Daarbij mag je verwijzen naar eventuele andere (project)sites (geef in dat geval wel de links aan). In de tekst moet informatie worden opgenomen over:

  • naam van het project
  • opdrachtgevers en/of financiers van het project
  • de namen van de uitvoerders van het monitoringprogramma (en eventuele andere partners)
  • looptijd van het project
  • omschrijving onderzoeks- of monitoringlocaties
  • doel van het project
  • een beschrijving van de monitoringsopzet, inclusief gebruikte bemonsterings- en meettechnieken en eventuele opwerkingstechnieken.
  • een beschrijving van de datafiles (wat betekenen de verschillende velden, verklaring van eventueel gebruikte codes

We bevelen aan om ook rapporten, die voor het project zijn geschreven, beschikbaar te stellen (zie volgende vraag)

Hoe maak ik rapporten van mijn project beschikbaar?

Bij de beschrijving van het project op Waterinfo Extra kunnen rapporten via een link worden gedownload.

  1. Het rapport wordt beschikbaar gesteld op het Rijkswaterstaat Publicatieplatform. Via deze instructies (alleen voor medewerkers IenW) kan dit rapport hier beschikbaar worden gesteld. Op waterinfo extra wordt vervolgens gelinkt naar dit rapport (of naar meerdere rapporten)
  2. Als de rapportage al beschikbaar is via een andere online bibliotheek, wordt hier naar gelinkt.
  3. Alleen als rapporten niet in een online bibliotheek of publicatieplatform kan worden geplaatst, wordt deze rechtstreeks op waterinfo extra geplaatst.

Schema projectdata

Is er reeds een voorbeeld van een goed gedocumenteerd project?

Kustgenese 2 zien wij als een goed gedocumenteerd project; alle data staan op de repository, meetlocaties zijn via WFS te zien in de viewer  van Waterinfo Extra, alle data zijn beschreven in een datarapport (dat beschikbaar is op Waterinfo Extra), het project is kort beschreven op de site van Waterinfo Extra met een verwijzing naar de 'eigen' projectsite (waar de rapporten te vinden zijn).

De overige projectdata en beschrijvingen van projecten die nu op Waterinfo Extra en Informatiehuis Marien beschikbaar worden gesteld vinden wij nog niet van voldoende niveau.

Welke taal moet ik hanteren?

Bij voorkeur Nederlands, maar Engels mag eventueel ook.

Welke criteria gelden voor het beheer?

Het beheer van de gegevens door Deltares en WMR zal via criteria, die worden vastgelegd in een Service Level Agreement (SLA), worden uit gevoerd. Een audit door de CIV is hierbij beoogd. Dit is nog niet geheel uitgewerkt.

Hoe hangen Informatiehuis Marien en Waterinfo Extra samen?

Projectdata en beschrijvingen staan niet alleen op Waterinfo Extra. Ze staan ook op het Informatiehuis Marien (IHM). Beschrijvingen en data van Noordzee-projecten worden gedeeld door IHM en Waterinfo Extra. Die zijn dus exact hetzelfde. Dat zelfde geldt voor de gebruikte ‘viewer’ (een viewer is een kaartje op internet om data te tonen en te downloaden). Het onderzoek- of monitoringproject geeft zijn data en teksten aan Waterinfo Extra en die zorgt dat ze ook op het Informatiehuis Marien komen.