Protocol archiveren RWS projectdata

Rijkswaterstaat besteedt veel geld aan onderzoeks- en monitoringprojecten om d.m.v. velddata kennis te vergroten. Veel van deze data zijn later ook bruikbaar voor andere projecten en kennisvragen. Vandaar dat Rijkswaterstaat een structuur heeft opgezet om deze data – na afloop van de projecten – te archiveren en te ontsluiten. In dit protocol geven we aan de hand van antwoorden op een aantal vragen aan hoe deze overdracht loopt. Niet alle keuzes kunnen op basis van dit protocol worden gemaakt; het is een kwestie van gezond verstand en pragmatisch redeneren (hoeveel tijd en geld kost de archivering en hoe waardevol schatten we het hergebruik in)?

LET OP: DIT IS NOG EEN CONCEPT. OPMERKINGEN KUN JE STUREN NAAR DE SERVICE DESK DATA.

Waar werken we naar toe?

Na overdracht van de gegevens, slaan we de gegevens (= data + metadata) op in een repository (dat is een soort directorystructuur op een schijf) en in webservices (kaarten en data). De repository is door iedereen zonder wachtwoord te benaderen en de kaarten zijn publiekelijk beschikbaar via Waterinfo Extra in het tabblad 'Download data'. De kaarten worden in de Waterinfo Extra viewer getoond, maar kunnen ook gemakkelijk ingelezen worden in GIS programma’s. De projecten worden zodanig beschreven op Waterinfo Extra dat gebruikers voldoende info hebben om de data op een juiste manier te gebruiken (zie tabblad ‘Projecten’).

Wie zien we als gebruikers?

De data komen voor iedereen beschikbaar. Als doelgroep zien we vooral de professional bij Rijkswaterstaat, collega-overheden, kennisinstellingen en adviesbureaus. Op deze doelgroep richten we ons als we keuzes moeten maken voor het archiveren en ontsluiten van gegevens.

Welke gegevens archiveren we?

  • We archiveren alleen velddata, die in de toekomst mogelijk nuttig kunnen zijn voor andere kennisvragen. Experimenten in het veld of in het lab vallen hier niet onder. Is het mogelijk om hier vooraf meer criteria voor aan te geven? Nee.
  • We archiveren alleen data die over Rijkswateren gaan of daarmee een relatie hebben (zoals watertoevoer van waterschappen).
  • Ook data van oude projecten (desnoods 100 jaar terug) willen we graag archiveren.
  • We archiveren alleen data die kwalitatief goed genoeg zijn voor hergebruik. De metadata moet op orde zijn. Denk aan een beschrijving van de bemonsteringsmethode en eventuele data-opwerking. Ook moet de dataset behoorlijk volledig zijn, geen dubbele waarden bevatten en goed gecodeerd zijn (de relaties in een relationele database moeten integer zijn).

Wie bepaalt welke gegevens we wel of niet archiveren?

De projectleider van het onderzoeks- of monitoringproject bepaalt welke gegevens hij of zij aanbiedt voor archivering. John Schobben of Willem Faber kunnen adviseren en kunnen eventueel beargumenteerd een deel van de gegevens weigeren.

Archiveren en ontsluiten we alleen Rijkswaterstaat gegevens?

In principe wel, maar er kunnen uitzonderingen zijn. Soms zijn we gedeeld eigenaar en soms zijn anderen eigenaar, maar heeft vooral Rijkswaterstaat belang bij het archiveren en ontsluiten van de gegevens. In dat geval archiveren en ontsluiten wij de gegevens. Leg in dat geval vast met de andere partij dat wij het databeheer (mede op hun verzoek) doen. Een e-mail volstaat hiervoor. Stuur deze vastlegging aan John Schobben door.

In hoeverre moeten de gegevens opgewerkt worden?

We kunnen zowel ruwe als opgewerkte data archiveren. Dat wil niet zeggen dat we alles willen bewaren. We hanteren NIET het criterium dat een data-analyse, zoals in het project is uitgevoerd om tot de dataset te komen, opnieuw uitgevoerd moet kunnen worden! We vertrouwen op de kwaliteitscontrole die reeds in het project is uitgevoerd. Scripts hoeven dus ook niet bewaard te worden (maar kunnen wel worden bewaard in de repository als het nodig is). Zeker de omvang van ruwe data uit sensoren (hoogfrequent in tijd en ruimte) of video-beelden kunnen zeer omvangrijk zijn. Daar zitten we (en de gebruikers) meestal niet op te wachten. Opwerking naar een grootheid waarmee je een analyse wilt uitvoeren (bijvoorbeeld bodemligging of aantal per vierkante meter) ligt meer voor de hand. Ook verder opgewerkte data (tot bijvoorbeeld kaartjes) kunnen worden gearchiveerd (mits goed gedocumenteerd).

Ben ik verplicht om de data te standaardiseren?

Nee, dat is niet noodzakelijk. De Aquo-standaard heeft de voorkeur, maar is geen voorwaarde voor archivering. Het gebruik van een goed beschreven en open standaard bevordert vaak wel de mogelijkheden voor hergebruik. Voor meer uitleg zie Dataformats en standaarden.

Welk format gebruiken we om te archiveren?

Voor langdurige, software onafhankelijke archivering, willen we van alle data csv-files hebben. Daarnaast (maar niet als alternatief!) mogen data in andere software-formats geleverd worden (zoals Excel of Arc Gis). Om de data te ontsluiten gebruiken we webservices; deze willen we zowel in WMS- als WFS-formaat hebben. Bij voorkeur ook met een leesbare legenda (tekst bestand met kleurschaal voor de verschillende waarden en/of klassen). Rasterdata is eventueel ook mogelijk.

Hoe moet mijn data-files worden opgebouwd?

De csv-files en WMS/WFS-webservices moeten minimaal velden bevatten met de volgende informatie:

  • Coördinaten
  • Coördinatenstelsel dat is gebruikt. Bij voorkeur WGS84 of EPSG code, anders een goede beschrijving. (RD is eigenlijk al niet genoeg, het zou op zijn minst RD-New moeten zijn, ofwel EPSG:28992). Zie voor meer informatie https://epsg.io en/of https://www.spatialreference.org.
  • Indien relevant; de diepte (inclusief referentievlak) van de bemonstering
  • Datum en tijd (incl tijdzone) van de bemonstering
  • Grootheid (bijv concentratie, massa per m2)
  • Parameter (bijv soortnaam, chemische stofnaam)
  • Eenheid
  • Waarde van de meting
  • Bemonsteringstechniek
  • Waardebepalingstechniek
  • En alle overige informatie die voor gebruikers relevant zijn (denk aan gefiltreerd/ particulair, in een bepaalde korrelgroottefractie, welk orgaan, etc)
  • Data moeten voorzien zijn van metadata zoals gedefinieerd door RWS (link naar RWS metadata editor of/en de INSPIRE metadata editor of/en een Excel invultabel met relevante velden)

Of in het geval van een ASCII raster moeten deze gegevens beschikbaar zijn gemaakt in een bestandje (1 per ASCII-bestand).

Hoeveel tijd kost de overdracht van gegevens?

Dit hangt sterk af van a) de hoeveelheid gegevens, b) het type gegevens en c) of het databeheer in het project goed is uitgevoerd (bijvoorbeeld of de relevante metadata [zie hierboven] tijdens het project zijn verzameld en gearchiveerd).

Wie betaalt de overdracht, archivering en ontsluiting?

De projectleider van het onderzoeks- of monitoringproject betaalt de werkzaamheden om de data in het juiste format, met de juiste metadata en de juiste documentatie aan te bieden. Het IV-Watermanagement programma (beheert door Willem Faber) betaalt de kosten voor archivering en ontsluiting via de repository en Waterinfo Extra.

Wie is eigenaar van de gearchiveerde gegevens?

Na overdracht is het IV-Watermanagement programma eigenaar van de data en documentatie. Zij (en niet meer de projectleider van het onderzoeks- of monitoringproject) kunnen wijzigingen doorvoeren in data en teksten. Uiteraard is dit de formele regel; in goed overleg blijft het een gezamenlijke taak.

Wie voert de overdracht van data uit?

In de praktijk zal dit vaak een onderaannemer zijn in het onderzoeks- of monitoring-project, maar ook medewerkers van Rijkswaterstaat in het project kunnen dit doen. Projectgegevens hoeven niet altijd grote, complexe datasets te zijn (zie bijvoorbeeld de historische waterstanden van het Noordzeekanaal).

Wie voert de archivering en ontsluiting uit?

Deltares en Wageningen Marine Research (WMR) beheren de repository en de webservices voor Rijkswaterstaat. WMR richt zich vooral op de ecologische data en Deltares op de overige data. Zij beheren dus ook de projectdata van projecten waarbij ze zelf niet betrokken waren.

Mogen anderen de data ook ontsluiten?

Ja, de data zijn door iedereen vrij te gebruiken zonder enige restrictie. Het is fijn als er bronvermelding plaats vindt naar Rijkswaterstaat (met name naar het betreffende project) en de dataleverancier binnen dat project. Wij zien graag dat andere partijen de data ‘ophalen’ vanaf de webservices; dat waarborgt dat aanpassingen aan de data direct van toepassing zijn op gebruik van de data elders. Een voorbeeld van dit hergebruik is het ‘open data’ tabblad op het Informatiehuis Marien.

Welke informatie over mijn project en projectdata moet ik aanleveren?

Je moet een beschrijving van het project aanleveren, die als internettekst opgenomen kan worden in Waterinfo Extra. Daarbij mag je verwijzen naar eventuele andere (project)sites (geef in dat geval wel de links aan). In de tekst moet informatie worden opgenomen over:

  • Naam van het project
  • Opdrachtgevers en/of financiers van het project
  • De namen van de uitvoerders van het monitoringprogramma (en eventuele andere partners)
  • Looptijd van het project
  • Omschrijving onderzoeks- of monitoringlocaties
  • Doel van het project
  • Een beschrijving van de monitoringsopzet, inclusief gebruikte bemonsterings- en meettechnieken en eventuele opwerkingstechnieken.
  • Een beschrijving van de datafiles (wat betekenen de verschillende velden, verklaring van eventueel gebruikte codes

We bevelen aan om ook rapporten, die voor het project zijn geschreven, beschikbaar te stellen (zie volgende vraag)

Hoe maak ik rapporten van mijn project beschikbaar?

Bij de beschrijving van het project op Waterinfo Extra kunnen rapporten via een link worden gedownload. Waterinfo Extra verwijst daarbij naar de Publicatiedatabank van IenW of een andere site. Het project moet dus zorgen dat rapporten downloadbaar zijn via internet. Dat kan via bijvoorbeeld een eigen projectsite, de site van de organisatie van de 1e auteur van het rapport of via de Publicatiedatabank van IenW. De link van het rapport moet je opnemen in de tekst met de beschrijving van je project. Voor het invoeren van een rapport (of ander document) op de Publicatiedatabank van IenW zie de handleiding  en de algemene site van Kennisplein. Deze sites zijn alleen via het intranet van Rijkswaterstaat benaderbaar.

Welke taal moet ik hanteren?

Bij voorkeur Nederlands, maar Engels mag eventueel ook.

Is er reeds een voorbeeld van een goed gedocumenteerd project?

Nog niet. De projectdata en beschrijvingen van projecten die nu op Waterinfo Extra en Informatiehuis Marien beschikbaar worden gesteld vinden wij nog niet van voldoende niveau.

Welke criteria gelden voor het beheer?

Het beheer van de gegevens door Deltares en WMR zal via criteria, die worden vastgelegd in een Service Level Agreement (SLA), worden uit gevoerd. Een audit door de CIV is hierbij beoogd. Dit is nog niet geheel uitgewerkt.

Hoe hangen Informatiehuis Marien en Waterinfo Extra samen?

Projectdata en beschrijvingen staan niet alleen op Waterinfo Extra. Ze staan ook op het Informatiehuis Marien (IHM). Beschrijvingen en data van Mariene projecten worden gedeeld door IHM en Waterinfo Extra. Die zijn dus exact hetzelfde. Dat zelfde geldt voor de gebruikte ‘viewer’ (een viewer is een kaartje op internet om data te tonen en te downloaden).

Kan ik zoeken via een catalogus?

Met een catalogus kun je zoeken in de data. Een handige functionaliteit, maar het vergt te veel beheer om dit goed uit te kunnen voeren. Vandaar dat we kiezen om het nu (nog?) niet te vullen en beschikbaar te stellen. Wel werken we aan een overzicht van de data om de vindbaarheid te verbeteren.