Overheidsdata voor wetenschappelijk onderzoek verzamelen

Voor je data of documenten kan analyseren, zal je eerst je data moeten verzamelen. Hier gaan we in op hoe je dat kan aanpakken. 

Op zoek naar data

Wat wil je onderzoeken?

Het beginpunt is natuurlijk jouw onderzoek. Bekijk of er bepaalde soorten documenten duidelijk relevant kunnen zijn hiervoor. Als je via NLP-tools meer empirisch onderzoek wil doen, zal je op zoek zijn naar documentsoorten waar er veel van zijn. Dus eerder een verzameling van uitspraken of beschikkingen, dan een klein aantal inhoudelijk relevante artikelen uit vakbladen. Ter illustratie: mocht je onderzoek doen naar de kinderopvangtoeslagaffaire, dan zijn toeslagenbeschikkingen, aanvraagformulieren, bezwaar- en beroepschriften en uitspraken van rechtbanken documentsoorten waarop je computationele analyses zou kunnen toepassen.

Waar is de data mogelijk te vinden?

Nu je bepaald hebt naar welke soorten documenten je op zoek bent, kan je beginnen met het verzamelen ervan. Zoek eerst uit welke organisaties mogelijk de documenten waar je naar op zoek bent, in beheer zouden kunnen hebben. Op basis daarvan kan je gericht verder zoeken. 

Vaak zal je de documenten die je wil analyseren zelf bij elkaar moeten verzamelen. Zo kan het zijn dat de documenten waar je naar op zoek bent wel al opgenomen zijn in grotere verzamelingen, zoals alle uitspraken of alle kamerstukken. WetSuite heeft een catalogus met een aantal datasets waar je wellicht kan vinden wat je zoek. Mocht je niets in de WetSuite datacatalogus kunnen vinden, dan zijn zoekmachines en het Dataregister van de Nederlandse overheid ook goede plekken om te kijken of de gegevens die je zoekt al beschikbaar zijn in een bestaande dataset. Probeer hierbij altijd in het oog te houden dat er waarschijnlijk geen kant en klare dataset is voor jouw onderzoek, maar je wel door bestaande datasets te filteren en combineren een heel eind komt. 

Tegelijkertijd zijn er ook veel documenten die (nog) niet publiekelijk beschikbaar zijn. Bijvoorbeeld vanwege privacy-redenen of simpelweg omdat de organisatie die de documenten in beheer heeft, deze nog niet openbaar gemaakt heeft. Een eerste stap is om informeel contact op te nemen met de organisatie in kwestie om te vragen wat er mogelijk is.

De Wet open overheid (Woo) en Wet hergebruik van overheidsinformatie (Who) voor wetenschappelijk onderzoek

Mochten de documenten waar je naar op zoek zijn niet gepubliceerd zijn, of niet in een makkelijk herbruikbaar formaat beschikbaar zijn, dan kunnen de Wet open overheid (Woo) en de Wet hergebruik van overheidsinformatie (Who) mogelijk uitkomst bieden. Op basis van de Woo zijn overheden verplicht bepaalde documenten te publiceren. De Who stelt vervolgens eisen aan dat zulke openbare gegevens ook hergebruikt moeten mogen en kunnen worden. 

We gaan hier kort in op wat de Who inhoudt, en daarna hoe deze nuttig kan zijn voor juridisch onderzoekers. 

Wat is de Who? 

De Wet hergebruik van overheidsinformatie (Who) is een implementatie van de Open Data Richtlijn van de Europese Unie (Richtlijn (EU) 2019/1024 van het Europees Parlement en de Raad van 20 juni 2019 inzake open data en het hergebruik van overheidsinformatie (herschikking)). De wet komt er op neer dat informatie die openbaar is op grond van de wet ook hergebruikt mag worden door iedereen. Bijvoorbeeld dus voor wetenschappelijk onderzoek.

De Who werkt dan ook complementair aan de Wet open overheid (Woo). De Woo gaat immers vooral over dat bepaalde overheidsdocumenten openbaar gemaakt moeten worden. De Who geeft vervolgens regels over hoe deze openbare informatie beschikbaar gesteld moet worden en dat hergebruik ervan mogelijk moet zijn. Als documenten op grond van de Woo openbaar moeten zijn, is een los Woo-verzoek naast je Who-verzoek in principe niet nodig. Het kan wel nuttig zijn om te benadrukken dat je verzoek gebaseerd is op zowel de Woo als de Who.

De Who voor onderzoeksdoeleinden 

De informatie die op grond van de Who hergebruikt wordt, moet beschikbaar worden gesteld zoals die bij de organisatie aanwezig zijn. Daarnaast moet de informatie ook, voor zover mogelijk en passend, beschikbaar worden gemaakt in een elektronisch, open, toegankelijk, vindbaar, herbruikbaar en machinaal leesbaar formaat, inclusief metadata. 

Deze verplichtingen over de manier waarop informatie wordt aangeleverd is precies wat de Who zo nuttig kan maken voor onderzoeksdoeleinden. In plaats van documenten zelf te crawlen van websites, of handmatig gescande documenten uit Woo-verzoeken door te gaan, kan je verzoeken dat je de informatie op een manier aangeleverd krijgt die werkbaarder is voor automatische verwerking in je onderzoek. 

In de ideale wereld zorgt de Who er dus voor dat je makkelijker aan een machinaal leesbare dataset kan komen. Dit verlaagt de drempel om NLP-technieken toe te passen in je onderzoek. Houdt echter wel realistische verwachtingen bij het doen van een Who-verzoek: de behandeling ervan kan lang duren, en je zal waarschijnlijk altijd zelf nog enige verwerking van de gegevens moeten doen om deze zelf te kunnen gebruiken. 

Belangrijk om te weten is verder dat de Who een stuk minder bekend is dan de Woo. De behandeling van je verzoek kan daardoor een stuk minder soepel verlopen. 

Voorbereiden van je Who-verzoek 

Vergewis je vóór het indienen van je Who-verzoek van het volgende: 

  1. Naar welke informatie ben je op zoek? 
  2. Bij welke overheidsorganisatie is deze informatie te vinden? 
  3. Op welke wettelijke grondslag berust de openbaarheid van de informatie? Als er niets specifiek geregeld is over de informatie, kijk dan in de Woo. Wordt de informatie al openbaar gemaakt maar niet in een herbruikbaar formaat, dan kan je wellicht aannemen dat het bestuursorgaan dit actief openbaar gemaakt heeft onder art. 3.1 Woo. 
  4. Is de Who van toepassing? Controleer altijd art. 2 Who om te kijken of wat je zoekt niet uitgezonderd is van de Who. 
  5. In wat voor formaat zou je de informatie het liefst ontvangen? 

Kosten van een Who-verzoek 

Belangrijk is dat voor hergebruik van gegevens in beginsel geen vergoeding gevraagd mag worden (art. 6 lid 1 Richtlijn (EU) 2019/1024, art. 9 Who). Alleen marginale kosten voor vermenigvuldiging, verstrekking, verspreiding, anonimisering en bescherming van commerciële vertrouwelijkheid kunnen worden gevraagd. Worden er kosten gevraagd in reactie op een hergebruikverzoek? Dan kan je op dat punt in bezwaar of beroep gaan. 

Algemene tips voor het gebruik van de Who 

Meer informatie over de Who 

Last updated: 20-Nov-2024