Hack de Overheid!

Data Evenementen Tools

Eindelijk een demografisch walhalla

Wil je weten hoe groot het gemiddelde Amsterdamse huishouden in 1930 was? Of hoe de verhouding tussen sociale status en beroep was gedurende de 19e eeuw? Heb je altijd al willen weten hoeveel procent van de alleenstaande moeders bij hun ouders woonden in 1971? De antwoorden op deze vragen zijn te vinden in de Nederlandse historische demografische gegevens.

Een schat aan census data
Deze historische data is vrij verkrijgbaar op de volkstellingen website en bestrijkt de periode van 1795 tot 1971 met drie type gegevens (volkstellingen, beroepstellingen en woningtellingen). Op deze website kun je ongeveer 2000 Excel bestanden vinden waarin alle data uit historische demografische onderzoeken te vinden is. Verder zijn er scans te vinden van de stukken die nog niet gedigitaliseerd zijn. Al deze data is zorgvuldig gearchiveerd bij DANS.

2000 bestanden in één demografische database
Het probleem is dat deze data tot voor kort lastig bruikbaar was. De data bevatte namelijk spelfouten, was niet geharmoniseerd en lastig doorzoekbaar. De gefrustreerde gebruiker van de data moest veel werk handmatig uitvoeren en uitgebreide kennis van de data was geen overbodige luxe. Dit alles zorgde ervoor dat de data voor veel mensen niet toegankelijk was. Dit is zonde omdat demografische data zeer rijk is en inzichten kan verschaffen over een land. Dit is al helemaal het geval wanneer deze gecombineerd kan worden met andere databronnen, zoals oude kranten en foto’s.

Het CEDAR-project maakt het echter mogelijk deze demografische data toegankelijk te maken voor iedereen die er mee aan de haal wil. Data Archiving and Networked Services (DANS) heeft samen met de Vrij Universiteit, Erasmus Universiteit, eHumanites KNAW en het IISH gewerkt aan het produceren van een dataset die alle demografische gegevens samenbrengt. In een door ons ontwikkelde API is deze data verder op een gemakkelijke wijze benaderbaar.

Perfecte match voor Linked Open Data
De eerste versie van de volledige database is onlangs uitgebracht. Voor het datamodel hebben we gekozen om een graph met een lay out te gebruiken, die lijkt op de modellen (SDMX) die statische bureaus gebruiken om data te delen. Dit zorgt voor een accurate weergave en maakt het mogelijk om de database te koppelen met andere data binnen onze database en aan externe datasets. De daadwerkelijke implementatie wordt gedaan met behulp van Linked Open Data technologieën (SPARQL, RDF, JSON-LD) en de gratis en open source software tools die te vinden zijn op Github.

Symposium om aan de slag te gaan met deze data!
Omdat de eerste versie van de database recent is gelanceerd, wordt er op 31 maart en 1 april een symposium georganiseerd. Op de eerste dag zullen alle ins- en outs van de huidige versie besproken worden en horen we ervaringen van experts uit Zwitserland en Frankrijk. De tweede dag staat in het teken van de praktijk en kunnen de developers aan de slag met de data. Er zijn ook historici aanwezig die graag samen met de developers kunnen nadenken over nuttige toepassingen van deze data.

De toegang voor het symposium is gratis en als kers op de taart maken de developers met de meest veelbelovende ideeën kans op budget om hun prototype te ontwikkelen. Iedere geïnteresseerde is welkom en kan zich hier aanmelden.

The following two tabs change content below.

Christophe Guéret

Christophe is a research associate at Data Archiving and Networked Services and the eHumanities group of the KNAW. His research activities are around the design of decentralised interconnected knowledge systems and their social implications. Christophe is a guest blogger for HackdeOverheid.nl

Laatste berichten van Christophe Guéret (toon alles)