Hack de Overheid!

Data Tools

Datablog: Incontxt

Incontxt is een aparte portal voor het beter toegankelijk maken van journalistieke video producties. hieraan nemen meerdere omroepen deel, die voor deze programma’s op fragment niveau metadata toevoegen. We presenteren een volledige XML dump van de inhoud van deze database. Met deze data kan gedetailleerder zoeken in programma’s en hierdoor op een andere manier ontsluiten. Een waardevolle bron, want met de T888 kan je text analyse doen op fragment niveau.

We kregen van de KRO een volledige XML dump uit de Solr Fulltext database. Met SimpleXML waren er enkele problemen tijdens de import, dus hebben we php-tidy gebruikt om de XML op te schonen. Dit resulteerde in de Tidy incontext XML (gebruik deze dus!).

Helaas zijn IncontextID’s niet gekoppeld aan PRID’s. De KRO heeft hierop een lookup ingang beschikbaar gesteld waar je met je contextID terecht kan, en een PRID terug krijgt. Wij hebben een script geschreven die alle PRIDjes ophaald en in een JSON file opslaat. JSON IncontextID2PRID (gebruik deze dus!).

De broncode voor bovengenoemde operatie staat op Gist.

Conversie XML naar JSON Update

In de Gist is de code aangepast om meteen ook alle xml om te zetten naar JSON. Het JSON resultaat kan je hier downloaden.

 

 

The following two tabs change content below.

Lex Slaghuis

Lex Slaghuis is een van de oprichters van Hack de Overheid en CTO bij Open State. Hij houdt zich bezig data, API's, community en Apps. Speciale aandacht gaat uit naar Open Cultuur Data, Open Spending en politieke transparantie.

Laatste berichten van Lex Slaghuis (toon alles)