Hack de Overheid!

Data

Datablog: KRO ondertiteling T888

kro_prid

De leukste data komt altijd pas als laatste vrij. Met de KRO ondertitelingsdata heb je van ongeveer 1500 programma’s van 2012 en 2013 inzicht in wat er zoal besproken wordt. Ondertitels worden tevens vergezeld met basale programma informatie. Maak gebruik van textmining technieken om hier soep van te maken.

Prid
De programma ID  prid data spreekt redelijk voor zichzelf, het is JSON. Er is enige metadata als programma omschrijving en uitzendtijden aanwezig. Als het goed is, komen de de integrale programmagidsen ook nog beschikbaar, dus dan is die data niet gelimiteerd tot KRO programma’s, en zou deze verder gaan dan de periode 2013-2012. Let op: PRID’s kunnen verwijzen naar meerdere files, zoals vroeger bij superlange speelfilms zoals  ‘Dances with Wolves’ met Kevin Costner. Ongetwijfeld is daar ook een Nederlandse versie van gemaakt.
Subs
De subs zijn text files (zip) die beginnen met een marker WEBVTT. Het handigst is om een parser hiervoor te schrijven die hetgeheel omzet naar een hash. Zie hiervoor een provisorische hack die dit doet, en het in Elasticsearch importeert (Gist).

kro_subs

Full textdatabases en textmining
Handig is bijvoorbeeld Elastic Search, als je nog niet precies weet wat je wilt.  Installatie gaat eenvoudig op Ubuntu met:

sudo apt-get install openjdk-7-jre-headless -y
 wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.90.5.deb
sudo dpkg -i elasticsearch-0.90.5.deb
sudo service elasticsearch start
Met Elastic Search kan je een search doen (doh!) met het volgende commando:
curl -s -XGET ‘localhost:9200/kro/subs/_search?pretty&q=hilversum’
het resultaat bevat document-id’s
Een document ophalen gaat met:
curl -s -XGET ‘localhost:9200/kro/subs/KRO_12345’
Spannend(er) wordt het als je over alle documenten analyses gaat maken:

curl -s -XGET ‘localhost:9200/kro/subs/_search’ -d ‘{
“size”: 0,”query” : { “match_all” : { } },
“facets” : {
“text” : {
“terms” : {
“field” : “text”,
“size” : 10
} }}}’

Geeft terug de meest voorkomende woorden:
{“term”:”888″,”count”:1461},{“term”:”welkom”,”count”:5},{“term”:”vanuit”,”count”:3},{“term”:”live”,”count”:3},{“term”:”hotel”,”count”:3},{“term”:”arena”,”count”:3},{“term”:”amsterdam”,”count”:3},{“term”:”met”,”count”:2},{“term”:”ikea”,”count”:2},{“term”:”goeiemorgen”,”count”:2}
Met elastic search  mappings kan je documenten (zoals de programmagids) linken aan subs, en zo gecombineerde analyses maken.
Succes!
The following two tabs change content below.

Lex Slaghuis

Lex Slaghuis is een van de oprichters van Hack de Overheid en was CTO bij Open State. Hij houdt zich bezig data, API's, community en Apps. Speciale aandacht gaat uit naar Open Cultuur Data, Open Spending en politieke transparantie.

Laatste berichten van Lex Slaghuis (toon alles)


2 comments on “Datablog: KRO ondertiteling T888
  1. “Als het goed is, komende de integrale programmagidsen ook nog beschikbaar, dus dan is die data niet gelimiteerd tot KRO programma’s, en zou deze verder gaan dan de periode 2013-2012.”

    Gaat het hier om alle 888 ondertitels van de Publieke omroep, over de jaren 2012 en 2013 (+ eventueel eerder)? En wanneer is deze data beschikbaar? Ik zou graag alle 888 data van een heel kalenderjaar hebben.

  2. Lex Slaghuis op zei:

    Hallo MrKoek,

    Van de T888 worden enkel de ondertitels van de KRO beschikbaar gesteld. De ondertitels zijn onderdeel van ‘het programmapakket’ , en dat is iets waar afspraken door omroepen, programmamakers en NPO over gemaakt zijn.

    Voor de Hackathon hebben wij de KRO bereidt gevonden om toestemming te geven voor het delen van deze informatie. De NPO heeft hier ook akkoord voor gegeven. Om t888 integraal vrij te geven, zal er op hoog niveau gekeken dienen worden naar nieuwe afspraken.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.