RDW Voertuig open data – de (on)mogelijkheden

Na de 1e review van de lancering van RDW Voertuig open data heb ik afgelopen dagen nog wat verder gestruind in de (on)mogelijkheden van deze dataset. In deze posting enkele van de opvallende zaken die ik tegenkwam.

Aantal records

In het bestand dat vorige week live is gegaan (as woensdag/donderdag staat nieuwe dump), zitten 13.306.869 records, oftewel minimaal 3 Windows live accounts om alles binnen te hengelen šŸ˜‰ . Per account kan je namelijk maximaal (50.000 maal 100=) 5.000.000 records ophalen.

Filtermogelijkheden

De set van RDW bevat flink aantal kolommen. Niet alle kolommen zijn echter te gebruiken voor filtering. Deze kolommen zijn slechts geschikt:

Naam Type
BPM Int32
Catalogusprijs Int32
CO2uitstootgecombineerd Int16
Datumaanvangtenaamstelling DateTime
DatumeersteafgifteNederland DateTime
Datumeerstetoelating DateTime
Eerstekleur String
Handelsbenaming String
Hoofdbrandstof String
Inrichting String
Kenteken String
Merk String
Milieuclassificatie String
Nevenbrandstof String
Retrofitroetfilter String
Tweedekleur String
VervaldatumAPK DateTime
Voertuigsoort String
Zuinigheidslabel String

Het is bijvoorbeeld niet mogelijk om op de gewichten te zoeken of om alle wagens me 8 of meer cilinders te selecteren. Filteren op WAM verzekerd of Wacht op keuring kan ik me overigens voorstellen dat ze daar niet enthousiast worden.

Een andere onmogelijkheid is het creĆ«ren van LIKE queries. Zo is het niet mogelijk om alle kentekens met XXS erin te maken, of alle kentekens met in handelsbenaming “%REIHE%”

TIP! Bij ophalen van data adviseer ik vooral een filter aan te brengen op Voertuigsoort. Dit zorgt voor een flinke beperking in het zoekgebied.

Sorteringsmogelijkheden

Enkel op de velden die je kan gebruiker in de filtering, kan je ook voor sortering gebruiken.

Groeperingsmogelijkheden

Het is niet mogelijk om een GroupBy query te maken.

Performance

De data wordt per 100 records binnengehaald. Aangezien er geen mogelijkheid tot GroupBy statements zijn, moet je voor statistieken eerst alle records binnenhalen, voordat je kan groeperen. Bij grote aantallen kan dit uren duren.

 

3 comments

  1. Jasper,
    De boodschap is volgens mij dat het niet eenvoudig is om deze data om te zetten in bruikbare informatie. Maar ik denk dat een gemiddelde huis tuin en keuken gebruiker of IT’r ook niet de behoefte heeft hieraan te beginnen. De data is een commodity, zoals ijzererts. Die kan iedereen betrekken, maar niet iedereen is instaat om er een auto van te maken.
    Harry

    1. @Harry: Bedankt voor je reactie, leuk dat je weer op de weg terug bent. Met enkel data heb je inderdaad nog geen informatie.

      Data is en wordt steeds meer commodity, zinnige informatie eruithalen blijft en wordt de kunst. Niet voor niets is er tegenwoordig het beroep Data scientist

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *