RDW Voertuig open data - de (on)mogelijkheden

Na de 1e review van de lancering van RDW Voertuig open data heb ik afgelopen dagen nog wat verder gestruind in de (on)mogelijkheden van deze dataset. In deze posting enkele van de opvallende zaken die ik tegenkwam.

Aantal records

In het bestand dat vorige week live is gegaan (as woensdag/donderdag staat nieuwe dump), zitten 13.306.869 records, oftewel minimaal 3 Windows live accounts om alles binnen te hengelen 😉 . Per account kan je namelijk maximaal (50.000 maal 100=) 5.000.000 records ophalen.

Filtermogelijkheden

De set van RDW bevat flink aantal kolommen. Niet alle kolommen zijn echter te gebruiken voor filtering. Deze kolommen zijn slechts geschikt:

Naam	Type
BPM	Int32
Catalogusprijs	Int32
CO2uitstootgecombineerd	Int16
Datumaanvangtenaamstelling	DateTime
DatumeersteafgifteNederland	DateTime
Datumeerstetoelating	DateTime
Eerstekleur	String
Handelsbenaming	String
Hoofdbrandstof	String
Inrichting	String
Kenteken	String
Merk	String
Milieuclassificatie	String
Nevenbrandstof	String
Retrofitroetfilter	String
Tweedekleur	String
VervaldatumAPK	DateTime
Voertuigsoort	String
Zuinigheidslabel	String

Het is bijvoorbeeld niet mogelijk om op de gewichten te zoeken of om alle wagens me 8 of meer cilinders te selecteren. Filteren op WAM verzekerd of Wacht op keuring kan ik me overigens voorstellen dat ze daar niet enthousiast worden.

Een andere onmogelijkheid is het creëren van LIKE queries. Zo is het niet mogelijk om alle kentekens met XXS erin te maken, of alle kentekens met in handelsbenaming “%REIHE%”

TIP! Bij ophalen van data adviseer ik vooral een filter aan te brengen op Voertuigsoort. Dit zorgt voor een flinke beperking in het zoekgebied.

Sorteringsmogelijkheden

Enkel op de velden die je kan gebruiker in de filtering, kan je ook voor sortering gebruiken.

Groeperingsmogelijkheden

Het is niet mogelijk om een GroupBy query te maken.

Performance

De data wordt per 100 records binnengehaald. Aangezien er geen mogelijkheid tot GroupBy statements zijn, moet je voor statistieken eerst alle records binnenhalen, voordat je kan groeperen. Bij grote aantallen kan dit uren duren.

2 antwoorden op “RDW Voertuig open data – de (on)mogelijkheden”

Jasper,
De boodschap is volgens mij dat het niet eenvoudig is om deze data om te zetten in bruikbare informatie. Maar ik denk dat een gemiddelde huis tuin en keuken gebruiker of IT’r ook niet de behoefte heeft hieraan te beginnen. De data is een commodity, zoals ijzererts. Die kan iedereen betrekken, maar niet iedereen is instaat om er een auto van te maken.
Harry

jasperverweij schreef:

25 september 2012 om 11:07

@Harry: Bedankt voor je reactie, leuk dat je weer op de weg terug bent. Met enkel data heb je inderdaad nog geen informatie.

Data is en wordt steeds meer commodity, zinnige informatie eruithalen blijft en wordt de kunst. Niet voor niets is er tegenwoordig het beroep Data scientist

Reacties zijn gesloten.

Dit delen:

2 antwoorden op “RDW Voertuig open data – de (on)mogelijkheden”