Na de 1e review van de lancering van RDW Voertuig open data heb ik afgelopen dagen nog wat verder gestruind in de (on)mogelijkheden van deze dataset. In deze posting enkele van de opvallende zaken die ik tegenkwam.
Aantal records
In het bestand dat vorige week live is gegaan (as woensdag/donderdag staat nieuwe dump), zitten 13.306.869 records, oftewel minimaal 3 Windows live accounts om alles binnen te hengelen 😉 . Per account kan je namelijk maximaal (50.000 maal 100=) 5.000.000 records ophalen.
Filtermogelijkheden
De set van RDW bevat flink aantal kolommen. Niet alle kolommen zijn echter te gebruiken voor filtering. Deze kolommen zijn slechts geschikt:
Naam | Type |
---|---|
BPM | Int32 |
Catalogusprijs | Int32 |
CO2uitstootgecombineerd | Int16 |
Datumaanvangtenaamstelling | DateTime |
DatumeersteafgifteNederland | DateTime |
Datumeerstetoelating | DateTime |
Eerstekleur | String |
Handelsbenaming | String |
Hoofdbrandstof | String |
Inrichting | String |
Kenteken | String |
Merk | String |
Milieuclassificatie | String |
Nevenbrandstof | String |
Retrofitroetfilter | String |
Tweedekleur | String |
VervaldatumAPK | DateTime |
Voertuigsoort | String |
Zuinigheidslabel | String |
Het is bijvoorbeeld niet mogelijk om op de gewichten te zoeken of om alle wagens me 8 of meer cilinders te selecteren. Filteren op WAM verzekerd of Wacht op keuring kan ik me overigens voorstellen dat ze daar niet enthousiast worden.
Een andere onmogelijkheid is het creëren van LIKE queries. Zo is het niet mogelijk om alle kentekens met XXS erin te maken, of alle kentekens met in handelsbenaming “%REIHE%”
TIP! Bij ophalen van data adviseer ik vooral een filter aan te brengen op Voertuigsoort. Dit zorgt voor een flinke beperking in het zoekgebied.
Sorteringsmogelijkheden
Enkel op de velden die je kan gebruiker in de filtering, kan je ook voor sortering gebruiken.
Groeperingsmogelijkheden
Het is niet mogelijk om een GroupBy query te maken.
Performance
De data wordt per 100 records binnengehaald. Aangezien er geen mogelijkheid tot GroupBy statements zijn, moet je voor statistieken eerst alle records binnenhalen, voordat je kan groeperen. Bij grote aantallen kan dit uren duren.
Jasper,
De boodschap is volgens mij dat het niet eenvoudig is om deze data om te zetten in bruikbare informatie. Maar ik denk dat een gemiddelde huis tuin en keuken gebruiker of IT’r ook niet de behoefte heeft hieraan te beginnen. De data is een commodity, zoals ijzererts. Die kan iedereen betrekken, maar niet iedereen is instaat om er een auto van te maken.
Harry
@Harry: Bedankt voor je reactie, leuk dat je weer op de weg terug bent. Met enkel data heb je inderdaad nog geen informatie.
Data is en wordt steeds meer commodity, zinnige informatie eruithalen blijft en wordt de kunst. Niet voor niets is er tegenwoordig het beroep Data scientist