RDW Voertuig Open data – eerste review

RDW heeft vanmorgen haar open data beleid gestalte gegeven met de lancering van een proef en prijsvraag op het gebied van open data. Al eerder op deze blog heb ik aandacht aan dit onderwerp gegeven. Ikzelf ben werkzaam bij 1 van de partijen (namelijk VWE) die officieel is aangesteld door Ministerie om informatie van RDW te ontvangen. Deze partijen hebben ervoor gezorgd afgelopen jaren dat via de informatie-uitwisseling met RDW talloze innovaties binnen de voertuigbranche en daarbuiten tot stand zijn gebracht waar RDW-gegevens in meer of mindere mate als basis dienden.

In deze posting wil ik mijn 1e ervaringen met deze proef delen met jullie.

Duiding

Als fervent gebruiker van de RDW-data kan ik wat mij betreft een mooie duiding geven aan de proef die nu tot stand is gekomen. Immers data beschikbaar stellen is 1, maar er ook iets mee kunnen is stap 2 tot en met tig. De juiste data op het juiste moment is daarbij essentieel.

Azure datamarket

RDW heeft ervoor gekozen om de dataset niet op haar eigen servers te hosten, maar een extern platform daarvoor te gebruiken, nl. Azure Datamarket. Dit platform van Microsoft wordt door talloze bedrijven wereldwijd gebruikt om applicatie en/of datasets te ontsluiten. Zo ook de “RDW Voertuig Open data” dataset.

Duidelijk uit de beschrijving wordt dat je een beperkte set van voertuiggegevens via deze manier kan opvragen. De set is op 1 element na vergelijkbaar met de informatie die je op basis van invoer kenteken kan krijgen op de OVI-site van RDW. Dat ene element is het gestolen status. Dit veld is bestempeld als een gevoelig gegeven.

Beperkingen open data proef

De proef kent een aantal beperkingen:

Registratie

Om gebruik te maken van de dataset moet je (her)gebruik maken van een Windows live account. Fervent open data gebruikers zijn hierover niet heel enthousiast.

Duur

Proef duurt in 1e aanleg 365 dagen oftewel 1 jaar. Gedurende deze tijd wil RDW ervaring opdoen met de materie.

Aantal transacties

Het aantal transacties is gelimiteerd tot 50.000. Hierbij geldt de volgende definitie van transactie

Een transactie is een aanvraag waarmee een pagina met resultaten wordt opgehaald. Als u meerdere pagina’s ophaalt, worden er meerdere transacties uitgevoerd.

Een pagina bestaat uit maximaal 100 resultaten. Aangezien er ongeveer 12.000.000 voertuigen actief gekentekend zijn in Nederland, lukt het je dus niet om met 1 account in 1 maand het hele bestand binnen te halen.

Update frequentie

De data wordt vooralsnog 1x per week bijgewerkt op Azure platform.

Datavelden

De reeks van beschikbare datavelden is vrij uitgebreid: http://datamarket.azure.com/dataset/opendata.rdw/vrtg.open.data#schema . Als veelgebruiker van deze data zijn er echter ook per veld wel enkele mitsen en maren te verzinnen. Zo zijn enkele essentiële sleutelvelden vrije tekstvelden, bijvoorbeeld merk en handelsbenaming. Dit zorgt ervoor dat er van dezelfde modellen/types verschillende spellingen worden gehanteerd. Dit is vooral lastig te doorgronden als je enkele groepeervelden mist in de dataset.

Er zijn ook diverse cryptische modelbeschrijvingen. Bijvoorbeeld worden alle BMW’s uit de Xserie met X-REIHE aangeduid. Je kan dus niet aan dit veld afleiden of het een X3, X5 of X6, etc. Vooral voor koppelingen met additionele databestanden is dat zeer lastig onderhoudbaar.

Eerste testen

De webversie van Azure biedt de mogelijkheid om de dataset van RDW te querien. Helaas is dit erg beperkt qua sorteringen en is het onmogelijk om facet searching toe te passen. Hiervoor heb je andere tooling nodig, zoals een gratis Excel addin van Microsoft of andere visualisatie tools zoals Tableau. Ik heb de addin geprobeerd. Met deze addin is het mogelijk om geavanceerde filters of sorteringen toe te passen. Voor een test heb ik een openstaand datavraagje van een twitteraar gebruikt. Geert Smit wilde graag weten hoeveel Triumph Dolomites Sprint er zijn geregistreerd in Nederland.

Op basis van een gegeven kenteken heb ik gezocht op alle handelsbenamingen met tekst DOLOMITE SPRINT. Het resultaat was 69 records.

Dit soort type vragen zijn ook gelijk een mooie toepassing voor deze data. Uit eigen ervaring weet ik dat er heel veel merkenclubs zijn die complete registers bijhouden van hun beloved auto. Dit soort dataverzoeken zijn vaak erg leuk om te doen, maar kunnen tijdrovend zijn. Met de mogelijkheid om te kunnen grasduinen in de dataset zijn deze clubs erg geholpen.

Een andere leuke testcase is het opvragen van de oudste voertuigen van Nederland. Dit heb ik gedaan door alle voertuigen op te vragen met een datum eerste toelating in 1910 of daarvoor.

Het resultaat is mooie weergave van een database waarin wel eens manuele typefouten worden gemaakt. Het oudst geregistreerde voertuig zou namelijk een caravan uit 1779 zijn! Dit zijn de tien oudste voertuigen:

Kenteken Merk Handelsbenaming Datum eersteafgifte NL Datum eerste toelating
0368WE HOBBY 400 N 1779-07-05 1779-07-05
8138WF WESCO P 2020 1878-08-21 1878-08-21
AR3435 MERCEDES-BENZ 240 GD STATIONWAGEN 2400 2011-12-19 1885-06-30
WD86DG HOBBY 400 C 1889-07-17 1889-07-17
AM0998 DE DION BOUTON TRICYCLE 2006-04-10 1898-06-30
AR4048 PEUGEOT TYPE 14 2012-04-26 1898-06-30
AM0909 CLEMENT-DION QUADRA CYCLE 2006-03-28 1899-06-30
AM8244 RENAULT C 2009-06-29 1900-06-30
RZ20RZ PORSCHE 911 SC COUPE 1979-03-09 1900-06-30
SZ57PL BMW M3 1988-04-18 1900-06-30
ZZ1764 GEORGES/RICHARD 1 1973-04-25 1900-06-30
ZZ1937 MILLOT 1974-07-05 1900-06-30
ZZ2277 LAURIN & KLEMENT BZ 1976-07-05 1900-06-30

Pas de nummer 5, 6 en 7 denk ik dat echt oude voertuigen zijn. De BMW M3 en Porsche 911 vind ik ook wel mooie klassiekers 😉

Een andere populair lijstje, is het lijstje duurste auto’s van Nederland. Hierbij moet ik wel 1 van de mitsen en maren van het veld Catalogusprijs vertellen. Dit veld wordt pas sinds 1-1-2010 geregistreerd in de RDW bestanden.

De top15 duurste auto’s op basis van veld Consumentenprijs:

Kenteken Merk Handelsbenaming Catalogusprijs BPM
45ZGZB MERCEDES-BENZ B 200 CDI 5536914 15371
4VVR55 VOLKSWAGEN CRAFTER 4643729 11379
72PZV1 LAND ROVER DISCOVERY 4 1010104 26363
40RXS1 VOLKSWAGEN TOUAREG 1004300 39926
70PXK4 BMW 528I 871417 12626
80XFF9 MAYBACH MAYBACH 62 S 772449 101033
38PGD3 MAYBACH MAYBACH 57 S 633872 145723
87PRR5 MERCEDES-BENZ E 200 CDI 633420 6880
25TJG3 MAYBACH MAYBACH 57 S 616683 113651
13RDR3 AUDI AUDI A5 CABRIOLET 600329 9723
55SBN9 MAYBACH MAYBACH 57 S 593711 108986
26RDR5 PORSCHE CARRERA GT 544625 175267
22KTB8 MERCEDES-BENZ S 600 536282 56588
37KXZ3 MERCEDES-BENZ S 600 536282 56588
69PSZ2 MERCEDES-BENZ SLR 516110 121387

Een zelfde soort lijstje kan je ook basis van BPM-bedrag maken. Ik heb al eerder zo’n lijstje gemaakt. Dit is een nieuwe versie daarvan:

Kenteken Merk Handelsbenaming BPM
97RPLB OPEL GM 200-GME 934502
00HTK8 BMW 323I 810907
62RRX4 BMW 730IA 810202
03XHGS RENAULT MEGANE SCENIC; 1.6 16V 670431
03XXHB AUDI AUDI A3 654911
86VHL4 MERCEDES-BENZ VITO 115 CDI 619463
81HRX4 MERCEDES-BENZ A 150; COUPE 574233
06RLXG PEUGEOT 206; CC 1.6 16V AUT. 556703
07KPT8 PEUGEOT 307; 2.0 16V AUT. 5DRS 546226
45HXHS FORD MONDEO; 1.8I 81KW WAGON 519355
58PDJN JEEP WRANGLER 518900
44SXXB OPEL X01MONOCAB 506127
86XLJH BUGATTI BUGATTI VEYRON 16.4 497920
96LJF4 CITROEN CITROEN C1 470710
88XBBK BUGATTI BUGATTI VEYRON 16.4 451000

De detailresultaten van queries kunnen jullie allemaal hier inzien: dataset-rdw-opendata

Eerste conclusies

Het openstellen van RDW dataset is mooie manier om breder publiek te laten spelen met deze data. Net zoals elk andere database heeft ook deze dataset zijn nukken en grillen. Hierdoor is m.i. de dataset prima te gebruiken voor huis,tuin en keuken toepassingen, maar valt te bezien of deze data 1-op-1 in kan stromen in bedrijfskritische toepassingen. Daarbij dient ook rekening gehouden te worden met de geldende restricties. Een succesvolle toepassingen kan bijvoorbeeld erg veel last hebben van de beperking van aantal transacties, maar bijvoorbeeld ook van de onzekerheid hoe deze proef volgend jaar vervolg gaat krijgen.

RDW Open data zie ik daarom niet als een bedreiging voor de huidige datapropositie van VWE. Het stilt een honger naar data voor een bepaalde groep, maar zal ook een honger naar meer data geven voor een andere groep. Laat VWE juist voor die groep de juiste toepassingen hebben.

Daarom kom ik ook graag met alle deelnemers van de prijsvraag van RDW in contact om te bekijken of wij hun toepassing verder kunnen verrijken, adopteren of ondersteunen.

4 antwoorden op “RDW Voertuig Open data – eerste review”

  1. Handig zo’n datum eerste toelating in 1900. Hoef je ook niet naar de APK!

    Zelf heb ik even in de Mazda’s zitten spitten, de oudste twee hadden een datum zowel eerste toelating als eerste afgifte NL van 27-08-1912 (11-VM-57) en 31-03-1947 (45-PV-87). Beide 323’s zoals geleverd in de jaren ’70 (waar de kentekens ook wel op wijzen). Juist ja…

  2. Een mercedes b200 van 5,5 miljoen en een VW crafter van 4,5 miljoen ?! Zijn die bekleed met diamantjes en goud ?

  3. eenduidig merk en type zou erg fijn zijn, maar daar kan de vwe dataservice weer uitkomst bieden

Reacties zijn gesloten.