RDW heeft vanmorgen haar open data beleid gestalte gegeven met de lancering van een proef en prijsvraag op het gebied van open data. Al eerder op deze blog heb ik aandacht aan dit onderwerp gegeven. Ikzelf ben werkzaam bij 1 van de partijen (namelijk VWE) die officieel is aangesteld door Ministerie om informatie van RDW te ontvangen. Deze partijen hebben ervoor gezorgd afgelopen jaren dat via de informatie-uitwisseling met RDW talloze innovaties binnen de voertuigbranche en daarbuiten tot stand zijn gebracht waar RDW-gegevens in meer of mindere mate als basis dienden.
In deze posting wil ik mijn 1e ervaringen met deze proef delen met jullie.
Duiding
Als fervent gebruiker van de RDW-data kan ik wat mij betreft een mooie duiding geven aan de proef die nu tot stand is gekomen. Immers data beschikbaar stellen is 1, maar er ook iets mee kunnen is stap 2 tot en met tig. De juiste data op het juiste moment is daarbij essentieel.
Azure datamarket
RDW heeft ervoor gekozen om de dataset niet op haar eigen servers te hosten, maar een extern platform daarvoor te gebruiken, nl. Azure Datamarket. Dit platform van Microsoft wordt door talloze bedrijven wereldwijd gebruikt om applicatie en/of datasets te ontsluiten. Zo ook de “RDW Voertuig Open data” dataset.
Duidelijk uit de beschrijving wordt dat je een beperkte set van voertuiggegevens via deze manier kan opvragen. De set is op 1 element na vergelijkbaar met de informatie die je op basis van invoer kenteken kan krijgen op de OVI-site van RDW. Dat ene element is het gestolen status. Dit veld is bestempeld als een gevoelig gegeven.
Beperkingen open data proef
De proef kent een aantal beperkingen:
Registratie
Om gebruik te maken van de dataset moet je (her)gebruik maken van een Windows live account. Fervent open data gebruikers zijn hierover niet heel enthousiast.
Duur
Proef duurt in 1e aanleg 365 dagen oftewel 1 jaar. Gedurende deze tijd wil RDW ervaring opdoen met de materie.
Aantal transacties
Het aantal transacties is gelimiteerd tot 50.000. Hierbij geldt de volgende definitie van transactie
Een transactie is een aanvraag waarmee een pagina met resultaten wordt opgehaald. Als u meerdere pagina’s ophaalt, worden er meerdere transacties uitgevoerd.
Een pagina bestaat uit maximaal 100 resultaten. Aangezien er ongeveer 12.000.000 voertuigen actief gekentekend zijn in Nederland, lukt het je dus niet om met 1 account in 1 maand het hele bestand binnen te halen.
Update frequentie
De data wordt vooralsnog 1x per week bijgewerkt op Azure platform.
Datavelden
De reeks van beschikbare datavelden is vrij uitgebreid: http://datamarket.azure.com/dataset/opendata.rdw/vrtg.open.data#schema . Als veelgebruiker van deze data zijn er echter ook per veld wel enkele mitsen en maren te verzinnen. Zo zijn enkele essentiële sleutelvelden vrije tekstvelden, bijvoorbeeld merk en handelsbenaming. Dit zorgt ervoor dat er van dezelfde modellen/types verschillende spellingen worden gehanteerd. Dit is vooral lastig te doorgronden als je enkele groepeervelden mist in de dataset.
Er zijn ook diverse cryptische modelbeschrijvingen. Bijvoorbeeld worden alle BMW’s uit de Xserie met X-REIHE aangeduid. Je kan dus niet aan dit veld afleiden of het een X3, X5 of X6, etc. Vooral voor koppelingen met additionele databestanden is dat zeer lastig onderhoudbaar.
Eerste testen
De webversie van Azure biedt de mogelijkheid om de dataset van RDW te querien. Helaas is dit erg beperkt qua sorteringen en is het onmogelijk om facet searching toe te passen. Hiervoor heb je andere tooling nodig, zoals een gratis Excel addin van Microsoft of andere visualisatie tools zoals Tableau. Ik heb de addin geprobeerd. Met deze addin is het mogelijk om geavanceerde filters of sorteringen toe te passen. Voor een test heb ik een openstaand datavraagje van een twitteraar gebruikt. Geert Smit wilde graag weten hoeveel Triumph Dolomites Sprint er zijn geregistreerd in Nederland.
Op basis van een gegeven kenteken heb ik gezocht op alle handelsbenamingen met tekst DOLOMITE SPRINT. Het resultaat was 69 records.
Dit soort type vragen zijn ook gelijk een mooie toepassing voor deze data. Uit eigen ervaring weet ik dat er heel veel merkenclubs zijn die complete registers bijhouden van hun beloved auto. Dit soort dataverzoeken zijn vaak erg leuk om te doen, maar kunnen tijdrovend zijn. Met de mogelijkheid om te kunnen grasduinen in de dataset zijn deze clubs erg geholpen.
Een andere leuke testcase is het opvragen van de oudste voertuigen van Nederland. Dit heb ik gedaan door alle voertuigen op te vragen met een datum eerste toelating in 1910 of daarvoor.
Het resultaat is mooie weergave van een database waarin wel eens manuele typefouten worden gemaakt. Het oudst geregistreerde voertuig zou namelijk een caravan uit 1779 zijn! Dit zijn de tien oudste voertuigen:
Kenteken | Merk | Handelsbenaming | Datum eersteafgifte NL | Datum eerste toelating |
0368WE | HOBBY | 400 N | 1779-07-05 | 1779-07-05 |
8138WF | WESCO | P 2020 | 1878-08-21 | 1878-08-21 |
AR3435 | MERCEDES-BENZ | 240 GD STATIONWAGEN 2400 | 2011-12-19 | 1885-06-30 |
WD86DG | HOBBY | 400 C | 1889-07-17 | 1889-07-17 |
AM0998 | DE DION BOUTON | TRICYCLE | 2006-04-10 | 1898-06-30 |
AR4048 | PEUGEOT | TYPE 14 | 2012-04-26 | 1898-06-30 |
AM0909 | CLEMENT-DION | QUADRA CYCLE | 2006-03-28 | 1899-06-30 |
AM8244 | RENAULT | C | 2009-06-29 | 1900-06-30 |
RZ20RZ | PORSCHE | 911 SC COUPE | 1979-03-09 | 1900-06-30 |
SZ57PL | BMW | M3 | 1988-04-18 | 1900-06-30 |
ZZ1764 | GEORGES/RICHARD | 1 | 1973-04-25 | 1900-06-30 |
ZZ1937 | MILLOT | — | 1974-07-05 | 1900-06-30 |
ZZ2277 | LAURIN & KLEMENT | BZ | 1976-07-05 | 1900-06-30 |
Pas de nummer 5, 6 en 7 denk ik dat echt oude voertuigen zijn. De BMW M3 en Porsche 911 vind ik ook wel mooie klassiekers 😉
Een andere populair lijstje, is het lijstje duurste auto’s van Nederland. Hierbij moet ik wel 1 van de mitsen en maren van het veld Catalogusprijs vertellen. Dit veld wordt pas sinds 1-1-2010 geregistreerd in de RDW bestanden.
De top15 duurste auto’s op basis van veld Consumentenprijs:
Kenteken | Merk | Handelsbenaming | Catalogusprijs | BPM |
45ZGZB | MERCEDES-BENZ | B 200 CDI | 5536914 | 15371 |
4VVR55 | VOLKSWAGEN | CRAFTER | 4643729 | 11379 |
72PZV1 | LAND ROVER | DISCOVERY 4 | 1010104 | 26363 |
40RXS1 | VOLKSWAGEN | TOUAREG | 1004300 | 39926 |
70PXK4 | BMW | 528I | 871417 | 12626 |
80XFF9 | MAYBACH | MAYBACH 62 S | 772449 | 101033 |
38PGD3 | MAYBACH | MAYBACH 57 S | 633872 | 145723 |
87PRR5 | MERCEDES-BENZ | E 200 CDI | 633420 | 6880 |
25TJG3 | MAYBACH | MAYBACH 57 S | 616683 | 113651 |
13RDR3 | AUDI | AUDI A5 CABRIOLET | 600329 | 9723 |
55SBN9 | MAYBACH | MAYBACH 57 S | 593711 | 108986 |
26RDR5 | PORSCHE | CARRERA GT | 544625 | 175267 |
22KTB8 | MERCEDES-BENZ | S 600 | 536282 | 56588 |
37KXZ3 | MERCEDES-BENZ | S 600 | 536282 | 56588 |
69PSZ2 | MERCEDES-BENZ | SLR | 516110 | 121387 |
Een zelfde soort lijstje kan je ook basis van BPM-bedrag maken. Ik heb al eerder zo’n lijstje gemaakt. Dit is een nieuwe versie daarvan:
Kenteken | Merk | Handelsbenaming | BPM |
97RPLB | OPEL | GM 200-GME | 934502 |
00HTK8 | BMW | 323I | 810907 |
62RRX4 | BMW | 730IA | 810202 |
03XHGS | RENAULT | MEGANE SCENIC; 1.6 16V | 670431 |
03XXHB | AUDI | AUDI A3 | 654911 |
86VHL4 | MERCEDES-BENZ | VITO 115 CDI | 619463 |
81HRX4 | MERCEDES-BENZ | A 150; COUPE | 574233 |
06RLXG | PEUGEOT | 206; CC 1.6 16V AUT. | 556703 |
07KPT8 | PEUGEOT | 307; 2.0 16V AUT. 5DRS | 546226 |
45HXHS | FORD | MONDEO; 1.8I 81KW WAGON | 519355 |
58PDJN | JEEP | WRANGLER | 518900 |
44SXXB | OPEL | X01MONOCAB | 506127 |
86XLJH | BUGATTI | BUGATTI VEYRON 16.4 | 497920 |
96LJF4 | CITROEN | CITROEN C1 | 470710 |
88XBBK | BUGATTI | BUGATTI VEYRON 16.4 | 451000 |
De detailresultaten van queries kunnen jullie allemaal hier inzien: dataset-rdw-opendata
Eerste conclusies
Het openstellen van RDW dataset is mooie manier om breder publiek te laten spelen met deze data. Net zoals elk andere database heeft ook deze dataset zijn nukken en grillen. Hierdoor is m.i. de dataset prima te gebruiken voor huis,tuin en keuken toepassingen, maar valt te bezien of deze data 1-op-1 in kan stromen in bedrijfskritische toepassingen. Daarbij dient ook rekening gehouden te worden met de geldende restricties. Een succesvolle toepassingen kan bijvoorbeeld erg veel last hebben van de beperking van aantal transacties, maar bijvoorbeeld ook van de onzekerheid hoe deze proef volgend jaar vervolg gaat krijgen.
RDW Open data zie ik daarom niet als een bedreiging voor de huidige datapropositie van VWE. Het stilt een honger naar data voor een bepaalde groep, maar zal ook een honger naar meer data geven voor een andere groep. Laat VWE juist voor die groep de juiste toepassingen hebben.
Daarom kom ik ook graag met alle deelnemers van de prijsvraag van RDW in contact om te bekijken of wij hun toepassing verder kunnen verrijken, adopteren of ondersteunen.
Handig zo’n datum eerste toelating in 1900. Hoef je ook niet naar de APK!
Zelf heb ik even in de Mazda’s zitten spitten, de oudste twee hadden een datum zowel eerste toelating als eerste afgifte NL van 27-08-1912 (11-VM-57) en 31-03-1947 (45-PV-87). Beide 323’s zoals geleverd in de jaren ’70 (waar de kentekens ook wel op wijzen). Juist ja…
Een mercedes b200 van 5,5 miljoen en een VW crafter van 4,5 miljoen ?! Zijn die bekleed met diamantjes en goud ?
eenduidig merk en type zou erg fijn zijn, maar daar kan de vwe dataservice weer uitkomst bieden