Beter half werk leveren dan niets doen!

Afgelopen jaar heb ik verschillende presentaties mogen houden over het project. De vraag van een erfgoedinstelling was daarbij vaak: “Ik wil ook mijn data op deze manier beschikbaar stellen! Maar waar moet ik beginnen!?”.

Om een antwoord te geven op die vraag heb ik negen activiteiten op een rijtje gezet, gecategoriseerd in drie groepen. Ze komen terug in deze presentatie die ik voor het eerst gaf voor de leden van AdamNet in april 2018. In deze blog leg ik ze kort uit.

Voordat ik dat doe nog het volgende. Als je één van de activiteiten doet, is dat al beter dan helemaal niets. Vaak is het ook zo dat iets half kunt doen, bijvoorbeeld voor maar een deel van je collectie. Zo zijn we natuurlijk niet opgevoed. We willen het graag helemaal goed doen, maar bij het beschrijven van erfgoed zijn we nooit klaar. Er zijn altijd aanvullingen en verbeteringen te verzinnen. Dat geldt ook voor het verbeteren van je metadata om deze geschikt te maken voor publicatie als Linked Open Data (LOD). Enthousiast? Google de termen die je niet begrijpt: er is allerlei uitleg beschikbaar.

Leg rechten vast. We kunnen alleen data gebruiken waarvan duidelijk is dat er voor het gebruik geen juridische belemmeringen zijn (denk aan auteursrecht, openbaarheidsbeperkingen of privacywetgeving). Leg daarom bij objecten vast welke rechten er gelden. Als je het niet van alle objecten weet: ook goed, dan beperken we de publicatie straks tot de objecten waarvan we zeker weten dat het mag.

Introduceer URI’s. Elk object moet op het internet zijn te identificeren door een uniek webadres, dat bovendien voor altijd zal blijven werken. De uitspraken over het object (“deze ets is gemaakt door Rembrandt”) zijn aan deze zogenaamde uniform resource identifier (URI) te relateren. Een Persistent Identifier (PID) kan meestal als URI worden gebruikt.

Link de data. Je beschrijft een object door daarover uitspraken te doen: bv. “deze ets is gemaakt door Rembrandt”. In plaats van de tekst “Rembrandt” te linken, kun je beter Rembrandt kiezen uit een lijst van standaardnamen. Deze standaardnamen kunnen net als de objecten worden geidentificeerd met een URI. Dit geldt behalve voor personen ook voor bijvoorbeeld plaatsnamen en objectsoorten.

Zet de dataset online. Volgende stap hoeft niet moeilijk te zijn. Sla je data uit je database op in een bestand en zet dit bestand op je website. Iemand die op je website op het bestand klikt kan deze dan downloaden en gebruiken. Natuurlijk is het ene bestandsformaat handiger dan het andere, maar elk formaat is beter dan niets online zetten.

Zet de dataset online in RDF-formaat. Als je URI’s beschikbaar hebt en je data hebt gelinkt, kun je er voor kiezen om de data aan te bieden in een vorm van Resource Description Framework (RDF). Elke uitspraak over je object (bv. “Deze ets is gemaakt door Rembrandt”) is dan vertaald naar “triples”. Nu heb je Linked Open Data gepubliceerd!

De moeder van Rembrandt

Publiceer de data per object. Soms wil een gebruiker niet een volledige dataset met al je objecten en wil hij alleen iets weten over die ene ets. In dat geval moet je het in de website mogelijk maken om alleen die data te leveren via de URI van dat ene object. Er is dan sprake van een resolvable URI.

Bied een synchronisatie-mechanisme. Een gebruiker die je data regelmatig downloadt, wil na de eerste keer misschien alleen maar alle wijzigingen weten. Een synchronisatie-protocol zoals OAI-PMH of Resource Sync maakt dit mogelijk.

Bied een API. Een Application Programming Interface maakt het mogelijk dat een gebruiker een deel van de data opvraagt. Een API levert meestal data aan in JSON-formaat.

Bied een SPARQL-endpoint. Op een SPARQL-endpoint kan een gebruiker vragen aan de data stellen op alle manieren die hij of zij kan bedenken. Het is speciaal bedoeld voor Linked Open Data.

De laatste vier paragrafen zijn heel technisch. Dit is niet de plaats om daar verder op in te gaan. Laat je daar vooral niet door afschrikken. Het verbeteren van de data is een belangrijke stap in het beschikbaar maken van LOD en is belangrijker dan de realisatie van de techniek. En met data verbeteren kan iedereen beginnen. Actie!