zoek de verschillen

Het Gemeentemuseum Den Haag heeft de afgelopen jaren samengewerkt met een groep onderzoekers van de Universiteit van Amsterdam (UvA) in het kader van het zgn. Catch project. Catch staat voor Continous Access to Cultural Heritage en is een initiatief van het NWO (Nederlandse Organisatie voor Wetenschappelijk Onderzoek). In het project van de UvA en het Gemeentemuseum stond het zoeken in erfgoeddata centraal. Gedurende het project hebben de medewerkers vaak moeten uitleggen waarom het nodig is om onderzoek te doen naar zoekmethodieken als iedereen alles al kan vinden met Google. Weinigen realiseren zich dat Google slechts zoekt in een deel van alle beschikbare informatie en bovendien ongeschikt is voor vragen die een heel precies en uitputtend antwoord behoeven.

Veel van de informatie die een erfgoedinstelling als het Gemeentemuseum verzamelt wordt niet vanzelfsprekend door Google gevonden en ontsloten. Het zijn gegevens over bijvoorbeeld kunstwerken, bibliotheekboeken en tentoonstellingen die heel gestructureerd zijn opgeslagen in specialistische databases. Om de juiste informatie te kunnen vinden gebruiken dergelijke informatiesystemen eigen zoekformulieren, waarbij de juiste term in het relevante zoekveld (bijvoorbeeld materiaal, auteur of begindatum) moet worden ingevoerd om het gewenste resultaat te verkrijgen. Een methodiek die alleen 100% werkt als alle informatie in de juiste vorm op de juiste plek is opgeslagen. Elk instituut met een database van enige omvang kent echter de dagelijkse praktijk die haaks staat op het streven naar een gestructureerde verzameling van “schone” gegevens. Zo doet zich bijvoorbeeld het verschijnsel voor waarbij voortschrijdend inzicht leidt tot een verandering van de beschrijvingsmethodiek. Een deel van de informatie is al wel en een deel nog niet op de nieuwe manier beschreven en er moet dus op twee verschillende plekken naar relevant materiaal worden gezocht. Een situatie die doorgaans niet eenvoudig op te lossen blijkt omdat tijd en geld ontbreekt om met terugwerkende kracht alle oude beschrijvingen aan te passen aan de nieuwe opvatting.

In het Catchproject Multiple Search Using Metadata (MuSeUM) stond de vraag centraal op welke manier er het beste gezocht kan worden in dergelijke “vervuilde” databases. Er werd gewerkt met een eenmalige dump van metadata uit drie verschillende databases van het Gemeentemuseum en een verzameling integrale digitale documenten uit het lopende archief. Deze testset is gebruikt voor een reeks experimenten waarin verschillende zoekmethodieken werden vergeleken op de hoeveelheid treffers en de relevantie van het gevonden materiaal. Startpunt van het onderzoek was de vraag wat er zou gebeuren als we alle structuur uit de databases zouden negeren en een google-achtige zoekmachine zouden loslaten op deze brij van onsamenhangende tekst. Vervolgens werd onderzocht welke elementen uit de databasestructuur een positief effect hadden op de omvang en relevantie van het zoekresultaat. Wat gebeurde er bijvoorbeeld als je het veld waarin de term werd gevonden bij het zoeken meewoog? Was het nuttig om gebruik te maken van de onderlinge relaties tussen records in de verschillende databases? Als de gezochte term T voorkomt in document D en er vanuit D verwezen wordt naar object O kan je veronderstellen dat O mogelijkerwijs ook een relatie heeft met T.

De verwachting vooraf was dat de ongestructureerde benadering een betrekkelijk slecht resultaat op zou leveren en met name onvoldoende zou werken bij zoekvragen van specialistische gebruikers. Voor deze gebruikers zou de traditionele gestructureerde zoekmethodiek onmisbaar blijken. In de praktijk bleek echter dat de grove benadering al een betrekkelijk hoogwaardig resultaat opleverde en het zoeken met traditionele zoekformulieren weliswaar minder ruis bevatte, maar ook relevante items over het hoofd zag. Bijvoorbeeld omdat de gewenste zoekterm niet precies in het juiste veld stond of de ingevoerde naam niet de juiste woordvolgorde had. Bovendien bleek uit de bestudering van een groot aantal emailvragen dat er geen wezenlijk verschil bestond tussen specialistische gebruikers en doorsnee gebruikers. Zowel de complexiteit van de vragen als de aanwezige kennis over het onderwerp bleek in grote mate overeen te komen. De veronderstelling dat leken tevreden zouden zijn met het resultaat van de grove zoekmethodiek omdat hun vragen eenvoudiger waren bleek niet juist.

Eindconclusie van het project is dat voor alle gebruikers het beste resultaat bereikt wordt met een combinatie van beide zoekmethodieken. Zoek bijvoorbeeld op een term in een specifiek veld, maar toon ook het resultaat van dezelfde zoekopdracht in alle beschikbare tekst. Neem vervolgens in de presentatie van het resultaat van een zoekactie ook de items mee die indirect (via een linkverwijzing) zijn gevonden. Op die manier maak je gebruik van de betekenisvolle structuur die in databases is aangebracht én het feit dat je zoekterm op onverwachte plekken en in afwijkende vorm kan voorkomen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *