Interview met Jelle Teijema over ASReview

ASReview is ontwikkeld door de Universiteit van Utrecht, als tool voor het screenen van bibliografische referenties met behulp van kunstmatige intelligentie. Het is, samen met andere tools zoals bijvoorbeeld Abstracker en Rayyan, een antwoord op het groeiend aantal publicaties, waarvan de referenties worden opgenomen in bibliografische databases zoals PubMed, Embase, Web of Science etc.
In dit interview komt Jelle Teijema, promovendus bij het ASReview team aan het woord.

Wat is jouw achtergrond?

Ik ben een PhD op het gebied van Applied Data Science en AI. Ik hou me bezig met machine learning, open science, reproducibility en accountability in AI, en werk met de modellen die in de kern van ASReview draaien.

Hoe is het idee van ASReview ontstaan?

De hoeveelheid gepubliceerde wetenschappelijke artikelen groeit vrijwel exponentieel, zoals jullie bekend zal zijn. ASReview is ontstaan vanuit de behoefte om deze stroom aan informatie te kunnen verwerken. De tijd die kan worden besteed aan een literatuurstudie is immers niet eindeloos uit te breiden, laat staan exponentieel. Met het gebruik van computational resources en AI als ondersteuning voor menselijke taken kan een onderzoeker aanzienlijk efficiënter te werk gaan. Het resultaat is dat systematische reviews weer jaren vooruit kunnen, mogelijk zelfs tot de exponentiële groei enigszins afvlakt.

Er wordt vaak gesteld dat er veel nieuwe studies zijn die erg kleine onderzoeksvragen behandelen zonder een overkoepelend verhaal, en dus nauwelijks publicatiewaarde hebben. Dat zie ik anders. Juist doordat dit soort studies nu beter vindbaar en combineerbaar zijn, kunnen ze samen een groter verhaal vormen binnen een systematische review. Zonder (AI) hulpmiddelen zou het verwerken van deze kennis veel langer duren, wat de voortgang van de wetenschap vertraagt. ASReview is een van de tools die dit proces versnelt.

Kun je heel globaal de werking van ASReview als AI-tool uitleggen?

ASReview ondersteunt menselijke experts bij het screenen van documenten voor systematische reviews. De tool maakt gebruik van AI om op basis van eerder gegeven labels te voorspellen in welke volgorde artikelen het best beoordeeld kunnen worden. Door de meest relevante artikelen vroeg aan te bieden, hoeft een onderzoeker niet alle documenten handmatig door te nemen. In veel gevallen zijn de belangrijkste publicaties al gevonden na het screenen van slechts een deel van de totale set.

Waarin onderscheidt ASReview zich van andere screeningstools zoals Abstracker, Rayyan en andere?

ASReview is volledig open source en vrij beschikbaar. De broncode is publiek toegankelijk en de software is gratis te gebruiken, in zijn volledigheid, nu en voor altijd. Daarnaast is ASReview ontwikkeld vanuit het perspectief van de onderzoeker: alle AI-beslissingen zijn reproduceerbaar, en de software is eenvoudig aanpasbaar. Voor wie een eigen AI-model wil implementeren, zijn er uitgebreide documentatie en open extensie-API’s beschikbaar.

Een van de grootste vraagstukken bij het screenen van bibliografische referenties met behulp van kunstmatige intelligentie is:
wanneer is het genoeg geweest, of anders gezegd, wanneer kun je stoppen met screenen? Welke stopregel kan er gehanteerd worden en hoe weet je zeker dat je geen relevante referenties gemist hebt?

In praktische zin is het antwoord: zodra alle relevante documenten zijn gevonden. Maar wat als ‘relevant’ wordt beschouwd is echter minder objectief je zou verwachten. Relevantie wordt bepaald door de expert, op basis van diens interpretatie van de inclusie- en exclusiecriteria. Er is geen universele grens.

Bovendien blijkt uit onderzoek dat ook bij handmatige screening relevante publicaties over het hoofd worden gezien, onder andere door screening fatigue. De kans op gemiste documenten is daarmee geen exclusief risico van AI-gebruik, maar een algemeen probleem binnen systematische reviews. Er bestaat geen dataset waarin met volledige zekerheid onderscheid kan worden gemaakt tussen relevante en irrelevante documenten, en ik zou stellen dat het niet mogelijk is om met zekerheid te zeggen dat geen relevante documenten gemist zijn.

Bij de inzet van AI wordt meestal verwacht dat de combinatie van mens en AI aantoonbaar beter presteert dan de mens alleen. Denk aan de discussie rond zelfrijdende auto’s: hoewel deze in veel gevallen al veiliger rijden dan menselijke bestuurders (88% minder schadeclaims, https://arxiv.org/abs/2312.12675 ), blijft brede acceptatie uit zolang ze niet veel veiliger rijden én zolang onduidelijk is wie aansprakelijk is bij fouten. Diezelfde logica zien we bij AI in wetenschappelijk werk. De drempel van ‘beter dan de mens alleen’ wordt met ASReview doorgaans snel gehaald, maar acceptatie vraagt soms méér dan alleen prestatie. Ook daarom focust ASReview niet alleen op performance, maar ook op reproduceerbaarheid en daarmee accountability.

…dat gezegd hebbende, als je me toch dwingt een praktische vuistregel te geven: wanneer je ongeveer 5% van de documenten achter elkaar kan screenen zonder dat een relevant artikel wordt gevonden, kan je met hoge mate van zekerheid aannemen dat de belangrijkste documenten al zijn geïdentificeerd.

Voor wie zich verder wil verdiepen in het onderwerp van stopregels is het artikel van Bron et al. (2025) een excellente bron: Using Chao’s estimator as a stopping criterion for technology-assisted review, gepubliceerd in ACM Transactions on Information Systems, 43(3), 1–51.

Onlangs is ASReview 2.0 uitgekomen. Wat zijn de meest wezenlijke verschillen met de eerdere versie?

Er is veel tijd en energie gestoken in het optimaliseren van de volledige workflow van begint tot eind. De gebruikersinterface is volledig opnieuw ontworpen, met focus op een toegankelijke en efficiënte gebruikerservaring. Aan de achterkant zijn zowel de API als de onderliggende AI-modellen verbeterd. Deze modellen zijn geoptimaliseerd op basis van ontelbare simulaties en systematische evaluatie van modelvarianten. We hebben de best functionerende modellen uitgezocht en samengepakt tot gebruikersvriendelijke modelpakketten met unieke eigenschappen (lightweight, heavy compute, multilingual).

Waar eerdere versies nog een prototype-achtig karakter hadden, is ASReview 2.0 een volwassen AI-softwarepakket.

In tegenstelling tot de eerdere versies van ASReview, is het in ASReview 2.0 niet meer noodzakelijk om een specifiek model te kiezen voor het draaien van een Active Learning Model of een Deep Learning Model. Deze zijn al ingebouwd en feitelijk hoef je alleen nog te kiezen tussen een Ultra-model en een Heavy-work-model. In hoeverre is het nog van belang dat informatiespecialisten die onderzoekers adviseren bij het screeningsproces van grote literatuurdatasets op de hoogte zijn van de achtergrond van de modellen? Het is immers, naast de Ultra-modellen en de Heavy-work-modellen, nog steeds mogelijk zelf de modellen samen te stellen.

(Op de website van ASReview wordt ook nog een overzicht gegeven van de werking van de Feature Extractor, de Classifier etc. https://asreview.nl/blog/asreview-model-selection-guide/)

Ha, dat is een vraag die goed aansluit op eerdere opmerkingen. In de wetenschap is accountability een essentieel onderdeel van acceptatie en integratie van AI. Als gebruiker ben je de eindverantwoordelijke voor de keuzes die binnen het project worden gemaakt, ook wanneer die voortkomen uit de software of het model. Ik zou stellen dat het begrijpen van de modellen die je gebruikt fundamenteel is in de accountability van het gebruik er van. Dit, natuurlijk samen met transparante documentatie van het AI-gebruik en het reproduceerbaar beschikbaar maken van data en projectbestanden.

Daarnaast helpt kennis van de modellen bij het beoordelen of de standaardopties, zoals het Ultra-model of het Heavy-work-model, passend zijn voor de dataset. Het doorvoeren van die standaardisering vereiste ons een generalisatie over gebruikers en hun datasets. Maar iedere dataset heeft eigen kenmerken, en als expert op het gebied weet jij beter dan wie dan ook hoe de dataset in elkaar steekt. Informatiespecialisten beschikken over domeinkennis die in combinatie met modelinzicht super waardevol kan zijn voor de AI. En ook dat komt de accountability weer ten goede.

Voor de toekomst: Verwacht je dat het screeningsproces zal worden voortgezet aan de hand van relevance ranking tools, of dat meer in de vorm van LLM’s zal gebeuren?

Ik grijp terug naar het begin van het interview: de hoeveelheid wetenschappelijke studies groeit momenteel exponentieel, en niemand weet waar dat eindigt. Tools zoals ASReview vergroten de capaciteit van onderzoekers aanzienlijk, maar uiteindelijk blijft er altijd een menselijk element nodig dat niet schaalbaar is. Als de groei zich in dit tempo blijft doorzetten, kan het zijn dat zelfs dat laatste menselijke element vervangen moet worden door een schaalbare oplossing. Maar dat is hoog speculatief. Persoonlijk hoop ik dat we een middenweg vinden waarin de mens als expert centraal blijft staan. We’ll see.