Data Doneren: Alleen samen bouwen we GPT-NL

 – Nieuwsbericht van GPT-NL –

Iedereen kan een waardevolle bijdrage leveren door het doneren van data. Ja, echt iedereen. Want voor het trainen van GPT-NL is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken.

5 criteria voor een eerlijke dataset

De training van GPT-NL doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. We kijken daarom naar de volgende 5 criteria:

  • Bescherming van intellectueel eigendom
    We gebruiken alleen inhoud voor het trainen van GPT-NL als de dataverstrekker de juiste rechten heeft om ons een licentie te verlenen voor het gebruik van de data. Dit betekent dat de dataverstrekker de eigenaar moet zijn van eventuele auteursrechten of databaserechten in de dataset, of geldige licentierechten moet hebben gekregen van de eigenaar.
  • Bescherming van persoonsgegevens
    We zoeken naar datasets waar geen persoonlijke data in zit, of waarin deze zijn verwijderd of geanonimiseerd volgens EU-wetgeving.
  • Uitsluiten van informatie onder vertrouwelijkheidseisen
    We trainen GPT-NL niet op informatie die onderworpen is aan wettelijke of contractuele vertrouwelijkheidseisen, zoals informatie onder patiëntengeheim of bedrijfsvertrouwelijke gegevens.
  • Uitsluiten van schadelijke inhoud
    We trainen GPT-NL niet op enige schadelijke inhoud, zoals gewelddadige of criminele inhoud, discriminerende inhoud of haatzaaiende uitlatingen.
  • Vermijden van duplicaties in de dataset
    We willen duplicaties zoveel mogelijk vermijden, om letterlijke memorisatie door GPT-NL te voorkomen, of om te voorkomen dat GPT-NL voorkeuren ontwikkelt op basis van dergelijke duplicaties. Om deze reden streven we ernaar datasets van de oorspronkelijke bron te verkrijgen.

Data Doneren

We hebben een reeks hulpmiddelen beschikbaar die kunnen worden gebruikt om datasets te filteren van persoonlijke informatie of schadelijke inhoud. Daarnaast bieden we ook on-site assistentie voor het gebruik van deze hulpmiddelen. U kunt in het formulier aangeven wat uw vragen zijn en/of u deze hulpmiddelen wilt inzetten.

Een sterk ecosysteem

Samen met partners willen wij een sterk en waardevol ecosysteem bouwen rond GPT-NL. We komen graag in contact met partners die daar aan willen bijdragen, met data, kennis of partners die toepassingen willen ontwikkelen op basis van GPT-NL.

Scroll naar boven