De Europese Commissie heeft een officieel template gepubliceerd waarmee modelproviders een publieksvriendelijke samenvatting van hun trainingscontent moeten publiceren. Dit is geen vrijblijvende exercitie, maar de enige toegestane vorm om aan de transparantieverplichting voor general-purpose AI modellen te voldoen.
Kritieke deadline: Het template hoort bij het pakket voor GPAI dat op 2 augustus 2025 in werking is getreden, samen met de richtsnoeren voor de reikwijdte en de Code of Practice. Voor bestaande modellen loopt een overgangstermijn tot 2 augustus 2027.
Wat is het en waarom nu
De AI Act verplicht aanbieders van general-purpose AI modellen om een openbaar overzicht te publiceren van de content die is gebruikt om het model te trainen. De Commissie heeft hiervoor op 24 juli 2025 een template plus toelichtende notitie gepubliceerd. Het doel is transparantie bevorderen, zodat belanghebbenden zoals rechthebbenden hun rechten effectief kunnen uitoefenen.
Het template zorgt voor uniformiteit, minder interpretatieruimte en betere vergelijkbaarheid tussen modellen. De richtsnoeren voor GPAI verduidelijken intussen wie precies onder deze verplichtingen valt, wat "op de markt brengen" betekent, hoe om te gaan met wijzigingen en wanneer een actor die een bestaand model aanpast zelf provider wordt. Ze plaatsen het template dus in een bredere context van governance en verantwoordelijkheid.
Voor wie geldt dit en wanneer
Toepassingsgebied en deadlines
De plicht geldt voor alle providers van general-purpose AI modellen die op de EU-markt worden aangeboden, inclusief modellen die onder een vrije of open-sourcelicentie beschikbaar zijn. De samenvatting moet uiterlijk beschikbaar zijn op het moment dat het model op de markt wordt gebracht.
Voor modellen die al vóór 2 augustus 2025 op de markt stonden, loopt een overgangstermijn tot 2 augustus 2027. Daarnaast geldt een actualisatieplicht: werk de samenvatting minimaal halfjaarlijks bij of eerder als de nieuwe trainingsdata daar aanleiding toe geeft.
Niet publiceren kan vanaf 2 augustus 2026 leiden tot handhaving en boetes tot 3% van de wereldwijde omzet of 15 miljoen euro, afhankelijk van wat hoger is. De FAQ van de Commissie bevestigt ook een redelijkheidstoets. Kun je bepaalde informatie ondanks aantoonbare inspanning niet meer achterhalen of is ophalen disproportioneel, dan moet je die leemte expliciet vermelden en motiveren in de publicatie.
Wat moet erin komen te staan
Het template verdeelt de informatie in drie hoofddelen. Elk deel heeft verplichte elementen en ruimte voor optionele toelichting.
Algemene informatie
Het eerste onderdeel vereist dat je de provider en het model identificeert. Je geeft per modaliteit aan welke typen content zijn gebruikt, bijvoorbeeld tekst, beeld, audio of video, en schetst algemene kenmerken van de dataset. Ook omvang per modaliteit binnen bandbreedtes hoort hierbij. Dit biedt lezers een eerste overzicht van wat het model heeft gezien tijdens training.
Lijst van datasources
Brontype | Vereist detailniveau | Specifieke eisen |
---|---|---|
Web-scrapes | Hoog | Crawler-namen, periode, top 10% domeinen |
Publieke datasets | Gemiddeld | Dataset-naam, beheerder, licentie |
Private datasets | Laag | Algemene beschrijving |
Gebruikersdata | Gemiddeld | Modaliteit, product/dienst, opt-in proces |
Synthetische data | Laag | Generatiemethode, bronmodel |
Het template maakt onderscheid tussen verschillende typen bronnen en schrijft voor ieder type een ander detailniveau voor. Voor web-scrapes moet je bijvoorbeeld de gebruikte crawler(s) noemen, de periode van verzamelen, een inhoudelijke beschrijving van wat is gescrapet en een lijst van de top 10% domeinen waar vandaan is gescrapet. Voor mkb geldt top 5% of maximaal 1000 domeinen, afhankelijk van wat lager uitkomt.
Je publiceert ook een overzicht van grote publiek beschikbare datasets met relevante licenties. Voor gebruikersdata moet je duidelijk maken of gebruikersinteracties met je diensten zijn gebruikt voor training, welke modaliteiten dat betreft en voor welke producten of diensten dat geldt.
Relevante aspecten van dataverwerking
Het derde hoofdstuk beschrijft punten die belanghebbenden nodig hebben om rechten te kunnen uitoefenen. Denk aan hoe je met auteursrecht bent omgegaan, hoe je onrechtmatige content hebt opgeschoond of verwijderd, en andere verwerkingen die voor de rechtsuitoefening belangrijk zijn.
Balans tussen transparantie en bedrijfsgeheimen: De Commissie benadrukt dat dit alles is bedoeld om transparantie te bieden, binnen grenzen die bedrijfsgeheimen respecteren. Het vereiste detail verschilt bewust per bron, zodat je geen gevoelige knowhow hoeft prijs te geven maar wel bruikbare informatie publiceert.
Wat je niet hoeft te publiceren
Het template vraagt geen volledige dump van je trainingscorpus. Je hoeft geen individuele documenten of exacte datapunten te onthullen en je hoeft geen persoonsgegevens openbaar te maken. De verdere details over verwerking van persoonsgegevens horen in je privacyverklaring.
Ook zijn er grenzen aan reconstrueerbaarheid. Informatie die feitelijk niet meer te achterhalen is, hoef je niet tegen elke prijs te reproduceren. Je motiveert dan waarom deze gegevens ontbreken en welke inspanningen je hebt ondernomen om ze alsnog te verzamelen.
Hoe je dit in korte tijd goed regelt
De onderstaande aanpak werkt bij organisaties die met meerdere modellen, bronnen en teams werken. Het is geen papieroefening. Het dwingt tot een interne inventarisatie die je governance sterker maakt en je positie richting rechthebbenden en toezichthouders verbetert.
Organisatie en verantwoordelijkheden
Wijs een eigenaar aan die inhoud, juridische toets en publicatie coördineert. Leg afstemming vast met Legal, Privacy, Security en Communicatie. Dit voorkomt inconsistenties tussen je website, je modelkaart en je technische documentatie. Een duidelijke eigenaar zorgt ervoor dat het template niet tussen verschillende afdelingen valt en dat er een consistent verhaal ontstaat.
Databronnen inventariseren
Praktische mapping van databronnen
Map je data-bronnen direct op de categorieën van het template: publiek, privaat, web-scrape, user-data, synthetic. Koppel per bron de volgende informatie:
- Modaliteit (tekst, beeld, audio, video)
- Verzamelperiode en -frequentie
- Selectie- of filteringregels die zijn toegepast
- Licentie-status en herkomstbepaling
- Voor web-scrapes: crawler-namen en crawlfensters
- Voor publiek beschikbare datasets: dataset-namen en licentievoorwaarden
Domeinselectie automatiseren
Zorg dat je scraping-pipeline per modelversie een domeinfrequentie kan uitspugen. Leg vast hoe je "top 10%" bepaalt en bewaar de volledige top-lijst intern. Voor mkb pas je de lagere drempel of 1000 cap toe. Dit maakt updates halfjaarlijks uitvoerbaar zonder elke keer opnieuw alle data te moeten analyseren.
Copyright en compliance documenteren
Beschrijf beknopt hoe je aan de TDM-regels voldoet en hoe je met opt-outs omgaat. Verwijs naar je copyright-policy en leg uit hoe je illegale content verwijdert. Dit sluit aan bij wat de Commissie van providers verwacht en wat ook in de GPAI Code of Practice terugkomt. Een heldere uiteenzetting van je complianceproces versterkt het vertrouwen bij rechthebbenden en toezichthouders.
Publicatie en versiebeheer
Publicatie hoort zichtbaar te staan op je eigen website en naast de distributiekanalen waar het model beschikbaar is. Houd versienummers en datums synchroon met je modelreleases en voeg een korte changelog toe bij updates. Plan een vast update-moment elke zes maanden. Koppel dit aan je retrain- of fine-tune-momenten. Werk je model doorlopend bij, dan pak je de samenvatting eerder op. Leg het updateproces vast in je QMS, ook met het oog op post-market monitoring.
Veelgemaakte fouten en hoe je ze voorkomt
Te technisch of te vaag schrijven
Een te technische opsomming helpt de doelgroep niet. Te vage taal roept vragen op bij rechthebbenden. Schrijf concreet, met herkenbare categorieën en bronvoorbeelden per modaliteit, maar zonder zendingsdrang. Het doel is informatieverschaffing, niet het imponeren met technische details.
Datasilo's die niet met elkaar praten
Zonder datacatalogus en bronlabels die aansluiten op het template verzand je snel. Begin met de mapping op de vijf brontypen en werk terug naar de teams. Organisaties die hun data niet goed georganiseerd hebben, lopen vast in de inventarisatiefase.
Web-scrapes zonder herkomstadministratie
Als crawler-namen en periodes niet zijn gelogd, wordt de top-10%-lijst een giswerk. Borg in je data-engineering dat deze metadata standaard worden vastgelegd. Zonder proper logging wordt compliance retroactief onmogelijk.
Geen verhaal bij gebruikersdata
Zeggen dat je "gebruikersdata" gebruikt zonder duiding van modaliteit, product of dienst werkt averechts. Lever het kader: waar komt het vandaan, in welke vorm, en hoe borg je privacy. Transparantie betekent dat gebruikers begrijpen wat er met hun data gebeurt.
Publiceren op één plek en updates vergeten
De verplichting ziet op je website én op je distributiekanalen. Bovendien moet je halfjaarlijks actualiseren. Automatiseer dit in je release-proces zodat updates niet worden vergeten wanneer je druk bezig bent met nieuwe ontwikkelingen.
Voorbeeldparagrafen voor verschillende broncategorieën
Model en modaliteiten
Orion-2 is een multimodaal taalmodel dat is getraind op tekst, beeld en audio. De totale trainingsomvang per modaliteit valt binnen de bandbreedtes die zijn gespecificeerd in het template van de Europese Commissie. Het model is ontworpen voor diverse toepassingen in natuurlijke taalverwerking en multimodale analyse.
Publiek beschikbare datasets: Wij hebben grote publiek beschikbare corpora gebruikt voor de basistraining van het model. Bij iedere dataset vermelden we naam, beheerder en licentie voor volledige transparantie. Voorbeelden hiervan zijn dataset A onder licentie X, beheerd door organisatie Y, en dataset B onder licentie Z.
Web-scrapes: Scraping vond plaats in vier vensters tussen januari-april 2024 en augustus-oktober 2024. Gebruikte crawlers waren AlphaCrawler versie 1.2 en WebSift versie 0.9. De top-10% domeinen waar het meeste content vandaan komt, staat onderaan deze pagina vermeld met bijbehorende percentages.
Gebruikersdata: Interacties met onze chatdienst, uitsluitend tekstuele input, zijn gebruikt na expliciete opt-in van gebruikers. Dit betreft prompt-data die na filtering en anonimisering is gebruikt voor verdere training. Verdere informatie over de verwerking van persoonsgegevens staat in de privacyverklaring van de chatdienst.
Auteursrecht en verwijderingen: We respecteren de TDM-regels uit de DSM-richtlijn en honoreren machineleesbare opt-outs die zijn gespecificeerd in robots.txt bestanden. Illegale content is opgespoord en verwijderd voorafgaand aan training door middel van geautomatiseerde detectiesystemen en handmatige verificatie. Zie onze copyright-policy voor meer details over deze procedures.
Hoe dit past bij de andere GPAI-instrumenten
De Commissie positioneert de template nadrukkelijk naast de GPAI-richtsnoeren en de Code of Practice. De richtsnoeren leggen uit wie welke verplichtingen heeft en wanneer, inclusief de notificatieplicht voor modellen met systemisch risico. De Code bevat operationele verwachtingen die je helpen om beleid en processen te borgen.
Drieluik van governance: Zie het als een drieluik waarbij de richtsnoeren het speelveld bepalen, de code helpt met werken op niveau, en de template zorgt voor zichtbaarheid en navolgbaarheid richting buitenwereld.
Deze instrumenten versterken elkaar en vormen samen een coherent kader voor GPAI-governance. Organisaties die alle drie serieus nemen, bouwen een stevige basis voor duurzame compliance en stakeholdervertrouwen.
Checklist voor je publicatie
Organisatorische voorbereiding
- Modelleider, Legal en Data Engineering aangehaakt en één eigenaar benoemd
- Duidelijke verantwoordelijkheidsverdeling tussen afdelingen vastgelegd
- Afstemming met Communicatie en Privacy-teams geregeld
Databronnen en content
- Datasources gemapt op de categorieën van het template
- Voor web-scrapes: crawler-naam, periode, contentbeschrijving en top-10% domeinen beschikbaar
- Voor publiek beschikbare datasets: namen en licenties vastgelegd
- User-data helder beschreven, met verwijzing naar privacyverklaring
- Korte copyright-paragraaf over TDM-regels en opt-outs
Publicatie en proces
- Publicatiepagina op eigen site én distributiekanalen voorbereid
- Release- en updateproces ingericht, halfjaarlijkse cyclus geborgd
- Versiebeheer en changelog-functionaliteit geïmplementeerd
- Motiveringsparagraaf klaar voor eventuele onbeschikbare informatie
Met deze checklist voldoe je niet alleen aan de letter van de verplichting, maar versterk je ook je juridische en reputatiestand. De officiële bronnen met het template, de Q&A en de context zijn beschikbaar via de perspublicatie van 24 juli 2025, de uitgebreide FAQ met de concrete invulling en de GPAI-richtsnoeren met de afbakening van rollen en timing.