De grootste oorzaak van problemen met AI-systemen ligt bijna nooit in het model zelf, maar in de data waarmee het getraind is. Artikel 10 van de EU AI Act erkent dat: het stelt strikte eisen aan trainings-, validatie- en testdata voor hoog-risico AI. Voor providers betekent het concreet werk in de ontwikkelfase, voor deployers betekent het uitvragen en controleren.
Wat eist artikel 10 precies?
Artikel 10 lid 1 zegt dat trainings-, validatie- en testdatasets moeten voldoen aan kwaliteitscriteria die in de daaropvolgende leden worden uitgewerkt. Het is geen algemene "doe je best"-bepaling maar een lijst met concrete eisen.
1. Relevantie en representativiteit
Data moet relevant zijn voor het beoogde doel van het systeem en zo veel mogelijk representatief voor de groep mensen op wie het uiteindelijk wordt toegepast. Een fraudemodel dat alleen op data van Nederlandse betalingen is getraind, mag u niet zomaar inzetten op de Duitse markt zonder aanvullende validatie.
2. Accuraatheid en volledigheid
Datasets moeten zo accuraat en volledig zijn als mogelijk gelet op het beoogde doel. Hier komen onmiddellijk lastige afwegingen: labelkwaliteit, ontbrekende waarden, meetfouten. U moet documenteren welke afwegingen u maakt.
3. Statistische eigenschappen
De data moet statistische eigenschappen hebben die geschikt zijn voor de groep op wie het AI-systeem wordt toegepast. Dit is de bias-clausule: als u een CV-screener traint, moet de trainingsdata een redelijk evenwicht hebben tussen mannen, vrouwen, leeftijdsgroepen en, waar relevant, etnische achtergrond.
4. Aandacht voor de specifieke geografische, gedragsmatige of functionele context
Een medische AI getraind op data uit een Amerikaans ziekenhuis zonder Europese validatie? Niet conform. U moet de context van uw deployment-gebied meenemen.
Bias-onderzoek is verplicht, niet optioneel
Artikel 10 lid 2 sub f en g vereisen expliciet dat u onderzoek doet naar mogelijke vooringenomenheid en passende maatregelen neemt om die te detecteren, voorkomen en mitigeren. Dit is geen "best effort" maar een harde verplichting.
Voor een Nederlandse provider van een hoog-risico AI betekent dit minimaal: een bias-rapport per beschermde groep (geslacht, leeftijd, herkomst, beperking) met meetbare uitkomsten. Tools als Fairlearn of IBM AIF360 kunnen daarbij helpen. Bewaar de rapporten als bewijs.
De bijzondere uitzondering voor bias-detectie met gevoelige data
Artikel 10 lid 5 bevat een opmerkelijke uitzondering op de AVG: providers mogen onder strikte voorwaarden bijzondere categorieen persoonsgegevens (gezondheid, ras, religie, seksuele orientatie) verwerken om bias in hun AI te detecteren en te corrigeren. Voorwaarden:
- Bias-detectie is niet effectief mogelijk met andere data.
- Gevoelige data is afgeschermd, met technische beperkingen voor hergebruik en strenge toegangscontroles.
- Data wordt niet doorgegeven of gepubliceerd, en wordt verwijderd zodra bias is verholpen of de bewaarperiode is verstreken.
- Documentatie van de noodzakelijkheid en de getroffen maatregelen.
Dit is een belangrijk privacy-praktisch instrument: u mag testen of uw AI op leeftijd discrimineert, ook al heeft u die data normaal niet. Maar de drempel is hoog.
Data governance-praktijken: zes elementen die u moet documenteren
Artikel 10 lid 2 noemt expliciet de elementen die uw data governance moet omvatten:
Waarom heeft u juist deze datasets gekozen? Welke alternatieven heeft u overwogen?
Waar komt de data vandaan, wie heeft het verzameld, wat was het oorspronkelijke doel?
Annotatie, labeling, cleaning, deduplicatie, augmentatie. Welke transformaties zijn uitgevoerd?
Wat dacht u dat de data representeert? Waarom denkt u dat dit klopt?
Heeft u gecheckt of de data beschikbaar en geschikt is voor het doel voor u ermee begon?
De bias-rapportage en -mitigaties zoals hierboven besproken.
Wat doet u als deployer?
Artikel 10 is vooral een provider-verplichting. Maar als u een hoog-risico AI inkoopt, moet u kunnen aantonen dat u de data governance van uw leverancier heeft geverifieerd. Praktisch:
- Vraag bij contractsluiting een datakaart of model card op die de bovengenoemde elementen dekt.
- Vraag het bias-rapport op en beoordeel of het ook geldt voor uw context (Nederland, uw branche, uw klantgroep).
- Stel zo nodig een aanvullende validatie voor met uw eigen data, vooral als uw context afwijkt van de oorspronkelijke trainingsdata.
- Bewaar de bewijsstukken als onderdeel van uw AI-register.
Snelle scan van uw data-governance positie
De gratis ActCheck-scan beoordeelt of u de data-eisen voor uw AI-portfolio op orde heeft, ook als deployer.
Start de gratis check