Overweging 67

(67)

Kwalitatief hoogwaardige data en de toegang hiertoe is van wezenlijk belang voor het bieden van structuur en het waarborgen van de prestaties van veel AI-systeem, met name wanneer technieken worden gebruikt waarbij modellen worden getraind, om ervoor te zorgen dat AI-systeem met een hoog risico zoals beoogd en veilig werken en geen bron van discriminatie worden die uit hoofde van het Unierecht verboden is. Kwalitatief hoogwaardige datasets voor training, validatie en tests vereisen de uitvoering van passende praktijken voor datagovernance en -beheer. Datasets voor training, validatie en tests, met inbegrip van het labelen ervan, moeten relevant, voldoende representatief, en zoveel mogelijk foutenvrij en volledig met het oog op het beoogde doel van het systeem zijn. Om de naleving van het Unierecht inzake gegevensbescherming, zoals Verordening (EU) 2016/679, te vergemakkelijken, moeten praktijken voor datagovernance en beheer, in het geval van persoonsgegevens, transparantie met betrekking tot het oorspronkelijke doel van de dataverzameling omvatten. De datasets moeten bovendien de passende statistische kenmerken hebben, waaronder met betrekking tot de personen of groepen personen in verband met wie de AI-systeem met een hoog risico moeten worden gebruikt, met bijzondere aandacht voor het tegengaan van mogelijke vertekeningen in de datasets, die waarschijnlijk gevolgen hebben voor de gezondheid en de veiligheid van personen, nadelige effecten hebben op de grondrechten, of leiden tot discriminatie die op grond van het Unierecht verboden is, vooral wanneer data-outputs invloed hebben op inputs voor toekomstige operaties (“feedback loops”). Vertekeningen kunnen bijvoorbeeld inherent zijn aan de onderliggende datasets, met name wanneer historische gegevens worden gebruikt of gegenereerd wanneer de systemen onder reële omstandigheden worden toegepast. De resultaten die door AI-systeem worden aangeboden, kunnen worden beïnvloed door dergelijke inherente vertekeningen, die vaak geleidelijk groter worden en daarmee bestaande discriminatie bestendigen en verergeren, met name voor personen die tot bepaalde kwetsbare groepen behoren, waaronder raciale of etnische groepen. De eis dat de datasets zoveel mogelijk volledig en foutenvrij moeten zijn, mag geen invloed hebben op het gebruik van privacybeschermende technieken in het kader van de ontwikkeling en het testen van AI-systeem. Ten aanzien van datasets moet, voor zover vereist gezien het beoogde doel hiervan, met name rekening worden gehouden met de kenmerken, eigenschappen of elementen die specifiek zijn voor een bepaalde geografische, contextuele, gedragsgerelateerde of functionele omgeving waarin het AI-systeem moet worden gebruikt. Aan de eisen inzake databeheer kan worden voldaan door een beroep te doen op derden die gecertificeerde nalevingsdiensten aanbieden, waaronder verificatie van datagovernance, integriteit van datasets, en datatraining, -validatie en -tests, voor zover de naleving van de datavereisten van deze verordening wordt gewaarborgd.