Encadrer l’utilisation des données personnelles par les IA en formation
L’utilisation de données personnelles expose les individus à des risques. La CNIL rappelle que le RGPD impose des conditions. Les recommandations s’appliquent aux systèmes d’IA fondés sur l’apprentissage automatique (machine learning), qu’ils soient conçus pour un usage défini ou pour des usages généraux (general purpose AI). Sont concernés aussi bien les systèmes dont l’apprentissage est statique que ceux qui s’adaptent en continu à partir de nouvelles données d’utilisation. La phase de développement uniquement est couverte par ces recommandations, incluant la conception du système, la constitution de la base de données et l’apprentissage. Le déploiement opérationnel n’en fait pas partie.
La CNIL souligne que ses recommandations tiennent compte du règlement européen sur l’intelligence artificielle, le RGPD et le règlement IA s’appliquant conjointement lorsque des données personnelles sont traitées. Ces recommandations viennent ainsi compléter le cadre européen en précisant les obligations en matière de protection des données.
Comment fixer la durée de conservation des données selon la CNIL ?
Les 7 étapes de conformité :
- Définir l’objectif du système d’IA (finalité) : Les responsables doivent déterminer de manière précise et documentée la finalité poursuivie par le système d’IA. Cette définition doit être spécifique, explicite et légitime au regard du RGPD, afin de limiter les usages secondaires non prévus des données.
- Déterminer les responsabilités des différents acteurs : La gouvernance du projet doit être clarifiée pour identifier qui, parmi les acteurs impliqués (fournisseurs de données, développeurs, commanditaires), est responsable de traitement, sous-traitant ou co-responsable de traitement, au sens du RGPD.
- Identifier la base légale autorisant le traitement des données personnelles : Chaque traitement doit reposer sur une base juridique appropriée (consentement, intérêt légitime, obligation légale, exécution d’un contrat, intérêt vital ou mission d’intérêt public). Le choix de cette base doit être justifié et cohérent avec la finalité définie.
- Vérifier la possibilité de réutiliser certaines données existantes : Avant de collecter de nouvelles données, les responsables doivent évaluer si des données déjà collectées peuvent être réutilisées dans le respect des principes de limitation de la finalité, de durée de conservation et de minimisation.
- Limiter les données personnelles à celles strictement nécessaires : La constitution des bases d’apprentissage doit être guidée par le principe de minimisation des données. Seules les données pertinentes et indispensables à l’objectif doivent être intégrées, afin de réduire les risques d’exposition excessive des individus.
- Fixer une durée de conservation des données : Les responsables doivent prévoir des durées de conservation limitées et justifiées en fonction des objectifs poursuivis et des obligations légales. Une fois la durée expirée, les données doivent être supprimées ou anonymisées.
- Réaliser une analyse d’impact sur la protection des données (AIPD) : Lorsque le traitement est susceptible d’engendrer des risques élevés pour les droits et libertés des personnes, une AIPD doit être réalisée avant le démarrage du projet afin d’identifier, évaluer et réduire ces risques.
Des fiches à venir
La CNIL annonce la publication prochaine de nouvelles fiches abordant des thématiques spécifiques : collecte de données sur internet, recours à l’intérêt légitime comme base légale, exercice des droits des personnes concernées, ou encore recours à des licences ouvertes. Ces fiches feront l’objet d’une consultation publique.
Développement des systèmes d’IA : les recommandations de la CNIL pour respecter le RGPD