RGPD et IA : pourquoi les deux se frottent depuis 2022

Le RGPD a été conçu pour un monde où les données sont collectées, stockées et utilisées pour un but déclaré. L'IA générative casse ce modèle — dans l'éducation, la santé et le droit, ces tensions sont particulièrement visibles. Les modèles sont entraînés sur des volumes massifs de données dont la provenance est floue, utilisés pour des tâches jamais prévues lors de la collecte, et impossibles à "désapprendre" d'une donnée spécifique une fois entraînés.

Les cinq zones de friction

Principe RGPD	Problème avec l'IA
Consentement	Données souvent collectées sans consentement explicite
Transparence	Les modèles sont des boîtes noires
Finalité	Entraînement pour des usages multiples et imprévus
Minimisation	Les LLMs ont besoin de beaucoup de données
Droit à l'oubli	Impossible d'effacer une donnée d'un modèle entraîné

Le droit à l'oubli est le cas le plus difficile techniquement. Vous pouvez supprimer une donnée d'une base de données relationnelle. Vous ne pouvez pas extraire une donnée spécifique d'un réseau de neurones une fois entraîné — les poids encodent des patterns, pas des faits individuels.

Ce que ça donne en pratique

DALL·E et ChatGPT peuvent régurgiter des informations personnelles présentes dans leurs données d'entraînement, sans que la personne concernée n'ait consenti à cet usage. La CNIL italienne a suspendu ChatGPT temporairement en 2023 pour ce motif — la décision a été levée après que OpenAI a mis en place des mécanismes d'opt-out, mais la tension reste.

Les modèles entraînés sur des dossiers médicaux sont le cas extrême : l'anonymisation classique (remplacer un nom par un pseudonyme) ne suffit pas. Un modèle peut réidentifier des individus à partir de combinaisons de données qui paraissent anodines séparément.

L'AI Act : complémentaire, pas suffisant

L'UE a adopté l'AI Act en 2024. Il classe les systèmes IA par niveau de risque et impose des obligations en conséquence. Les systèmes à haut risque (médical, judiciaire, biométrique) sont soumis à des exigences de transparence, documentation et supervision humaine.

RGPD et AI Act ne se substituent pas l'un à l'autre : le RGPD s'applique toujours à toutes les données personnelles, AI Act ou pas. Le problème pour les développeurs et les PME, c'est que les deux textes ont des angles différents et que leur articulation n'est pas toujours claire. Les zones grises sont nombreuses.

Ce qui change concrètement selon votre rôle

Si vous développez un modèle ou intégrez une IA dans un produit : documentez vos jeux de données dès le départ — source, consentement, données sensibles. Prévoyez des mécanismes de suppression à la demande même si techniquement imparfaits.

Si vous êtes DPO ou juriste : l'AI Act impose des registres spécifiques pour les systèmes à haut risque. Un audit externe est recommandé avant déploiement pour tout système touchant à la santé, la justice ou l'emploi.

Si vous utilisez ChatGPT ou un outil similaire via Slack, Teams ou Discord dans un contexte professionnel : désactivez la fonctionnalité d'entraînement dans les paramètres, anonymisez les données sensibles avant de les passer au modèle, et évitez les données de santé ou données RH sans évaluation préalable.

Le RGPD n'est pas mort face à l'IA. Mais il doit évoluer, et les entreprises qui attendent une clarification juridique complète avant d'agir prennent un risque que celles qui adoptent une approche "privacy by design" n'ont pas.

Côté technique, la protection des données passe aussi par le code : les bases de la cybersécurité pour les développeurs couvre les vulnérabilités qui mènent aux fuites de données soumises à obligation de notification CNIL.

Avant d'intégrer un LLM dans votre produit, comprendre ce que vous envoyez à l'API et ce qu'elle en fait est indispensable — IA pour développeurs : premiers pas couvre les implications pratiques du function calling, des données dans le contexte et des choix de modèle.

Les cinq zones de friction

Principe RGPD

Problème avec l'IA

Consentement

Données souvent collectées sans consentement explicite

Transparence

Les modèles sont des boîtes noires

Finalité

Entraînement pour des usages multiples et imprévus

Minimisation

Les LLMs ont besoin de beaucoup de données

Droit à l'oubli

Impossible d'effacer une donnée d'un modèle entraîné

Ce que ça donne en pratique

L'AI Act : complémentaire, pas suffisant

Ce qui change concrètement selon votre rôle