IA et RGPD : comment anonymiser vos données avant de les confier à une IA

Q: Presidio fonctionne t il en français ?

Oui. Presidio utilise les modèles linguistiques de spaCy, dont le modèle fr_core_news_lg pour le français. La détection des noms, lieux et organisations fonctionne bien en français. Pour les emails, numéros de téléphone et IBAN, la détection repose sur des expressions régulières qui sont indépendantes de la langue.

Le probleme : vos données partent dans le cloud

Quand vous utilisez ChatGPT pour résumer un compte rendu de réunion, quand vous envoyez une transcription client dans NotebookLM, quand vous collez des données CRM dans Gemini pour générer un reporting, vos données quittent votre machine. Elles sont transmises à des serveurs distants, souvent hébergés aux États Unis, et traitées par des modeles dont les conditions d'utilisation évoluent régulierement.

Ce n'est pas un probleme en soi. Ces outils sont extraordinairement utiles. Le probleme apparaît quand les données que vous partagez contiennent des informations personnelles identifiables : noms de clients, adresses email, numéros de téléphone, noms d'entreprises, parfois même des numéros de sécurité sociale ou des coordonnées bancaires.

En France et en Europe, le RGPD impose de protéger ces données. Et dans la pratique, beaucoup d'équipes marketing, commerciales ou RH envoient quotidiennement des informations sensibles à des outils IA sans y penser. Pas par négligence, mais parce que personne ne leur a montré comment faire autrement.

La bonne nouvelle : ce n'est pas un frein à l'utilisation de l'IA. C'est une question de méthode. Et cette méthode est plus simple qu'on ne le pense.

Ce que dit le RGPD sur l'utilisation de l'IA

Le RGPD repose sur plusieurs principes fondamentaux qui s'appliquent directement à l'usage des outils IA :

Minimisation des données : ne collecter et ne partager que les données strictement nécessaires au traitement visé. Si vous voulez qu'une IA résume une réunion, elle n'a pas besoin de connaître l'identité des participants.
Limitation de la finalité : les données collectées pour un objectif précis ne doivent pas être réutilisées pour un autre sans base légale. Envoyer des données clients à un outil IA pour "voir ce qu'il en fait" n'est pas une finalité valable.
Consentement et transparence : les personnes dont les données sont traitées doivent savoir comment elles sont utilisées. Vos clients ont ils conscience que leurs échanges sont analysés par une IA ?

La question n'est donc pas "peut on utiliser l'IA ?" mais "comment l'utiliser correctement ?". Et la réponse commence par une distinction simple.

Certaines données internes ne posent aucun probleme de partage : vos templates, vos guidelines, vos process internes, vos briefs anonymes. Tout ce qui ne contient aucune information permettant d'identifier une personne physique peut être envoyé librement à n'importe quel outil IA.

En revanche, des qu'un document contient un nom, un email, un numéro de téléphone ou toute autre donnée personnelle identifiable, il faut anonymiser avant de partager.

La solution : anonymiser avant de partager

Microsoft a développé Presidio, un outil open source conçu exactement pour ce besoin. Presidio analyse un texte, détecte automatiquement les données personnelles, et les remplace par des marqueurs génériques.

Concretement, un texte comme :

Suite à notre appel avec Marie Dupont (marie.dupont@entreprise.fr,
06 12 34 56 78), voici le récapitulatif pour le projet Acme Corp.

Devient :

Suite à notre appel avec <PERSON> (<EMAIL_ADDRESS>,
<PHONE_NUMBER>), voici le récapitulatif pour le projet <ORGANIZATION>.

Le point essentiel : tout le traitement se fait en local, sur votre machine. Rien ne sort de votre ordinateur. Presidio n'envoie aucune donnée à un serveur distant. C'est exactement le comportement qu'on attend d'un outil d'anonymisation.

Le texte anonymisé peut ensuite être envoyé en toute sécurité à ChatGPT, NotebookLM, Claude ou n'importe quel autre outil IA cloud. L'IA travaille avec le contexte dont elle a besoin, sans jamais accéder aux données personnelles.

Outil IA	Traitement	Données personnelles	Recommandation
ChatGPT (OpenAI)	Cloud (USA)	Anonymiser avant envoi	Utiliser avec Presidio
Gemini (Google)	Cloud (USA)	Anonymiser avant envoi	Utiliser avec Presidio
NotebookLM (Google)	Cloud (USA)	Anonymiser avant envoi	Utiliser avec Presidio
Claude (Anthropic, via API)	Cloud (USA)	Anonymiser avant envoi	Utiliser avec Presidio
Claude Code (local)	Local + API	Code traité localement	Adapté aux données sensibles
Presidio (Microsoft)	100% local	Aucun envoi externe	Outil d'anonymisation
Ollama / LLM locaux	100% local	Aucun envoi externe	Idéal pour données sensibles

Tutoriel : installer et utiliser Presidio pas à pas

Ce tutoriel s'inspire du travail de Pando Studio sur l'anonymisation avec Presidio. Je l'ai adapté et complété pour qu'il soit directement utilisable.

Prérequis : installer Python

Presidio fonctionne avec Python 3.9 ou supérieur. Si Python n'est pas installé sur votre machine, téléchargez le depuis python.org. Sur Mac, vous pouvez aussi l'installer via Homebrew avec brew install python.

Installer les bibliothèques Presidio

Ouvrez votre terminal (ou l'invite de commandes sous Windows) et tapez :

Terminal

pip install presidio-analyzer presidio-anonymizer

Télécharger le modèle français de spaCy

Presidio utilise les modeles linguistiques de spaCy pour détecter les entités nommées (noms, lieux, organisations). Pour le français :

Terminal

python -m spacy download fr_core_news_lg

Préparer votre fichier

Placez la transcription ou le document à anonymiser dans un fichier texte simple. Par exemple, créez un fichier transcription.txt contenant le texte brut de votre réunion ou de votre compte rendu client.

Le script d'anonymisation

Créez un fichier anonymiser.py avec le contenu suivant :

Python

from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import NlpEngineProvider
from presidio_anonymizer import AnonymizerEngine

# Configuration du moteur NLP pour le français
configuration = {
    "nlp_engine_name": "spacy",
    "models": [{"lang_code": "fr", "model_name": "fr_core_news_lg"}],
}

provider = NlpEngineProvider(nlp_configuration=configuration)
nlp_engine = provider.create_engine()

# Initialisation des moteurs d'analyse et d'anonymisation
analyzer = AnalyzerEngine(nlp_engine=nlp_engine, supported_languages=["fr"])
anonymizer = AnonymizerEngine()

# Lecture du fichier source
with open("transcription.txt", "r", encoding="utf-8") as f:
    texte_original = f.read()

# Analyse : détection des données personnelles
resultats = analyzer.analyze(
    text=texte_original,
    language="fr",
    entities=[
        "PERSON",
        "EMAIL_ADDRESS",
        "PHONE_NUMBER",
        "LOCATION",
        "ORGANIZATION",
        "IBAN_CODE",
        "CREDIT_CARD",
        "IP_ADDRESS",
        "URL",
    ],
)

# Anonymisation : remplacement par des marqueurs
texte_anonymise = anonymizer.anonymize(
    text=texte_original,
    analyzer_results=resultats,
)

# Sauvegarde du résultat
with open("transcription_anonymisee.txt", "w", encoding="utf-8") as f:
    f.write(texte_anonymise.text)

print("Anonymisation terminée.")
print(f"Fichier sauvegardé : transcription_anonymisee.txt")
print(f"Entités détectées : {len(resultats)}")

Exécuter le script

Dans votre terminal, lancez :

Terminal

python anonymiser.py

Le script va lire votre fichier transcription.txt, détecter toutes les données personnelles, les remplacer par des marqueurs, et sauvegarder le résultat dans transcription_anonymisee.txt. Vous pouvez ensuite ouvrir ce fichier, vérifier le résultat, et l'envoyer à l'outil IA de votre choix.

La conformité RGPD n'est pas un obstacle à l'innovation. C'est un cadre qui force à réfléchir à ce qu'on partage, avec qui, et pourquoi. En pratique, cela prend cinq minutes de plus par document. Cinq minutes qui protègent vos clients et votre entreprise.

Astuce : si l'installation de Python ou de Presidio vous pose probleme, vous pouvez demander à Claude Code de vous guider pas à pas. Il fonctionne en local sur votre machine et peut exécuter les commandes d'installation pour vous.

Besoin d'un accompagnement RGPD et IA ?

Je vous aide à intégrer l'IA dans vos process en respectant la réglementation. Diagnostic gratuit en 6 minutes.

Diagnostic IA offert

Les bonnes pratiques au quotidien

Anonymiser ponctuellement un fichier, c'est bien. Mettre en place une vraie discipline au sein de l'équipe, c'est mieux. Voici les habitudes que je recommande à mes clients.

Établir une politique claire. Quelles données peuvent aller dans quel outil ? Créez un document simple qui liste les catégories de données (internes sans données personnelles, contenant des données personnelles, confidentielles) et les outils autorisés pour chaque catégorie. Ce document doit tenir sur une page et être compréhensible par tout le monde.

Créer un workflow standard d'anonymisation. Ne laissez pas chaque collaborateur improviser. Définissez un process clair : le fichier source passe par Presidio, le résultat est vérifié manuellement, puis il est envoyé à l'outil IA. Ce workflow peut être aussi simple qu'un script sur le bureau que l'on double clique.

Vérifier manuellement le résultat. Aucun outil d'anonymisation n'est fiable à 100%. Presidio peut manquer un nom propre inhabituel ou un numéro de téléphone dans un format non standard. Prenez 30 secondes pour relire le texte anonymisé avant de l'envoyer. C'est une habitude qui s'installe vite.

Ne jamais demander à une IA d'anonymiser vos données. Cela revient exactement à lui envoyer les données non anonymisées. C'est un piège courant : "ChatGPT, peux tu anonymiser ce texte ?" signifie que ChatGPT a reçu le texte avec toutes les données personnelles. L'anonymisation doit toujours se faire en local, avant tout envoi.

Privilégier les outils qui traitent localement quand c'est possible. Pour le développement et les tâches techniques, Claude Code fonctionne en local sur votre machine. Pour les modeles de langage, des solutions comme Ollama permettent de faire tourner des LLM entierement sur votre ordinateur. Le cloud reste indispensable pour les modeles les plus puissants, mais pour beaucoup de tâches quotidiennes, le traitement local est suffisant.

Pour un accompagnement complet sur l'intégration de l'IA respectueuse du RGPD dans votre organisation, vous pouvez commencer par le diagnostic IA gratuit qui évaluera votre maturité et identifiera les priorités.

Conclusion

Le RGPD n'est pas un obstacle à l'IA. C'est un cadre. Et comme tout cadre, il structure la pratique plutôt qu'il ne la freine. Les entreprises qui intègrent la question de la protection des données des le départ sont celles qui adoptent l'IA le plus sereinement et le plus durablement.

Avec un outil comme Presidio et quelques bonnes habitudes, anonymiser ses données avant de les confier à une IA prend quelques minutes. C'est un investissement minime comparé au risque d'une violation de données ou d'un manquement au RGPD, dont les amendes peuvent atteindre 4% du chiffre d'affaires annuel.

Si vous débutez avec l'IA, je vous recommande de lire aussi comment structurer votre premier projet IA en entreprise et les 5 outils IA que je recommande en 2026. Et pour configurer un environnement de développement local sécurisé, consultez mon guide sur Claude Code.

Questions fréquentes

Oui, à condition de respecter le RGPD. Cela implique de ne pas envoyer de données personnelles identifiables (noms, emails, téléphones) sur des serveurs distants sans consentement explicite. La solution la plus simple et la plus sûre est d'anonymiser les données avec un outil local comme Presidio avant de les partager avec un outil IA cloud.

Oui. Presidio utilise les modeles linguistiques de spaCy, dont le modele fr_core_news_lg pour le français. La détection des noms, lieux et organisations fonctionne bien en français. Pour les emails, numéros de téléphone et IBAN, la détection repose sur des expressions régulières qui sont indépendantes de la langue.

Pour les enregistrements audio, il faut d'abord transcrire le fichier en texte avec un outil local comme Whisper d'OpenAI, puis appliquer Presidio sur la transcription obtenue. Le texte anonymisé peut ensuite être envoyé à n'importe quel outil IA pour analyse ou résumé. L'essentiel est que la transcription initiale et l'anonymisation se fassent toutes les deux en local.

IA et RGPD : comment anonymiser vos données avant de les confier à une IA

Le probleme : vos données partent dans le cloud

Ce que dit le RGPD sur l'utilisation de l'IA

La solution : anonymiser avant de partager

Tutoriel : installer et utiliser Presidio pas à pas

Prérequis : installer Python

Installer les bibliothèques Presidio

Télécharger le modèle français de spaCy

Préparer votre fichier

Le script d'anonymisation

Exécuter le script

Besoin d'un accompagnement RGPD et IA ?

Les bonnes pratiques au quotidien

Conclusion

Questions fréquentes

À lire aussi

5 outils IA que je recommande à mes clients en 2026

IA générative et PME : trois erreurs à éviter avant de se lancer

Créer son environnement de développement avec Claude Code et GitHub

Un projet IA ?