Le probleme : vos données partent dans le cloud
Quand vous utilisez ChatGPT pour résumer un compte rendu de réunion, quand vous envoyez une transcription client dans NotebookLM, quand vous collez des données CRM dans Gemini pour générer un reporting, vos données quittent votre machine. Elles sont transmises à des serveurs distants, souvent hébergés aux États Unis, et traitées par des modeles dont les conditions d'utilisation évoluent régulierement.
Ce n'est pas un probleme en soi. Ces outils sont extraordinairement utiles. Le probleme apparaît quand les données que vous partagez contiennent des informations personnelles identifiables : noms de clients, adresses email, numéros de téléphone, noms d'entreprises, parfois même des numéros de sécurité sociale ou des coordonnées bancaires.
En France et en Europe, le RGPD impose de protéger ces données. Et dans la pratique, beaucoup d'équipes marketing, commerciales ou RH envoient quotidiennement des informations sensibles à des outils IA sans y penser. Pas par négligence, mais parce que personne ne leur a montré comment faire autrement.
La bonne nouvelle : ce n'est pas un frein à l'utilisation de l'IA. C'est une question de méthode. Et cette méthode est plus simple qu'on ne le pense.
Ce que dit le RGPD sur l'utilisation de l'IA
Le RGPD repose sur plusieurs principes fondamentaux qui s'appliquent directement à l'usage des outils IA :
- Minimisation des données : ne collecter et ne partager que les données strictement nécessaires au traitement visé. Si vous voulez qu'une IA résume une réunion, elle n'a pas besoin de connaître l'identité des participants.
- Limitation de la finalité : les données collectées pour un objectif précis ne doivent pas être réutilisées pour un autre sans base légale. Envoyer des données clients à un outil IA pour "voir ce qu'il en fait" n'est pas une finalité valable.
- Consentement et transparence : les personnes dont les données sont traitées doivent savoir comment elles sont utilisées. Vos clients ont ils conscience que leurs échanges sont analysés par une IA ?
La question n'est donc pas "peut on utiliser l'IA ?" mais "comment l'utiliser correctement ?". Et la réponse commence par une distinction simple.
Certaines données internes ne posent aucun probleme de partage : vos templates, vos guidelines, vos process internes, vos briefs anonymes. Tout ce qui ne contient aucune information permettant d'identifier une personne physique peut être envoyé librement à n'importe quel outil IA.
En revanche, des qu'un document contient un nom, un email, un numéro de téléphone ou toute autre donnée personnelle identifiable, il faut anonymiser avant de partager.
La solution : anonymiser avant de partager
Microsoft a développé Presidio, un outil open source conçu exactement pour ce besoin. Presidio analyse un texte, détecte automatiquement les données personnelles, et les remplace par des marqueurs génériques.
Concretement, un texte comme :
Suite à notre appel avec Marie Dupont (marie.dupont@entreprise.fr,
06 12 34 56 78), voici le récapitulatif pour le projet Acme Corp.
Devient :
Suite à notre appel avec <PERSON> (<EMAIL_ADDRESS>,
<PHONE_NUMBER>), voici le récapitulatif pour le projet <ORGANIZATION>.
Le point essentiel : tout le traitement se fait en local, sur votre machine. Rien ne sort de votre ordinateur. Presidio n'envoie aucune donnée à un serveur distant. C'est exactement le comportement qu'on attend d'un outil d'anonymisation.
Le texte anonymisé peut ensuite être envoyé en toute sécurité à ChatGPT, NotebookLM, Claude ou n'importe quel autre outil IA cloud. L'IA travaille avec le contexte dont elle a besoin, sans jamais accéder aux données personnelles.
| Outil IA | Traitement | Données personnelles | Recommandation |
|---|---|---|---|
| ChatGPT (OpenAI) | Cloud (USA) | Anonymiser avant envoi | Utiliser avec Presidio |
| Gemini (Google) | Cloud (USA) | Anonymiser avant envoi | Utiliser avec Presidio |
| NotebookLM (Google) | Cloud (USA) | Anonymiser avant envoi | Utiliser avec Presidio |
| Claude (Anthropic, via API) | Cloud (USA) | Anonymiser avant envoi | Utiliser avec Presidio |
| Claude Code (local) | Local + API | Code traité localement | Adapté aux données sensibles |
| Presidio (Microsoft) | 100% local | Aucun envoi externe | Outil d'anonymisation |
| Ollama / LLM locaux | 100% local | Aucun envoi externe | Idéal pour données sensibles |
Tutoriel : installer et utiliser Presidio pas à pas
Ce tutoriel s'inspire du travail de Pando Studio sur l'anonymisation avec Presidio. Je l'ai adapté et complété pour qu'il soit directement utilisable.
Prérequis : installer Python
Presidio fonctionne avec Python 3.9 ou supérieur. Si Python n'est pas installé sur votre machine, téléchargez le depuis python.org. Sur Mac, vous pouvez aussi l'installer via Homebrew avec brew install python.
Installer les bibliothèques Presidio
Ouvrez votre terminal (ou l'invite de commandes sous Windows) et tapez :
pip install presidio-analyzer presidio-anonymizer
Télécharger le modèle français de spaCy
Presidio utilise les modeles linguistiques de spaCy pour détecter les entités nommées (noms, lieux, organisations). Pour le français :
python -m spacy download fr_core_news_lg
Préparer votre fichier
Placez la transcription ou le document à anonymiser dans un fichier texte simple. Par exemple, créez un fichier transcription.txt contenant le texte brut de votre réunion ou de votre compte rendu client.
Le script d'anonymisation
Créez un fichier anonymiser.py avec le contenu suivant :
from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import NlpEngineProvider
from presidio_anonymizer import AnonymizerEngine
# Configuration du moteur NLP pour le français
configuration = {
"nlp_engine_name": "spacy",
"models": [{"lang_code": "fr", "model_name": "fr_core_news_lg"}],
}
provider = NlpEngineProvider(nlp_configuration=configuration)
nlp_engine = provider.create_engine()
# Initialisation des moteurs d'analyse et d'anonymisation
analyzer = AnalyzerEngine(nlp_engine=nlp_engine, supported_languages=["fr"])
anonymizer = AnonymizerEngine()
# Lecture du fichier source
with open("transcription.txt", "r", encoding="utf-8") as f:
texte_original = f.read()
# Analyse : détection des données personnelles
resultats = analyzer.analyze(
text=texte_original,
language="fr",
entities=[
"PERSON",
"EMAIL_ADDRESS",
"PHONE_NUMBER",
"LOCATION",
"ORGANIZATION",
"IBAN_CODE",
"CREDIT_CARD",
"IP_ADDRESS",
"URL",
],
)
# Anonymisation : remplacement par des marqueurs
texte_anonymise = anonymizer.anonymize(
text=texte_original,
analyzer_results=resultats,
)
# Sauvegarde du résultat
with open("transcription_anonymisee.txt", "w", encoding="utf-8") as f:
f.write(texte_anonymise.text)
print("Anonymisation terminée.")
print(f"Fichier sauvegardé : transcription_anonymisee.txt")
print(f"Entités détectées : {len(resultats)}")
Exécuter le script
Dans votre terminal, lancez :
python anonymiser.py
Le script va lire votre fichier transcription.txt, détecter toutes les données personnelles, les remplacer par des marqueurs, et sauvegarder le résultat dans transcription_anonymisee.txt. Vous pouvez ensuite ouvrir ce fichier, vérifier le résultat, et l'envoyer à l'outil IA de votre choix.
La conformité RGPD n'est pas un obstacle à l'innovation. C'est un cadre qui force à réfléchir à ce qu'on partage, avec qui, et pourquoi. En pratique, cela prend cinq minutes de plus par document. Cinq minutes qui protègent vos clients et votre entreprise.
Astuce : si l'installation de Python ou de Presidio vous pose probleme, vous pouvez demander à Claude Code de vous guider pas à pas. Il fonctionne en local sur votre machine et peut exécuter les commandes d'installation pour vous.
Besoin d'un accompagnement RGPD et IA ?
Je vous aide à intégrer l'IA dans vos process en respectant la réglementation. Diagnostic gratuit en 6 minutes.
Diagnostic IA offertLes bonnes pratiques au quotidien
Anonymiser ponctuellement un fichier, c'est bien. Mettre en place une vraie discipline au sein de l'équipe, c'est mieux. Voici les habitudes que je recommande à mes clients.
Établir une politique claire. Quelles données peuvent aller dans quel outil ? Créez un document simple qui liste les catégories de données (internes sans données personnelles, contenant des données personnelles, confidentielles) et les outils autorisés pour chaque catégorie. Ce document doit tenir sur une page et être compréhensible par tout le monde.
Créer un workflow standard d'anonymisation. Ne laissez pas chaque collaborateur improviser. Définissez un process clair : le fichier source passe par Presidio, le résultat est vérifié manuellement, puis il est envoyé à l'outil IA. Ce workflow peut être aussi simple qu'un script sur le bureau que l'on double clique.
Vérifier manuellement le résultat. Aucun outil d'anonymisation n'est fiable à 100%. Presidio peut manquer un nom propre inhabituel ou un numéro de téléphone dans un format non standard. Prenez 30 secondes pour relire le texte anonymisé avant de l'envoyer. C'est une habitude qui s'installe vite.
Ne jamais demander à une IA d'anonymiser vos données. Cela revient exactement à lui envoyer les données non anonymisées. C'est un piège courant : "ChatGPT, peux tu anonymiser ce texte ?" signifie que ChatGPT a reçu le texte avec toutes les données personnelles. L'anonymisation doit toujours se faire en local, avant tout envoi.
Privilégier les outils qui traitent localement quand c'est possible. Pour le développement et les tâches techniques, Claude Code fonctionne en local sur votre machine. Pour les modeles de langage, des solutions comme Ollama permettent de faire tourner des LLM entierement sur votre ordinateur. Le cloud reste indispensable pour les modeles les plus puissants, mais pour beaucoup de tâches quotidiennes, le traitement local est suffisant.
Pour un accompagnement complet sur l'intégration de l'IA respectueuse du RGPD dans votre organisation, vous pouvez commencer par le diagnostic IA gratuit qui évaluera votre maturité et identifiera les priorités.
Conclusion
Le RGPD n'est pas un obstacle à l'IA. C'est un cadre. Et comme tout cadre, il structure la pratique plutôt qu'il ne la freine. Les entreprises qui intègrent la question de la protection des données des le départ sont celles qui adoptent l'IA le plus sereinement et le plus durablement.
Avec un outil comme Presidio et quelques bonnes habitudes, anonymiser ses données avant de les confier à une IA prend quelques minutes. C'est un investissement minime comparé au risque d'une violation de données ou d'un manquement au RGPD, dont les amendes peuvent atteindre 4% du chiffre d'affaires annuel.
Si vous débutez avec l'IA, je vous recommande de lire aussi comment structurer votre premier projet IA en entreprise et les 5 outils IA que je recommande en 2026. Et pour configurer un environnement de développement local sécurisé, consultez mon guide sur Claude Code.