Jachère

Le droit d'auteur devient l'audit de l'IA

Le débat copyright-IA ne se joue plus seulement au tribunal : il oblige les entreprises à prouver d'où viennent données, modèles et sorties.

Livre ancien usé rangé de biais sur une étagère sombre remplie d'ouvrages reliés.
Photo : Musa Tuğrul Karataş sur Pexels

Le droit d’auteur était censé rester une affaire de juristes, d’éditeurs, d’auteurs, de plateformes et de tribunaux. L’IA générative l’a ramené dans le bureau des directions générales. Pas parce que chaque PME va plaider contre un laboratoire de modèles. Parce que chaque PME qui utilise l’IA finit par toucher à la même question : d’où vient la matière qui produit cette sortie, et qui peut le prouver ?

Le débat public se raconte encore comme une bataille morale. Les créateurs veulent être respectés. Les développeurs de modèles veulent entraîner. Les gouvernements cherchent une ligne entre innovation et protection. C’est vrai, mais incomplet. En 2026, le signal le plus utile est plus sec : le copyright devient une discipline de traçabilité.

Une entreprise qui déploie un outil génératif ne peut plus se contenter de dire que le fournisseur est connu, que le modèle est grand, ou que le texte produit a l’air original. Elle doit comprendre ce qui est documenté, ce qui reste opaque, ce qu’elle envoie elle-même dans l’outil, et ce qu’elle publie ensuite sous son nom.

Le vieux débat “peut-on copier pour entraîner ?” n’a pas disparu. Il est seulement rejoint par une question plus opérationnelle : quand quelqu’un demande des comptes, quel dossier ouvre-t-on ?

2026 a déplacé le centre de gravité

Le Royaume-Uni a publié en mars 2026 un rapport détaillé sur le copyright et l’intelligence artificielle, accompagné d’une analyse d’impact. Le document ne se limite pas à un arbitrage simple entre titulaires de droits et développeurs. Il examine l’accès aux données, la transparence, les mesures techniques de contrôle, la licence, l’exécution des règles et les sorties produites par les systèmes.

Cette liste ressemble moins à une grande théorie du droit qu’à une checklist d’audit.

Le Parlement européen, de son côté, a clos en mars 2026 sa procédure d’initiative sur le copyright et l’IA générative. Le dossier insiste sur la transparence des usages d’oeuvres protégées, la rémunération équitable, le contrôle par les ayants droit et la possibilité de cadres de licence collective. Là encore, l’enjeu n’est pas seulement de déclarer un principe. Il faut un mécanisme assez précis pour être appliqué.

La Commission européenne a déjà posé une première brique pratique avec le code de pratique pour les modèles d’IA à usage général. Ses chapitres sur la transparence et le copyright sont conçus pour aider les fournisseurs à démontrer leur conformité à l’AI Act. La Commission a aussi présenté un modèle de résumé des données utilisées à l’entraînement des modèles.

Ce résumé n’est pas une révélation complète de chaque fichier, de chaque livre ou de chaque image. Il ne transformera pas un modèle opaque en archive ouverte. Mais il change le sens du débat : le fournisseur doit produire une trace structurée, et l’utilisateur professionnel peut commencer à comparer les niveaux de documentation.

Ce n’est pas encore la transparence. C’est le début d’une comptabilité.

La fausse question : le modèle est-il légal ?

Beaucoup d’entreprises aimeraient une réponse binaire. Ce modèle est-il légal, oui ou non ? Peut-on utiliser cet outil, oui ou non ? Les avocats rêvent rarement de répondre ainsi, et ils ont raison. La question est mal posée.

Un modèle peut être proposé par un fournisseur sérieux, avec un contrat robuste, tout en restant mal utilisé par l’entreprise. À l’inverse, un outil très permissif sur le papier peut devenir imprudent si on y copie des textes internes, des données clients, des contrats ou des contenus tiers sans droit clair.

Il faut donc séparer trois couches.

La première couche est l’entraînement du modèle. Quels types de données ont servi ? Le fournisseur publie-t-il un résumé ? A-t-il une politique de respect des droits ? A-t-il signé un code de pratique ou fourni une documentation contractuelle ? Que dit-il des demandes de retrait, des opt-out, des licences ?

La deuxième couche est l’usage par l’entreprise. Quelles données les salariés collent-ils dans l’outil ? Des documents publics ? Des brouillons internes ? Des bases clients ? Des oeuvres de tiers ? Des contenus achetés sous licence ? Un outil peut être raisonnable pour reformuler une note publique et risqué pour analyser un catalogue soumis à restriction.

La troisième couche est la sortie. Le texte, l’image, la vidéo, le code ou la présentation générée reprennent-ils un élément identifiable ? L’entreprise peut-elle expliquer la part humaine dans la création ? Le contrat du fournisseur protège-t-il l’utilisateur en cas de réclamation ? La sortie est-elle vérifiée avant publication ?

Le problème n’est donc pas “l’IA” comme bloc. Le problème est le chemin complet : matière entrante, système utilisé, sortie publiée, preuve conservée.

Les résumés ne suffisent pas, mais ils comptent

Il serait confortable de moquer les résumés de données d’entraînement. Ils seront forcément généraux. Ils ne diront pas tout. Ils auront des catégories, des volumes, des sources types, pas un inventaire bibliothécaire ligne par ligne. Une partie des titulaires de droits les jugera trop faibles. Une partie des fournisseurs les jugera déjà trop lourds.

Mais pour l’entreprise utilisatrice, leur existence change quelque chose.

Jusqu’ici, beaucoup de décisions d’achat IA reposaient sur trois signaux : la réputation du fournisseur, la qualité perçue de l’outil, et la promesse commerciale. Le copyright restait une clause dans un contrat ou un sujet repoussé vers le service juridique. Avec les obligations de transparence européennes, même imparfaites, une quatrième question devient normale : quelle documentation du modèle pouvons-nous archiver ?

Ce n’est pas une question de méfiance abstraite. C’est une question de gestion du risque. Si un client demande comment un contenu a été produit, si un auteur conteste une image, si un partenaire refuse qu’un texte sous licence alimente un outil, si une administration réclame un dossier, l’entreprise ne répondra pas avec une impression. Elle répondra avec des documents.

Les bons fournisseurs auront donc un avantage qui ne se voit pas dans l’interface : ils sauront produire des preuves lisibles. Résumé des données d’entraînement. Politique copyright. Garanties sur les sorties. Journal d’utilisation administrable. Paramètres de non-entraînement sur les données client. Procédure de signalement et de retrait. Clauses d’indemnisation compréhensibles.

Le reste est peut-être performant. Il est seulement plus difficile à défendre.

Le risque des PME n’est pas celui des grands modèles

Une PME ne va pas auditer seule le corpus d’entraînement d’un grand modèle. Elle n’en a ni les moyens, ni l’accès, ni le levier. C’est précisément pour cela qu’elle doit cesser de poser le problème comme si elle était un régulateur.

Son premier risque est plus proche : mettre ses propres contenus dans des outils qu’elle ne maîtrise pas. Un cabinet peut copier des notes clients. Une agence peut envoyer des maquettes achetées sous licence. Un organisme de formation peut faire résumer des supports dont il n’a pas tous les droits de réutilisation. Une PME industrielle peut injecter des plans, fiches techniques, notices ou textes fournisseurs. Le sujet n’est pas seulement la confidentialité. C’est aussi le périmètre des droits.

Le deuxième risque est la publication sans relecture. Une sortie générée peut paraître nouvelle tout en reprenant une structure, une formule, une image ou un fragment reconnaissable. Le risque n’est pas massif à chaque usage. Il devient réel quand l’entreprise automatise la production de fiches, d’articles, de visuels, de publicités, de documentation ou de code sans contrôle.

Le troisième risque est contractuel. Certaines licences de contenus interdisent explicitement l’entraînement, l’extraction automatisée ou la réutilisation dans des systèmes d’apprentissage. Certaines bases de données ont leurs propres droits. Certains fournisseurs d’IA offrent des garanties selon les formules, les modèles ou les paramètres utilisés. Une PME qui mélange tout ne saura plus ce qu’elle peut revendiquer.

La bonne réponse n’est pas de devenir paralysée. C’est de limiter les zones floues.

Une carte simple vaut mieux qu’une doctrine molle

Le document utile tient en une page. Il peut s’appeler “usages IA et droits des contenus”. Il doit répondre à des cas concrets, pas réciter le droit d’auteur.

Première colonne : quel type de contenu entre dans l’outil ? Texte public, document interne, base client, image sous licence, contenu acheté, code, support de formation, archive fournisseur.

Deuxième colonne : quel outil est autorisé ? Outil public, outil d’entreprise avec non-entraînement contractuel, outil interdit, outil réservé à un projet validé.

Troisième colonne : quelle sortie est prévue ? Brouillon interne, synthèse, publication web, image commerciale, documentation client, code livré, support vendu.

Quatrième colonne : quelle validation est requise ? Aucune pour un brouillon sans données sensibles. Relecture métier pour un document client. Vérification juridique pour une publication à grande diffusion. Interdiction pour une oeuvre tierce sous licence non compatible.

Cinquième colonne : quelle trace garde-t-on ? Source du contenu, version du prompt, outil utilisé, date, personne responsable, lien vers la sortie finale.

Ce n’est pas spectaculaire. C’est exactement pourquoi c’est utile. Les litiges et les audits ne récompensent pas les grands discours sur la transformation numérique. Ils récompensent les traces.

La créativité humaine ne se prouve pas par slogan

L’autre versant du débat concerne les sorties. Aux États-Unis, le Copyright Office a déjà séparé plusieurs questions : les répliques numériques, la copyrightabilité des productions, puis l’entraînement des modèles. Son rapport sur l’entraînement rappelle l’ampleur du conflit : données massives, oeuvres protégées, fair use, licences, responsabilité, faisabilité pratique.

Pour une entreprise européenne, la leçon est simple : ne pas supposer que toute sortie générée devient automatiquement un actif propre, exclusif et défendable.

Un humain peut utiliser l’IA comme outil. Mais il doit pouvoir montrer son apport : choix, montage, réécriture, direction éditoriale, sélection, vérification, intégration dans une oeuvre plus large. Plus la sortie est reprise telle quelle, plus la position devient fragile. Plus elle est transformée, contextualisée et validée, plus l’entreprise peut expliquer ce qu’elle a réellement créé.

Cela vaut pour un article, une image, une brochure, une page produit, une vidéo, un script, un morceau de code. La question n’est pas seulement : “l’IA a-t-elle participé ?” La question est : “qu’avons-nous décidé, modifié, assumé et vérifié ?”

Le mot “création” redevient alors un travail, pas une étiquette.

Ce que Jachère retient

Le copyright-IA est souvent présenté comme une guerre culturelle entre artistes et ingénieurs. Cette lecture existe, mais elle masque l’effet le plus concret pour les entreprises : l’obligation de savoir raconter la provenance.

Provenance des données d’entraînement, quand elle est documentée par le fournisseur. Provenance des contenus envoyés dans l’outil. Provenance des sorties publiées. Provenance de la décision humaine qui transforme un résultat plausible en livrable assumé.

Ce n’est pas très glamour. C’est même l’inverse exact du marketing génératif. Le marketing dit : produisez plus vite. Le droit répond : expliquez ce que vous avez produit. Le marketing dit : le modèle sait. L’audit demande : comment le savez-vous, et où est la trace ?

Les entreprises qui traiteront le copyright comme une querelle lointaine attendront la jurisprudence parfaite. Elle n’arrivera pas assez vite pour leurs usages quotidiens. Les entreprises qui le traiteront comme une discipline documentaire auront déjà gagné quelque chose : une manière de choisir leurs outils, de borner leurs usages, et de refuser les zones où personne ne sait répondre.

En 2026, ce n’est pas le discours le plus bruyant sur l’IA qui devient le plus crédible. C’est le dossier le plus lisible.

Questions fréquentes

Le droit d'auteur interdit-il déjà d'utiliser des outils d'IA générative ?

Non. L'usage d'un outil n'est pas interdit par principe. Le risque dépend du fournisseur, des données envoyées, du contrat, du type de sortie et de l'usage fait ensuite par l'entreprise.

Pourquoi parler d'audit plutôt que seulement de copyright ?

Parce qu'un litige ou une obligation de conformité ne se règle pas avec une opinion générale sur l'IA. Il faut des traces : documentation du modèle, politique copyright, journal des prompts sensibles et règles de validation.

Une PME doit-elle demander la liste complète des oeuvres utilisées pour entraîner un modèle ?

Dans la pratique, elle doit surtout demander ce que le fournisseur publie ou contracte : résumé des données d'entraînement, politique de respect des droits, garanties sur les sorties et procédure en cas de réclamation.

Les sorties générées par IA appartiennent-elles automatiquement à l'entreprise ?

Non, pas automatiquement dans tous les cas. Il faut lire les conditions du service, vérifier l'existence d'apports humains significatifs, et éviter de publier une sortie qui reproduit un contenu identifiable.

Sources

  1. Rapport Report on Copyright and Artificial Intelligence UK Department for Science, Innovation and Technology · vérifié le 11 juin 2026
  2. Rapport Copyright and Artificial Intelligence: Impact Assessment UK Government · vérifié le 11 juin 2026
  3. Source primaire Copyright and generative artificial intelligence - opportunities and challenges European Parliament Legislative Observatory · vérifié le 11 juin 2026
  4. Source primaire The General-Purpose AI Code of Practice European Commission · vérifié le 11 juin 2026
  5. Presse Commission presents template for General-Purpose AI model providers to summarise the data used to train their model European Commission · vérifié le 11 juin 2026
  6. Rapport Copyright and Artificial Intelligence, Part 3: Generative AI Training U.S. Copyright Office · vérifié le 11 juin 2026

Antoine Reverdy couvre les acteurs du marché et les signaux faibles des agences IA.

Désaccord, retour, erreur factuelle ? Droit de réponse garanti.