Sécuriser les droits d’auteur à l’ère de l’Intelligence Artificielle Générative

Le développement spectaculaire et la démocratisation des Intelligences Artificielles Génératives (IAG) sont sources d’opportunités majeures dans de nombreux secteurs, tout en générant de nombreuses inquiétudes liées aux risques de dérives notamment en matière de propriété intellectuelle. La question de la protection et du respect des droits d’auteur se pose en « amont », au stade de l’entraînement des données par l’IAG et en « aval », au stade de la génération d’un contenu produit par l’IAG sur la base de ces données.

L’intelligence artificielle générative (« IAG ») est un système particulier d’intelligence artificielle permettant la création autonome de nouvelles données, d’images¹, de textes², de musiques, de vidéos, à partir de modèles d’apprentissage automatique et d’instructions d’un utilisateur humain³.

Elle trouve, à ce jour, une série d’applications utilisées notamment dans le monde de l’entreprise pour la création de contenu professionnel, la conception graphique, l’optimisation d’opérations par des modèles de prévision, le support client via les chatbots.

La génération de ces contenus prisés est rendue possible par l’utilisation paramétrée de données d’archives massives via notamment les techniques d’indexation⁴ et d’extraction de données⁵ réalisées sur Internet.

L’engouement autour de l’IAG est à la mesure des inquiétudes qu’elle suscite :

non seulement à l’égard des risques de manipulation, et d’atteintes aux libertés qu’elle peut représenter, ce que vise à encadrer de façon transversale le règlement européen 2024/1689 sur l’intelligence artificielle entré en application le 1er août 2024 dernier,
mais plus spécifiquement quant aux risques de violation des droits d’auteur liés d’une part à l’emploi de très grandes quantités de données d’entraînement utilisées pour générer du nouveau contenu, et d’autre part relatifs à l’usage de ce nouveau contenu.

Parmi de nombreux enjeux soulevés par l’avènement de l’IAG, se posent ainsi les questions de la licéité et du contrôle de l’usage de données « d’entrée » donnant prise à des droits d’auteur et utilisées en phase d’entraînement de l’IAG et (I) et celle de la protection possible par le droit d’auteur de nouveaux contenus de « sortie » générés par l’IAG (II).

I. La licéité de l’usage des données d’entraînement : le fragile équilibre entre respect du droit d’auteur et soutien au développement des IAG

Parmi les données massives utilisées en phase d’entraînement de l’IAG pour générer du nouveau contenu à la demande de l’utilisateur via des « prompts » ou requêtes, certaines font l’objet d’une protection par les droits d’auteur, en particulier les images, textes, sons, musiques présentant un caractère « d’originalité », c’est-à-dire reflétant les choix singuliers, libres et créatifs de leur auteur.

Cela implique qu’en principe, la seule reproduction – même partielle – d’une donnée « d’entrée » protégée par le droit d’auteur pour la génération d’un contenu de « sortie » par une IAG, serait soumise à l’autorisation préalable de l’auteur de cette donnée d’entrée. A défaut, l’auteur pourrait agir en contrefaçon à l’encontre du fournisseur ou de l’utilisateur de l’IAG.

En pratique, l’identification de l’usage, par une IAG, de données d’entraînement protégées par le droit d’auteur n’est pas aisée compte tenu de l’opacité de la plupart de ces systèmes pour le public, et ce d’autant moins lorsque le contenu généré par l’IAG, seul visible par l’utilisateur de l’IAG, ne reproduit pas les caractéristiques des données d’entraînement objet de la protection.

L’exception de « fouille de textes et de données » :

Afin de préserver la compétitivité des entreprises européennes innovantes opérant dans le secteur des IAG, et de trouver un juste équilibre avec le respect des droits des auteurs, le Règlement sur l’IA légitime l’application, aux IAG, de l’exception « de fouille de textes et de données »⁶, pour autoriser, sans contrepartie financière, la collecte et la reproduction de données d’entraînement accessibles en ligne et protégées par le droit d’auteur⁷.

Cette exception permet aux fournisseurs d’IAG de s’affranchir de toute autorisation dès lors que l’auteur ou ses ayants droit n’ont pas opposé leur droit de retrait.

En pratique, la mise en œuvre de l’opt-out ou de la défense de ses droits d’auteur se révèle difficile dès lors qu’il est très compliqué pour l’auteur de vérifier l’usage de ses œuvres.

L’application de l’exception de « fouilles de textes et de données » est également vivement critiquée par les auteurs et ayants-droits, dès lors que l’IAG n’avait pas été spécifiquement envisagée au moment de son introduction par la directive UE 2019/790 du 19 avril 2019 et que l’application de cette exception à l’IAG ne serait pas conforme, selon ses détracteurs, au « Triple test » imposé par les traités internationaux et la règlementation européenne⁸ selon lequel l’exception ne pourrait s’appliquer que dans « certains cas particuliers » qui ne portent pas atteinte à « l’exploitation normale de l’œuvre » et ne cause pas « un préjudice injustifié aux intérêts légitimes des titulaires de droits ».

Les contenus massifs générés par les IAG à bas coûts viendraient en effet concurrencer les œuvres des auteurs et porter atteinte à leur exploitation normale, en les privant de revenus espérés, tout en leur causant un préjudice injustifié sans mécanisme compensatoire.

L’obligation de transparence des développeurs et fournisseurs d’IAG

En réponse à cette inquiétude, le Règlement sur l’IA impose une obligation de transparence aux développeurs et ⁹aux fournisseurs d’IAG en vue d’informer l’utilisateur de l’origine et de la nature des données utilisées¹⁰ et de permettre aux auteurs d’identifier l’exploitation de leurs œuvres.
En vertu de cette exigence, les fournisseurs d’IAG sont tenus de rendre public un résumé suffisamment détaillé des données d’entraînement utilisées par leur système, dont les contours demeurent encore à préciser.
A l’échelle de la France, le Conseil Supérieur de la Propriété Littéraire et Artistique (CSPLA) a été chargé en avril 2024 d’établir une liste des informations devant nécessairement être communiquées par les fournisseurs d’IAG, selon les secteurs culturels concernés, pour permettre aux auteurs et titulaires de droits voisins d’exercer leurs droits¹¹. Le contenu de l’obligation d’information incombant aux fournisseurs de modèle d’IA devrait donc prochainement être précisé, ainsi que l’application dans le temps d’une telle obligation, dans un contexte dans lequel de nombreuses IAG ont déjà été entraînées sur des données massives accessibles en ligne.
Le CSPLA s’est également vu confier la mission de proposer des mécanismes juridiques garantissant, par secteur, la juste rémunération des ayants droit.
Aux Etats-Unis, l’utilisation d’œuvres préexistantes par des IAG a quant à elle généré, à date, pas moins d’une vingtaine de procès en cours contre des fournisseurs d’IAG, dans le cadre desquels l’application du « fair use » – exception au droit d’auteur invoquée par ces derniers – est également débattue. En Allemagne, une décision du Tribunal de Hambourg en date du 27 septembre 2024 a confirmé l’application de l’exception de « fouille de textes et de données » à des données d’entraînement¹² tout comme la nécessité d’une transparence liée à l’emploi de ces données pour leurs auteurs.
Des moyens alternatifs de garantie de respect des droits d’auteur sur les données d’entraînement ont également été envisagés et proposés à l’échelle européenne par la mise en place de mesures techniques, l’instauration d’un mécanisme de contrôle préalable visant à certifier les modèles et applications des fournisseurs d’IAG destinés au marché européen qui rempliraient des garanties sur l’utilisation des données utilisées, sur le contenu généré, sur la conformité avec les droits d’auteur et par l’instauration d’un marquage des contenus générés par une IA pour les rendre identifiables notamment via une « griffe »¹³.

II. La protection par le droit d’auteur des contenus générés par une IAG

La génération d’un contenu produit par l’IAG sur la base du traitement de données d’entrée, durant la phase d’entraînement, soulève également la question de leur protection par le droit d’auteur.

Selon la conception personnaliste du droit d’auteur français, une création générée entièrement par une IAG – dénuée par essence de toute personnalité – sans l’apport d’un choix « libre et créatif » d’une personne physique, ne pourrait bénéficier de la protection par le droit d’auteur. Cette conception est partagée par d’autres cultures juridiques, comme en attestent certaines décisions – encore rares – rendues aux Etats-Unis¹⁴, malgré des disparités évidentes dans l’approche du droit d’auteur en fonction des territoires concernés.

Il en résulte que ni l’IAG en tant que telle, ni le fournisseur de l’IAG – bien que titulaire potentiel des droits relatifs au logiciel de l’IAG – ne pourraient être éligibles aux droits d’auteur, en France, sur les productions générées via ce système.

En revanche, si l’IAG est utilisée comme un outil d’aide à la création d’une œuvre reflétant les choix personnels de l’auteur, personne physique, et que les contributions respectives sont identifiables, la reconnaissance de droits d’auteur de l’utilisateur de l’IAG sur cette œuvre est en théorie possible. Un parallèle peut être ainsi réalisé avec l’appareil photo, moyen technique permettant la création d’œuvres protégeables par le droit d’auteur.

Néanmoins, pour prétendre à une telle protection en France, l’apport personnel de l’utilisateur de l’IAG devrait en théorie aller au-delà de la simple élaboration d’une requête (ou « prompt ») aussi détaillée soit-elle, « en amont », mais impliquerait un contrôle « en aval » et un apport original sur le contenu final généré qui doit être le résultat de « choix libres et créatifs ».

En effet, à ce stade, les contenus générés par les IAG sont encore le fruit de choix aléatoires, de calculs algorithmiques non contrôlables intégralement, le rôle de l’utilisateur se cantonnant bien souvent au renseignement d’une idée orientant le système d’IAG, non protégeable en tant que telle.

Aucune décision n’a encore été rendue en France à ce jour mais cette approche tend à être retenue aux Etats-Unis, l’apport personnel de l’auteur – utilisateur humain – étant analysé à tous les stades de la production du contenu par l’IAG, y compris au moment de la « sortie » des données générées (textes, images, vidéos, sons..), alors que la Chine s’est montrée plus ouverte à la protection des contenus d’IAG dès lors qu’un apport humain significatif est constaté même uniquement au niveau des données d’entrée et de la requête¹⁵.

En somme, le développement de la jurisprudence et de la législation sur ces questions devrait permettre de clarifier les solutions juridiques à adopter et d’offrir un environnement plus sécurisé à la fois pour les fournisseurs et utilisateurs d’IAG et pour les auteurs d’œuvres de l’esprit.

Nos équipes se tiennent informées des évolutions à ce sujet et restent à votre disposition pour vous conseiller sur les problématiques de propriété intellectuelle liées à l’utilisation d’intelligences artificielles génératives.

Par Lorraine BAZIN

Notes:

Parmi les exemples d’IAG de création d’images à partir de requêtes textuelles, et de variation d’images existantes : l’outil « DALL-E » créé par OpenAI, l’outil « Midjourney », « Stable Diffusion ».
Exemples : « ChatGPT » : un chatbot développé par OpenAI, capable de générer du texte de haute qualité et de répondre à des questions ; « Bard » : outil concurrent développé par Google.
Définition de l’IAG donnée par la CNIL : « un système capable de créer du texte, des images ou d’autres contenus (musique, vidéo, voix, etc.) à partir d’une instruction d’un utilisateur humain. Ces systèmes peuvent produire de nouveaux contenus à partir de données d’entraînement ».
Technique également connue sous le nom de “web crawling.”
Également appelée « web scraping ».
Exception introduite par la directive européenne UE 2019/790 du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique. Cette exception est définie par la Directive UE 2019/790 du 17 avril 2019 comme : « toute technique d’analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d’en dégager des informations, ce qui comprend, à titre non exhaustif, des constantes, des tendances et des corrélations ».
Considérants 105-106 du Règlement IA 2024-1689 ; Article 53 Section II du règlement IA qui impose aux fournisseurs de modèles d’IA : « […] (c) de mettre en place une politique visant à respecter le droit de l’Union en matière de droit d’auteur et de droits voisins, et en particulier à identifier et à respecter, y compris au moyen de technologies de pointe, une réserve de droits exprimée conformément à l’article 4, paragraphe 3, de la directive (UE) 2019/790 ».
Considérant 6 de la directive UE 2019/790 du 17 avril 2019.
Considérants 107 - 108 du Règlement IA 2024-1689.
Article 53 Section II du règlement IA 2024-1689 qui impose aux fournisseurs de modèles d’IA de : « d) rédiger et mettre à la disposition du public un résumé suffisamment détaillé du contenu utilisé pour la formation du modèle d’IA à usage général, selon un modèle fourni par l’office AI ».
CSPLA – Lettre de mission – IA Règles – Avril 2024.
Tribunal de Hambourg 27 septembre 2024 n°310 O 227/23.
Rapport d’information de l’Assemblée Nationale n°2207 du 14 février 2024 sur les défis de l’intelligence artificielle générative en matière de protection des données personnelles et d’utilisation du contenu généré, page 40-41.
Aux États-Unis, l’US Copyright Office a refusé plusieurs demandes d’enregistrement d’un Copyright, comme pour une œuvre « Théâtre d’Opéra Spatial » créée par Jason Allen, et la bande dessinée « Zarya of the Dawn » uniquement générés par une IAG.
En Chine, il semblerait que la seule élaboration minutieuse de prompts par l’utilisateur soit suffisante pour lui octroyer des droits d’auteur sur le contenu généré (Beijing Internet Court, 27 novembre 2023).