Intelligence Artificielle : Peut-on librement ré-entraîner un modèle d’IA distribué sous licence Open-source ?

Les performances des ‘Large Language Models’ (LLM) tels que GPT3 ou ChatGPT ont fait naître une nouvelle génération de startups dont le business model n’est plus fondé sur le développement de A à Z d’un modèle d’IA qui leur serait propre, mais est fondé sur le ré-entraînement, le ‘fine-tuning’, d’un LLM.

La question abordée ici, limitée au domaine des brevets, est de savoir dans quelle mesure la licence open-source sous laquelle est distribué un modèle d’intelligence artificielle tel qu’un LLM assure les utilisateurs de ce modèle d’IA que celui-ci peut être réentraîné sans risque de commission d’actes de contrefaçon de brevet.

La distribution d’un modèle d’IA sous licence open-source n’interdit pas aux contributeurs du projet open-source de détenir des brevets sur les technologies mises en œuvre

La promesse d’une licence open-source, dans le domaine du logiciel informatique traditionnel, est de permettre à l’utilisateur du logiciel de l’utiliser, le modifier, le redistribuer librement ou tout au moins, avec un minimum de contraintes.

Ces contraintes sont définies par la licence open-source sous laquelle le logiciel est distribué. Les clauses des licences open-source sont très variables. On distingue ainsi habituellement les licences dites permissives, qui imposent peu d’obligations aux utilisateurs du logiciel distribué sous licence open-source, des licences dites ‘à copyleft’, qui exigent que toute œuvre dérivée d’un tel logiciel soit distribuée sous la même licence.

Une partie des licences open-source contient une clause relative aux brevets. Cette clause peut prévoir par exemple (pour la licence Apache 2.0), très schématiquement, que tout contributeur à un programme distribué sous cette licence concède une licence de brevet pour utiliser, vendre, importer le programme, etc., cette licence ne s'appliquant néanmoins qu'aux revendications de brevet pouvant faire l'objet d'une licence par ce contributeur et qui sont nécessairement violées par la ou les contributions de celui-ci, seules ou en combinaison avec le programme auquel cette ou ces contributions ont été soumises.

Comme on peut le remarquer, la portée de la licence de brevet incluse dans une telle licence est définie de manière relativement étroite en fonction du programme informatique distribué sous la licence open-source.

Dans le domaine de l’intelligence artificielle, ce code est le plus souvent le modèle d’intelligence artificielle lui-même (typiquement à base de réseaux de neurones) obtenu à l’issue du développement.

L’autorisation d’utiliser le modèle d’IA conférée par la licence open-source ne s’étend généralement pas aux méthodes d’entraînement du modèle d’IA

La particularité des développements dans le domaine de l’intelligence artificielle est que, bien que le modèle d’IA soit le plus souvent le principal résultat obtenu à l’issue du développement, bien souvent il n’est pas le seul élément protégeable.

Dans de nombreux cas, l’élément le plus inventif, qui a nécessité le plus d’investissement, est la méthode d’entraînement qui a permis d’obtenir ce modèle d’IA (par exemple, la mise au point d’une fonction de coût adaptée, etc.).

Dans de nombreux cas, cette méthode d’entraînement peut être protégée par un brevet.

Or, du fait que la portée d’une licence open-source est définie en fonction du programme distribué sous la licence open-source, il semble difficile de considérer que la licence de brevet que comporte cette licence open-source s’étendrait à des éléments autres que ce programme, autres donc que le modèle d’IA lui-même.

En particulier, dans la mesure où le modèle d’IA, qui détermine donc la portée de la licence open-source, dans la plupart des cas, ne comporte aucune information indiquant comment il a été entraîné, il semble donc que la licence open-source ne peut s’étendre à la méthode d’entraînement ayant servi à obtenir ce modèle.

Par suite, – sous réserve de confirmation par décision de justice et en fonction de la juridiction concernée - la licence open source ne pourrait probablement pas être considérée comme autorisant à mettre en œuvre la méthode d’entraînement du modèle d’intelligence artificielle.

Par ailleurs, dans de nombreux cas lorsqu’un modèle d’IA est distribué sous licence open-source, il est simultanément présenté et discuté dans une publication scientifique. La méthode d’entraînement est généralement décrite dans cette publication.

Considérons le cas où les auteurs d’un modèle d’IA ont obtenu un brevet visant la méthode d’entraînement de ce modèle.

Dans ce cas, si un tiers entraîne ou réentraîne (par ‘fine-tuning’) le modèle d’IA dans le cadre d’activités commerciales, en suivant cette même méthode d’entraînement, cette opération pourrait être considérée comme étant un acte de contrefaçon de ce brevet.

De surcroît, il n’est pas exclu que dans certaines juridictions, en particulier si les revendications du brevet ont été à dessein formulées dans ce but, il pourrait aussi être considéré que des revendications concernant une méthode d’entraînement couvrent en outre le modèle d’IA lui-même, si ces revendications sont considérées comme étant des revendication définissant un procédé de ‘fabrication’ d’un modèle d’IA, et s’il est conclu que le modèle d’IA considéré est obtenu directement par la méthode d’entraînement revendiquée.

En conclusion, pour les modèles d’IA comme pour tout logiciel, la distribution sous licence open-source ne dispense pas de faire preuve de la prudence nécessaire avant la mise en œuvre du logiciel ou du modèle d’IA considéré. L’analyse présentée ci-dessus montre de plus qu’il convient d’être particulièrement prudent s’il est prévu de soumettre un modèle d’IA à des séances d’entraînement supplémentaires : il convient de s’assurer préalablement que la réalisation de ces séances d’entraînement n’enfreint pas les droits de tiers.

Du reste, la communauté Open-source a pris conscience de ce risque et commence à proposer des licences open-source plus adaptées au domaine de l’intelligence artificielle.

Une nouvelle génération de licences spécialement adaptées aux développements open-source est en train d’être lancée. La première de celles-ci est la licence RAIL. Si sa clause brevet n’accorde pas encore une licence de brevet aussi large que ce que la communauté des développeurs open-source pourrait espérer, par sa prise en compte explicite des composants spécifiques des modèles d’intelligence artificielle, elle constitue néanmoins un pas décisif pour clarifier la portée des droits conférés par une licence open-source dans le domaine de l’intelligence artificielle.

Par Bertrand DUFLOS (CPI - BREVETS) - le 09-03-2023

Intelligence Artificielle : Peut-on librement ré-entraîner un modèle d’IA distribué sous licence Open-source ?

Contactez nous pour en savoir plus

Contactez nous
pour en savoir plus