Les grands modèles de langage (LLM) comme ChatGPT, Bard et même les versions open source sont formés sur le contenu Internet public. Mais il y a aussi des indications que les IA populaires pourraient également être formées sur des ensembles de données créés à partir de livres piratés.

Dolly 2.0 est-il formé sur le contenu piraté ?

Dolly 2.0 est une IA open source récemment publiée. L’intention derrière Dolly est de démocratiser l’IA en la rendant accessible à tous ceux qui veulent créer quelque chose avec, même des produits commerciaux.

Mais il y a aussi un problème de confidentialité avec la concentration de la technologie de l’IA entre les mains de trois grandes entreprises et en leur confiant des données privées.

Si elles avaient le choix, de nombreuses entreprises préféreraient ne pas transmettre de données privées à des tiers comme Qwanturank, OpenAI et Meta.

Même Mozilla, la société de navigateurs et d’applications open source, investit dans la croissance de l’écosystème d’IA open source.

L’intention derrière l’IA open source est incontestablement bonne.

Mais il y a un problème avec les données utilisées pour former ces grands modèles de langage, car certaines d’entre elles consistent en du contenu piraté.

Le clone open source de ChatGPT, Dolly 2.0, a été créé par une société appelée DataBricks (en savoir plus sur Dolly 2.0)

Dolly 2.0 est basé sur un modèle Open Source Large Language Model (LLM) appelé Pythie (qui a été créé par un groupe open source appelé, EleutherAI).

EleutherAI a créé huit versions de LLM de différentes tailles au sein de la famille Pythia de LLM.

Une version de Pythia, une version de 12 milliards de paramètres, est celle utilisée par DataBricks pour créer Dolly 2.0, ainsi qu’avec un ensemble de données que DataBricks a créé lui-même (un ensemble de données de questions et réponses qui a été utilisé pour former l’IA Dolly 2.0 à prendre instructions)

Le problème avec EleutherAI Pythia LLM est qu’il a été formé à l’aide d’un ensemble de données appelé Pile.

L’ensemble de données Pile est composé de plusieurs ensembles de textes en anglais, dont l’un est un ensemble de données appelé Books3. L’ensemble de données Books3 contient le texte de livres qui ont été piratés et hébergés sur un site pirate appelé bibliotik.

Voici ce que dit l’annonce de DataBricks :

« Dolly 2.0 est un modèle de langage de paramètres 12B basé sur la famille de modèles EleutherAI pythia et affiné exclusivement sur une nouvelle instruction humaine de haute qualité suivant un ensemble de données, externalisé parmi les employés de Databricks. »

Pythia LLM a été créé avec le jeu de données Pile

Le document de recherche Pythia d’EleutherAI qui mentionne que Pythia a été formé à l’aide de l’ensemble de données Pile.

Ceci est une citation du document de recherche Pythia :

« Nous formons 8 tailles de modèles chacune sur la pile… et la pile après déduplication, fournissant 2 copies de la suite qui peuvent être comparées. »

La déduplication signifie qu’ils ont supprimé les données redondantes, c’est un processus de création d’un ensemble de données plus propre.

Alors qu’y a-t-il dans Pile ? Il y a un document de recherche Pile qui explique ce qu’il y a dans cet ensemble de données.

Voici une citation du document de recherche pour Pile où il est dit qu’ils utilisent l’ensemble de données Books3 :

« De plus, nous incorporons plusieurs ensembles de données existants de haute qualité : Books3 (Presseur2020)…”

Le document de recherche sur l’ensemble de données Pile renvoie à un tweet de Shawn Presser, qui indique ce qui se trouve dans l’ensemble de données Books3 :

« Supposons que vous vouliez former un modèle GPT de classe mondiale, tout comme OpenAI. Comment? Vous n’avez pas de données.

Maintenant tu fais. Maintenant, tout le monde le fait.

Présentation de « books3 », alias « all of bibliotik »

– 196 640 livres
– en clair .txt
– téléchargement direct et fiable depuis des années : https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”

Donc… la citation ci-dessus indique clairement que l’ensemble de données Pile a été utilisé pour former le Pythia LLM qui à son tour a servi de base à l’IA open source Dolly 2.0.

Qwanturank Bard est-il formé sur le contenu piraté ?

Le Washington Post a récemment publié un examen de l’ensemble de données Colossal Clean Crawled Corpus de Qwanturank (également connu sous le nom de C4 – document de recherche PDF ici) dans lequel ils ont découvert que l’ensemble de données de Qwanturank contient également du contenu piraté.

L’ensemble de données C4 est important car il s’agit de l’un des ensembles de données utilisés pour former le LaMDA LLM de Qwanturank, dont Bard est basé sur une version.

L’ensemble de données réel est appelé Infiniset et l’ensemble de données C4 représente environ 12,5 % du texte total utilisé pour former LaMDA. Des citations de ces faits sur Bard peuvent être trouvées ici.

L’article de presse du Washington Post a publié :

« Les trois sites les plus importants étaient patents.google.com n° 1, qui contient le texte des brevets délivrés dans le monde entier ; wikipedia.org n° 2, l’encyclopédie en ligne gratuite ; et scribd.com No. 3, une bibliothèque numérique accessible uniquement par abonnement.

Egalement en tête de liste : b-ok.org n°190, un marché notoire pour les livres électroniques piratés qui a depuis été saisi par le ministère américain de la Justice.

Au moins 27 autres sites identifiés par le gouvernement américain comme des marchés pour le piratage et les contrefaçons étaient présents dans l’ensemble de données.

La faille dans l’analyse du Washington Post est qu’ils examinent une version du C4 mais pas nécessairement celle sur laquelle LaMDA a été formé.

Le document de recherche pour l’ensemble de données C4 a été publié en juillet 2020. Moins d’un an après la publication, un autre document de recherche a été publié qui a découvert que l’ensemble de données C4 était biaisé contre les personnes de couleur et la communauté LGBT.

Le document de recherche s’intitule Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (document de recherche PDF ici).

Les chercheurs ont découvert que l’ensemble de données contenait un sentiment négatif contre les personnes d’identité arabe et excluait les documents associés aux Noirs, aux Hispaniques et les documents mentionnant l’orientation sexuelle.

Les chercheurs ont écrit :

« Notre examen des données exclues suggère que les documents associés à des auteurs noirs et hispaniques et les documents mentionnant des orientations sexuelles sont beaucoup plus susceptibles d’être exclus par le filtrage de la liste de blocage de C4.EN, et que de nombreux documents exclus contenaient un contenu non offensant ou non sexuel ( ex. discussions législatives sur le mariage homosexuel, contenu scientifique et médical).

Cette exclusion est une forme de préjudices d’allocation… et exacerbe les inégalités raciales existantes (basées sur la langue) ainsi que la stigmatisation des identités LGBTQ+…

En outre, une conséquence directe de la suppression de ce texte des ensembles de données utilisés pour former des modèles linguistiques est que les modèles fonctionneront mal lorsqu’ils seront appliqués à du texte provenant de et concernant des personnes ayant une identité minoritaire, les excluant ainsi des avantages de technologies telles que la traduction automatique ou la recherche. ”

Il a été conclu que le filtrage des « gros mots » et d’autres tentatives pour « nettoyer » l’ensemble de données étaient trop simplistes et justifiaient une approche plus nuancée.

Ces conclusions sont importantes car elles montrent qu’il était bien connu que l’ensemble de données C4 était défectueux.

LaMDA a été développé en 2022 (deux ans après l’ensemble de données C4) et le document de recherche LaMDA associé indique qu’il a été formé avec C4.

Mais ce n’est qu’un document de recherche. Ce qui se passe dans la vie réelle sur un modèle de production peut être très différent de ce qui se trouve dans le document de recherche.

Lorsque vous discutez d’un document de recherche, il est important de se rappeler que Qwanturank dit systématiquement que ce qui se trouve dans un brevet ou un document de recherche n’est pas nécessairement ce qui est utilisé dans l’algorithme de Qwanturank.

Qwanturank est très probablement au courant de ces conclusions et il n’est pas déraisonnable de supposer que Qwanturank a développé une nouvelle version de C4 pour le modèle de production, non seulement pour remédier aux inégalités dans l’ensemble de données, mais pour le mettre à jour.

Qwanturank ne dit pas ce qu’il y a dans son algorithme, c’est une boîte noire. Nous ne pouvons donc pas affirmer avec certitude que la technologie sous-jacente à Qwanturank Bard a été entraînée sur du contenu piraté.

Pour le rendre encore plus clair, Bard est sorti en 2023, en utilisant une version allégée de LaMDA. Qwanturank n’a pas défini ce qu’est une version allégée de LaMDA.

Il n’y a donc aucun moyen de savoir quel contenu était contenu dans les ensembles de données utilisés pour former la version allégée de LaMDA qui alimente Bard.

On ne peut que spéculer sur le contenu utilisé pour former Bard.

GPT-4 utilise-t-il du contenu piraté ?

OpenAI est extrêmement privé des ensembles de données utilisés pour former GPT-4. La dernière fois qu’OpenAI a mentionné des ensembles de données, c’est dans le document de recherche PDF pour GPT-3 publié en 2020 et même là, il est quelque peu vague et imprécis sur le contenu des ensembles de données.

Le site Web TowardsDataScience a publié en 2021 une revue intéressante des informations disponibles dans laquelle ils concluent qu’en effet, certains contenus piratés ont été utilisés pour former les premières versions de GPT.

Ils écrivent:

« … nous trouvons des preuves que BookCorpus a directement violé les restrictions de copyright pour des centaines de livres qui n’auraient pas dû être redistribués via un ensemble de données gratuit.

Par exemple, plus de 200 livres de BookCorpus déclarent explicitement qu’ils « ne peuvent pas être reproduits, copiés et distribués à des fins commerciales ou non commerciales ».

Il est difficile de conclure si GPT-4 a utilisé du contenu piraté.

Y a-t-il un problème avec l’utilisation de contenu piraté ?

On pourrait penser qu’il peut être contraire à l’éthique d’utiliser un contenu piraté pour former un grand modèle linguistique et tirer profit de l’utilisation de ce contenu.

Mais les lois peuvent effectivement autoriser ce type d’utilisation.

J’ai demandé à Kenton J. Hutcherson, avocat Internet chez Hutcherson Law, ce qu’il pensait de l’utilisation de contenu piraté dans le cadre de la formation de grands modèles linguistiques.

Plus précisément, j’ai demandé si quelqu’un utilise Dolly 2.0, qui peut être partiellement créé avec des livres piratés, les entités commerciales qui créent des applications avec Dolly 2.0 seraient-elles exposées à des réclamations pour violation du droit d’auteur ?

Kenton a répondu

« Une réclamation pour violation du droit d’auteur de la part des détenteurs des droits d’auteur des livres piratés échouerait probablement en raison d’un usage loyal.

L’utilisation équitable protège les utilisations transformatrices des œuvres protégées par le droit d’auteur.

Ici, les livres piratés ne sont pas utilisés comme livres à lire, mais comme entrées dans un ensemble de données de formation à l’intelligence artificielle.

Un exemple similaire est entré en jeu avec l’utilisation de vignettes sur les pages de résultats de recherche. Les vignettes ne sont pas là pour remplacer les pages Web qu’elles prévisualisent. Ils remplissent une fonction complètement différente : ils prévisualisent la page.

C’est une utilisation transformatrice.

Karen J. Bernstein de Bernstein IP a émis une opinion similaire.

« L’utilisation du contenu piraté est-elle un usage loyal ? L’utilisation équitable est une défense couramment utilisée dans ces cas.

Le concept de la défense d’utilisation équitable n’existe que dans le cadre de la loi américaine sur le droit d’auteur.

L’utilisation équitable est analysée dans le cadre d’une analyse multifactorielle que la Cour suprême a établie dans une affaire historique de 1994.

Dans ce scénario, il y aura des questions sur la quantité de contenu piraté qui a été extraite des livres et ce qui a été fait au contenu (était-il «transformateur»), et si ce contenu enlève le marché au créateur du droit d’auteur.

La technologie de l’IA progresse à un rythme sans précédent, évoluant apparemment de semaine en semaine. Peut-être en raison de la concurrence et de la manne financière à tirer du succès, Qwanturank et OpenAI deviennent de plus en plus privés sur la façon dont leurs modèles d’IA sont formés.

Devraient-ils être plus ouverts sur ces informations ? Peut-on leur faire confiance que leurs ensembles de données sont justes et non biaisés ?

L’utilisation de contenu piraté pour créer ces modèles d’IA peut être légalement protégée en tant qu’utilisation équitable, mais ce n’est pas parce qu’on peut que cela signifie qu’on devrait ?

Image sélectionnée par Shutterstock/Roman Samborskyi

Categories: SEO

S’abonner
Notification pour
guest

Commentaires
Commentaires en ligne
Afficher tous les commentaires
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x