Modèle de langage open source nommé Dolly 2.0 formé de la même manière que ChatGPT

Publié le 13 avril 2023, modifié le 20 avril 2024 par Lucie Blanchard

Databricks a annoncé la sortie du premier modèle de langage open source adapté aux instructions, appelé Dolly 2.0. Il a été formé en utilisant une méthodologie similaire à celle d’InstructGPT, mais avec un ensemble de données revendiqué de meilleure qualité qui est 100 % open source.

Ce modèle est libre d’utilisation, y compris à des fins commerciales, car chaque partie du modèle est 100 % open source.

Formation aux instructions open source

Ce qui permet à ChatGPT de suivre les instructions, c’est la formation qu’il reçoit à l’aide des techniques décrites dans le document de recherche InstructGPT.

La percée découverte avec InstructGPT est que les modèles de langage n’ont pas besoin d’ensembles de formation de plus en plus grands.

En utilisant une formation aux questions et réponses évaluée par l’homme, OpenAI a pu former un meilleur modèle de langage en utilisant cent fois moins de paramètres que le modèle précédent, GPT-3.

Databricks a utilisé une approche similaire pour créer un ensemble de données d’invite et de réponse appelé databricks-dolly-15k.

Leur ensemble de données d’invite/réponse a été créé sans gratter les forums Web ou Reddit.

databricks-dolly-15k est un ensemble de données créé par les employés de Databricks, 15 000 paires d’invites et de réponses 100 % originales, générées par l’homme, conçues pour former le modèle de langage Dolly 2.0 de la même manière que le modèle ChatGPT a été créé avec InstructGPT.

La page GitHub de l’ensemble de données explique comment ils l’ont fait :

« databricks-dolly-15k est un ensemble de données open source d’enregistrements de suivi d’instructions utilisé dans la formation databricks/dolly-v2-12b qui a été généré par des milliers d’employés de Databricks dans plusieurs des catégories de comportement décrites dans l’article InstructGPT, y compris le remue-méninges, la classification, AQ fermée, génération, extraction d’informations, AQ ouverte et résumé.

… Les employés de Databricks ont été invités à créer des paires invite/réponse dans chacune des huit catégories d’instructions différentes, y compris les sept décrites dans l’article InstructGPT, ainsi qu’une catégorie ouverte de forme libre.

Les contributeurs ont reçu pour instruction d’éviter d’utiliser des informations provenant de n’importe quelle source sur le Web à l’exception de Wikipédia (pour des sous-ensembles particuliers de catégories d’instructions), et explicitement pour instruction d’éviter d’utiliser l’IA générative dans la formulation d’instructions ou de réponses. Des exemples de chaque comportement ont été fournis pour motiver les types de questions et d’instructions appropriées à chaque catégorie.

À mi-chemin du processus de génération de données, les contributeurs ont eu la possibilité de répondre aux questions posées par d’autres contributeurs. On leur a demandé de reformuler la question initiale et de ne sélectionner que les questions auxquelles on pouvait raisonnablement s’attendre à ce qu’elles répondent correctement.

Databricks affirme qu’il s’agit peut-être du tout premier ensemble de données d’instructions généré par l’homme créé pour entraîner un modèle de langage à suivre des instructions, tout comme ChatGPT.

Le défi consistait à créer un ensemble de données 100 % original qui n’avait aucun lien avec ChatGPT ou toute autre source avec une licence restrictive.

Les employés ont été incités par un concours à contribuer à générer les 15 000 invites/réponses dans sept catégories de tâches telles que le brainstorming, la classification et l’écriture créative.

Databricks affirme que l’ensemble de formation databricks-dolly-15k peut être supérieur à l’ensemble de données utilisé pour former ChatGPT.

Ils notent que bien que leur ensemble de données soit plus petit que celui utilisé pour former le modèle Stanford Alpaca, leur modèle a mieux fonctionné car leurs données sont de meilleure qualité.

Ils écrivent:

« Le modèle Dolly 2.0, basé sur le pythia-12b d’EleutherAI, présentait un comportement de suivi d’instructions de haute qualité. Avec le recul, ce n’est pas surprenant.

De nombreux ensembles de données de réglage des instructions publiés ces derniers mois contiennent des données synthétisées, qui contiennent souvent des hallucinations et des erreurs factuelles.

databricks-dolly-15k, d’autre part, est généré par des professionnels, est de haute qualité et contient de longues réponses à la plupart des tâches.

… nous ne nous attendons pas à ce que Dolly soit à la pointe de la technologie en termes d’efficacité.

Cependant, nous nous attendons à ce que Dolly et l’ensemble de données open source agissent comme la graine d’une multitude de travaux de suivi, qui pourraient servir à amorcer des modèles de langage encore plus puissants.

Limites de l’ensemble de données

La page GitHub de l’ensemble de données reconnaît qu’il peut y avoir des lacunes dans l’ensemble de données.

Les données de Wikipédia ont été utilisées pour une partie de la formation dans le cadre de la création d’invites et de réponses. Ainsi, il est possible que tout biais contenu dans Wikipédia se retrouve dans l’ensemble de données résultant.

Certains des employés qui ont travaillé à la création de l’ensemble de données n’étaient pas des locuteurs natifs de l’anglais, ce qui pourrait introduire des anomalies dans l’ensemble de données.

La composition démographique des employés qui ont créé l’ensemble de données peut elle-même influencer l’ensemble de données pour qu’il contienne des biais propres à ces employés.

Malgré ces éventuelles lacunes dans l’ensemble de données, Databricks a déclaré que le leur était de meilleure qualité.

De plus, Dolly 2.0 est destiné à servir de point de départ aux autres pour créer et innover des versions encore meilleures.

Databricks insiste sur le fait que l’IA Open Source est meilleure

L’une des motivations derrière la création de Dolly 2.0 est que les utilisateurs des données peuvent posséder les modèles qu’ils ont créés et peuvent mieux protéger leurs données en n’ayant pas à les partager avec un tiers.

Ils estiment également que la sécurité de l’IA ne doit pas être concentrée entre les mains de trois grandes entreprises, mais répartie entre toutes les parties prenantes.

L’open source prend de l’ampleur et il sera intéressant de voir où en sera cette industrie dans les deux prochaines années.

Plus d’informations sur où télécharger le modèle Dolly 2.0 et comment l’utiliser peuvent être trouvées dans leur annonce.

Free Dolly : Présentation du premier LLM au monde véritablement ouvert et adapté aux instructions

Image sélectionnée par Shutterstock/Kamil Macniak

Modèle de langage open source nommé Dolly 2.0 formé de la même manière que ChatGPT

Formation aux instructions open source

Ils écrivent:

Limites de l’ensemble de données

Databricks insiste sur le fait que l’IA Open Source est meilleure

Lucie Blanchard

7 Conseils de rédaction de pages de destination pour générer plus de conversions

Abus de réputation sur le site Google : la FAQ répond aux préoccupations

Gains rapides pour votre site