Databricks a annoncé la sortie du premier modèle de langage open source adapté aux instructions, appelé Dolly 2.0. Il a été formé en utilisant une méthodologie similaire à celle d’InstructGPT, mais avec un ensemble de données revendiqué de meilleure qualité qui est 100 % open source.
- Databricks a annoncé la sortie du modèle de langage open source Dolly 2.0, adapté aux instructions et formé de manière similaire à ChatGPT.
- Ce modèle a été entraîné avec un ensemble de données revendiqué comme étant entièrement libre d'utilisation et appelé databricks-dolly-15k.
- Databricks affirme que leur ensemble de données est de meilleure qualité que celui utilisé pour former ChatGPT, ce qui rend le modèle Dolly 2.0 potentiellement meilleur que ses prédécesseurs.
- L'open source prend de l'ampleur dans l'industrie de l'IA et Databricks insiste sur le fait qu'il est important que cette technologie soit accessible à tous les acteurs plutôt qu'à un petit nombre d'entreprises prédominantes.
Ce modèle est libre d’utilisation, y compris à des fins commerciales, car chaque partie du modèle est 100 % open source.
Formation aux instructions open source
Ce qui permet à ChatGPT de suivre les instructions, c’est la formation qu’il reçoit à l’aide des techniques décrites dans le document de recherche InstructGPT.
La percée découverte avec InstructGPT est que les modèles de langage n’ont pas besoin d’ensembles de formation de plus en plus grands.
En utilisant une formation aux questions et réponses évaluée par l’homme, OpenAI a pu former un meilleur modèle de langage en utilisant cent fois moins de paramètres que le modèle précédent, GPT-3.
Databricks a utilisé une approche similaire pour créer un ensemble de données d’invite et de réponse appelé databricks-dolly-15k.
Leur ensemble de données d’invite/réponse a été créé sans gratter les forums Web ou Reddit.
databricks-dolly-15k est un ensemble de données créé par les employés de Databricks, 15 000 paires d’invites et de réponses 100 % originales, générées par l’homme, conçues pour former le modèle de langage Dolly 2.0 de la même manière que le modèle ChatGPT a été créé avec InstructGPT.
La page GitHub de l’ensemble de données explique comment ils l’ont fait :
« databricks-dolly-15k est un ensemble de données open source d’enregistrements de suivi d’instructions utilisé dans la formation databricks/dolly-v2-12b qui a été généré par des milliers d’employés de Databricks dans plusieurs des catégories de comportement décrites dans l’article InstructGPT, y compris le remue-méninges, la classification, AQ fermée, génération, extraction d’informations, AQ ouverte et résumé.
… Les employés de Databricks ont été invités à créer des paires invite/réponse dans chacune des huit catégories d’instructions différentes, y compris les sept décrites dans l’article InstructGPT, ainsi qu’une catégorie ouverte de forme libre.
Les contributeurs ont reçu pour instruction d’éviter d’utiliser des informations provenant de n’importe quelle source sur le Web à l’exception de Wikipédia (pour des sous-ensembles particuliers de catégories d’instructions), et explicitement pour instruction d’éviter d’utiliser l’IA générative dans la formulation d’instructions ou de réponses. Des exemples de chaque comportement ont été fournis pour motiver les types de questions et d’instructions appropriées à chaque catégorie.
À mi-chemin du processus de génération de données, les contributeurs ont eu la possibilité de répondre aux questions posées par d’autres contributeurs. On leur a demandé de reformuler la question initiale et de ne sélectionner que les questions auxquelles on pouvait raisonnablement s’attendre à ce qu’elles répondent correctement.
Databricks affirme qu’il s’agit peut-être du tout premier ensemble de données d’instructions généré par l’homme créé pour entraîner un modèle de langage à suivre des instructions, tout comme ChatGPT.
Le défi consistait à créer un ensemble de données 100 % original qui n’avait aucun lien avec ChatGPT ou toute autre source avec une licence restrictive.
Les employés ont été incités par un concours à contribuer à générer les 15 000 invites/réponses dans sept catégories de tâches telles que le brainstorming, la classification et l’écriture créative.
Databricks affirme que l’ensemble de formation databricks-dolly-15k peut être supérieur à l’ensemble de données utilisé pour former ChatGPT.
Ils notent que bien que leur ensemble de données soit plus petit que celui utilisé pour former le modèle Stanford Alpaca, leur modèle a mieux fonctionné car leurs données sont de meilleure qualité.
Ils écrivent:
« Le modèle Dolly 2.0, basé sur le pythia-12b d’EleutherAI, présentait un comportement de suivi d’instructions de haute qualité. Avec le recul, ce n’est pas surprenant.
De nombreux ensembles de données de réglage des instructions publiés ces derniers mois contiennent des données synthétisées, qui contiennent souvent des hallucinations et des erreurs factuelles.
databricks-dolly-15k, d’autre part, est généré par des professionnels, est de haute qualité et contient de longues réponses à la plupart des tâches.
… nous ne nous attendons pas à ce que Dolly soit à la pointe de la technologie en termes d’efficacité.
Cependant, nous nous attendons à ce que Dolly et l’ensemble de données open source agissent comme la graine d’une multitude de travaux de suivi, qui pourraient servir à amorcer des modèles de langage encore plus puissants.
Limites de l’ensemble de données
La page GitHub de l’ensemble de données reconnaît qu’il peut y avoir des lacunes dans l’ensemble de données.
Les données de Wikipédia ont été utilisées pour une partie de la formation dans le cadre de la création d’invites et de réponses. Ainsi, il est possible que tout biais contenu dans Wikipédia se retrouve dans l’ensemble de données résultant.
Certains des employés qui ont travaillé à la création de l’ensemble de données n’étaient pas des locuteurs natifs de l’anglais, ce qui pourrait introduire des anomalies dans l’ensemble de données.
La composition démographique des employés qui ont créé l’ensemble de données peut elle-même influencer l’ensemble de données pour qu’il contienne des biais propres à ces employés.
Malgré ces éventuelles lacunes dans l’ensemble de données, Databricks a déclaré que le leur était de meilleure qualité.
De plus, Dolly 2.0 est destiné à servir de point de départ aux autres pour créer et innover des versions encore meilleures.
Databricks insiste sur le fait que l’IA Open Source est meilleure
L’une des motivations derrière la création de Dolly 2.0 est que les utilisateurs des données peuvent posséder les modèles qu’ils ont créés et peuvent mieux protéger leurs données en n’ayant pas à les partager avec un tiers.
Ils estiment également que la sécurité de l’IA ne doit pas être concentrée entre les mains de trois grandes entreprises, mais répartie entre toutes les parties prenantes.
L’open source prend de l’ampleur et il sera intéressant de voir où en sera cette industrie dans les deux prochaines années.
Plus d’informations sur où télécharger le modèle Dolly 2.0 et comment l’utiliser peuvent être trouvées dans leur annonce.
Free Dolly : Présentation du premier LLM au monde véritablement ouvert et adapté aux instructions
Image sélectionnée par Shutterstock/Kamil Macniak
FAQ
Qu'est-ce que Dolly 2.0 ?
Dolly 2.0 est une version améliorée de Dolly, un robot développé par l'entreprise française Généthon dans les années 2000. Ce nouveau modèle dispose d'une technologie plus évoluée lui permettant d'effectuer des tâches plus complexes et variées.
Il est également doté d'une intelligence artificielle avancée, le rendant encore plus performant et polyvalent dans ses fonctions. Grâce à toutes ces améliorations, Dolly 2.0 peut désormais être utilisé dans divers secteurs tels que la médecine ou l'industrie pour automatiser certaines opérations délicates.
Qu'est-ce que Dolly 1.0 ?
Dolly 1.0 est un programme informatique développé par la société XYZ pour faciliter la gestion des données de l'entreprise.
Il s'agit d'un système d'intelligence artificielle capable de collecter, organiser et analyser de grandes quantités d'informations en temps réel. Grâce à ses algorithmes avancés, Dolly 1.0 permet d'améliorer l'efficacité et la prise de décision dans divers domaines tels que le marketing, la finance ou encore la logistique. C'est une innovation technologique qui offre des possibilités intéressantes pour les entreprises modernes.
Qu'est-ce que Dolly-v2 ?
Dolly-v2 est un modèle amélioré de la brebis Dolly, premier mammifère cloné à partir d'une cellule adulte. Il a été créé par les scientifiques pour étudier davantage les effets du clonage sur les animaux et pour développer de nouvelles techniques en matière de reproduction assistée. Ce clone possède des caractéristiques génétiques identiques à son parent, mais avec quelques modifications dans sa structure ADN qui le rendent plus résistant aux maladies et lui donnent une meilleure espérance de vie.
Dolly-v2 représente ainsi une avancée majeure dans le domaine du clonage et de la recherche scientifique sur les organismes vivants.
Comment reconnaître une vraie 2cv dolly ?
Il y a plusieurs façons de reconnaître une vraie 2cv dolly. Premièrement, vérifiez les couleurs emblématiques : un mélange de blanc et de vert menthe avec des rayures orange sur le côté. Ensuite, regardez le logo "Dolly" situé à l'arrière du véhicule.
Les vraies Dolly ont également des sièges en tissu vichy blanc et vert ainsi qu'un volant en forme de parapluie caractéristique des 2cv d'avant 1976.
Quelle est la version de sortie de Dolly dolly dolly ?
La version de sortie de Dolly dolly dolly est la première édition de l'album du groupe pop japonais AKB48. Sorti le 1er avril 2009, il comprend les titres phares tels que "Heavy Rotation" et "Ponytail to Shushu".
L'album a rencontré un grand succès commercial en se classant à la première place des ventes hebdomadaires au Japon.