Open Source GPT Chat a fait un autre pas en avant avec la sortie du Dolly Large Language Model (DLL) créé par la société de logiciels d’entreprise Databricks.
- .
- Dolly est un nouveau clone open source de ChatGPT créé par Databricks
- Il a été développé à partir d'un modèle open source, inspiré d'un document universitaire sur la création de données d'entraînement auto-générées de haute qualité
- Ce modèle démontre qu'un grand modèle de langage peut être créé avec un ensemble de données plus petit mais de haute qualité et Dolly se concentre sur le suivi des instructions
- Cela fait partie du mouvement croissant pour démocratiser l'IA grâce à l'open source, rejoignant des organisations comme Mozilla.ai.
Le nouveau clone de ChatGPT s’appelle Dolly, du nom du célèbre mouton de ce nom, le premier mammifère à être cloné.
Modèles de grands langages open source
Le Dolly LLM est la dernière manifestation du mouvement croissant de l’IA open source qui cherche à offrir un meilleur accès à la technologie afin qu’elle ne soit pas monopolisée et contrôlée par de grandes entreprises.
L’une des préoccupations à l’origine du mouvement de l’IA open source est que les entreprises peuvent être réticentes à transmettre des données sensibles à un tiers qui contrôle la technologie de l’IA.
Basé sur l’Open Source
Dolly a été créé à partir d’un modèle open source créé par l’institut de recherche à but non lucratif EleutherAI et le modèle Alpaca de l’Université de Stanford, lui-même créé à partir du modèle LLaMA open source à 65 milliards de paramètres créé par Meta.
LLaMA, qui signifie Large Language Model Meta AI, est un modèle de langage formé sur des données accessibles au public.
Selon un article de Weights & Biases, LLaMA peut surpasser la plupart des meilleurs modèles de langage (OpenAI GPT-3, Gopher de Deep Mind et Chinchilla de DeepMind) malgré sa petite taille.
Créer un meilleur ensemble de données
Une autre inspiration est venue d’un document de recherche universitaire (SELF-INSTRUCT : Aligning Language Model with Self Generated Instructions PDF) qui décrivait un moyen de créer des données de formation de questions et réponses auto-générées de haute qualité qui sont meilleures que les données publiques limitées.
Le document de recherche Self-Instruct explique:
« … nous organisons un ensemble d’instructions rédigées par des experts pour de nouvelles tâches et montrons par une évaluation humaine que le réglage de GPT3 avec SELF-INSTRUCT surpasse largement l’utilisation des ensembles de données d’instructions publiques existants, ne laissant qu’un écart absolu de 5 % derrière InstructGPT…
… En appliquant notre méthode à la vanille GPT3, nous démontrons une amélioration absolue de 33% par rapport au modèle original sur SUPERNATURALINSTRUCTIONS, à égalité avec les performances de InstructGPT… qui est formé avec des données d’utilisateurs privés et des annotations humaines.
L’importance de Dolly est qu’il démontre qu’un grand modèle de langage utile peut être créé avec un ensemble de données plus petit mais de haute qualité.
Databricks observe :
«Dolly fonctionne en prenant un modèle de paramètres open source existant de 6 milliards d’EleutherAI et en le modifiant légèrement pour obtenir des instructions suivant des capacités telles que le brainstorming et la génération de texte non présentes dans le modèle d’origine, en utilisant les données d’Alpaca.
… Nous montrons que n’importe qui peut prendre un grand modèle de langage (LLM) open source prêt à l’emploi et lui donner une capacité magique de suivi d’instructions de type ChatGPT en l’entraînant en 30 minutes sur une machine, en utilisant des données d’entraînement de haute qualité.
Étonnamment, le suivi des instructions ne semble pas nécessiter les modèles les plus récents ou les plus grands : notre modèle ne comporte que 6 milliards de paramètres, contre 175 milliards pour le GPT-3. »
IA open source Databricks
On dit que Dolly démocratise l’IA. Cela fait partie d’un mouvement d’habillage qui a récemment été rejoint par l’organisation à but non lucratif Mozilla avec la fondation de Mozilla.ai. Mozilla est l’éditeur du navigateur Firefox et d’autres logiciels open source.
Lisez l’annonce complète de Databricks :
Hello Dolly : Démocratiser la magie de ChatGPT avec des modèles ouverts
FAQ
Quel est le code source du clone de Chatgpt ?
Le code source du clone de Chatgpt est une combinaison de langages informatiques tels que Python, Javascript et HTML. Il est basé sur l'architecture du célèbre modèle d'intelligence artificielle GPT-3 développé par OpenAI.
Ce code permet à l'application de générer des réponses pertinentes et cohérentes en utilisant un énorme corpus de données textuelles. Grâce à sa sophistication, le code source du clone de Chatgpt promet une expérience utilisateur exceptionnelle en matière de chatbot conversationnel.
Est-il possible d'obtenir un Chatgpt-clone ?
Il est tout à fait possible d'obtenir un Chatgpt-clone en le téléchargeant sur des sites spécialisés ou en le créant soi-même. Cependant, il est important de noter que ces clones ne sont pas identiques à l'original et peuvent avoir des fonctionnalités limitées.
Il est donc préférable de bien se renseigner avant de procéder à l'installation. De plus, il convient d'utiliser ces clones avec prudence et responsabilité pour éviter tout problème juridique ou éthique.
Y a-t-il une version française en open source de Chatgpt ?
Oui, il existe une version française en open source de Chatgpt. Cette version a été développée par des contributeurs francophones et peut être utilisée gratuitement sur différentes plateformes. Grâce à cette version, les utilisateurs peuvent profiter d'un assistant virtuel en langue française pour communiquer et échanger avec leur communauté.
Elle est constamment mise à jour et améliorée grâce aux contributions de la communauté francophone qui l'utilise.
Comment créer un clone de chatgpt ?
Pour créer un clone de Chatgpt, il faut tout d'abord se familiariser avec les bases de programmation et de l'intelligence artificielle. Ensuite, il faut télécharger le code source du programme original et le modifier selon nos besoins.
Il est également important d'avoir accès à une base de données pour entraîner notre clone et lui permettre de répondre aux questions posées par les utilisateurs. Enfin, il faudra effectuer des tests réguliers afin d'améliorer les performances du clone et le rendre plus proche du modèle original.
Quel est l'alternative open source à Chatgpt ?
L'alternative open source à Chatgpt est GPT-Neo, une version open source développée par EleutherAI. Il s'agit d'un modèle de language processing basé sur l'apprentissage profond et entraîné sur les mêmes données que Chatgpt.
Grâce à son caractère open source, GPT-Neo peut être utilisé librement et modifié selon les besoins des utilisateurs. De plus, il offre également une interface de programmation complète pour faciliter son intégration dans différents projets et applications.