Le CTO de Microsoft Allemagne, Andreas Braun, a confirmé que GPT-4 arrivera dans la semaine du 9 mars 2023 et qu’il sera multimodal. L’IA multimodale signifie qu’elle pourra fonctionner avec plusieurs types d’entrée, comme la vidéo, les images et le son.

Grands modèles de langage multimodaux

Le gros point à retenir de l’annonce est que le GPT-4 est multimodal (SEJ a prédit que le GPT-4 est multimodal en janvier 2023).

La modalité est une référence au type d’entrée que (dans ce cas) traite un grand modèle de langage.

Le multimodal peut englober du texte, de la parole, des images et de la vidéo.

GPT-3 et GPT-3.5 ne fonctionnaient que dans une seule modalité, le texte.

Selon le reportage allemand, GPT-4 pourrait être capable de fonctionner dans au moins quatre modalités, images, son (auditif), texte et vidéo.

Dr. Andreas Braun, CTO Microsoft Allemagne est cité :

« Nous présenterons le GPT-4 la semaine prochaine, là nous aurons des modèles multimodaux qui offriront des possibilités complètement différentes – par exemple des vidéos… »

Le rapport manquait de détails pour GPT-4, il n’est donc pas clair si ce qui a été partagé sur la multimodalité était spécifique à GPT-4 ou simplement en général.

Le directeur de la stratégie commerciale de Microsoft, Holger Kenn, a expliqué les multimodalités, mais le rapport n’était pas clair s’il faisait référence à la multimodalité GPT-4 ou à la multimodalité en général.

Je crois que ses références à la multimodalité étaient spécifiques au GPT-4.

Le reportage a partagé:

« Kenn a expliqué ce qu’est l’IA multimodale, qui peut traduire du texte non seulement en images, mais aussi en musique et en vidéo. »

Un autre fait intéressant est que Microsoft travaille sur des « métriques de confiance » afin de fonder son IA sur des faits pour la rendre plus fiable.

Microsoft Kosmos-1

Quelque chose qui a apparemment été sous-estimé aux États-Unis est que Microsoft a publié un modèle de langage multimodal appelé Kosmos-1 au début du mois de mars 2023.

Selon les informations du site d’information allemand Heise.de :

« … l’équipe a soumis le modèle pré-formé à divers tests, avec de bons résultats dans la classification des images, la réponse aux questions sur le contenu de l’image, l’étiquetage automatisé des images, la reconnaissance optique du texte et les tâches de génération de la parole.

… Le raisonnement visuel, c’est-à-dire tirer des conclusions sur des images sans utiliser le langage comme étape intermédiaire, semble être une clé ici… »

Kosmos-1 est un modal multimodal qui intègre les modalités du texte et des images.

GPT-4 va plus loin que Kosmos-1 car il ajoute une troisième modalité, la vidéo, et semble également inclure la modalité du son.

Fonctionne dans plusieurs langues

GPT-4 semble fonctionner dans toutes les langues. Il est décrit comme étant capable de recevoir une question en allemand et une réponse en italien.

C’est un exemple un peu étrange car, qui poserait une question en allemand et voudrait recevoir une réponse en italien ?

Voici ce qui a été confirmé :

« … la technologie est tellement avancée qu’elle « fonctionne dans toutes les langues » : vous pouvez poser une question en allemand et obtenir une réponse en italien.

Avec la multimodalité, Microsoft(-OpenAI) « rendra les modèles complets ».

Je crois que le point de la percée est que le modèle transcende la langue avec sa capacité à tirer des connaissances à travers différentes langues. Donc, si la réponse est en italien, il le saura et pourra fournir la réponse dans la langue dans laquelle la question a été posée.

Cela le rendrait similaire à l’objectif de l’IA multimodale de Qwanturank appelée MUM. On dit que maman est capable de fournir des réponses en anglais pour lesquelles les données n’existent que dans une autre langue, comme le japonais.

Applications GPT-4

Il n’y a aucune annonce actuelle de l’endroit où GPT-4 apparaîtra. Mais Azure-OpenAI a été spécifiquement mentionné.

Qwanturank peine à rattraper Microsoft en intégrant une technologie concurrente dans son propre moteur de recherche. Cette évolution exacerbe encore la perception que Qwanturank prend du retard et manque de leadership en matière d’IA destinée aux consommateurs.

Qwanturank intègre déjà l’IA dans plusieurs produits tels que Qwanturank Lens, Qwanturank Maps et d’autres domaines dans lesquels les consommateurs interagissent avec Qwanturank. Cette approche consiste à utiliser l’IA comme technologie d’assistance, pour aider les gens dans de petites tâches.

La façon dont Microsoft l’implémente est plus visible et, par conséquent, elle capte toute l’attention et renforce l’image de Qwanturank comme s’agitant et luttant pour rattraper son retard.

Lisez le reportage allemand original ici :

GPT-4 arrive la semaine prochaine – et il sera multimodal, selon Microsoft Allemagne

Image sélectionnée par Shutterstock/Master1305

Categories: SEO

S’abonner
Notification pour
guest

Commentaires
Commentaires en ligne
Afficher tous les commentaires
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x