### Étincelles de l'Intelligence Générale Artificielle
Une équipe de Microsoft Research a exploré une version préliminaire du GPT-4 d'OpenAI, soulignant son intelligence généralisée sur des domaines variés tels que les mathématiques, la programmation, la vision, la médecine, le droit et la psychologie. GPT-4 a montré sa capacité à résoudre des tâches complexes avec peu de guidage, se rapprochant parfois des performances humaines. L'équipe a évoqué le potentiel de GPT-4 comme forme naissante d'intelligence générale artificielle (AGI), bien que des défis subsistent pour atteindre une AGI plus avancée et complète.
### Modèles de Langage Incarnés
Google a présenté PaLM-E, un modèle de langage qui associe des entrées sensorielles continues à des phrases multimodales pour des tâches telles que la planification de manipulations robotiques séquentielles et la réponse à des questions visuelles. Avec 562 milliards de paramètres, PaLM-E a démontré des performances exceptionnelles dans diverses tâches, y compris le raisonnement multimodal.
### LLaMA 2 et LLaMA 2-Chat par Meta AI
Meta AI a développé LLaMA 2 et LLaMA 2-Chat, des modèles de langage avec des améliorations significatives par rapport à leur prédécesseur. Ces modèles ont été optimisés pour le dialogue et ont montré des performances supérieures en matière de sécurité et d'utilité par rapport à d'autres modèles ouverts et certains modèles propriétaires.
### LLaVA : Assistant Visuel et Linguistique
LLaVA, développé conjointement par l'Université du Wisconsin–Madison, Microsoft et l'Université Columbia, est un modèle multimodal qui utilise GPT-4 pour transformer des paires d'images et de textes en données d'instruction. Ce modèle vise à créer un agent visuel généraliste capable de suivre des instructions.
### Agents Génératifs
Des chercheurs de l'Université Stanford et de Google ont proposé des agents génératifs capables de simuler des comportements humains crédibles, allant des routines quotidiennes aux activités créatives. Ces agents utilisent des modèles de langage étendus pour planifier leur comportement en se basant sur des souvenirs stockés en langage naturel.
### Segmenter N'importe Quoi
Meta AI a introduit un modèle et une base de données révolutionnaires pour la segmentation d'image, avec plus d'un milliard de masques pour onze millions d'images. SAM, le modèle de segmentation, utilise une architecture simple mais efficace pour répondre à des invites spécifiques lors de la segmentation d'image.
### DALL-E 3 par OpenAI
OpenAI a abordé les défis de la fidélité des modèles texte-image à travers DALL-E 3, qui a été entraîné sur un ensemble de données recaptionné avec des descriptions d'images précises et descriptives. DALL-E 3 a montré une capacité améliorée à suivre des invites détaillées.
### ControlNet par l'Université Stanford
ControlNet est une structure de réseau neuronal conçue pour contrôler les modèles de diffusion pré-entraînés et accepter des conditions d'entrée supplémentaires. ControlNet peut apprendre des conditions spécifiques à la tâche de manière end-to-end et est capable de traiter de petites bases de données d'entraînement.
### Gen-1 par Runway
Runway a introduit Gen-1, un modèle de diffusion textuel pour l'édition vidéo, permettant des modifications vidéo basées sur des descriptions textuelles ou visuelles. Gen-1 a été entraîné conjointement sur des images et des vidéos pour permettre une édition vidéo polyvalente.
### DreamerV3 par DeepMind et l'Université de Toronto
DreamerV3 est un algorithme basé sur des modèles du monde qui apprend de l'expérience et combine perception et imagination pour prédire des résultats futurs et évaluer la valeur de différentes situations. DreamerV3 a prouvé sa capacité à fonctionner dans une large gamme de domaines avec des hyperparamètres fixes.
Si vous cherchez à intégrer l'intelligence artificielle dans votre entreprise, contactez-nous à info@creafix.ch ou via notre formulaire de contact pour réserver votre appel et nous nous occuperons de votre entreprise.