Les LLM les plus connus, qu'on trouve dans ChatGPT ou dans Gemini, deviennent de plus en plus performants, notamment en mathématiques. Pourtant, ce ne serait pas dû à leurs avancées technologiques. En fait, ces intelligences artificielles tricheraient avant même de répondre à des problèmes.
Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?
C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.
Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.
Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.
Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.
Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :
Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.
Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.
Vous devrez donc avoir Python 3.11, puis installez poetry :
brew install poetry
Ensuite, clonez le dépôt git et aller dans le dossier :
Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :
./run_ui.sh
Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.
En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :
curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
"url": "https://www.geico.com",
"webhook_callback_url": "",
"navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
"data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
"navigation_payload": "{Vos données ici}",
"proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks
Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.
Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself.
Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et le résultat est plutôt cool, même si le chatbot n’incarne pas directement Steve Jobs (pour des questions éthiques j’imagine et pour n’énerver personne…)
Bref, de quoi vous inspirer et vous motiver sans forcement mater des heures et des heures d’interviews.
Sam Altman a pris la parole lors d'une conférence sur les progrès futurs de l'IA à l'Université de Stanford. L'occasion de parler du développement de GPT-5 et le patron d'OpenAI le promet : la prochaine évolution de ChatGPT sera grande.
Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté !
Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variables d’environnement qui débarquent : OLLAMA_NUM_PARALLEL et OLLAMA_MAX_LOADED_MODELS. Avec ça, vous allez pouvoir gérer plusieurs modèles et requêtes en même temps, comme des pros ! 😎
Par exemple, si vous avez un modèle pour compléter votre code avec une IA de 6 milliards de paramètres comme Llama 3, et en même temps vous demandez à Phi 3 Mini et ses 3,8 milliards de paramètres comment architecturer votre projet et bien maintenant, c’est possible ! Comme ça, plus besoin d’attendre que l’un ait fini pour lancer l’autre puisque tout ça va se lancer en parallèle.
Alors bien sûr, c’est encore expérimental car il n’y a pas encore de priorité, et on est limité par la mémoire dispo sur notre machine. D’ailleurs, il vaut mieux avoir 16 Go de RAM et un CPU 4 cœurs pour que ça fonctionne correctement.
Il y a aussi plein de nouveaux modèles d’IA compatibles avec Ollama maintenant. Des gros calibres comme Llama 3, le meilleur modèle open-source à ce jour, mais aussi des plus légers et spécialisés comme Phi 3 Mini, Moondream pour la vision par ordinateur sur des appareils à la marge, ou encore Dolphin Llama 3 qui répond sans censure. Et le premier modèle Qwen (c’est chinois) de plus de 100 milliards de paramètres, Qwen 110B, est également de la partie. Ça en fait des compagnons pour nous assister dans nos projets !
Ensuite, imaginons que vous vouliez tester le parallélisme. Vous devez simplement lancer votre serveur Ollama avec les fameuses variables d’environnement.
Voici comment procéder :
Définir les variables sur Mac :
Utilisez launchctl pour définir chaque variable. Par exemple, pour permettre à Ollama de gérer trois requêtes simultanément, tapez dans le terminal : launchctl setenv OLLAMA_NUM_PARALLEL 3
Pour définir le nombre maximal de modèles chargés simultanément à deux, utilisez : launchctl setenv OLLAMA_MAX_LOADED_MODELS 2
Après avoir défini les variables, redémarrez l’application Ollama.
Configurer les variables sur Linux :
Éditez le service systemd d’Ollama avec systemctl edit ollama.service, ce qui ouvrira un éditeur de texte.
Ajoutez les lignes suivantes sous la section [Service] : [Service] Environment="OLLAMA_NUM_PARALLEL=3" Environment="OLLAMA_MAX_LOADED_MODELS=2"
Sauvegardez et quittez l’éditeur. Rechargez systemd et redémarrez Ollama avec : systemctl daemon-reload systemctl restart ollama
Paramétrer les variables sur Windows :
Quittez l’application Ollama via la barre des tâches.
Accédez aux variables d’environnement système via le panneau de configuration et créez ou modifiez les variables pour votre compte utilisateur :
Pour OLLAMA_NUM_PARALLEL, ajoutez ou modifiez la variable à 3.
Pour OLLAMA_MAX_LOADED_MODELS, ajustez la variable à 2.
Appliquez les changements et redémarrez Ollama à partir d’une nouvelle fenêtre de terminal.
Là, ça veut dire que vous pourrez envoyer 3 requêtes en parallèle sur le même modèle, et charger jusqu’à 2 modèles différents si votre RAM de 16 Go minimum le permet.
Bon, et une fois que c’est lancé, vous pourrez envoyer des requêtes à tour de bras. Un coup à Llama 3 pour qu’il vous aide à générer un résumé de texte hyper optimisé, un autre à Phi 3 Mini pour résumer un article scientifique, tout ça pendant que Moondream analyse une image pour de la détection d’objets.
Allez, je vous laisse tranquille, faut que j’aille optimiser mes scripts maintenant.
Utilisez-vous un moteur de recherche traditionnel quand vous cherchez une information en ligne ou votre premier réflexe est-il devenu un réseau social, une plateforme vidéo ou un chatbot boosté à l'IA ? C'est la question de notre sondage hebdomadaire.
Google est encore très prudent concernant l'utilisation de l'intelligence artificielle générative dans ses produits. Mais cette prudence pourrait-elle finalement causer sa chute ? OpenAI, l'éditeur de ChatGPT, pourrait bientôt lancer un moteur de recherche basé sur sa technologie ChatGPT, qui pourrait concurrencer directement Google.
ChatRTX, le chatbot expérimental de Nvidia qui fonctionne en local, se complète avec l'arrivée des modèles Gemma de Google, versions ouvertes de Gemini. De quoi avoir des alternatives respectueuses de la vie privée à ChatGPT, Copilot, Gemini et autres, le tout sur un PC Windows.
C’est un modèle de langage un peu mystérieux, accessible uniquement sur le site https://chat.lmsys.org, qui semble avoir des super pouvoirs dignes de ChatGPT. Mais attention, suspense… Personne ne sait d’où il sort ! Ce chatbot anonyme fait tourner les têtes cette semaine après être devenu disponible sur un important site de référence pour les grands modèles de langage, LMSYS Org. Beaucoup considèrent qu’il a à peu près les mêmes capacités que GPT-4 d’OpenAI, ce qui le place dans une rare catégorie de modèles d’IA que seule une poignée de développeurs dans le monde a pu atteindre.
Quand on lui pose la question, ce petit malin de GPT2-chatbot clame haut et fort qu’il est basé sur l’archi de GPT-4 sauf que voilà, ça colle pas vraiment avec son blaze GPT-2…
Les communautés d’IA en ligne se sont emballées au sujet de l’anonyme gpt2-chatbot. Un utilisateur de X affirme que gpt2-chatbot a presque codé un clone parfait du jeu mobile Flappy Bird. Un autre utilisateur de X dit qu’il a résolu un problème de l’Olympiade internationale de mathématiques en un seul coup. Sur de longs fils Reddit, les utilisateurs spéculent sauvagement sur les origines de gpt2-chatbot et se disputent pour savoir s’il provient d’OpenAI, de Google ou d’Anthropic. Il n’y a aucune preuve de ces affirmations, mais les tweets de Sam Altman, PDG d’OpenAI, et d’autres cadres n’ont fait que jeter de l’huile sur le feu.
Mise à jour : De nouvelles informations importantes sont apparues concernant GPT2-chatbot :
Il est extrêmement probable que GPT2-chatbot fonctionne sur un serveur géré par OpenAI ou associé à OpenAI, comme le révèle la comparaison de messages d’erreur d’API spécifiques.
GPT2-chatbot a été rendu indisponible sur lmsys.org depuis le 30 avril vers 18h UTC. LMSYS a également mis à jour de façon opportune sa politique d’évaluation des modèles hier.
GPT2-chatbot utilise le même tokenizer « tiktoken » qu’OpenAI et présente les mêmes vulnérabilités et résistances aux injections de prompts malicieux que les modèles d’OpenAI.
Lorsqu’on lui demande les coordonnées de son fournisseur, il donne des informations de contact très détaillées d’OpenAI.
Tout cela va clairement dans le sens de l’hypothèse selon laquelle GPT2-chatbot serait bien un nouveau modèle GPT d’OpenAI, probablement une version préliminaire de GPT-4.5. Les performances sont en effet un cran au-dessus de GPT-4 tout en restant dans la même lignée.
L’accès à GPT2-chatbot est actuellement limité à 8 messages par jour et par utilisateur en mode « tchatche directe ». Pour continuer après, il faut passer en mode « Battle ». Les restrictions plus importantes que pour GPT-4 suggèrent que le modèle a un coût de calcul plus élevé.
Malheureusement, suite à un trafic trop important, LMSYS a dû temporairement désactiver l’accès à GPT2-chatbot. Affaire à suivre donc pour découvrir l’identité réelle de ce mystérieux modèle et les plans d’OpenAI à son sujet. Une version plus large sera-t-elle bientôt diffusée ? Réponse dans les prochaines semaines !
Prêt à tester les talents cachés de GPT2-chatbot ?
Si un jour, ça remarche, direction https://chat.lmsys.org, sélectionnez « gpt2-chatbot », cliquez sur « Chat » et c’est parti mon kiki !
Vous aurez le droit à 8 messages gratos en mode « tchatche directe » et après, faut passer en mode « Battle » pour continuer à jouer. Un petit conseil : pensez à repartir d’une page blanche en cliquant sur « New Round » à chaque fois que vous changez de sujet, sinon il risque de perdre le fil.
On verra bien dans quelques semaines quelle théorie sortira gagnante de ces discussions. Il y a très peu d’informations disponibles sur gpt2-chatbot pour l’instant mais il semble clair qu’un acteur majeur est derrière ce modèle IA.
Vous avez une vieille vidéo toute pourrie, floue à souhait, qui date de Mathusalem et bien avec VideoGigaGAN d’Adobe, elle va se transformer en une magnifique séquence HD, avec des détails si nets que vous pourrez compter les poils de nez des gens qui sont dessus !
VideoGigaGAN est ce qu’on appelle un modèle d’IA génératif. En gros, ce machin est capable de deviner les détails manquants dans une vidéo pourrave pour la rendre méga classe. Les petits gars d’Adobe ont balancé des exemples sur leur GitHub et franchement, c’est impressionnant. On passe d’une vidéo degueulasse à un truc ultra net, avec des textures de peau hallucinantes et des détails de fou !
En plus, cette IA est capable d’upscaler les vidéos jusqu’à 8 fois leur résolution d’origine, par contre, faut pas s’emballer car pour le moment, c’est juste une démo de recherche et y’a pas encore de date de sortie officielle. Mais connaissant Adobe, y’a moyen que ça finisse dans Premiere Pro un de ces quatre. Je vais pouvoir améliorer mes vidéos tournées à l’époque au format 3GP \o/.
D’ici là, va falloir continuer à se taper des vidéos de chat toutes pixelisées sur les réseaux sociaux.
Vous connaissez OpenELM ? Non, normal, ça vient de sortir. Et c’est une famille de modèles IA open-source made in Apple conçus pour tourner directement sur vos appareils, sans passer par le cloud. En gros, c’est de l’IA maison dans nos iPhone, iPad et Mac…etc.
OpenELM combine plusieurs modèles de langage naturel (LLMs) utilisant des algorithmes évolutionnistes qui exploitent les principes techniques suivants :
Layer-wise scaling strategy : Cette stratégie consiste à allouer les paramètres dans les couches d’un modèle transformeur pour améliorer l’exactitude. Les modèles sont pré-alourés avec un budget de paramètres de 270 millions, 450 millions, 1,1 milliard et 3 milliards.
Pré-entraînement : Les modèles ont été pré-entraînés à l’aide d’une combinaison de datasets, incluant une sous-ensemble de Dolma v1.6, RefinedWeb, deduplicated PILE et une sous-ensemble de RedPajama. Ce dataset contient environ 1,8 trillion de tokens.
Evolutionary algorithms : Les algorithmes évolutionnistes sont utilisés pour combiner les modèles LLM et améliorer l’exactitude. Cela permet d’exploiter les forces combinées des modèles pré-alourés et d’améliorer leur précision.
Alors évidemment, Apple arrive un peu après la bataille dans l’IA, pendant que Microsoft et Google déboulent à fond la caisse. Mais bon, mieux vaut tard que jamais, et puis ils compensent avec du lourd, soit 8 modèles OpenELM au total, dont 4 pré-entraînés avec CoreNet et 4 fine-tunés. Et avec leur stratégie de scaling par couche ça optimise à fond l’allocation des paramètres.
Allez, je traduits… En gros, ça veut dire qu’ils sont hyper efficaces et précis. Prenez le modèle à 1 milliard de paramètres et bien bah il explose un modèle équivalent comme OLMo de 2,36% en précision, avec 2 fois moins de tokens en pré-entraînement. Et ce qui est top, c’est qu’Apple balance tout : code, logs d’entraînement, configuration…etc et pas juste le modèle final. Et vu qu’ils utilisent des datasets publics, c’est top en matière de transparence et vérification des biais.
En tout cas, une chose est sûre, avec OpenELM, Apple nous prouve qu’ils sont dans la course, et qu’ils comptent bien mettre le paquet sur l’IA
Et Merci à Letsar pour l’info, c’est lui qui m’a mis la puce à l’oreille sur OpenELM. Tu gères !
Nvidia entend bien accentuer ses efforts sur l'intelligence artificielle, que ce soit pour ses cartes graphiques ou ses data centers à destination du monde professionnel. Pour cela, la marque au caméléon a récemment acquis Run:AI, une start-up basée en Israël et spécialisée dans la gestion de charges de travail IA.
Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire ses actions futures les plus probables.
Dingue, non ?
Mais comment ce modèle s’y prend-il pour jouer les madame Irma ? En fait, tout est une question de limites. Nan, je ne parle pas des limites de vitesse ou des dates de péremption, hein. Je parle des contraintes qui pèsent sur un agent peu importe sa nature, biologique ou numérique.
Prenons un exemple concret : Vous êtes en train de jouer aux échecs contre un ordinateur. Vous avez vos propres contraintes : votre niveau de jeu, votre connaissance des ouvertures et des fins de partie, votre capacité à anticiper les coups de l’adversaire… Bref, tout un tas de facteurs qui limitent vos possibilités d’action. Eh bien, c’est exactement ce que le modèle d’IA du MIT analyse !
En se basant sur ces fameuses limites, il est capable d’inférer les coups que vous avez le plus de chances de jouer. Pas besoin d’être Garry Kasparov pour comprendre à quel point c’est bluffant. Votre ordinateur sera bientôt meilleur que vous aux échecs… et dans plein d’autres domaines !
Mais attention, le modèle du MIT ne prétend pas prédire l’avenir avec une précision de 100%. Il s’agit plutôt d’identifier des tendances et des schémas de comportement en fonction des limitations d’un agent. Ça reste néanmoins un outil très puissant pour anticiper les actions les plus probables.
D’ailleurs, les applications de cette technologie vont bien au-delà des jeux de société. Je pense par exemple au voitures autonomes qui pourraient anticiper les mouvements des piétons et des autres véhicules, des assistants virtuels qui sauraient exactement ce que vous allez leur demander avant même que vous n’ouvriez la bouche, des robots industriels capables de s’adapter en temps réel aux changements de leur environnement… Les possibilités sont infinies !
Bien sûr, tout cela soulève aussi son lot de questions éthiques. Est-ce qu’on a vraiment envie que les machines lisent dans nos pensées comme dans un livre ouvert ? Est-ce que ça ne risque pas de créer de sacrés problèmes de vie privée et de manipulation ? Imaginez que votre enceinte connectée décide de vous commander une pizza quatre fromages parce qu’elle a deviné que vous aviez un petit creux… Flippant, non ?
Mais bon, on n’en est pas encore là. Pour l’instant, les chercheurs du MIT sont encore en train de plancher sur leur modèle pour le perfectionner et étendre ses capacités. Et croyez-moi, c’est loin d’être un long fleuve tranquille ! L’IA a beau faire des progrès de géant, prédire le comportement humain reste un sacré défi. On est tellement imprévisibles et irrationnels, nous autres mortels…
En attendant de pouvoir déléguer toutes nos décisions à une machine, le modèle du MIT nous offre un aperçu de ce que pourrait être le futur de l’interaction homme-machine. Un futur où les ordinateurs nous comprendraient mieux que nous-mêmes, pour le meilleur et pour le pire. Perso, j’oscille entre fascination et inquiétude.
Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement.
C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collective répertoriant les bugs, plantages et autres dérapages de l’IA lorsqu’elle est lâchée dans la nature. Tel un Guinness Book des foirages technologiques, elle recense déjà plus de 1000 cas, des plus anodins aux plus tragiques :
– un taxi sans chauffeur Waymo qui emboutit un cycliste en plein San Francisco
– un deepfake audio d’Imran Khan appelant au boycott des élections au Pakistan pour tromper les électeurs
– de fausses images de Donald Trump entouré d’électeurs noirs générées par IA pour influencer le vote des afro-américains
– et le pire de tous (ou pas) : des collégiens de Beverly Hills qui créent de fausses photos dénudées de leurs camarades grâce à l’IA !
Bref, c’est la foire aux casseroles dans le merveilleux monde de l’IA et il était temps que quelqu’un dresse l’inventaire de ces dérapages en tout genre. Mais au-delà du simple folklore, la mission de l’AIID est d’apprendre de ces échecs pour bâtir des IA plus sûres, à l’image de ce qui se fait dans l’aéronautique ou la cybersécurité.
La base s’enrichit chaque jour grâce aux signalements de la communauté. Chacun peut ainsi apporter sa pierre à l’édifice en soumettant de nouveaux incidents, triés et classés pour en dégager des tendances. L’idée est d’arriver à une définition partagée de ce qu’est un « incident d’IA » et d’en tirer des leçons pour l’avenir.
Car n’en déplaise à Elon Musk ou à Mark Zuckerberg, le futur de l’IA ne se fera pas sans règles ni garde-fous. Pour que la révolution intelligente profite au plus grand nombre, elle doit impérativement s’accompagner d’une démarche éthique et responsable. C’est précisément la mission du Responsible AI Collaborative, l’organisation derrière l’AIID, qui rassemble chercheurs, entrepreneurs et experts du monde entier.
D’ailleurs, vous aussi, vous pouvez contribuer ! Et ils ont de grandes ambitions puisque la prochaine étape sera d’intégrer les incidents dans des outils de test pour reproduire les scénarios à risque et s’entraîner à y faire face. Une sorte de « crash test » géant pour IA en quelque sorte !
À terme, l’objectif est de faire de l’AIID un outil incontournable pour tous les acteurs de l’écosystème : Chercheurs, régulateurs, industriels… Car ne nous y trompons pas, la course à l’IA ne fait que commencer et les incidents risquent de se multiplier si nous n’y prenons pas garde.
D’ici là, votre mission si vous l’acceptez sera de garder un oeil sur ce grand capharnaüm de l’IA et de signaler sans relâche les anomalies que vous constaterez ! Car après tout, la sécurité de ces systèmes est l’affaire de tous et rien ne vaut la vigilance humaine pour déjouer les bugs les plus retors.
PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.
Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.
Son secret ?
Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.
Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.
Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit
pip install torchtune
Et voilà, vous êtes prêt à en découdre avec les LLM !
Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.
En gros, ça se passe en 4 étapes :
Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.
Facile, non ? 😄
Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.
Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.
Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.
Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.
Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.
Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !
Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !
Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .
Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !
Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?
Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !
Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙
Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.