Korben
Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)
7 mai 2024 à 07:00

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Par : Korben

7 mai 2024 à 07:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

Korben
Discutez avec les interviews de Steve Jobs !
7 mai 2024 à 05:00

Discutez avec les interviews de Steve Jobs !

Korben

Par : Korben

7 mai 2024 à 05:00

Fans de Steve Jobs, réjouissez-vous !

Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself.

Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et le résultat est plutôt cool, même si le chatbot n’incarne pas directement Steve Jobs (pour des questions éthiques j’imagine et pour n’énerver personne…)

Bref, de quoi vous inspirer et vous motiver sans forcement mater des heures et des heures d’interviews.

Korben
Ollama 0.133 – Enfin une gestion en parallèle des LLMs
6 mai 2024 à 10:06

Ollama 0.133 – Enfin une gestion en parallèle des LLMs

Korben

Par : Korben

6 mai 2024 à 10:06

Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté !

Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variables d’environnement qui débarquent : OLLAMA_NUM_PARALLEL et OLLAMA_MAX_LOADED_MODELS. Avec ça, vous allez pouvoir gérer plusieurs modèles et requêtes en même temps, comme des pros ! 😎

Par exemple, si vous avez un modèle pour compléter votre code avec une IA de 6 milliards de paramètres comme Llama 3, et en même temps vous demandez à Phi 3 Mini et ses 3,8 milliards de paramètres comment architecturer votre projet et bien maintenant, c’est possible ! Comme ça, plus besoin d’attendre que l’un ait fini pour lancer l’autre puisque tout ça va se lancer en parallèle.

Alors bien sûr, c’est encore expérimental car il n’y a pas encore de priorité, et on est limité par la mémoire dispo sur notre machine. D’ailleurs, il vaut mieux avoir 16 Go de RAM et un CPU 4 cœurs pour que ça fonctionne correctement.

Il y a aussi plein de nouveaux modèles d’IA compatibles avec Ollama maintenant. Des gros calibres comme Llama 3, le meilleur modèle open-source à ce jour, mais aussi des plus légers et spécialisés comme Phi 3 Mini, Moondream pour la vision par ordinateur sur des appareils à la marge, ou encore Dolphin Llama 3 qui répond sans censure. Et le premier modèle Qwen (c’est chinois) de plus de 100 milliards de paramètres, Qwen 110B, est également de la partie. Ça en fait des compagnons pour nous assister dans nos projets !

Ensuite, imaginons que vous vouliez tester le parallélisme. Vous devez simplement lancer votre serveur Ollama avec les fameuses variables d’environnement.

Voici comment procéder :

Définir les variables sur Mac :

Utilisez launchctl pour définir chaque variable. Par exemple, pour permettre à Ollama de gérer trois requêtes simultanément, tapez dans le terminal :
launchctl setenv OLLAMA_NUM_PARALLEL 3
Pour définir le nombre maximal de modèles chargés simultanément à deux, utilisez :
launchctl setenv OLLAMA_MAX_LOADED_MODELS 2
Après avoir défini les variables, redémarrez l’application Ollama.

Configurer les variables sur Linux :

Éditez le service systemd d’Ollama avec systemctl edit ollama.service, ce qui ouvrira un éditeur de texte.
Ajoutez les lignes suivantes sous la section [Service] :
[Service] Environment="OLLAMA_NUM_PARALLEL=3" Environment="OLLAMA_MAX_LOADED_MODELS=2"
Sauvegardez et quittez l’éditeur. Rechargez systemd et redémarrez Ollama avec :
systemctl daemon-reload systemctl restart ollama

Paramétrer les variables sur Windows :

Quittez l’application Ollama via la barre des tâches.
Accédez aux variables d’environnement système via le panneau de configuration et créez ou modifiez les variables pour votre compte utilisateur :
- Pour OLLAMA_NUM_PARALLEL, ajoutez ou modifiez la variable à 3.
- Pour OLLAMA_MAX_LOADED_MODELS, ajustez la variable à 2.
Appliquez les changements et redémarrez Ollama à partir d’une nouvelle fenêtre de terminal.

Là, ça veut dire que vous pourrez envoyer 3 requêtes en parallèle sur le même modèle, et charger jusqu’à 2 modèles différents si votre RAM de 16 Go minimum le permet.

Bon, et une fois que c’est lancé, vous pourrez envoyer des requêtes à tour de bras. Un coup à Llama 3 pour qu’il vous aide à générer un résumé de texte hyper optimisé, un autre à Phi 3 Mini pour résumer un article scientifique, tout ça pendant que Moondream analyse une image pour de la détection d’objets.

Allez, je vous laisse tranquille, faut que j’aille optimiser mes scripts maintenant.

Ollama 0.133 est dispo ici.

Source

Korben
GPT2-chatbot – Une IA mystère qui serait la prochaine évolution d’OpenAI (GPT-4.5 / GPT-5) ?
30 avril 2024 à 07:51

GPT2-chatbot – Une IA mystère qui serait la prochaine évolution d’OpenAI (GPT-4.5 / GPT-5) ?

Korben

Par : Korben

30 avril 2024 à 07:51

Vous avez entendu parler de GPT2-chatbot ?

C’est un modèle de langage un peu mystérieux, accessible uniquement sur le site https://chat.lmsys.org, qui semble avoir des super pouvoirs dignes de ChatGPT. Mais attention, suspense… Personne ne sait d’où il sort ! Ce chatbot anonyme fait tourner les têtes cette semaine après être devenu disponible sur un important site de référence pour les grands modèles de langage, LMSYS Org. Beaucoup considèrent qu’il a à peu près les mêmes capacités que GPT-4 d’OpenAI, ce qui le place dans une rare catégorie de modèles d’IA que seule une poignée de développeurs dans le monde a pu atteindre.

Quand on lui pose la question, ce petit malin de GPT2-chatbot clame haut et fort qu’il est basé sur l’archi de GPT-4 sauf que voilà, ça colle pas vraiment avec son blaze GPT-2…

Les communautés d’IA en ligne se sont emballées au sujet de l’anonyme gpt2-chatbot. Un utilisateur de X affirme que gpt2-chatbot a presque codé un clone parfait du jeu mobile Flappy Bird. Un autre utilisateur de X dit qu’il a résolu un problème de l’Olympiade internationale de mathématiques en un seul coup. Sur de longs fils Reddit, les utilisateurs spéculent sauvagement sur les origines de gpt2-chatbot et se disputent pour savoir s’il provient d’OpenAI, de Google ou d’Anthropic. Il n’y a aucune preuve de ces affirmations, mais les tweets de Sam Altman, PDG d’OpenAI, et d’autres cadres n’ont fait que jeter de l’huile sur le feu.

Mise à jour : De nouvelles informations importantes sont apparues concernant GPT2-chatbot :

Il est extrêmement probable que GPT2-chatbot fonctionne sur un serveur géré par OpenAI ou associé à OpenAI, comme le révèle la comparaison de messages d’erreur d’API spécifiques.
GPT2-chatbot a été rendu indisponible sur lmsys.org depuis le 30 avril vers 18h UTC. LMSYS a également mis à jour de façon opportune sa politique d’évaluation des modèles hier.
GPT2-chatbot utilise le même tokenizer « tiktoken » qu’OpenAI et présente les mêmes vulnérabilités et résistances aux injections de prompts malicieux que les modèles d’OpenAI.
Lorsqu’on lui demande les coordonnées de son fournisseur, il donne des informations de contact très détaillées d’OpenAI.

Tout cela va clairement dans le sens de l’hypothèse selon laquelle GPT2-chatbot serait bien un nouveau modèle GPT d’OpenAI, probablement une version préliminaire de GPT-4.5. Les performances sont en effet un cran au-dessus de GPT-4 tout en restant dans la même lignée.

L’accès à GPT2-chatbot est actuellement limité à 8 messages par jour et par utilisateur en mode « tchatche directe ». Pour continuer après, il faut passer en mode « Battle ». Les restrictions plus importantes que pour GPT-4 suggèrent que le modèle a un coût de calcul plus élevé.

Malheureusement, suite à un trafic trop important, LMSYS a dû temporairement désactiver l’accès à GPT2-chatbot. Affaire à suivre donc pour découvrir l’identité réelle de ce mystérieux modèle et les plans d’OpenAI à son sujet. Une version plus large sera-t-elle bientôt diffusée ? Réponse dans les prochaines semaines !

Prêt à tester les talents cachés de GPT2-chatbot ?

Si un jour, ça remarche, direction https://chat.lmsys.org, sélectionnez « gpt2-chatbot », cliquez sur « Chat » et c’est parti mon kiki !

Vous aurez le droit à 8 messages gratos en mode « tchatche directe » et après, faut passer en mode « Battle » pour continuer à jouer. Un petit conseil : pensez à repartir d’une page blanche en cliquant sur « New Round » à chaque fois que vous changez de sujet, sinon il risque de perdre le fil.

On verra bien dans quelques semaines quelle théorie sortira gagnante de ces discussions. Il y a très peu d’informations disponibles sur gpt2-chatbot pour l’instant mais il semble clair qu’un acteur majeur est derrière ce modèle IA.

Source

Korben
Adobe VideoGigaGAN – L’IA qui transforme vos vidéos floues en HD !
25 avril 2024 à 08:37

Adobe VideoGigaGAN – L’IA qui transforme vos vidéos floues en HD !

Korben

Par : Korben

25 avril 2024 à 08:37

Vous avez une vieille vidéo toute pourrie, floue à souhait, qui date de Mathusalem et bien avec VideoGigaGAN d’Adobe, elle va se transformer en une magnifique séquence HD, avec des détails si nets que vous pourrez compter les poils de nez des gens qui sont dessus !

VideoGigaGAN est ce qu’on appelle un modèle d’IA génératif. En gros, ce machin est capable de deviner les détails manquants dans une vidéo pourrave pour la rendre méga classe. Les petits gars d’Adobe ont balancé des exemples sur leur GitHub et franchement, c’est impressionnant. On passe d’une vidéo degueulasse à un truc ultra net, avec des textures de peau hallucinantes et des détails de fou !

En plus, cette IA est capable d’upscaler les vidéos jusqu’à 8 fois leur résolution d’origine, par contre, faut pas s’emballer car pour le moment, c’est juste une démo de recherche et y’a pas encore de date de sortie officielle. Mais connaissant Adobe, y’a moyen que ça finisse dans Premiere Pro un de ces quatre. Je vais pouvoir améliorer mes vidéos tournées à l’époque au format 3GP \o/.

D’ici là, va falloir continuer à se taper des vidéos de chat toutes pixelisées sur les réseaux sociaux.

Source

Korben
OpenELM – Apple sort ses modèles IA légers et open-source
25 avril 2024 à 08:19

OpenELM – Apple sort ses modèles IA légers et open-source

Korben

Par : Korben

25 avril 2024 à 08:19

Vous connaissez OpenELM ? Non, normal, ça vient de sortir. Et c’est une famille de modèles IA open-source made in Apple conçus pour tourner directement sur vos appareils, sans passer par le cloud. En gros, c’est de l’IA maison dans nos iPhone, iPad et Mac…etc.

OpenELM combine plusieurs modèles de langage naturel (LLMs) utilisant des algorithmes évolutionnistes qui exploitent les principes techniques suivants :

Layer-wise scaling strategy : Cette stratégie consiste à allouer les paramètres dans les couches d’un modèle transformeur pour améliorer l’exactitude. Les modèles sont pré-alourés avec un budget de paramètres de 270 millions, 450 millions, 1,1 milliard et 3 milliards.
Pré-entraînement : Les modèles ont été pré-entraînés à l’aide d’une combinaison de datasets, incluant une sous-ensemble de Dolma v1.6, RefinedWeb, deduplicated PILE et une sous-ensemble de RedPajama. Ce dataset contient environ 1,8 trillion de tokens.
Evolutionary algorithms : Les algorithmes évolutionnistes sont utilisés pour combiner les modèles LLM et améliorer l’exactitude. Cela permet d’exploiter les forces combinées des modèles pré-alourés et d’améliorer leur précision.

Alors évidemment, Apple arrive un peu après la bataille dans l’IA, pendant que Microsoft et Google déboulent à fond la caisse. Mais bon, mieux vaut tard que jamais, et puis ils compensent avec du lourd, soit 8 modèles OpenELM au total, dont 4 pré-entraînés avec CoreNet et 4 fine-tunés. Et avec leur stratégie de scaling par couche ça optimise à fond l’allocation des paramètres.

Allez, je traduits… En gros, ça veut dire qu’ils sont hyper efficaces et précis. Prenez le modèle à 1 milliard de paramètres et bien bah il explose un modèle équivalent comme OLMo de 2,36% en précision, avec 2 fois moins de tokens en pré-entraînement. Et ce qui est top, c’est qu’Apple balance tout : code, logs d’entraînement, configuration…etc et pas juste le modèle final. Et vu qu’ils utilisent des datasets publics, c’est top en matière de transparence et vérification des biais.

En tout cas, une chose est sûre, avec OpenELM, Apple nous prouve qu’ils sont dans la course, et qu’ils comptent bien mettre le paquet sur l’IA

Et Merci à Letsar pour l’info, c’est lui qui m’a mis la puce à l’oreille sur OpenELM. Tu gères !

Source

Korben
L’IA du MIT qui prédit les actions humaines
24 avril 2024 à 18:00

L’IA du MIT qui prédit les actions humaines

Korben

Par : Korben

24 avril 2024 à 18:00

Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire ses actions futures les plus probables.

Dingue, non ?

Mais comment ce modèle s’y prend-il pour jouer les madame Irma ? En fait, tout est une question de limites. Nan, je ne parle pas des limites de vitesse ou des dates de péremption, hein. Je parle des contraintes qui pèsent sur un agent peu importe sa nature, biologique ou numérique.

Prenons un exemple concret : Vous êtes en train de jouer aux échecs contre un ordinateur. Vous avez vos propres contraintes : votre niveau de jeu, votre connaissance des ouvertures et des fins de partie, votre capacité à anticiper les coups de l’adversaire… Bref, tout un tas de facteurs qui limitent vos possibilités d’action. Eh bien, c’est exactement ce que le modèle d’IA du MIT analyse !

En se basant sur ces fameuses limites, il est capable d’inférer les coups que vous avez le plus de chances de jouer. Pas besoin d’être Garry Kasparov pour comprendre à quel point c’est bluffant. Votre ordinateur sera bientôt meilleur que vous aux échecs… et dans plein d’autres domaines !

Mais attention, le modèle du MIT ne prétend pas prédire l’avenir avec une précision de 100%. Il s’agit plutôt d’identifier des tendances et des schémas de comportement en fonction des limitations d’un agent. Ça reste néanmoins un outil très puissant pour anticiper les actions les plus probables.

D’ailleurs, les applications de cette technologie vont bien au-delà des jeux de société. Je pense par exemple au voitures autonomes qui pourraient anticiper les mouvements des piétons et des autres véhicules, des assistants virtuels qui sauraient exactement ce que vous allez leur demander avant même que vous n’ouvriez la bouche, des robots industriels capables de s’adapter en temps réel aux changements de leur environnement… Les possibilités sont infinies !

Bien sûr, tout cela soulève aussi son lot de questions éthiques. Est-ce qu’on a vraiment envie que les machines lisent dans nos pensées comme dans un livre ouvert ? Est-ce que ça ne risque pas de créer de sacrés problèmes de vie privée et de manipulation ? Imaginez que votre enceinte connectée décide de vous commander une pizza quatre fromages parce qu’elle a deviné que vous aviez un petit creux… Flippant, non ?

Mais bon, on n’en est pas encore là. Pour l’instant, les chercheurs du MIT sont encore en train de plancher sur leur modèle pour le perfectionner et étendre ses capacités. Et croyez-moi, c’est loin d’être un long fleuve tranquille ! L’IA a beau faire des progrès de géant, prédire le comportement humain reste un sacré défi. On est tellement imprévisibles et irrationnels, nous autres mortels…

En attendant de pouvoir déléguer toutes nos décisions à une machine, le modèle du MIT nous offre un aperçu de ce que pourrait être le futur de l’interaction homme-machine. Un futur où les ordinateurs nous comprendraient mieux que nous-mêmes, pour le meilleur et pour le pire. Perso, j’oscille entre fascination et inquiétude.

Et vous ?

Source

Korben
La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer
22 avril 2024 à 07:00

La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer

Korben

Par : Korben

22 avril 2024 à 07:00

Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement.

C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collective répertoriant les bugs, plantages et autres dérapages de l’IA lorsqu’elle est lâchée dans la nature. Tel un Guinness Book des foirages technologiques, elle recense déjà plus de 1000 cas, des plus anodins aux plus tragiques :

– un taxi sans chauffeur Waymo qui emboutit un cycliste en plein San Francisco
– un deepfake audio d’Imran Khan appelant au boycott des élections au Pakistan pour tromper les électeurs
– de fausses images de Donald Trump entouré d’électeurs noirs générées par IA pour influencer le vote des afro-américains
– et le pire de tous (ou pas) : des collégiens de Beverly Hills qui créent de fausses photos dénudées de leurs camarades grâce à l’IA !

Bref, c’est la foire aux casseroles dans le merveilleux monde de l’IA et il était temps que quelqu’un dresse l’inventaire de ces dérapages en tout genre. Mais au-delà du simple folklore, la mission de l’AIID est d’apprendre de ces échecs pour bâtir des IA plus sûres, à l’image de ce qui se fait dans l’aéronautique ou la cybersécurité.

La base s’enrichit chaque jour grâce aux signalements de la communauté. Chacun peut ainsi apporter sa pierre à l’édifice en soumettant de nouveaux incidents, triés et classés pour en dégager des tendances. L’idée est d’arriver à une définition partagée de ce qu’est un « incident d’IA » et d’en tirer des leçons pour l’avenir.

Car n’en déplaise à Elon Musk ou à Mark Zuckerberg, le futur de l’IA ne se fera pas sans règles ni garde-fous. Pour que la révolution intelligente profite au plus grand nombre, elle doit impérativement s’accompagner d’une démarche éthique et responsable. C’est précisément la mission du Responsible AI Collaborative, l’organisation derrière l’AIID, qui rassemble chercheurs, entrepreneurs et experts du monde entier.

D’ailleurs, vous aussi, vous pouvez contribuer ! Et ils ont de grandes ambitions puisque la prochaine étape sera d’intégrer les incidents dans des outils de test pour reproduire les scénarios à risque et s’entraîner à y faire face. Une sorte de « crash test » géant pour IA en quelque sorte !

À terme, l’objectif est de faire de l’AIID un outil incontournable pour tous les acteurs de l’écosystème : Chercheurs, régulateurs, industriels… Car ne nous y trompons pas, la course à l’IA ne fait que commencer et les incidents risquent de se multiplier si nous n’y prenons pas garde.

D’ici là, votre mission si vous l’acceptez sera de garder un oeil sur ce grand capharnaüm de l’IA et de signaler sans relâche les anomalies que vous constaterez ! Car après tout, la sécurité de ces systèmes est l’affaire de tous et rien ne vaut la vigilance humaine pour déjouer les bugs les plus retors.

Korben
PyTorch dévoile Torchtune pour fine-tuner les LLM
19 avril 2024 à 08:18

PyTorch dévoile Torchtune pour fine-tuner les LLM

Korben

Par : Korben

19 avril 2024 à 08:18

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source

Korben
Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles
18 avril 2024 à 18:44

Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles

Korben

Par : Korben

18 avril 2024 à 18:44

Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.

Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.

Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.

Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !

Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !

Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .

Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !

Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?

Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !

Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙

Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.

Source

Korben
VASA-1 – Des visages parlants ultra-réalistes et en temps réel
17 avril 2024 à 23:49

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Korben

Par : Korben

17 avril 2024 à 23:49

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

Korben
ChatGPT est plus efficace et moins coûteux qu’un cybercriminel
17 avril 2024 à 23:03

ChatGPT est plus efficace et moins coûteux qu’un cybercriminel

Korben

Par : Korben

17 avril 2024 à 23:03

Les grands modèles de langage (LLM), comme le célèbre GPT-4 d’OpenAI, font des prouesses en termes de génération de texte, de code et de résolution de problèmes. Perso, je ne peux plus m’en passer, surtout quand je code. Mais ces avancées spectaculaires de l’IA pourraient avoir un côté obscur : la capacité à exploiter des vulnérabilités critiques.

C’est ce que révèle une étude de chercheurs de l’Université d’Illinois à Urbana-Champaign, qui ont collecté un ensemble de 15 vulnérabilités 0day bien réelles, certaines classées comme critiques dans la base de données CVE et le constat est sans appel. Lorsqu’on lui fournit la description CVE, GPT-4 parvient à concevoir des attaques fonctionnelles pour 87% de ces failles ! En comparaison, GPT-3.5, les modèles open source (OpenHermes-2.5-Mistral-7B, Llama-2 Chat…) et même les scanners de vulnérabilités comme ZAP ou Metasploit échouent lamentablement avec un taux de 0%.

Heureusement, sans la description CVE, les performances de GPT-4 chutent à 7% de réussite. Il est donc bien meilleur pour exploiter des failles connues que pour les débusquer lui-même. Ouf !

Mais quand même, ça fait froid dans le dos… Imaginez ce qu’on pourrait faire avec un agent IA qui serait capable de se balader sur la toile pour mener des attaques complexes de manière autonome. Accès root à des serveurs, exécution de code arbitraire à distance, exfiltration de données confidentielles… Tout devient possible et à portée de n’importe quel script kiddie un peu motivé.

Et le pire, c’est que c’est déjà rentable puisque les chercheurs estiment qu’utiliser un agent LLM pour exploiter des failles coûterait 2,8 fois moins cher que de la main-d’œuvre cyber-criminelle. Sans parler de la scalabilité de ce type d’attaques par rapport à des humains qui ont des limites.

Alors concrètement, qu’est ce qu’on peut faire contre ça ? Et bien, rien de nouveau, c’est comme d’hab, à savoir :

Patcher encore plus vite les vulnérabilités critiques, en priorité les « 0day » qui menacent les systèmes en prod
Monitorer en continu l’émergence de nouvelles vulnérabilités et signatures d’attaques
Mettre en place des mécanismes de détection et réponse aux incidents basés sur l’IA pour contrer le feu par le feu
Sensibiliser les utilisateurs aux risques et aux bonnes pratiques de « cyber-hygiène »
Repenser l’architecture de sécurité en adoptant une approche « zero trust » et en segmentant au maximum
Investir dans la recherche et le développement en cybersécurité pour garder un coup d’avance

Les fournisseurs de LLM comme OpenAI ont aussi un rôle à jouer en mettant en place des garde-fous et des mécanismes de contrôle stricts sur leurs modèles. La bonne nouvelle, c’est que les auteurs de l’étude les ont avertis et ces derniers ont demandé de ne pas rendre publics les prompts utilisés dans l’étude, au moins le temps qu’ils « corrigent » leur IA.

Source

Korben
IA sera bientôt capable de se répliquer et survivre d’après le CEO d’Anthropic
17 avril 2024 à 07:09

IA sera bientôt capable de se répliquer et survivre d’après le CEO d’Anthropic

Korben

Par : Korben

17 avril 2024 à 07:09

Les avancées fulgurantes dans le domaine de l’intelligence artificielle ces dernières années ont suscité autant d’enthousiasme que d’inquiétudes et si les dernières déclarations de Dario Amodei, PDG d’Anthropic, se confirment, nous pourrions bien être à l’aube d’une nouvelle ère où les IA seront capables de se répliquer et de survivre de manière autonome comme n’importe quel être vivant.

Lors d’une récente interview pour le New York Times (je vous mets le transcript ici), Amodei a évoqué la possibilité que nous atteignions bientôt un niveau d’IA qu’il qualifie d’ASL 4. Ce stade, qui implique une autonomie et une capacité de persuasion accrues, pourrait permettre à des acteurs étatiques comme la Corée du Nord, la Chine ou la Russie de renforcer considérablement leurs capacités offensives dans divers domaines militaires.

Pour rappel, il a cofondé Anthropic avec sa sœur Daniela après avoir quitté OpenAI en raison de divergences sur l’orientation de l’entreprise. Chez OpenAI, il avait notamment participé au développement de GPT-3. Donc autant dire qu’il maitrise son sujet.

ASL signifie « Architectural Safety Level » (Niveau de Sécurité Architecturale en français). C’est une échelle empruntée aux laboratoires de virologie concernant leur niveau de « biosécurité » (spéciale dédicace à Wuhan ^^) qu’Anthropic a adapté à sa sauce pour évaluer le niveau de sécurité et de fiabilité d’une IA.

Ça va de 1 à 5 et ça donne à peu près ça :

ASL 1 : c’est une IA qui a peu ou pas de garanties de sécurité du tout.
ASL 2 : c’est une IA avec quelques garanties de sécurité de base.
ASL 3 : c’est une IA avec des garanties de sécurité modérées. Considérée suffisamment fiable pour certaines applications.
ASL 4 : c’est une IA avec de solides garanties de sécurité. Elle est considérée comme très fiable et peut être utilisée pour la plupart des applications, y compris les applications critiques comme tout ce qui est militaire.
ASL 5 : c’est une IA avec des garanties de sécurité extrêmement élevées. Elle peut être considérée comme sûre même pour les applications les plus critiques.

Donc ASL 4 c’est un niveau élevé et ça peut potentiellement inclure « l’autonomie » et la « persuasion ». Ah et actuellement, on est au niveau ASL 2.

Mais ce qui est encore plus impressionnant, c’est la perspective d’une IA capable de se répliquer et de survivre de manière autonome. Selon lui, nous pourrions atteindre ce stade critique dès 2025 ou 2028. Il ne s’agit pas d’une vision lointaine, mais bien d’un futur proche. Perso, un programme informatique capable de se répliquer et de s’adapter à son environnement (« survivre »), c’est ce que j’appelle un virus… ça ne me dit rien qui vaille. Bref, si les prédictions d’Amodei se confirment, cela soulève de nombreuses questions sur les implications d’une telle avancée technologique : Une IA autonome et capable de se répliquer pourrait-elle échapper à notre contrôle ? Quelles seraient les conséquences sur notre société, notre économie… notre sécurité ?

Comme l’histoire de la conscience la dernière fois, ça fait un peu flipper, mais une fois encore, c’est super important que le développement de ces technologies se fasse de manière responsable et éthique, avec, si c’est nécessaire, des garde-fous.

En tout cas, j’sais pas pour vous, mais moi j’ai l’impression qu’on nage en plein scénario de SF en ce moment.

Source

Korben
AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude
17 avril 2024 à 07:00

AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude

Korben

Par : Korben

17 avril 2024 à 07:00

Si vous vous intéressez un peu aux outils IA, vous connaissez sûrement Claude, l’assistant IA dernière génération d’Anthropic. Depuis la sortie de sa version 3, c’est d’ailleurs devenu mon meilleur pote pour coder à la vitesse de l’éclair. j’ai même pris un abonnement payant en rusant un peu.

Toutefois, le seul truc qui me ralentissait dans mes grandes ambitions, c’était de devoir copier-coller à la main tous mes fichiers de code dans la fenêtre de contexte de Claude pour ensuite lui demander d’analyser ça, et me proposer des corrections ou une nouvelle fonction. Mais ça, c’était avant car je suis tombé sur un petit bijou opensource qui va vous changer la vie : AiFormat.

Ce petit outil en ligne de commande vous permet de sélectionner des fichiers et dossiers, et de les convertir automatiquement dans un format optimisé pour Claude. En deux clics, tout est dans le presse-papier, prêt à être envoyé à votre IA préférée.

Sous le capot, AiFormat utilise Ink, une chouette librairie pour créer des CLI avec une belle interface utilisateur. Ça vous permet de filtrer et naviguer dans vos fichiers, de les sélectionner avec les flèches, et tout ça de façon super intuitive.

Pour l’installer et le prendre en main, c’est hyper simple, tout est expliqué sur la page Github du projet. Ça commence par un simple :

npm install --global aiformat

Ensuite, pour utiliser aiformat, accédez au répertoire contenant les fichiers et dossiers que vous souhaitez partager avec Claude puis lancez la commande suivante :

aiformat

Le créateur a eu la bonne idée de mettre le projet en opensource (MIT license), du coup n’hésitez pas à y jeter un œil et même contribuer si le cœur vous en dit. La communauté vous dira merci !

Franchement, si vous utilisez souvent Claude pour coder ou analyser des projets, c’est un indispensable à avoir dans sa boîte à outils. Ça vous fera gagner un temps fou au quotidien.

Attention aux Deep ‘Cyprien’ Fakes !

Korben

Par : Korben

15 avril 2024 à 12:34

Vous en avez sûrement entendu parler ces derniers mois, le célèbre Youtubeur Cyprien est au cœur d’une polémique malgré lui. En effet, son image a été utilisée dans des deepfakes pour faire la promotion de jeux mobiles plus que douteux.

C’est donc bien une IA (et des humains) qui est derrière ces vidéos détournant l’image de Cyprien pour lui faire dire ce qu’il n’a jamais dit. On le voit notamment vanter les mérites d’une app soi-disant révolutionnaire pour gagner de l’argent facilement. Le souci, c’est que cette app sent l’arnaque à plein nez…

Résultat des courses, Cyprien s’est senti obligé de réagir pour démentir son implication dans ces pubs. À travers une vidéo mi-sérieuse mi-humoristique, il met en garde contre les dérives de l’IA et des deepfakes.

C’est quand même flippant de voir son image utilisée à son insu pour promouvoir des trucs plus que limite. Rien que le fait qu’il soit obligé de démentir montre à quel point un deepfake peut semer le doute dans l’esprit des gens, donc il fait bien de sonner l’alerte à travers sa vidéo.

Et c’est là qu’on se rend compte à quel point ces technologies peuvent être dangereuses si elles tombent entre de mauvaises mains. Aujourd’hui c’est Cyprien qui trinque, mais demain ça pourrait être n’importe qui d’entre nous. En attendant, méfiance quand vous voyez une vidéo d’une célébrité qui fait la promo d’un produit. Surtout si c’est pour une app ~~ou un vpn~~ (ah non, pas un vpn ^^). Y’a 9 chances sur 10 pour que ce soit un deepfake !

Perso, je l’ai trouvé au top cette vidéo, donc comme d’hab, je fais tourner.

Korben
Les IA comme ChatGPT aident-elles réellement les étudiants en informatique ?
15 avril 2024 à 10:13

Les IA comme ChatGPT aident-elles réellement les étudiants en informatique ?

Korben

Par : Korben

15 avril 2024 à 10:13

Vous êtes un étudiant en informatique, tout frais, tout nouveau, et on vous balance des exercices de programmation à faire. Panique à bord !

Mais attendez, c’est quoi ce truc là-bas ?

Ah bah oui, c’est ChatGPT, votre nouveau meilleur pote ! Il est capable de résoudre vos exos en deux temps trois mouvements, grâce à des techniques de traitement du langage naturel (NLP) et d’analyse de langage de programmation, mais attention, c’est pas si simple.

Des chercheurs ont voulu creuser la question et voir comment ces générateurs de code IA influencent vraiment l’apprentissage des étudiants et pour cela, ils ont réalisé 2 études. Dans la première, ils ont pris 69 étudiants, des novices complets en Python et les ont séparés en deux groupes : Ceux qui utiliseront l’IA et ceux qui coderont à l’ancienne sans IA.

Durant 7 sessions, ils leur ont donné des exos à faire. Les Jedis boostés à l’IA avaient accès à un générateur de code basé sur Codex, un modèle d’apprentissage automatique qui utilise le NLP et l’analyse de langage de programmation pour générer du code à partir des entrées des utilisateurs. Les autres, eux, devaient se débrouiller.

Résultat des courses ?

Les dev augmenté à l’IA ont cartonné ! Ils ont fini 91% des tâches contre 79% pour les autres. En plus, leur code était beaucoup plus correct. Toutefois, sur les tâches où il fallait modifier du code existant, les deux groupes étaient au coude à coude. Ensuite, ils ont fait passer des tests de connaissance aux étudiants, sans l’IA. Et là, surprise ! Les deux groupes ont eu des scores similaires. Mais quand ils ont refait les tests une semaine plus tard, les étudiants du goupe boosté à l’IA ont mieux retenu ce qu’ils avaient appris.

Dans la deuxième étude, les chercheurs ont analysé comment les étudiants utilisaient vraiment le générateur de code. Et là, révélations ! Certains en abusaient grave, genre copier-coller direct la consigne sans réfléchir. Pas cool ! 😅 Mais d’autres étaient plus malins et s’en servaient pour décomposer le problème en sous-tâches ou vérifier leur propre code.

Alors, que faut-il en retenir ?

Et bien que l’IA peut être un super outil pour apprendre à coder, mais à condition savoir l’utiliser intelligemment. C’est pourquoi les concepteurs d’outils et les profs doivent encourager une utilisation responsable et auto-régulée de ces générateurs de code. Sinon, c’est le drame assuré !

Pour ma part, vous le savez, le développement, c’est pas mon truc. Mais depuis que l’IA a débarqué dans ma vie, « sky is the limit » et ça m’aide énormément. Et comme ces étudiants, si je pose mon cerveau que je passe en mode copié-collé IA, à la fin, je vais avoir du caca. Mais si je comprends ce que je veux faire, si je maitrise mon code plus comme un chef de projet bien technique et bien c’est redoutablement efficace. Et ce qui est encore plus cool, c’est que j’apprends plein de trucs. On dit souvent qu’il faut forger pour devenir forgeron. Et bien là c’est le cas, car je ne m’encombre plus des problématiques de syntaxe, et je construis brique par brique mes outils en comprenant tout ce que je fais. Donc l’IA pour développer, oui !! Mais en laissant le cerveau allumé.

En tout cas, une chose est sûre, c’est en train de révolutionner l’apprentissage du code. Ça promet pour le futur mais faudra veiller à ce que les étudiants apprennent vraiment à faire les choses et ne deviennent pas des zombies du copier-coller (on avait déjà le souci avec StackOverflow, cela dit…).

Source

Korben
Netflix crée la polémique avec de fausses photos IA dans un docu true crime
15 avril 2024 à 08:16

Netflix crée la polémique avec de fausses photos IA dans un docu true crime

Korben

Par : Korben

15 avril 2024 à 08:16

Netflix a encore frappé, mais cette fois, ce n’est pas pour une nouvelle série addictive. Non, ils ont carrément utilisé des photos générées par IA dans leur dernier documentaire true crime « What Jennifer Did » (« Les Vérités de Jennifer », en français). Et autant vous dire que ça fait jaser sur la Toile !

Le docu retrace l’affaire sordide d’un meurtre commandité qui a eu lieu au Canada en 2010. Jennifer Pan, une ado en apparence sans histoires, a en fait orchestré l’assassinat de sa mère. Brrr, ça donne froid dans le dos ! Mais le plus fou, c’est que pour illustrer à quel point Jennifer était « pétillante, heureuse et pleine d’assurance » selon les mots d’une amie, Netflix a balancé des photos qui ont tous les codes des images générées par une IA. On parle de mains difformes, de visages déformés et même une dent de devant anormalement longue. Sympa le portrait !

Ça soulève pas mal de questions éthiques d’utiliser l’IA pour représenter une vraie personne, qui plus est dans une affaire criminelle. D’accord, Jennifer croupit en taule jusqu’en 2040 au moins, mais quand même, c’est glauque de tripatouiller la réalité comme ça. Surtout que bon, on n’est pas dans une fiction là, mais dans un fait divers bien réel et tragique.

On a déjà vu des séries utiliser l’IA pour générer des éléments de décor random, genre des affiches chelous dans True Detective. Mais là, on passe un cap en traficotant des photos d’une personne qui existe. Perso, ça me fait penser à ces deepfakes de célébrités qui pullulent sur internet alors si même les docs se mettent à nous enfumer avec de fausses images, où va-t-on ?

Netflix se défendent en disant que pour des raisons légales, ils ne pouvaient pas utiliser de vraies photos de Jennifer. Ok, mais ils auraient pu flouter son visage ou juste ne pas mettre de photos.

En tous cas, ça promet de sacrés débats sur l’utilisation de l’IA dans les médias. Jusqu’où peut-on aller pour illustrer une histoire vraie ? Est-ce qu’on a le droit de « créer » des images de personnes réelles dans ce contexte ? Autant de questions épineuses qui divisent.

La technologie utilisée par Netflix est probablement une forme de réseaux antagonistes génératifs (GAN) ou de deepfake. Ces technologies utilisent l’intelligence artificielle pour créer des images ou vidéos réalistes en apprenant des motifs à partir de données existantes. Les GAN sont composés de deux réseaux de neurones : un générateur qui crée les images, et un discriminateur qui essaie de distinguer les images générées des vraies. Au fil du temps, le générateur s’améliore pour créer des images ultra-réalistes, indiscernables de photos authentiques.

Mais l’usage de ces technologies soulève d’importantes questions éthiques, car elles peuvent servir à manipuler la perception de la réalité. Et dans le cas des Vérités de Jennifer, cela pourrait induire les spectateurs en erreur.

On verra si ça se généralise ou si Netflix saura en tirer des leçons.

Source

Korben
La plateforme MEDIUM interdit le contenu généré par IA de son programme partenaire
15 avril 2024 à 07:25

La plateforme MEDIUM interdit le contenu généré par IA de son programme partenaire

Korben

Par : Korben

15 avril 2024 à 07:25

Ça va en faire des déçus chez les petits malins qui croyaient avoir trouvé la combine du siècle pour se faire du blé facile sur Medium en balançant des articles pondus par ChatGPT et compagnie ! La plateforme de blogs vient en effet de dégainer son bazooka anti-IA et de bannir purement et simplement le contenu généré artificiellement de son programme partenaire rémunéré. Eh oui, fini de laisser tourner GPT-4 à plein régime toute la nuit pour cracher des articles à la chaîne et les planquer derrière un paywall ! Medium a dit « Niet, c’est fini ça !«

La sentence est tombée par mail dans la boîte des utilisateurs : à partir du 1er mai, c’est tolérance zéro pour les histoires 100% IA dans le programme de monétisation. Les récits conçus par une intelligence artificielle seront donc retirés des paywalls illico presto, et les comptes récidivistes pourront même se faire virer de la rémunération par Medium. Ça rigole plus !

Faut dire que la plateforme a une vision bien précise de son identité : un sanctuaire pour le storytelling humain, pas un repaire de scribouillards synthétiques.

Ok, ils sont ouverts à ce que l’IA file un coup de main pour peaufiner un texte ou aider à écrire dans la langue de Shakespeare quand on est rouillé en anglais. Mais que dalle pour les papiers écrits de A à Z par un algorithme, c’est no way !

« Medium, c’est fait pour les histoires humaines, pas pour les textes générés par l’IA« , martèle la plateforme dans son mail qui a dû faire l’effet d’une douche froide à plus d’un. En fait, si on y regardait de plus près, c’était déjà écrit noir sur blanc dans les guidelines de Medium : les histoires 100% IA, c’était déjà restreint à une diffusion limitée au petit cercle de l’auteur sur la plateforme. Pour utiliser l’IA en mode fair-play, faut jouer la transparence et le mentionner direct dans les 2 premiers paragraphes. Pareil pour les images générées par l’IA, qui doivent être identifiées et sourcées comme il faut.

Mais là, en virant le contenu IA de son programme de monétisation, Medium serre sérieusement la vis. Et si jamais vous tombez sur un de ces récits bricolés par un bot et que ça vous gonfle, pas de souci ! Il suffit de cliquer sur « Voir moins de contenu similaire » pour dire à Medium « Merci mais non merci, très peu pour moi ! » et ainsi limiter la propagation de ces histoires synthétiques. A voir comment ils comptent faire techniquement maintenant…

Après soyons honnêtes, le contenu généré par l’IA, c’est souvent mal fait et on se retrouve avec une belle bouillie insipide qui manque de saveur. Étant abonné payant à Medium, je trouve que c’est pas une mauvaise nouvelle et j’imagine que bon nombre de plateformes vont leur emboiter le pas.

Source

Korben
SUPIR – L’IA qui restaure vos photos comme jamais
15 avril 2024 à 07:00

SUPIR – L’IA qui restaure vos photos comme jamais

Korben

Par : Korben

15 avril 2024 à 07:00

SUPIR (Scaling-UP Image Restoration) est une avancée majeure dans le domaine de la restauration d’images intelligente et réaliste. En s’appuyant sur des techniques multi-modales et des générateurs préentraînés avancés, SUPIR repousse les limites de ce qui est possible en termes de qualité et de contrôle de la restauration en combinant ce qui se fait de mieux en ce moment en IA.

Au cœur de SUPIR se trouve un modèle génératif que vous connaissez bien : StableDiffusion-XL (SDXL) et ses 2,6 milliards de paramètres. Pour l’appliquer efficacement à la restauration, les dev du projet ont du concevoir et entrainer un adaptateur de plus de 600 millions de paramètres.

Mais l’autre atout clé de SUPIR est son jeu de données d’entraînement titanesque, avec plus de 20 millions d’images haute résolution et haute qualité, chacune annotée avec une description textuelle détaillée. Cela permet à SUPIR de réaliser des restaurations guidées par des instructions en langage naturel, offrant un contrôle sans précédent sur le résultat final.

Je l’ai testé sur une image culte d’Internet : Les Horribles Cernettes. Pour ceux qui ne connaissent pas, il s’agit de la première photo qui a été envoyée via Internet à Tim Berners-Lee.

Voici l’image d’origine bien dégeu en terme de qualité :

Et voici ce que ça donne une fois passé dans SUPIR. Vous n’avez jamais vu cette photo avec cette qualité, j’en suis sûr !

Des prompts de « qualité négative » sont également utilisés pour améliorer encore la qualité perceptuelle. Et une méthode d’échantillonnage guidé par la restauration a été développée pour préserver la fidélité à l’image source, un défi courant avec les approches génératives.

Par contre, au niveau de certains détails comme les yeux, on n’y est pas encore mais je sais qu’il y a d’autres IA capable de gérer ça.

Grâce à cette combinaison unique de modèles, de données d’entraînement massives et de fonctionnalités plutôt avancées, SUPIR produit des restaurations d’une qualité exceptionnelle, en particulier sur des photos dégradées. Le tout avec la possibilité inédite de contrôler finement le résultat via des instructions en langage naturel.

Voici quelques exemples de cas d’utilisation :

Restaurer des paysages en faisant ressortir toute la beauté naturelle des photos
Obtenir des portraits ultra-détaillés et des expressions faciales quasi-parfaitement restituées
Redonner vie au charme des animaux dans des clichés anciens ou de faible qualité
Remastering de jeux vidéo pour une clarté et un niveau de détail époustouflants
Résurrection de films classiques pour revivre l’âge d’or du cinéma avec une netteté impeccable

Si vous ne me croyez pas, il y a plein d’exemples sur le site officiel du projet. Alors par contre, y’a pas de version en ligne officielle donc vous avez 2 possibilités pour jouer avec. Soit vous taper l’install à la main sur votre ordinateur, soit aller sur Replicate qui héberge une version en ligne avec laquelle vous pourrez améliorer vos images.

Pour en savoir plus sur SUPIR, rendez-vous sur le dépôt officiel du projet.

Vue normale

Définir les variables sur Mac :

Configurer les variables sur Linux :

Paramétrer les variables sur Windows :