À San Francisco, une startup découvre que le « cerveau » de son robot sait faire des choses qu’on ne lui a jamais apprises

Publié le : 18.06.2026
Suivez-nous
une startup découvre que le cerveau de son robot sait faire des choses qu’on ne lui a jamais apprises

Une patate douce, une friteuse à air et un robot qui n’avait jamais réellement appris à s’en servir. C’est à partir de cette scène presque banale que Physical Intelligence, une startup de robotique basée à San Francisco, a déclenché l’un des débats les plus intéressants du moment dans l’intelligence artificielle physique. Le 16 avril 2026, l’entreprise a publié les résultats de son nouveau modèle π0.7, présenté comme un pas important vers un “cerveau” généraliste capable de contrôler différents robots dans le monde réel.

Sommaire
Publicité

L’exemple qui a retenu l’attention est simple : le modèle a été capable d’utiliser une friteuse à air pour charger une patate douce, alors que les données d’entraînement ne contenaient pas de démonstration directe de cette tâche. Ce n’est pas un robot humanoïde qui improvise un repas complet comme dans un film de science-fiction. C’est plus subtil, mais probablement plus important : un système robotique qui recombine des gestes appris ailleurs pour résoudre un problème qu’il n’a jamais vu sous cette forme.

Physical Intelligence, la startup de San Francisco qui veut créer le “ChatGPT des robots”

Physical Intelligence, souvent abrégée π ou Pi, a été fondée en 2024 à San Francisco par une équipe issue du très haut niveau de la recherche en robotique et en IA. Parmi les noms associés à l’entreprise, on retrouve notamment Karol Hausman, ancien chercheur chez Google DeepMind, Sergey Levine, professeur à UC Berkeley, Chelsea Finn, professeure à Stanford, mais aussi Lachy Groom, investisseur et ancien dirigeant de Stripe.

La promesse de la startup est ambitieuse : ne pas fabriquer un robot de plus, mais concevoir le logiciel capable de piloter presque n’importe quel robot. Là où les machines industrielles classiques sont programmées pour répéter un geste précis dans un environnement stable, Physical Intelligence travaille sur des modèles capables de comprendre des scènes physiques complexes : plier du linge, préparer du café, manipuler des ustensiles, assembler des boîtes, débarrasser une table ou interagir avec des appareils ménagers.

Ce positionnement explique l’excitation des investisseurs. En novembre 2024, Physical Intelligence a levé 400 millions de dollars auprès d’investisseurs comme Jeff Bezos, OpenAI, Thrive Capital et Lux Capital. En novembre 2025, la société a levé 600 millions de dollars supplémentaires, cette fois avec CapitalG, le fonds de croissance d’Alphabet, comme investisseur principal. Sa valorisation confirmée a alors atteint environ 5,6 milliards de dollars. Au printemps 2026, plusieurs médias spécialisés rapportaient déjà des discussions autour d’un nouveau tour de table qui pourrait la valoriser à plus de 11 milliards de dollars.

π0.7 : un modèle vision-langage-action pour le monde réel

Le modèle π0.7 appartient à une catégorie que les chercheurs appellent les modèles vision-langage-action, ou VLA. Contrairement à un chatbot classique, il ne se contente pas de produire du texte. Il observe une scène avec des caméras, comprend des instructions en langage naturel, puis génère des actions physiques à exécuter par un robot.

C’est là que la difficulté commence. Un modèle de langage peut se tromper dans une phrase. Un robot, lui, agit dans un environnement réel : il peut lâcher un objet, heurter un meuble, mal saisir une poignée, coincer un tiroir ou échouer à cause d’un détail de perspective. La robotique impose donc une contrainte que les modèles purement numériques n’ont pas : chaque erreur rencontre la matière.

Physical Intelligence explique que π0.7 a été entraîné avec des données très variées : vidéos humaines, données issues de plusieurs robots, épisodes autonomes, instructions textuelles, métadonnées sur la qualité ou la vitesse d’exécution, images d’objectifs intermédiaires et modes de contrôle différents. L’idée est de donner au modèle non seulement une consigne, mais aussi du contexte sur la manière de réussir une tâche.

Le test de la friteuse à air : une scène simple, un signal scientifique fort

L’exemple de la friteuse à air est devenu central parce qu’il illustre ce que les chercheurs appellent la généralisation compositionnelle. En clair, le modèle ne se contente pas de répéter un geste vu dans ses données. Il combine plusieurs compétences apprises dans des contextes différents pour produire un comportement nouveau.

Dans le cas de la patate douce, les chercheurs ont demandé au robot de charger l’aliment dans une friteuse à air. Or, la base d’entraînement ne contenait pas de démonstration directe de cette tâche. Après recherche, l’équipe n’a retrouvé que quelques traces proches : deux épisodes internes où un robot fermait une friteuse à air, ainsi que des données issues du dataset open source DROID, dans lesquelles un robot Franka manipulait un objet près d’un appareil similaire.

Autrement dit, π0.7 n’avait pas appris une recette. Il n’avait pas reçu une séquence complète du type “ouvrir la friteuse, prendre la patate douce, la placer dans le panier, refermer”. Il a dû recomposer l’action à partir de fragments : ouvrir ou fermer un tiroir, saisir un objet, comprendre la forme d’un appareil, relier une instruction verbale à une scène visuelle, puis produire une action physique cohérente.

Attention : le robot n’a pas “décidé seul” comme dans un film

C’est le point à ne pas déformer. Le robot ne s’est pas réveillé un matin avec l’envie de cuisiner une patate douce. La démonstration reste encadrée par des chercheurs. Dans un premier temps, le modèle reçoit une instruction du type : charger une patate douce dans la friteuse à air. Sans accompagnement, il produit une tentative partielle mais ne termine pas correctement toute la tâche.

Ensuite, les chercheurs le guident avec des instructions verbales étape par étape, un peu comme on expliquerait une procédure à un nouvel employé : prendre l’objet, ouvrir le panier, placer l’objet dedans, refermer. Avec ce coaching, π0.7 réussit beaucoup mieux. Puis les chercheurs utilisent ces instructions pour entraîner une politique de plus haut niveau capable de générer automatiquement les sous-objectifs nécessaires à l’exécution de la tâche.

La nuance est essentielle pour comprendre la portée réelle de l’expérience. Ce n’est pas une intelligence autonome qui invente une recette. C’est un modèle robotique qui devient suffisamment flexible pour être coaché en langage naturel et transférer ensuite ce guidage vers une exécution plus autonome.

De 5% à 95% : le détail qui rend l’expérience plus crédible

L’un des chiffres les plus intéressants n’est pas le plus spectaculaire. Lors des premiers essais avec la friteuse, le taux de réussite n’était que de 5%. Après environ 30 minutes passées à améliorer la formulation des instructions données au modèle, ce taux est monté à 95%. Ce détail montre deux choses à la fois.

Premièrement, π0.7 possède bien une capacité de recomposition impressionnante. Deuxièmement, cette capacité reste très dépendante de la manière dont l’humain formule la tâche. Le prompt n’est donc pas un détail cosmétique : dans la robotique, il devient une interface de contrôle entre l’intention humaine et l’action physique.

Élément observéAvant optimisationAprès optimisation
Instruction donnée au modèleFormulation trop généraleConsignes verbales plus précises
Temps passé à améliorer le prompt0 minuteEnviron 30 minutes
Taux de réussite de la tâche airfryer5%95%

Ce passage de 5% à 95% est même l’un des meilleurs signaux EEAT de l’histoire. Physical Intelligence ne prétend pas que son robot sait tout faire. L’entreprise montre au contraire les limites du modèle, documente les conditions de réussite et reconnaît l’importance de l’intervention humaine. Dans un secteur saturé de promesses sur les robots “généralistes”, cette prudence donne plus de poids aux résultats.

La généralisation compositionnelle, ou le vrai sujet derrière la patate douce

Le terme peut sembler abstrait, mais il est central. La généralisation compositionnelle désigne la capacité à assembler des connaissances apprises séparément pour réussir une tâche nouvelle. Chez l’humain, c’est très courant. Si quelqu’un sait ouvrir un tiroir, prendre un objet fragile, utiliser un four et suivre une instruction, il peut probablement comprendre une friteuse à air sans formation spécifique.

Pour un robot, c’est beaucoup plus difficile. Les modèles robotiques traditionnels fonctionnent souvent par spécialisation : on collecte des données pour une tâche, on entraîne un modèle, puis on recommence pour une autre tâche. Ce fonctionnement limite énormément le passage à l’échelle, car le monde réel contient une infinité de combinaisons possibles.

π0.7 semble montrer que l’on peut commencer à sortir de cette logique. Le modèle ne se contente pas de reconnaître des objets. Il apprend des relations entre actions, scènes, outils, consignes et stratégies. C’est ce qui lui permet de transférer une partie de ses compétences vers des situations inédites.

DROID, Franka, UR5e : pourquoi les datasets robotiques deviennent stratégiques

Pour comprendre pourquoi Physical Intelligence attire autant d’attention, il faut regarder le problème de fond : les données robotiques sont rares, chères et difficiles à collecter. En intelligence artificielle textuelle, les grands modèles ont pu absorber d’immenses volumes de textes disponibles sur le web. En robotique, il n’existe pas l’équivalent universel d’internet pour les gestes physiques.

C’est pour cela que des datasets comme DROID sont devenus importants. DROID, pour Distributed Robot Interaction Dataset, est un dataset open source de manipulation robotique contenant environ 76 000 trajectoires et 350 heures d’interaction, collectées dans des centaines de scènes réelles, sur des dizaines de tâches. Ce type de ressource sert à rapprocher la robotique du modèle des “foundation models” déjà dominant dans le texte, l’image et la vidéo.

Publicité

Dans les expériences de π0.7, Physical Intelligence met aussi en avant le transfert entre différents corps robotiques. Le modèle a notamment été testé sur un système bimanuel UR5e, composé de deux bras industriels plus lourds et plus difficiles à téléopérer. Pour le pliage de t-shirts, le modèle a obtenu un taux de réussite proche de celui d’opérateurs humains expérimentés confrontés eux aussi au robot pour la première fois.

Pourquoi cette démonstration compte plus qu’un robot qui fait un salto

Dans l’imaginaire collectif, un robot impressionnant est souvent un humanoïde qui court, saute ou danse. Mais en robotique utile, le vrai défi est moins spectaculaire : prendre le bon objet, avec la bonne force, dans le bon ordre, sans casser ni bloquer l’environnement.

Faire un salto dans un laboratoire contrôlé peut être spectaculaire. Ouvrir un appareil inconnu, saisir une patate douce, la placer au bon endroit et refermer correctement le panier est beaucoup moins viral, mais beaucoup plus proche des usages quotidiens. C’est précisément ce qui rend l’expérience de Physical Intelligence intéressante : elle ne montre pas un coup de communication isolé, mais un début de flexibilité dans des gestes ordinaires.

La robotique domestique et industrielle échoue souvent sur ces détails. Une cuisine, une buanderie, une arrière-boutique ou un entrepôt ne sont jamais parfaitement standardisés. Les objets changent, les éclairages varient, les surfaces glissent, les poignées ne sont pas toutes au même endroit. Si un modèle peut généraliser d’un contexte à l’autre, même partiellement, il devient beaucoup plus utile qu’un système parfaitement entraîné sur une seule tâche.

Une bataille stratégique avec Tesla, Figure AI, Google DeepMind et les autres

Physical Intelligence n’avance pas seule. Elle se positionne dans une course beaucoup plus large autour de l’IA incarnée, ou embodied AI. Tesla développe son robot humanoïde Optimus. Figure AI, basée à Sunnyvale, travaille sur des humanoïdes destinés notamment à l’industrie. Google DeepMind a déjà publié plusieurs travaux autour des modèles robotiques généralistes, notamment la famille RT. Des entreprises comme Covariant, Intrinsic, Skild AI ou Agility Robotics s’inscrivent aussi dans cette bataille.

La différence de Physical Intelligence tient à son approche très logicielle. L’entreprise ne cherche pas d’abord à imposer un corps robotique propriétaire. Elle veut construire un modèle capable de s’adapter à plusieurs plateformes. C’est une stratégie proche de celle des grands modèles de langage : ne pas créer une application unique, mais une couche d’intelligence réutilisable dans de nombreux contextes.

Si cette approche fonctionne, elle pourrait transformer la valeur de toute l’industrie robotique. Les fabricants de bras, de capteurs, de pinces ou d’humanoïdes auraient besoin d’un logiciel généraliste pour rendre leurs machines réellement polyvalentes. C’est ce pari qui justifie les valorisations très élevées, même si les produits restent encore loin d’un déploiement massif auprès du grand public.

Un résultat de laboratoire, pas encore une révolution domestique

Il faut rester prudent. π0.7 ne permet pas encore de dire simplement à un robot : “prépare-moi le petit-déjeuner” ou “range toute la cuisine”. Sergey Levine l’a reconnu : le modèle n’est pas encore capable d’exécuter de longues séquences complexes à partir d’une seule commande générale. Il a besoin d’instructions intermédiaires, de sous-objectifs et parfois de coaching humain.

Il existe aussi un autre problème majeur : l’évaluation. Contrairement aux modèles de langage, la robotique manque encore de benchmarks universels et vraiment comparables. Les performances dépendent du robot utilisé, de l’environnement, des objets, des capteurs, de la lumière, du niveau de désordre et même du protocole d’expérimentation. Une démonstration réussie dans un laboratoire ne garantit pas un déploiement fiable dans un appartement, un restaurant ou une usine.

Physical Intelligence communique donc avec prudence. L’entreprise parle de “premiers signes” et de “démonstrations initiales”. Cette retenue est importante. Elle évite de transformer un résultat prometteur en promesse commerciale prématurée.

Le vrai enseignement : les robots commencent à apprendre comme des modèles généralistes

L’expérience de la friteuse à air ne prouve pas que les robots sont devenus autonomes. Elle prouve quelque chose de plus précis : les modèles robotiques commencent à se comporter davantage comme des modèles généralistes. Ils ne se limitent plus toujours à répéter une démonstration. Ils peuvent combiner des compétences, suivre des instructions, utiliser des indices visuels et transférer des stratégies entre des situations différentes.

C’est exactement le type de bascule que l’IA textuelle a connu avec les grands modèles de langage. Les performances les plus intéressantes ne viennent pas seulement de ce que le modèle a vu directement, mais de ce qu’il peut recomposer à partir de ses données. En robotique, cette capacité est beaucoup plus difficile à obtenir, car elle doit se traduire en mouvements précis dans un monde physique imprévisible.

C’est pour cela que l’exemple de la patate douce compte. Il ne s’agit pas d’une recette. Il s’agit d’un signal : un robot commence à comprendre assez de choses sur les objets, les gestes, les appareils et le langage pour être guidé dans une situation nouvelle.

Pourquoi Physical Intelligence fascine autant la Silicon Valley

L’IA générative a déjà transformé le texte, l’image, le code et la vidéo. La prochaine frontière logique est le monde physique. Si des modèles comme π0.7 progressent, ils pourraient ouvrir la voie à des robots capables de travailler dans des environnements non standardisés : entrepôts, cuisines professionnelles, hôtels, laveries, commerces, laboratoires, ateliers ou maisons.

C’est précisément cette perspective qui attire les capitaux. Un robot vraiment polyvalent ne serait pas seulement une machine de plus. Ce serait une nouvelle couche d’automatisation pour les tâches physiques, comme les grands modèles de langage sont devenus une nouvelle couche d’automatisation pour les tâches intellectuelles.

La friteuse à air de Physical Intelligence n’est donc pas anecdotique. Elle montre que la question n’est plus seulement “un robot peut-il exécuter une tâche programmée ?” mais “un robot peut-il apprendre à exécuter une tâche nouvelle en combinant ce qu’il sait déjà ?” C’est cette différence qui rend π0.7 intéressant.

Ce que π0.7 change vraiment

À court terme, personne ne doit s’attendre à voir un robot Physical Intelligence préparer seul un repas complet dans toutes les cuisines du monde. Le modèle reste expérimental, dépendant du contexte, des prompts, des robots et de l’environnement. Mais il marque une étape crédible vers une robotique moins rigide.

Le plus impressionnant n’est pas que π0.7 ait manipulé une patate douce. Le plus impressionnant est qu’il ait pu relier des fragments d’expérience très éloignés pour produire une action nouvelle, puis améliorer fortement son comportement grâce à un coaching verbal. C’est exactement ce que l’on attend d’un futur robot généraliste : non pas tout savoir, mais apprendre plus vite, transférer mieux et s’adapter à l’imprévu.

À San Francisco, Physical Intelligence n’a donc pas seulement montré une démonstration de laboratoire. La startup a donné un aperçu d’un basculement plus profond : l’IA ne se contente plus de générer des textes, des images ou des vidéos. Elle commence à entrer dans les gestes, les objets et les pièces du quotidien. Et c’est peut-être là que la prochaine grande bataille de la tech va vraiment se jouer.

Publicité

Bertrand Marquette

Expert en marketing web, SEO et influence digitale, Bertrand décrypte les stratégies de visibilité utilisées par les marques, médias et créateurs de contenu. Spécialiste de l’acquisition d’audience, de la monétisation et des nouveaux leviers d’influence, il analyse l’évolution du marketing d’influence, de la creator economy et des tendances qui façonnent la communication digitale.

Laisser un commentaire