Microsoft a officiellement présenté son dernier modèle d'IA Fara-7B le 24 novembre, un modèle doté de 7 milliards de paramètres positionné comme un "Agent d'utilisation d'ordinateur" (Computer Use Agent, CUA), qui se distingue par sa capacité à fonctionner directement en local, sans dépendre de la puissance de calcul du cloud, tout en alliant haute performance et confidentialité des données.
Priorité à la sécurité des données d'entreprise, avec prise en charge des opérations par "perception visuelle"
Le cœur de la conception de Fara-7B vise à répondre aux exigences de confidentialité et de conformité dans le traitement des informations sensibles des clients professionnels. Grâce à un modèle suffisamment compact pour s'exécuter sur un ordinateur personnel, il réduit non seulement la latence mais évite également le transfert de données vers le cloud, facilitant l'automatisation locale pour des scénarios comme la gestion des comptes internes ou le traitement de documents confidentiels.
La principale caractéristique de ce modèle est son approche d'interaction avec les sites web par "observation d'écran" — il lit la mise en page via des captures d'écran, puis prédit les actions comme les clics de souris, les saisies ou les défilements. Contrairement aux méthodes traditionnelles qui dépendent de la structure du navigateur, Fara-7B fonctionne entièrement sur des données au niveau des pixels, ce qui lui permet de fonctionner correctement même sur des sites dont la structure de code est désordonnée.
Selon Yash Lara, chef de produit chez Microsoft Research, Fara-7B réalise ce qu'on appelle la "souveraineté des pixels" grâce au traitement local des entrées visuelles, permettant même aux industries hautement réglementées comme la santé et la finance de l'utiliser en toute confiance.
Des performances testées surpassant GPT-4o, un petit modèle plus efficace
Dans les tests de référence WebVoyager, Fara-7B atteint un taux d'achèvement des tâches de 73,5%, supérieur aux 65,1% de GPT-4o et aux 66,4% de UI-TARS-1.5-7B. De plus, Fara-7B ne nécessite en moyenne que 16 étapes pour accomplir une tâche, nettement mieux que les 41 étapes de UI-TARS-1.5-7B, atteignant ainsi un équilibre optimal entre précision et efficacité.
Fara-7B introduit également un mécanisme de "points de contrôle critiques" (critical checkpoints) qui suspend automatiquement l'opération et demande confirmation lorsqu'il rencontre des actions impliquant des données personnelles ou des opérations irréversibles (comme l'envoi d'e-mails ou les transferts d'argent), complété par l'interface interactive "Magentic-UI" qui offre une ligne de défense sécurisée pour la collaboration homme-machine.
Distillation des connaissances et formation par démonstration d'experts, renforçant le potentiel d'apprentissage autonome
Fara-7B utilise une méthode de formation par "distillation des connaissances", intégrant 145 000 exemples de navigation réussie générés par le système multi-agents Magentic-One, compressés pour l'apprentissage dans un modèle unique. De plus, le modèle sous-jacent est basé sur Qwen2.5-VL-7B, avec une fenêtre contextuelle pouvant atteindre 128 000 tokens, offrant d'excellentes capacités d'alignement texte-image, et une formation principalement axée sur l'imitation des opérations d'experts humains.
Microsoft indique qu'à l'avenir, plutôt que de poursuivre aveuglément des modèles plus grands, l'entreprise s'efforcera de créer des modèles "plus petits, plus intelligents et plus sûrs", et prévoit d'introduire l'apprentissage par renforcement (RL) pour l'auto-formation dans des environnements sandbox synthétiques.
Déjà open source et disponible, utilisable librement pour des tests commerciaux mais pas encore un produit officiel
Actuellement, Fara-7B est disponible en open source sous licence MIT, téléchargeable sur Hugging Face et la plateforme Microsoft Foundry, et autorisé pour les applications commerciales. Cependant, Microsoft avertit que ce modèle n'a pas encore atteint les normes de déploiement en environnement de production, et convient principalement aux développeurs pour les tests de prototypes et la validation de fonctionnalités.
- Lecture complémentaire : Google lance WeatherNext 2, un modèle d'IA de prévision météorologique de nouvelle génération, disponible en premier sur Pixel, la recherche et Gemini
- Lecture complémentaire : Des chercheurs découvrent une méthode de questionnement simple pour rendre l'IA plus créative, applicable à tous les modèles d'IA comme ChatGPT et Gemini
- Lecture complémentaire : Anthropic présente Claude Haiku 4.5, un petit modèle d'IA : seulement 1/3 du coût, des performances comparables à Sonnet 4, et même légèrement supérieures en programmation



