Le 17 février, les données de Jinshi ont annoncé que Microsoft avait publié la dernière version V2.0 du framework d'analyse visuelle OmniParser sur son site officiel, qui peut transformer des modèles tels que DeepSeek-R1, GPT-4o, Qwen-2.5VL en agents IA utilisables sur ordinateur. Par rapport à la version V1, la V2 présente une précision plus élevée et une vitesse de raisonnement plus rapide lors de la détection d'éléments d'interface utilisateur interactifs plus petits, réduisant la latence de 60%. Dans le test ScreenSpot Pro Benchmark de haute résolution de l'agent, la précision de V2+GPT-4o a atteint un impressionnant 39,6%, alors que la précision d'origine de GPT-4o n'était que de 0,8%, ce qui représente une amélioration considérable dans l'ensemble. En plus de la V2, Microsoft a également Open Source omnitool, qui est un système Windows basé sur Docker, couvrant des fonctionnalités telles que la compréhension de l'écran, la localisation, la planification et l'exécution des actions, et constitue un outil clé pour transformer de grands modèles en agents.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
2 J'aime
Récompense
2
4
Partager
Commentaire
0/400
GateUser-d6ca73f1
· 02-23 07:30
Pouvez-vous accéder à la zone au comptant ?
Voir l'originalRépondre0
GateUser-50c1e0dd
· 02-17 03:19
Bull Run 🐂
Répondre0
GateUser-50c1e0dd
· 02-17 02:39
Bull Run 🐂
Répondre0
Mmhreyan8513
· 02-17 00:26
Ape In 🚀Bull Run 🐂HODL Tight 💪1000x Vibes 🤑1000x Vibes 🤑HODL Tight 💪Bull Run 🐂Ape In 🚀
Cadre d'innovation Open Source de Microsoft : transformez DeepSeek en agent IA
Le 17 février, les données de Jinshi ont annoncé que Microsoft avait publié la dernière version V2.0 du framework d'analyse visuelle OmniParser sur son site officiel, qui peut transformer des modèles tels que DeepSeek-R1, GPT-4o, Qwen-2.5VL en agents IA utilisables sur ordinateur. Par rapport à la version V1, la V2 présente une précision plus élevée et une vitesse de raisonnement plus rapide lors de la détection d'éléments d'interface utilisateur interactifs plus petits, réduisant la latence de 60%. Dans le test ScreenSpot Pro Benchmark de haute résolution de l'agent, la précision de V2+GPT-4o a atteint un impressionnant 39,6%, alors que la précision d'origine de GPT-4o n'était que de 0,8%, ce qui représente une amélioration considérable dans l'ensemble. En plus de la V2, Microsoft a également Open Source omnitool, qui est un système Windows basé sur Docker, couvrant des fonctionnalités telles que la compréhension de l'écran, la localisation, la planification et l'exécution des actions, et constitue un outil clé pour transformer de grands modèles en agents.