El 17 de febrero, según los datos de Jinshi, Microsoft lanzó la última versión V2.0 del marco de análisis visual OmniParser en su sitio web oficial, que convierte modelos como DeepSeek-R1, GPT-4o, Qwen-2.5VL en Agentes de IA utilizables en computadoras. En comparación con la versión V1, la V2 tiene una mayor precisión al detectar elementos de IU interactivos más pequeños, una velocidad de razonamiento más rápida y una disminución del 60% en la latencia. En la prueba de ScreenSpot Pro de alta resolución del Indicador de referencia del Agente, la precisión de V2+GPT-4o alcanzó un asombroso 39.6%, mientras que la precisión original de GPT-4o era solo del 0.8%, lo que representa una mejora significativa en general. Además de la V2, Microsoft también lanzó Código abierto omnitool, que es un sistema Windows basado en Docker que abarca funciones como comprensión de pantalla, localización, planificación y ejecución de acciones, y es una herramienta clave para convertir grandes modelos en Agentes.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
2 me gusta
Recompensa
2
4
Compartir
Comentar
0/400
GateUser-d6ca73f1
· 02-23 07:30
¿Puedo acceder al mercado al contado?
Ver originalesResponder0
GateUser-50c1e0dd
· 02-17 03:19
Bull Run 🐂
Responder0
GateUser-50c1e0dd
· 02-17 02:39
Bull Run 🐂
Responder0
Mmhreyan8513
· 02-17 00:26
Inversor en 🚀Alcista 🐂Mantén firme 💪Vibes de 1000x 🤑Vibes de 1000x 🤑Mantén firme 💪Alcista 🐂Inversor en 🚀
Marco de innovación de Microsoft: puede convertir DeepSeek en un agente de IA
El 17 de febrero, según los datos de Jinshi, Microsoft lanzó la última versión V2.0 del marco de análisis visual OmniParser en su sitio web oficial, que convierte modelos como DeepSeek-R1, GPT-4o, Qwen-2.5VL en Agentes de IA utilizables en computadoras. En comparación con la versión V1, la V2 tiene una mayor precisión al detectar elementos de IU interactivos más pequeños, una velocidad de razonamiento más rápida y una disminución del 60% en la latencia. En la prueba de ScreenSpot Pro de alta resolución del Indicador de referencia del Agente, la precisión de V2+GPT-4o alcanzó un asombroso 39.6%, mientras que la precisión original de GPT-4o era solo del 0.8%, lo que representa una mejora significativa en general. Además de la V2, Microsoft también lanzó Código abierto omnitool, que es un sistema Windows basado en Docker que abarca funciones como comprensión de pantalla, localización, planificación y ejecución de acciones, y es una herramienta clave para convertir grandes modelos en Agentes.