في 17 فبراير، أعلنت Microsoft على موقعها الرسمي عن إصدار الإطار البصري OmniParser V2.0 الأحدث، الذي يمكن تحويل النماذج مثل DeepSeek-R1 وGPT-4o وQwen-2.5VL إلى وكيل ذكاء اصطناعي يمكن استخدامه على الكمبيوتر. بالمقارنة مع الإصدار V1، فإن V2 يظهر دقة أعلى عند اكتشاف عناصر واجهة المستخدم التفاعلية الصغيرة وسرعة استنتاج أسرع، وقد انخفض وقت الاستجابة بنسبة 60٪. في اختبار المعيار العالي الدقة ScreenSpot Pro Agent، بلغت دقة V2+GPT-4o 39.6٪، بينما كانت الدقة الأصلية لـ GPT-4o 0.8٪ فقط، مما يشكل تحسنًا كبيرًا بشكل عام. بالإضافة إلى V2، قامت Microsoft أيضًا بإصدار مصدر مفتوح omnitool، وهو نظام Windows مبني على Docker يشمل فهم الشاشة وتحديد مواقع الإجراءات والتخطيط والتنفيذ، وهو أيضًا أداة رئيسية لتحويل النماذج الكبيرة إلى وكيل.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 2
أعجبني
2
4
مشاركة
تعليق
0/400
GateUser-d6ca73f1
· 02-23 07:30
يمكنني الوصول إلى منطقة السلع الفورية؟
شاهد النسخة الأصليةرد0
GateUser-50c1e0dd
· 02-17 03:19
السوق الصاعدة 🐂
شاهد النسخة الأصليةرد0
GateUser-50c1e0dd
· 02-17 02:39
السوق الصاعدة 🐂
شاهد النسخة الأصليةرد0
Mmhreyan8513
· 02-17 00:26
Ape In 🚀السوق الصاعدة 🐂HODL Tight 💪1000x Vibes 🤑1000x Vibes 🤑HODL Tight 💪السوق الصاعدة 🐂Ape In 🚀
إطار الابتكار المفتوح المصدر من مايكروسوفت: يمكن تحويل DeepSeek إلى وكيل ذكاء اصطناعي
في 17 فبراير، أعلنت Microsoft على موقعها الرسمي عن إصدار الإطار البصري OmniParser V2.0 الأحدث، الذي يمكن تحويل النماذج مثل DeepSeek-R1 وGPT-4o وQwen-2.5VL إلى وكيل ذكاء اصطناعي يمكن استخدامه على الكمبيوتر. بالمقارنة مع الإصدار V1، فإن V2 يظهر دقة أعلى عند اكتشاف عناصر واجهة المستخدم التفاعلية الصغيرة وسرعة استنتاج أسرع، وقد انخفض وقت الاستجابة بنسبة 60٪. في اختبار المعيار العالي الدقة ScreenSpot Pro Agent، بلغت دقة V2+GPT-4o 39.6٪، بينما كانت الدقة الأصلية لـ GPT-4o 0.8٪ فقط، مما يشكل تحسنًا كبيرًا بشكل عام. بالإضافة إلى V2، قامت Microsoft أيضًا بإصدار مصدر مفتوح omnitool، وهو نظام Windows مبني على Docker يشمل فهم الشاشة وتحديد مواقع الإجراءات والتخطيط والتنفيذ، وهو أيضًا أداة رئيسية لتحويل النماذج الكبيرة إلى وكيل.