جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI مفتوح المصدر PaperBench ، إعادة تشكيل تقييمات أفضل وكيل ذكاء اصطناعي
جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.