Jin10 дані 3 квітня, сьогодні в 1 годину ночі OpenAI відкрив новий бенчмарк для оцінки AI Agent - PaperBench. Цей бенчмарк в основному оцінює можливості агентів у пошуку, інтеграції, виконанні та інших аспектах, і вимагає відтворення провідних статей на міжнародній конференції з машинного навчання 2024 року, включаючи розуміння змісту статей, написання коду та виконання експериментів. Згідно з опублікованими даними тестування OpenAI, нині відомі великі моделі, створені агентами, ще не можуть перевершити провідних докторів наук у галузі машинного навчання. Але вони дуже корисні для допоміжного навчання та розуміння наукових досліджень.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI Відкритий вихідний код PaperBench, переформатовує оцінювання топових AI Agent
Jin10 дані 3 квітня, сьогодні в 1 годину ночі OpenAI відкрив новий бенчмарк для оцінки AI Agent - PaperBench. Цей бенчмарк в основному оцінює можливості агентів у пошуку, інтеграції, виконанні та інших аспектах, і вимагає відтворення провідних статей на міжнародній конференції з машинного навчання 2024 року, включаючи розуміння змісту статей, написання коду та виконання експериментів. Згідно з опублікованими даними тестування OpenAI, нині відомі великі моделі, створені агентами, ще не можуть перевершити провідних докторів наук у галузі машинного навчання. Але вони дуже корисні для допоміжного навчання та розуміння наукових досліджень.