OpenAI Открытый исходный код PaperBench, переработка оценки топовых AI агентов

robot
Генерация тезисов в процессе

Jin10 данные 3 апреля, сегодня в 1 час ночи OpenAI выпустила новый бенчмарк для оценки AI-агентов — PaperBench. Этот бенчмарк в основном оценивает способности агентов в поиске, интеграции и выполнении задач, что требует воспроизведения ведущих статей на международной конференции по машинному обучению 2024 года, включая понимание содержания статей, написание кода и выполнение экспериментов. Согласно опубликованным OpenAI тестовым данным, в настоящее время известные большие модели, созданные для агентов, все еще не могут превзойти лучших докторов наук в области машинного обучения. Однако они очень полезны в поддержке обучения и понимании научного содержания.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить