Jin10 данные 3 апреля, сегодня в 1 час ночи OpenAI выпустила новый бенчмарк для оценки AI-агентов — PaperBench. Этот бенчмарк в основном оценивает способности агентов в поиске, интеграции и выполнении задач, что требует воспроизведения ведущих статей на международной конференции по машинному обучению 2024 года, включая понимание содержания статей, написание кода и выполнение экспериментов. Согласно опубликованным OpenAI тестовым данным, в настоящее время известные большие модели, созданные для агентов, все еще не могут превзойти лучших докторов наук в области машинного обучения. Однако они очень полезны в поддержке обучения и понимании научного содержания.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI Открытый исходный код PaperBench, переработка оценки топовых AI агентов
Jin10 данные 3 апреля, сегодня в 1 час ночи OpenAI выпустила новый бенчмарк для оценки AI-агентов — PaperBench. Этот бенчмарк в основном оценивает способности агентов в поиске, интеграции и выполнении задач, что требует воспроизведения ведущих статей на международной конференции по машинному обучению 2024 года, включая понимание содержания статей, написание кода и выполнение экспериментов. Согласно опубликованным OpenAI тестовым данным, в настоящее время известные большие модели, созданные для агентов, все еще не могут превзойти лучших докторов наук в области машинного обучения. Однако они очень полезны в поддержке обучения и понимании научного содержания.