Jin10 Data 3 April, pukul 1 pagi, OpenAI Sumber Terbuka sebuah benchmark baru untuk penilaian AI Agent—PaperBench. Benchmark ini terutama menguji kemampuan agen dalam pencarian, pengintegrasian, dan pelaksanaan, yang memerlukan reproduksi dari makalah-makalah terkemuka di konferensi pembelajaran mesin internasional 2024, termasuk pemahaman isi makalah, penulisan kode, serta pelaksanaan eksperimen. Menurut data pengujian yang dirilis oleh OpenAI, saat ini agen yang dibangun oleh model besar yang terkenal, masih belum dapat mengalahkan doktor profesional pembelajaran mesin teratas. Namun, ini sangat membantu dalam pembelajaran pendukung dan memahami konten penelitian.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI Sumber Terbuka PaperBench, membentuk kembali evaluasi Agen AI teratas
Jin10 Data 3 April, pukul 1 pagi, OpenAI Sumber Terbuka sebuah benchmark baru untuk penilaian AI Agent—PaperBench. Benchmark ini terutama menguji kemampuan agen dalam pencarian, pengintegrasian, dan pelaksanaan, yang memerlukan reproduksi dari makalah-makalah terkemuka di konferensi pembelajaran mesin internasional 2024, termasuk pemahaman isi makalah, penulisan kode, serta pelaksanaan eksperimen. Menurut data pengujian yang dirilis oleh OpenAI, saat ini agen yang dibangun oleh model besar yang terkenal, masih belum dapat mengalahkan doktor profesional pembelajaran mesin teratas. Namun, ini sangat membantu dalam pembelajaran pendukung dan memahami konten penelitian.