博士水平共1篇
刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测-创奇社

刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

今天凌晨 1点, OpenAI开源了一个全新的 AI Agent评测基准—— PaperBench。 该基准主要考核智能体的搜索、整合、执行等能力。
AIGC开放社区的头像-创奇社AIGC开放社区40天前
0100