参考 Han Lee 的 2×2 分析框架,目前 Deep Research 类产品在输出深度、训练程度两大维度呈现分异。输出深度即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息,可进一步被理解为 Agentic 能力的必要基础。低训练程度指代经过人工干预和调整的系统,比如使用人工调整的 prompt,高训练程度则是指利用机器学习对系统进行训练。

和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃迁,可能也将成为具有阶段代表性的经典产品形态。
Deep Research 产品通过系列推理模型嵌入,已生长出了 Agent 产品必要的推理能力。
更为关键的是,是 Deep Research 采用多次搜索和异步返回模式,在持续搜索过程中迭代和优化回复,从而输出更符合用户需求的内容,信息推理深度显著提升。这一自主计划、反思、行动的落地,是 Agent 路线图中必须迈过的一级阶梯。

- 高浓度的主流模型(如 DeepSeek 等)开发交流;
- 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;
-
好用、有趣的产品/案例,Founder Park 会主动做宣传。

考虑到目前公开性能表现有限,包括 Hugging Face、JINA 等团队自行的开源复现项目,并不在此次测评对象之中。
02
需要指出的是,Memory 没有进入到最终的任务域。主要原因在于,经多任务测试,Deep Research 的自动联网检索构建了一个“后门机制”,即使向其投喂长文,它也可以通过联网检索获得精炼信息,从而绕过用户给定的长文 context。因此,目前难以通过长文 prompt 有效评估其 memory 空间。
本文最终的“2+1”任务设计选取遵循“代表性案例”思路,完成各任务的主要能力可被视为 Tool Use、Instruction Following 等“代理变量”,二者并非严格对应关系。在不同能力维度统摄下,分别设计了任务场景如下。
Tool Use
在线检索能力:小众内容定位
小众内容检索反映出模型处理在线信息“长尾效应”的综合能力,亦是 ODR 团队访谈中提到的优势任务,如 Josh Tobin 所言:“当你有一个需要详细描述的问题,而且获得最佳答案需要大量阅读互联网内容时,Deep Research 真的特别擅长。如果你提出一个比较宽泛的问题,它会帮你理清楚具体想要什么。但它最出色的表现是在查找特定信息时。”
Task 1 冷门电影检索
本文参考 IMDb 观影全球评论数,选取了一部冷门电影(N<500),截取了电影中非关键帧场景,对其进行简要描述,逆向检索电影名称,从而评估 Deep Research 产品是否能依据有限信息,通过外部网页检索,准确定位到长尾内容。
Task 2 最新书籍检索
考虑到测试内容可能在模型训练集中出现,为提升测评信度,本文设计了最新出版书籍的检索任务,选取了于 2025 年 4 月刚出版的经济学书籍《Startup Capitalism New Approaches to Innovation Strategies in East Asia》,并使用书中使用的理论框架和案例提供线索,再次检测产品的检索能力。
数据分析能力:基于财报的因子计算
数据分析能力体现了产品对数据进行基础处理以及复杂分析的性能,评估其数值分析的准确性、推理逻辑可靠性的综合表现。
本任务关注 Tesla 财报信息的因子计算,选取基于财报以及 Earnings call 的结构化数值数据分析,提供 EPS 增速跳跃因子这一指标的计算公式,评估产品调用代码进行数值计算的自主性和有效性。
编程能力:智慧城市设计
产品设计规划需要进行目标分析、流程分解、方案比较,并通过 coding 加以实现,贴合效率、美观等现实目标进行创新,能够评估模型在给定目标下进行自主探索的潜力。
本任务围绕智慧城市大脑的前端产品场景,要求模型通过数据计算、指标构建、模块设计,最终形成一个能够展示的网页解决方案,从而评估模型贯穿美观设计、指标运算、代码落地的全流程能力。
Instruction Following
文献分析能力:多话题科研综述
科研文献综述需要模型围绕特定科学问题进行文献整合与现状梳理,难点一在于专业领域文献的检索源可得性确认,难点二在于分析特定领域研究的纵深性,完成对已有文献的整合分析。
本文基于文献综述这一任务场景,进行分段任务设计,其中每段的综述主题、数据信源、分析逻辑、字数要求、引用格式均有所不同,通过不同维度的差异化要求,考察产品对于“碎片化”需求的 instruction following 程度。
路线设计能力:旅游方案规划
消费方案推荐要求模型对消费属性以及用户评论进行全方面检索与梳理,并在个体偏好、预算等多重约束条件下,生成最优规划,主要体现在旅行规划和购物推荐两大任务,ODR 团队 Isa Fulford 在访谈中推荐:“我认为购物和旅行推荐是最主要的应用场景。我个人已经使用这个模型好几个月了。”
本文设计了一个上海-韩国旅游规划的场景,考察产品兼顾时间要求、消费预算限制、目的地偏好,最终提供具有一个用户需求贴合性、可行性方案的 instruction following 能力。
报告输出能力:研报分析
市场研报分析考察模型自主确定关键分析维度、确认数据来源,结合宏观趋势、中观行业、微观企业与用户的多角度整合分析表现,并在报告输出环节保证数据与图表的结构化输出。
本文围绕关注的 AI 招聘初创公司 Mercor,要求产品从市场格局、产品技术、商业模式、竞品公司、团队特征进行调研分析,并强调可通过图表形式可视化。
03
Tool use 能力
在线检索:OpenAI“一骑绝尘”
Task 1

根据一幕线索顺藤摸瓜出一部冷门电影,这一任务只有 OpenAI 成功检索出电影名《布宜诺斯艾利斯 100 公里 (Buenos Aires 100 km)》,其他产品均在“狐疑”中给出了错误答案。
需要指出的是,五家产品均收到了两次机会——在收到第一轮 prompt 时,均未给出正确回复,而在提示“这部电影好像是在阿根廷拍摄”后,OpenAI 结合这一线索成功定位到电影的主要信息。
本文选取测评镜头并非电影关键情节,并且描述极尽简单,OpenAI 能够在极其有限信息的情况下,展开多源网页搜索,验证了其主打的“小众内容检索能力”确实一骑绝尘。

Manus、Google、xAI 三家产品则在回复语气中透露出一丝迟疑和不确定性,在表示需要更多信息继续推理的同时,给出了 3-5 个错误回复。



而 PPLX 则在输出中坦诚表示,基于给定线索,无法给出任何潜在答案,未生成其他冗余信息。







因此,在第二次 prompt 中直接给定了 Tesla 在 2023 年 Q1 到 2024 年 Q4 的 EPS growth 的数据,要求产品进行计算。
这一计算过程并不算复杂,用普通最小二乘法(OLS)即可完成拟合,然而,五家产品均败下阵来,无一成功计算出正确数值,且“各有各有的问题”。
“中道崩殂”:xAI、Google 未完成计算任务
•xAI 大篇幅展示了对于计算公式的理解,长篇大论看似严谨,然而【预测 2024 Q1(基于 2023 Q2-Q4 和 2024 Q1)】的表述,实则未能正确理解公式。

•xAI 在给出了计算样例后,仅完成了 1/4 的计算量,输出了第一个数据点 2024Q1 的计算值,其对于公式的错误理解导致基准有误,作为唯一输出的 -4.19 同样与正确答案差之千里。

•Google 对计算口径的理解具有明显偏差,将所需数据点错误推至 2025 年 Q1,基于这一错误逻辑,其同样未完成极端,甚至未输出任何测算结果。

•PPLX 早在输出中重复了 prompt 中提到的计算方式,在计算公式渲染效果上更胜一筹,但从结果来看,其同样未能正确理解计算逻辑,混淆了 2024 年 Q1-Q4 的计算对象,反而输出了 2023 年 Q3-2024 年 Q2 的计算值。


从计算对象准确性、计算完备度而言,OpenAI 和 Manus 在这一数据分析任务中表现出最高的能力成熟度。二者均正确了定位了 2024 年 Q1-Q4 的分析目标,且在数值计算的大方向上把握正确,但在数值计算的微观代码实现层面有所偏差。
•OpenAI 基于表格直接给出了 2023 年 Q2-2024 年 Q4 的计算结果,尽管输出并非完全准确,但其 2024 年 Q1-Q4 在数据整体分布趋势上与正确数据相似。由于并未给出数值计算的完整运行代码,难以排查其计算偏差发生点。





针对这一结合设计 + coding 的任务,五家产品的输出呈现出显著分层。
第一梯队:Manus“多快好省”
•Manus 是唯一提供了完整项目文件,顺利运行网页,且在功能和美观性上均达到合格线的产品。值得注意的是,其不仅完全兑现了“环境洁净指数”等指标可视化展示、舆情分析等各项要求,还增加了【最新城市动态】一栏动态板块,产品意识超前。


•OpenAI 给出了 HTML、CSS 和 JavaScript 三个文件,保存到本地后形成了一目了然的原始网页,能够发现环境洁净指数等组件,仪表盘和折线图并列一行,勉强实现了数据展示功能。

第三梯队:Google、xAI、PPLX“run 不了”
•Google 并未给出可执行的前端网页完整方案,而是从“拟真”视角在每个部分象征性提供了一个代码模板。

•xAI 以简洁形式分块给出了示例,但内容极度简洁,代码块无法构成可运行网页。



文献分析:“选择性执行”居多

“选择性执行”组:OpenAI、xAI、PPLX
•OpenAI 在末段中的现有文献总结和表格输出相较于其他四家产品,在结论梳理和字数上均更符合规范

•OpenAI 的首段即无视了字数和主题要求,花了近一半篇幅点出透明和信任的概念,但随后偏移到了论述二者的关系,字数超过 500 字,未完全满足要求。





Google 在指令遵循方面属于内容逻辑与字数体例叛逆选手,在首段并未按照 prompt 要求在 500 字内论述透明、信任的概念,而是洋洋洒洒地从概念谈到二者关系。





瑕疵明显:xAI 走马观花
xAI 提供的方案并未观照 prompt 中的咖啡馆体验需求,未设计主题咖啡馆路线,缺乏专业级咖啡体验(烘焙工坊/杯测活动,同时建议前往南怡岛游览与咖啡和购物主题相关度较低,有走马观花之感。
针对此方案,R1 给出的各指标得分如下:


该方案在购物/咖啡的核心需求上实现度超预期,但近覆盖首尔核心区域(明洞、江南、弘大),并未涉及传统市场等购物体验。
针对此方案,R1 给出的各指标得分如下:


•Google:交通可行性不足
Google 方案的 1 分同样扣在前往釜山的交通时间,跨城交通成本吞噬 37%有效游览时长。
第二天:景福宫与弘大
第三天:江南时尚与 K-Pop 体验
第四天:釜山一日游
第五天:特色咖啡馆与艺术街区
第六天:首尔全景
第七天:离境前的最后购物
针对此方案,R1 给出的各指标得分如下:




唯一用 html 手册格式输出旅游方案的产品,整体来讲,首尔动线完成“美妆-轻奢-潮牌”的完备消费策划,但在交通动线设计上仍有资源错配不足。
针对此方案,R1 给出的各指标得分如下:




OpenAI 相较于其他产品方案,真正考虑到了购物需求,但仍在釜山跨城交通上略有损耗。
针对此方案,R1 给出的各指标得分如下:

第 2 天:首尔 – 古都文化探索 & 韩屋咖啡体验
第 3 天:首尔 – 潮流时尚购物 & 年轻活力夜生活
第 4 天:首尔 🚄 釜山 – 高铁前往釜山 & 甘川文化村、南浦洞市场游
第 5 天:釜山 – 海滨风光 & 咖啡休闲体验
第 6 天:釜山 – 休闲自由行(可选行程:温泉放松或购物扫货)
第 7 天:釜山 ✈ 上海 – 返回温馨之家





OpenAI > Manus > PPLX = xAI >> Google
•OpenAI:90 分,兼顾深度与广度
OpenAI 的分析视角和行文风格是五家产品中最具有专业性、拟真性,也是唯一精确锚定三大竞品公司并展开比较分析的产品。
从可用性而言,在 OpenAI 输出报告基础上稍加语言修缮、添加图表后即可作为一份咨询建议阅读。

Manus 的优势在于分析维度的高效全面分解,能够在市场趋势、外部竞争的信息中提炼出明确观点;并且相较于其他产品,在对应章节自主绘图意识极强(尽管渲染不完全稳定)。


•PPLX、xAI:70 分,基本达标
PPLX 与 xAI 输出报告的尴尬之处在于,整体质量都在及格线以上,但作为投资简报 bullet point 观点清晰度不足,而作为 ground truth 进一步拓展分析,创新性又有所欠缺。



Google 输出的报告停留于整合基本事实信息,分析观点并不明确,且在商业分析方法论上存在偏差。对于 Mercor 的竞品公司,其仅仅与传统招聘平台进行比对,在识别同赛道产品公司有明显缺失。


04

OpenAI 在报告输出、分析、设计任务中综合表现最强,长尾内容检索能力确如其官方所称“行业标杆”,但在数据分析、编程维度的 tool use 潜力仍未完全实现。
PPLX 在各任务中将将达到合格线,但在具体产品能力上“难有姓名”。
xAI 的相对优势在于保留了短平快的检索底色,坚持“不说废话”,尤其在涉及字数要求的任务中表现出稳定的 instruction following 能力,但多目标规划设计能力较为薄弱。
Manus 作为衔接了 Deep research 和其他 Agent 功能的产品形态,其 tool use 能力有显著优势,但 instruction following 仍有行动空白。
但从测评结果来看,Deep Research 作为 Agent 产品的初代形态,无论是 Agent 的内生能力、亦或是长文本报告输出能力,消除可见的短板障碍,触达天花板仍需要市场的耐心。
在这一浪潮褪去后,Agent 产品的下一级阶梯,或许将更快降临。ounder Park)
重要说明:本站课程均整理自网络,防止大家被割韭菜 !
本站初心:花更少的米,看韭菜一样的东西,仅学习其中的思路
项目里留下的联系方式最好仅作咨询!收费的一律删除~付费需谨慎!!切记!
创奇社官网:www.cqshe.com 如有解压密码看下载页说明
暂无评论内容