Deep Researcher Agent 火,不是因为它又包装了一个“AI 科研助手”的概念,而是它盯准了研究里最磨人的一层:实验运营。
改超参、跑训练、看日志、整理结果、再改。真正有价值的是 idea 和判断,但研究者大量时间耗在等待和机械复盘上。Deep Researcher Agent 想接过去的,正是这段重复循环。
它不是替你做科学,而是替你跑实验流水线
官方 README 里说得很克制:You design the experiment. The agent handles the repetitive loop.
这句话很重要。它不是让模型凭空发明论文,也不是自动生成“科研成果”。你仍然要写清楚研究目标、约束、搜索空间和停止条件。Agent 负责在这个边界里做四件事:想下一轮实验、改代码或配置、跑 dry-run、启动训练、训练结束后解析结果并继续下一轮。
核心循环是:
THINK → EXECUTE → MONITOR → REFLECT → REPEAT这套循环适合“方向已定、实验很多、人工盯着很烦”的项目。不适合让模型自己决定科研问题,更不适合拿来堆假结果。
成本低,靠的是训练期间不叫醒 LLM
24/7 Agent 听起来贵,Deep Researcher 的关键设计是:训练期间不调用大模型。
训练一跑就是几个小时,普通 Agent 如果每隔几分钟让 LLM “看一眼进度”,成本会被轮询吃掉。这个项目的做法更朴素:训练时只做进程检查、GPU 查询和日志 tail。
kill -0 $PID
nvidia-smi
tail -n 80 train.log真正需要 LLM 的时间点,只有开头的计划和结尾的复盘。官方 README 里给的说法是,一个 24 小时周期的 LLM 调用成本约 0.08 美元。注意,这只是 LLM API 成本,不包括 GPU 机器、电费、云盘和数据集成本。
去看看雨云实验机
最小可跑项目长什么样
它要求你至少有 Python 3.10+、NVIDIA GPU、模型 API Key,以及一个项目说明文件。最小项目结构可以很简单:
my-first-experiment/
├── PROJECT_BRIEF.md
└── workspace/`PROJECT_BRIEF.md` 是控制 Agent 的核心。建议写得越具体越好:
# Goal
Train a ResNet-50 on CIFAR-100 to reach 80%+ accuracy.
# Codebase
Create the training code from scratch in PyTorch.
# What to Try
- Start with a basic ResNet-50 baseline.
- If accuracy < 75%, improve optimization and schedule.
- If accuracy is 75-80%, try augmentation.
- If accuracy > 80%, stop and report.
# Constraints
- Use GPU 0 only.
- Max 100 epochs per run.
- Do not change the dataset split.这里最值钱的不是格式,而是约束。没有约束的 Agent,很容易在“看似努力”的探索里烧掉预算。
安装路径
官方给出的基本安装流程是:
git clone https://github.com/Xiangyue-Zhang/auto-deep-researcher-24x7.git
cd auto-deep-researcher-24x7
pip install -r requirements.txt
python install.py
python -m core.loop --check它会安装 Claude slash commands 和 Codex local skills。启动实验大致是:
/auto-experiment --project /path/to/project --gpu 0看状态:
/experiment-status
/progress-report
/gpu-monitor如果你不想自己读完整文档,可以把仓库里的 `AI_GUIDE.md` 交给 Claude、ChatGPT 或 Codex,让它按交互式步骤带你装。
两层记忆解决长跑上下文膨胀
长时间运行的 Agent 最怕上下文越滚越大。Deep Researcher 用两层文件控制记忆大小:
- `PROJECT_BRIEF.md`:稳定目标和约束,尽量冻结。
- `workspace/MEMORY_LOG.md`:滚动记录关键结果和最近决策,自动压缩。
这让 Agent 跑一天和跑一个月时,上下文规模不至于线性膨胀。对长期实验来说,这比“塞一个超长上下文模型”更现实。
真要用,先加三道保险
第一道保险是 dry-run。代码改完先跑很短的前向/反向,确认不会一启动就炸。
第二道保险是复现实验。结果突然提升,不要立刻写进论文。至少同 seed 重跑一次,再换 seed 跑一次。
第三道保险是人工指令文件。比如 `HUMAN_DIRECTIVE.md`,专门用来临时打断方向:停止某个分支、缩小搜索空间、强制验证异常结果。
# HUMAN_DIRECTIVE
- Stop changing the backbone.
- Only tune augmentation and learning rate schedule.
- If the gain is below 0.3 points for 3 runs, return to the last trusted baseline.它适合谁,不适合谁
适合已经有训练代码、GPU、明确实验目标的人。你知道自己要试什么,只是不想半夜起来看 loss。
不适合没有研究问题、没有数据治理、没有复现意识的人。Agent 可以帮你跑得更勤,但不能保证你跑的方向对。
这个项目真正提醒我们的,是 Agent 工程正在从“会回答问题”走向“接管重复运营”。科研场景尤其明显:人负责问题、假设和判断;Agent 负责把一轮轮实验稳稳跑完。
别把科学判断外包。让 AI 熬夜就行了。