Deep Researcher Agent 教程：让 AI 替你盯训练，但别把科学判断也外包

Deep Researcher Agent 火，不是因为它又包装了一个“AI 科研助手”的概念，而是它盯准了研究里最磨人的一层：实验运营。

改超参、跑训练、看日志、整理结果、再改。真正有价值的是 idea 和判断，但研究者大量时间耗在等待和机械复盘上。Deep Researcher Agent 想接过去的，正是这段重复循环。

它不是替你做科学，而是替你跑实验流水线

官方 README 里说得很克制：You design the experiment. The agent handles the repetitive loop.

这句话很重要。它不是让模型凭空发明论文，也不是自动生成“科研成果”。你仍然要写清楚研究目标、约束、搜索空间和停止条件。Agent 负责在这个边界里做四件事：想下一轮实验、改代码或配置、跑 dry-run、启动训练、训练结束后解析结果并继续下一轮。

核心循环是：

THINK → EXECUTE → MONITOR → REFLECT → REPEAT

这套循环适合“方向已定、实验很多、人工盯着很烦”的项目。不适合让模型自己决定科研问题，更不适合拿来堆假结果。

成本低，靠的是训练期间不叫醒 LLM

24/7 Agent 听起来贵，Deep Researcher 的关键设计是：训练期间不调用大模型。

训练一跑就是几个小时，普通 Agent 如果每隔几分钟让 LLM “看一眼进度”，成本会被轮询吃掉。这个项目的做法更朴素：训练时只做进程检查、GPU 查询和日志 tail。

kill -0 $PID
nvidia-smi
tail -n 80 train.log

真正需要 LLM 的时间点，只有开头的计划和结尾的复盘。官方 README 里给的说法是，一个 24 小时周期的 LLM 调用成本约 0.08 美元。注意，这只是 LLM API 成本，不包括 GPU 机器、电费、云盘和数据集成本。

顺手提一嘴：实验环境别跟生产环境混着跑如果你最近正折腾 Agent、训练脚本、网关服务或临时测试机，可以用一台便宜云服务器单独隔离环境。雨云这类弹性云服务器适合拿来做验证、跑 demo、放日志和中转服务，别把本机开发环境越堆越乱。
去看看雨云实验机

最小可跑项目长什么样

它要求你至少有 Python 3.10+、NVIDIA GPU、模型 API Key，以及一个项目说明文件。最小项目结构可以很简单：

my-first-experiment/
├── PROJECT_BRIEF.md
└── workspace/

`PROJECT_BRIEF.md` 是控制 Agent 的核心。建议写得越具体越好：

# Goal
Train a ResNet-50 on CIFAR-100 to reach 80%+ accuracy.

# Codebase
Create the training code from scratch in PyTorch.

# What to Try
- Start with a basic ResNet-50 baseline.
- If accuracy < 75%, improve optimization and schedule.
- If accuracy is 75-80%, try augmentation.
- If accuracy > 80%, stop and report.

# Constraints
- Use GPU 0 only.
- Max 100 epochs per run.
- Do not change the dataset split.

这里最值钱的不是格式，而是约束。没有约束的 Agent，很容易在“看似努力”的探索里烧掉预算。

安装路径

官方给出的基本安装流程是：

git clone https://github.com/Xiangyue-Zhang/auto-deep-researcher-24x7.git
cd auto-deep-researcher-24x7

pip install -r requirements.txt
python install.py
python -m core.loop --check

它会安装 Claude slash commands 和 Codex local skills。启动实验大致是：

/auto-experiment --project /path/to/project --gpu 0

看状态：

/experiment-status
/progress-report
/gpu-monitor

如果你不想自己读完整文档，可以把仓库里的 `AI_GUIDE.md` 交给 Claude、ChatGPT 或 Codex，让它按交互式步骤带你装。

两层记忆解决长跑上下文膨胀

长时间运行的 Agent 最怕上下文越滚越大。Deep Researcher 用两层文件控制记忆大小：

`PROJECT_BRIEF.md`：稳定目标和约束，尽量冻结。
`workspace/MEMORY_LOG.md`：滚动记录关键结果和最近决策，自动压缩。

这让 Agent 跑一天和跑一个月时，上下文规模不至于线性膨胀。对长期实验来说，这比“塞一个超长上下文模型”更现实。

真要用，先加三道保险

第一道保险是 dry-run。代码改完先跑很短的前向/反向，确认不会一启动就炸。

第二道保险是复现实验。结果突然提升，不要立刻写进论文。至少同 seed 重跑一次，再换 seed 跑一次。

第三道保险是人工指令文件。比如 `HUMAN_DIRECTIVE.md`，专门用来临时打断方向：停止某个分支、缩小搜索空间、强制验证异常结果。

# HUMAN_DIRECTIVE
- Stop changing the backbone.
- Only tune augmentation and learning rate schedule.
- If the gain is below 0.3 points for 3 runs, return to the last trusted baseline.

它适合谁，不适合谁

适合已经有训练代码、GPU、明确实验目标的人。你知道自己要试什么，只是不想半夜起来看 loss。

不适合没有研究问题、没有数据治理、没有复现意识的人。Agent 可以帮你跑得更勤，但不能保证你跑的方向对。

这个项目真正提醒我们的，是 Agent 工程正在从“会回答问题”走向“接管重复运营”。科研场景尤其明显：人负责问题、假设和判断；Agent 负责把一轮轮实验稳稳跑完。

别把科学判断外包。让 AI 熬夜就行了。