← 返回论文库
BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
O'Donoghue, et al. (Cambridge) · 2024
L1 · Domain Research AgentsICLR 2024#benchmark#biology
CORE IDEA
benchmark + planner:评估 LLM 在生物学 protocol planning 上的能力。
L-ANCHOR · 为什么在这一层重要
biology domain 评估