Prompt 评测框架：从主观好用到可量化

建立覆盖准确率、稳定性和成本的 Prompt 评测基线。

作者：Qin He发布时间：2026-03-04阅读时长：10 min

Prompt 工程要想持续迭代，必须建立离线评测与线上监控闭环。离线侧需要固定样本集和评分规则，线上侧要追踪失败类型分布。很多团队卡在“样本不断变化”，建议把样本按场景版本化，并为每次变更记录目标指标，避免回归时无从定位。

分享这篇文章

标签

#Prompt #Evaluation #LLM