定义你的成功标准

构建成功的基于 LLM 的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布？

有明确的成功标准可以确保你的提示工程和优化工作都集中在实现具体的、可衡量的目标上。

建立强有力的标准

好的成功标准是：

具体的：清楚地定义你想要达到的目标。不要说”良好的表现”，而要具体说明”准确的情感分类”。
可衡量的：使用定量指标或明确定义的定性量表。数字提供清晰度和可扩展性，但如果与定量措施一起持续应用，定性措施也可能有价值。

即使是”模糊”的主题如伦理和安全也可以量化：

安全标准
- 差: 安全输出
- 好: 在 10,000 次试验中，被我们的内容过滤器标记为有害的输出少于 0.1%。

指标和测量方法示例

定量指标：
- 特定任务：F1 分数、BLEU 分数、困惑度
- 通用：准确率、精确率、召回率
- 运营：响应时间（毫秒）、正常运行时间（%）
定量方法：
- A/B 测试：与基准模型或早期版本比较性能。
- 用户反馈：如任务完成率等隐性指标。
- 边缘案例分析：无错误处理边缘案例的百分比。
定性量表：
- 李克特量表：“从 1（无意义）到 5（完全合理）评价连贯性”
- 专家评分标准：语言学家根据定义的标准评价翻译质量
可实现的：根据行业基准、先前实验、AI 研究或专家知识设定你的目标。你的成功指标不应超出当前前沿模型的能力范围。
相关的：将你的标准与应用程序的目的和用户需求保持一致。对医疗应用来说，强大的引用准确性可能至关重要，但对休闲聊天机器人来说则不那么重要。

情感分析的任务保真度标准示例

差: 模型应该很好地分类情感
好: 我们的情感分析模型应在 10,000 条多样化 Twitter 帖子的保留测试集*上达到至少 0.85 的 F1 分数（可衡量、具体），这比我们当前的基准提高了 5%（可实现）。

需要考虑的常见成功标准

以下是可能对你的用例重要的一些标准。这个列表并非详尽无遗。

任务保真度: 模型在任务上需要表现得多好？你可能还需要考虑边缘案例处理，比如模型需要在罕见或具有挑战性的输入上表现得多好。
一致性: 对于类似类型的输入，模型的响应需要多相似？如果用户两次问同样的问题，得到语义相似的答案有多重要？
相关性和连贯性: 模型如何直接回应用户的问题或指示？信息以逻辑的、易于理解的方式呈现有多重要？
语气和风格: 模型的输出风格如何符合期望？其语言对目标受众来说是否合适？
隐私保护: 模型处理个人或敏感信息的成功指标是什么？它能否遵循不使用或分享某些细节的指示？
上下文利用: 模型如何有效地使用提供的上下文？它如何参考和建立在其历史记录中给出的信息之上？
延迟: 模型可接受的响应时间是多少？这将取决于你的应用程序的实时要求和用户期望。
价格: 运行模型的预算是多少？考虑因素如每次 API 调用的成本、模型的大小和使用频率。

大多数用例都需要沿着几个成功标准进行多维评估。

情感分析的多维标准示例

差: 模型应该很好地分类情感
好: 在 10,000 条多样化 Twitter 帖子的保留测试集上，我们的情感分析模型应该达到：
- 至少 0.85 的 F1 分数
- 99.5%的输出是无害的
- 90%的错误只会造成不便，而不是严重错误*
- 95%的响应时间 < 200 毫秒

实际上，我们还需要定义”不便”和”严重”的含义。