Badcase 不是“失败样本”,而是产品路线图的素材。

不会“甩锅给模型”的人,才是真正能推进 AI 产品的人。

AI PM 的成熟标志,不是 Badcase 变少,

而是 Badcase 出现时,你知道“该不该管、怎么管、管到哪”。


AI产品Badcase与解决思路

<aside>

核心思路:

  1. 现状分析:
    1. 准备数据评测集——准备一个可靠的评测集,是任何AI项目落地、优化的起点
    2. 设立指标体系
    3. 得出结论——当前的算法效果到底好不好、是否还需要进行优化?如果需要,下一步大方向
  2. Bad Case 分析怎么做
    1. 盯着“模型出错”的样本,找到导致准确率、召回率下降的关键点**。**
  3. 根据⬆️问题,寻找解决方案
  4. 验证与迭代:循环优化

优化Badcase千人千面,没有统一解法,具体问题具体分析,⬇️表列举了一些例子

</aside>

AI 产品 Badcase 常见类型与解决思路

Badcase 不是“模型错了”,而是系统在某一层失效了。

这张表的价值在于:

帮你快速定位“该改哪一层”,而不是盲目调模型。

No. 问题类型 典型表现 根因拆解(方法论) 场景举例
1 链路问题(工具 / RAG / Rewrite / Memory 等) 工具不调、参数错、召回错内容、上下文错轮次 **方法论:先看链路,而不是模型。**所有最终回答都是前面环节的叠加。- 工具调用链可视化- 入参 / 出参校验- RAG 召回应完整可查看- Memory 读写要有版本和轮次管理 查订单、查物流、查库存、知识问答等
2 Prompt 设计问题 风格不当(可爱、emoji)、格式混乱、回答不按要求来 **方法论:Prompt 是模型的「隐性产品设计文档」。**线上问题中约 30% 来自提示词不清晰。- 明确格式要求- 风格、语气结合业务场景- 禁止隐含需求(如“主动关怀”“可爱一点”) 客服回复、专业问答、生成结构化内容
3 知识不足 / 缺对应用知识 / 知识准确性问题(RAG 覆盖不够) 回答不专业、常识化、忽略业务规则 方法论:专业问题靠知识,而不是靠模型“猜”。- 构建知识库时覆盖:类目 / 店铺 / 规则 / 例外- 保证检索精度(chunk、摘要、标签)- 引用式回答 > 模型自由发挥 售后规则、方案生成、行业知识问答
4 模型本身能力短板 算不准、对比错、结构化混乱、多步骤任务易丢步骤 方法论:模型不是万能的,把「模型弱项」工具化。- 数学计算交给工具- 对比 / 排序交给工具- 复杂逻辑交给业务逻辑或代码- 模型只负责“解释”工具结果 比价、计算、流程判断、风险评估
5 训练数据问题(针对自研模型) 口头禅、风格怪异、表达模式固定 方法论:模型的“口癖”和风格,本质是训练数据投射。- 清洗 SFT 噪声- 避免在奖励阶段强化不必要的表达(如反问) 自研客服助手、自研垂类模型、行业模型训练