目标:用公开 LLM + “后训练 + RAG + 工具调用”替换现有 FAQ 机器人,首月在典型问答集上实现 ≥ 98 % 的准确率。
一、模型与工具选型
功能 | 推荐模型 / 组件 | 依据 |
---|
文本生成 | DeepSeek R1(13B)或 Qwen-Max(14B) | 两者开源、支持长上下文并已在客服场景中落地[^1][^2] |
向量化 | BGE-large-zh 或 DeepSeek Embedding | 在中文检索任务表现稳定,已集成于主流 RAG 框架[^3] |
检索引擎 | FAISS(离线 PoC)→ Milvus / OpenSearch 向量索引(生产) | 开箱即用、社区案例丰富[^4][^3] |
流水线框架 | Chatwiki / LangChain RAG Pipeline | 已打包“文档切分-向量化-检索-生成”链路[^1][^5] |
反馈收集 | Chatwiki 会话监控 + 前端👍/👎按钮 | 支持实时人工接入并回流评分[^1] |
RLHF / PPO 微调 | ColossalAI-Chat、TRL | 社区提供完整 PPO + Reward Model 代码示例[^6][^7] |
二、知识库与检索构建
- 数据清洗
- 爬取/导出现有 FAQ、工单、产品手册,统一为 Markdown。
- 规则去噪:删水印、冗余空格、历史版本标记。
- 语义切分
- 句级 + 段级混合切分(≤ 500 token),提高召回粒度[^8]。
- 向量化入库
- 调用 Embedding API 生成向量;
- 写入 FAISS(PoC)并同步到 OpenSearch/Milvus 集群,建立 HNSW 索引,记录
doc_id + source
元数据[^4][^3]。
- RAG 召回-生成
- 检索 Top-k(k=4~6)片段 + 用户问题 → 组装提示词;
- 加工具调用路由:若提问含“物流/价格/库存”等结构化字段,先调用内部 API,再将返回 JSON 作为新增上下文。
- 结果后处理
- 引用标注:高亮被检索文档来源;
- 低置信度 (< 0.25)→ 触发“转人工”或回复“暂无相关信息”。
三、RLHF / 在线反馈闭环(确保 ≥ 98 %)
- 离线 SFT
- 用旧 FAQ 标准答案 + 1 万条历史优质工单对 LLM 做首轮指令微调,解决术语与格式对齐[^9]。
- Reward Model 构建
- 采样 5000 组真实对话,人工二选一标注“更好回答”;
- 训练 7B 规模 Reward Model 评分器;
- 采用 PPO 在主模型上迭代 1~2 轮,得到 v1.1[^6]。
- 在线 A/B + RLAIF
- 上线灰度 10 % 流量;
- 客户👍/👎、人工改写全部写入反馈队列;
- 每晚用 AI Labeler 按“事实正确/格式/礼貌”给新数据自动打分,生成伪偏好对;周更 PPO 微调[^10]。
- 质量监控
- 建立 300 条“金标集”每日巡检;
- 连续两天准确率 < 98 % 触发熔断切回旧 FAQ 流程[^11]。
四、落地节奏(4 周)
周次 | 关键交付 |
---|
第 1 周 | 环境部署、FAQ 清洗、FAISS PoC 检索 → 生成 API 成功返回 |
第 2 周 | OpenSearch/Milvus 集群上线,RAG Pipeline + 工具调用路由完成 |
第 3 周 | 首轮 SFT + Reward Model 训练,灰度 A/B 开始 |
第 4 周 | 在线反馈循环跑通,准确率稳定 ≥ 98 %,全量切流 |
五、风险与兜底
风险 | 缓解措施 |
---|
幻觉输出 | 置信度阈值 + 多模型交叉验证[^11] |
数据合规 | 切分时脱敏;OpenSearch 配置行级 ACL[^3] |
计算成本 | Embedding 批量异步;推理用 INT4 量化部署 DeepSeek/Qwen |
按以上路径,可在 1 个月内以最小投入将传统 FAQ 机器人升级为具备 RAG + 在线强化能力的新一代 LLM 客服,并通过持续反馈把准确率维持在 98 % 以上。