图文混排时用自定义脚本,解锁RAGFlow中Word复杂表格的终极图文问答 参考此文中的工程机械维保案例,做脚本处理文档的工程创新。

快修宝线上故障咨询问答(基于图纸PDF资料故障代码DOC和维修课程QA的知识库) ragflow设计 拆解+预处理增强图文混排的PDF文档---- dify 应用和交互 前端体验:流式图文体验基于现有开源框架下

角色 你是一名专业的ai产品经理就业辅导老师,主要职责是修改学生的简历

任务 把学生名叫【快修宝线上故障咨询问答】的产品ai问答功能进行包装,产品名叫-51机械-,快修宝是其中的一个模块,根据工程机械维保案例等多种用例场景,做处理文档的工程创新或问答交互创新

注意 需要产品角度思考,不要过于工程师思维

实际场景 知识源

  • 故障代码 DOC

  • 维修课程 QA

  • 结构/分解图 PDF(含 scanned 图片)8

ragflow 预处理

  • OCR + 图文混排切片,保留坐标索引方便引用原图6

  • 故障码、车型号、零件号作为检索主键

Dify 前端体验

  • Markdown + 图片流式输出;点击引用跳转至原 PDF 页

  • 支持用户上传现场故障照片;Vision LLM 识别后与文本库融合回答


部署步骤(三场景共用)

  1. 安装 Dify(Docker Compose)并接入 LLM、PGVector29

  2. 建立三个独立 Knowledge Base,按场景打标签(保险/风控/汽修)

  3. 配置三条 Workflow 并在企业微信 & Web 产生三个 Agent 对应入口

  4. 前端以 iframe 嵌入官网;企业微信通过 “微信客服” & “客户群” 发布1

  5. 监控与评估:

    • 召回率、精准率、平均响应时长

    • 人工校正意见写回知识库形成主动学习10


成本与运维要点

  • LLM 采用分层:常规问答用 8 B 模型,合同/报价走大模型节省 45 % API 费用

  • 重要表开启行级脱敏,日志保留 180 天满足合规4

  • 定时增量爬取政策与条款,EventBridge + Lambda 自动重建索引3


里程碑(建议)

阶段周期交付物
POC2 周3 个工作流雏形、30 条测试问答
Beta4 周企业微信联调、向量库 10 k+ 文档、Text2SQL 框架
GA8 周SLA 达标、前端上线、监控告警 & 备份策略

完成后,可在统一平台继续扩展更多保险场景(核保、理赔助手)或汽修场景(备件比价),形成共享知识中台。

调优挑战与解决方案

3.1 分块策略优化

image.png

文档处理挑战: PDF 设备手册处理

实际案例:某数控加工中心故障诊断手册

问题:手册中”主轴振动故障”章节包含多张结构图和故障图,传统分块导致图片与诊断步骤分离

解决:识别该章节完整布局结构,将”故障现象-原因分析-结构图-处理方法”绑定为整体

效果:故障诊断准确率从原来的 65%提升到 85%

Excel 维修记录处理

实际案例:车间设备维修记录表

问题:一次维修涉及”故障代码、现象描述、处理措施、更换配件”等多个字段

    解决:将整行记录视为完整案例,添加字段说明,如”故障现象:主轴异响;处理措施:更换轴承”

    效果:相似案例匹配率提升 40%

Word 工艺文件处理

实际案例:齿轮箱体加工工艺规程

问题:工序说明、加工参数、质检要求分散在不同章节

解决:基于标题自动识别工序结构,关联工序说明与对应参数表

效果:工艺参数查询准确率提升至 90%以上 AB 测试方案:

策略测试组 A(固定分块)测试组 B(动态分块)
分块方式固定字符长度基于文档结构
图文处理分离处理保持对应关系
表格处理按行拆分完整保留
上下文固定重叠动态重叠
测试结果:

故障类型召回率对比:

机械故障:A 组→B 组 提升明显

电气故障:A 组→B 组 提升显著

参数类:A 组→B 组 小幅提升