如果我们想要给智能体规定一个知识范围、或者让智能体学习我们给它设定的知识范围,就需要用到知识库
💡知识库 = 大脑的思考能力
智能体的知识库就像人的大脑,负责理解、推理和决策
比如,它能分析问题、总结规律,就像人用经验判断事情一样
Coze的知识库主要有三类:文本、表格、照片

这里我们给大家引入实例,帮助大家更好的理解知识库
比如我们希望给生活助理小秘添加一个热梗合集,让他只调用这个文件内的热梗,这是一个文本类型的知识库
我们想要添加知识库,首先需要自己创建一个知识库,这里比较推荐大家使用飞书文档导入
因为我们试了一下,飞书能够完整保存图片格式,而其他文档类型可能导致图片丢失
1.📝编写知识库
这是我们编写的一个热梗合集及其解释的知识库,做好之后我们在智能体的功能配置区域选择添加进去
想要的同学点击跳转去创建部分即可

注意:
特别提一下,创建的是知识库,不是云文档

知识库打开是这样的,是在知识库里面创建文档,不然后期授权飞书之后也是无法访问的

2.➕添加知识库
我们点击这里的加号按钮,添加知识库

在弹窗中选择创建知识库

这里可以看到知识库是支持多种渠道的导入的
在线数据的话是使用的爬虫进行爬取,需要我们拥有这个网站的访问权限,不然就是违规操作
初学者不建议使用这些功能,还是比较推荐大家选择飞书

输入名称和描述之后,选择导入类型为飞书,然后选择创建并导入

首次使用需要授权,我们点击完成授权即可

然后在界面上选择知识库,点击我们的文档父文件

找到我们的热梗合集文档,然后点击下一步

3.🧹知识库的分段与清洗
接下来涉及到一个重要的知识点,知识库的分段与清洗
分段与清洗的作用
前面说了,大模型会对用户输入的文本进行加工、重组,同样,它也要对知识库中的信息加工、重组,它并不理解意思,只是通过概率建模预测下一个最可能的语言单元,那么为了提高这个“概率”的准确性,对知识库的分段与清洗就显得尤为重要。
分段的作用
将长文本切割成短段落或句子块,突破大模型处理长内容的限制,同时让模型能像查目录一样快速定位关键信息,避免在无关内容中“大海捞针”
例如处理100页手册时,分段后模型只需检索与问题相关的1-2页内容,而非通读全文
清洗的作用
过滤掉文本中的垃圾字符(如乱码、广告链接)、冗余格式(如连续空格、空行),相当于给数据“洗澡”,确保模型接收的是干净、有用的内容
例如清洗前“2023新款手机####点击购买→http...”会干扰理解,清洗后只保留“2023新款手机”
分段与清洗的共同作用
两者配合像“流水线加工”:先清洗去除杂质,再分段整理结构,最终让模型在高质量、易检索的数据基础上生成答案。

这里不要选择自动分段清洗,Coze的识别不够人性化,我们可以给大家展示一下自动分段的结果
可以看到第二段的标题都被分到了上一段,第三段的也是

由此可见Coze自带的系统识别分段清洗完全是不可用的,反而会导致我们的知识库逻辑被打乱
那我们要自己分段该怎么处理呢?
在新增知识库的创建设置这里,我们选择自定义分段规则

可以看到选择之后出现了新的弹窗,分别是分段标识符、分段最大长度、分段重叠度
我们给大家讲解一下这几个分别设置的是什么

分段标识符就是系统识别的分段标记
比如我们选择了换行,那我们在准备的文档中设置了换行之后,下部分就会被系统识别成一个新的分段
当然,我们也可以选择自定义一些标识符作为分段标记
比较推荐大家选择自定义使用: #、##、### 等作为标识符,更方便系统识别
但由于我们使用的是飞书文档,其实文档设置了标题格式的话,计算机处理文本数据时,将markdown格式(标题格式)转化为文本,会自动出现###

分段最大长度和分段重叠度大家选择默认的即可,这个最大长度是通用的,适用于大部分环境下的知识库文本
但如果像我们这样每个部分的文本比较长的话,可以自己在文档中看一下最大的长度是多少
然后回填到这里,但是不建议填较大的数据

这会导致大模型在检索知识库的时候花费更多的时间,影响用户的使用体验
比如像我们这里,它的第一段文本长度就高达2040字,实在是太长了,需要我们手动的在文档中对它进行二次优化

我们优化之后,在每个部分都加了小标题进行分类,每段都控制在800字以内

设置分隔符为###

然后再在这些设定的分段前面添加我们的分隔符


添加成功之后,我们在创建设置哲理点击下一步

数据分段处理完成之后,点击确认查看一下处理结果

可以看到处理结果符合预期,如果不符合的话我们可以稍微调整一下分段规则

点击右上角的 查看或调整配置 按钮

可以在这里更改分段策略,但是不建议在做智能体的时候调整为较大分段数值
因为是作为教学展示,知识库文本不是特别长,想让大家看一下如果效果不好如何更改,所以不展示更改后的效果

满意效果之后,点击添加到智能体

添加成功之后并不代表成功引入可以使用,我们还需要在设置一下知识库设计以及提示词中的调用逻辑
4.⌨️知识库设置
点击按钮 自动调用
会弹出一个知识库设置的小窗口
我们可以在这里设置调用方式、搜索策略等等

选择调用方式为按需调用,因为我们需要在提示词中设置一下调用逻辑

但是这两个数值不建议大家调整太多,默认的即可

5.🤖提示词中的调用逻辑设置
在人设与回复逻辑板块调整一下提示词,告诉智能体如何去调用知识库
我们设置这个知识库的目的是,希望智能体只调用知识库内的热梗,我们使用DeepSeek帮助我们优化一下

可以看到DeepSeek输出的提示词还是有些地方不满足Coze在提示词中调用知识库的规则,我们再调整一下
需要将提示词中的调用规则改为调用特定的知识库xx
**优化版提示词(保持原格式不变)**
##扮演角色
【互联网冲浪达人版生活管家】在专业可靠的基础上,增加00后社交语言风格。擅长自然融入时下热梗(如yyds/绝绝子/栓Q)、创意谐音梗,用Z世代喜爱的方式传递信息,同时保持问题解决效率。
##沟通风格
热梗使用原则:
1. **精准调用**:仅当匹配以下场景时激活热梗(需严格对应附件热梗库内容):
- 旅游咨询→调用"特种兵式旅游"/"Citywalk"
- 快递查询→使用"闪现"/"遥遥领先"
- 天气询问→匹配"烤箱模式"/"湿身诱惑"
2. **单次投放**:单条回复限用1个热梗,优先选择附件中大众梗(如"尊嘟假嘟"/"泰裤辣")
3. **场景绑定**:谐音梗必须与当前服务强相关(如快递:"包裹正在'包'您满意地赶来")
##响应模式升级
【场景化热梗用例库】
- 快递追踪:"您的包裹正在'一骑绝尘'奔来!"
- 行程规划:"给宝子安排'研学(春游版)'路线~"
- 状态反馈:"今日能量'脆皮年轻人'预警!💤"
##风险控制
1. **知识库限定**:所有热梗必须来自附件文档,禁止自主创作梗
- ✅正确:"这温度'妈见打'!"
- ❌错误:"这温度'爹见揍'!"
2. **异常处理**:
- 用户回复"?"或连续2次未接梗→切换常规模式
- 检测到"律师""医院"等词→自动关闭趣味表达
3. **信息保障**:
- 玩梗后必须附加实质信息(如:"尊嘟假嘟?😮 真实情况是...")
- 非匹配场景时保持俏皮人设(如:"这就给您查~")
##优化示例(使用附件热梗)
用户:"上海迪士尼攻略有吗?"
→"这就安排'纯爱战士'专属路线!💒(正经脸)推荐逆时针游玩,飞跃地平线建议首冲,花车巡游提前30分钟占位~"
用户:"快递还没到?"
→"正在发动'显眼包'定位术!📦(查询中)您的包裹卡在苏州分拣中心了,已紧急联系快递小哥'拿捏'配送进度!"
此优化严格保持原提示词结构,仅补充了热梗调用规则的具体实现逻辑。所有示例梗均来自附件文档,未扩展新内容。
将提示词中的附件部分更改成知识库的名称

这个时候我们看一下调整后的智能体是否满足调用规则


可以看到在人设与回复逻辑区域明确的规定知识库的调用规则之后
智能体能够精准地调用知识库中的热梗,而不是一直通过搜索引擎去无节制地使用网络热梗