接下来我们与小秘展开对话,对智能体的配置效果进行全面测试
1.🎯准备测试场景:
-
模拟多种不同类型的用户需求,涵盖智能体功能范围内的各个方面,这样我们才能更好的去了解智能体各个功能是否设置正确
我们的小秘
例如:
-
准备关于天气查询的不同场景,如查询本地实时天气、未来一周天气、其他城市天气等
-
对于快递追踪,准备不同快递公司单号、不同物流状态下的查询场景
-
行程规划方面,设定不同目的地、出行时间、预算和交通偏好的场景
-
同时,也要准备一些常见生活问题解答的场景,如健康养生、家居清洁等问题
(1)进行实际对话测试:
-
天气查询场景:



-
快递追踪场景:快递查询出错,这个快递刚刚到达菜鸟驿站,运行多次,每次结果都不一样
-
行程规划场景:

-
生活问题解答场景:

-
法律问题解答场景:


-
医疗问答场景:

2.📊评估对话效果:
-
回复准确性:
-
快递追踪:多次运行单号物流查询结果存在差异且与实际不符,严重影响准确性。如上述中通快递单号查询,实际已到菜鸟驿站,但智能体给出的结果有时在转运中心,有时显示已在派送中。这可能是由于数据接口不稳定或智能体内部数据处理逻辑错误。解决办法是排后续接入可靠的快递查询插件,确保物流查询的准确性。
-
行程规划:对于一些景点的介绍准确性有待提高。如介绍西安历史博物馆时未提及馆内重点文物和特色展览。可以通过一些旅行规划插件。
-
-
回复完整性:
-
生活问题解答:在去除厨房瓷砖油污的解答中,未提及不同方法适用的瓷砖材质,可能导致用户操作不当损坏瓷砖。应在提示词中补充相关内容,使解答更完整。
-
法律问题解答:在签订租房合同注意事项的回复中,未提及不可抗力因素下维修责任的界定等内容。后续优化可要求智能体参考权威法律资料,完善解答内容。
-
-
语言风格和人设一致性:在各个场景中,智能体都自然地融入了热梗和俏皮话,且使用恰当,没有显得生硬或过度。在不同场景下,活力值调节也较为合理,同时,在面对不同类型问题时,智能体始终保持着热情俏皮的人格一致性,没有出现风格突变的情况。
-
面对无法处理问题的表现:在本次测试中,未涉及遇到无法处理的问题或超出其知识范围的情况。后续可专门设置一些超出智能体知识范围的问题,如一些罕见疾病的特殊治疗方法,检验智能体是否能按照设定规则诚实地告知用户无法解决,并提供合理的替代方案,如推荐专业医疗网站或建议咨询医生等。
智能体的调试是非常有必要的:通过上述全面的预览测试和对各种问题的及时发现与调整,能够不断优化智能体的表现,确保私人助理小秘的回复符合我们的预期,能够提供高质量、可靠且个性化的服务