基于RAG的知识库AI代理机器人,问题思考
知识库内容分类
对于普通非qa问答格式的知识内容
在分段存储时,需要手动调整,保证每个分段的内容意思完整,不被分割,当然段落也不宜过长,保证内容表达的意思到不可分割为止就行
对于qa问答格式的知识内容
通常需要对问题增加格外索引,因为fastgpt的模式是将问题和回答,作为完整的文本作为向量化的坐标,当问题和回答的内容过长时,使用问题向量化匹配的相似度时候匹配度就越低
当知识库内容过多时,使用比较简短的提问关键词时候,匹配出来的相似段落会很多,可能都与你提问的问题有相关性,但是又不是你想要的答案,比如
我做了一个大学的报考咨询问答的rag 机器人,知识库里存储了很多各省各专业的录取分数线。以及录取分数线查询链接。
你提问“录取分数线“,希望AI给你回答录取分数线的查询链接。但是结果却不是,因为,这个关键词,匹配到很多各省各专业的录取分数线信息。作为AI上下文知识内容。虽然匹配到录取分数线查询链接的内容信息,但是还有很多其他的信息,AI也无法识别你想要的是录取分数线的查询链接还是各省的录取分数线信息。,所以需要优化提问词 为”录取分数线查询“
AI回答分类
对应rag的回来来说,大致分为两类,一类是不需要经过ai对知识库的内容进行推理,一类是需要经过ai对知识库的内容进行推理。
无需AI推理
不需要经过ai对内容加工的回答,我们希望ai直
文章评论