对于一个企业而言,在其日常运营过程中都会处理到大大小小的各种业务,又因为人数众多,如果不对优秀的知识进行整合处理,会造成大量的信息冗余。伊克罗德信息推出了一款基于智能搜索引擎的企业知识库解决方案——智问,智问能够通过向量搜索和自然语言处理,为用户提供基于知识库语料的内容检索和精准问答。
这套系统能够对用户上传的文件进行文本预处理,并建立向量化索引。当用户提问时,根据提问内容进行字符匹配与语义搜索,将返回的匹配的文本交由后台特有的算法进行理解和文本分析,最终为用户提供口语化的知识检索和精准问答。
在一个神经网络中,每个节点传输数据的权重,就是向量(Vector)。 因此对于文本处理算法而言,一个最基本的语义的传输单元,就是一个向量。任何信息都可以用向量的方式表征它的语义,因此向量是任何非结构化数据在 AI 中语义表达的最根本的表达形式和基本的数据单元。
向量数据库(Vector Database)是一种能提供标准 SQL 访问接口,并且能够高效存储,检索,分析向量的数据库。通常向量数据库基于传统关系型数据库发展而来,但数据规模超过传统的关系型数据库,提供高模糊查询算力,兼顾低时延与高并发等特性。
因此,我们将知识库的语料向量化后,存在向量数据库中,等到需要时再在向量数据库中做语义的检索和管理,就能够极大地提升智能搜索引擎知识库的检索效率和准确率。
知识库产品不受企业规模的限制,任何规模的企业都需要管理自己的知识与信息资产。我们欢迎以下类别的客户:
1、有明确知识库使用场景或使用需求,且传统知识库解决方案不能满足用户体验的客户。
2、希望基于自然语言处理技术,快速制作智能知识库应用的企业。
3、任何处在数字化转型阶段的企业,尤其是对于尝试新技术抱有开放心态和热情的企业。
该方案的四大核心内容:智能搜索、智能问答、智能引导、智能优化在以下场景表现优异:
持左边为参数输入部分,除 Query 外其余参数可以不用输入使用默认值:
1. Task:针对不同需求场景的问答:
● Knowledge base Q&A:针对知识库内容问答;
● Chat:针对未出现在知识库里的通用知识问答。
2. Model type:支持不同搜索库的选择,搜索库逐渐更新,目前主要用在英文语料,中文语料选择 other。
3. Prompt:提示词。方案有使用默认提示词,如需对提示词修改调优,需要保留{question}和{context}字段,其他字段可以任意修改;
4. Search engine:方案支持 2 种搜索引擎,分别为 OpenSearch 和 Kendra。
5. Top_k of source text:查找与问题相关的文档数量。查找到的相关文档将组合成 Prompt 后送到后台算法推理,默认有1~4可以选择。
6. Temperature parameter:控制生成答案的随机性,数值越大答案就越有创造性,越小答案就越按照文档回答,调整范围为 0.01~1。
7. Confidence:答案置信度,有三种类型:
● query_answer_scoer:计算问题与答案的相似度;
● answer_docs_score:计算答案与相关文档的相似度;
● docs_list_overlap_score:计算问题相关文档与答案相关文档的重合率; 最终会根据选择的计算类型,在 Confidence 栏输出答案置信度的计算结果。
8. Source:根据问题找到的相关文档,输出相关文档的来源标题、相关分数和具体文本内容。
9. Url:请求的 Url,用于检查请求参数是否正确。
10. Request Time:请求时长