背景介绍

对于一个企业而言,在其日常运营过程中都会处理到大大小小的各种业务,又因为人数众多,如果不对优秀的知识进行整合处理,会造成大量的信息冗余。伊克罗德信息推出了一款基于智能搜索引擎的企业知识库解决方案——智问,智问能够通过向量搜索和自然语言处理,为用户提供基于知识库语料的内容检索和精准问答。


这套系统能够对用户上传的文件进行文本预处理,并建立向量化索引。当用户提问时,根据提问内容进行字符匹配与语义搜索,将返回的匹配的文本交由后台特有的算法进行理解和文本分析,最终为用户提供口语化的知识检索和精准问答。

我们将这款产品取名为“智问”,英文名“Askture”,是 "Ask Future" 的组合词。代表这个产品的智慧性、前瞻性和未来潜力。意味着产品具备应对未来挑战的能力,并能够在企业的知识管理和问题解答方面提供一种新颖、先进的解决方案。

Askture 智问解决方案-白皮书下载
2023 ECR_Askture AIGC Solution White Paper.pdf
30MB
概念介绍
企业知识库系统
文本处理算法
向量Vector & 向量数据库VDB
知识库(Knowledge Base)是一种用于知识管理的特殊的数据库,以易于相关应用领域知识的收集、重新整理以及抽取。
构筑企业知识库系统能将知识进行有条理的管理,累积和留存信息及知识资产,加速内部信息及知识的流通,实现组织内部知识和资源的高效共享。
企业知识库产品在制造、医疗健康、教育、IT/HR、法律、游戏、电商等各行各业都有丰富的应用场景。并且知识库产品不受企业规模的限制,任何规模的企业都需要管理自己的知识与信息资产。

智问使用的文本处理算法(Text processing algorithms)是基于自然语言处理(NLP)技术的算法,旨在理解和生成人类语言。它们基于大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。此算法的特点是拥有规模庞大的参数,通常为亿级以上,帮助它们学习语言数据中的复杂模式。
经过训练优化的算法能够模拟人类语言习惯、理解自然语义关系并生成相应回复。并且可以不断输入数据集、不断迭代优化算法,以提升其知识储备和理解能力,从经验中学习并进一步增强其表达和推理能力。其广泛的知识储备也可以适用于不同领域的问题解决和知识推断,应用范围十分丰富。

在一个神经网络中,每个节点传输数据的权重,就是向量(Vector)。 因此对于文本处理算法而言,一个最基本的语义的传输单元,就是一个向量。任何信息都可以用向量的方式表征它的语义,因此向量是任何非结构化数据在 AI 中语义表达的最根本的表达形式和基本的数据单元。

向量数据库(Vector Database)是一种能提供标准 SQL 访问接口,并且能够高效存储,检索,分析向量的数据库。通常向量数据库基于传统关系型数据库发展而来,但数据规模超过传统的关系型数据库,提供高模糊查询算力,兼顾低时延与高并发等特性。

因此,我们将知识库的语料向量化后,存在向量数据库中,等到需要时再在向量数据库中做语义的检索和管理,就能够极大地提升智能搜索引擎知识库的检索效率和准确率。

应用场景

知识库产品不受企业规模的限制,任何规模的企业都需要管理自己的知识与信息资产。我们欢迎以下类别的客户:

1、有明确知识库使用场景或使用需求,且传统知识库解决方案不能满足用户体验的客户。

2、希望基于自然语言处理技术,快速制作智能知识库应用的企业。

3、任何处在数字化转型阶段的企业,尤其是对于尝试新技术抱有开放心态和热情的企业。

该方案的四大核心内容:智能搜索、智能问答、智能引导、智能优化在以下场景表现优异:

——
制造
使用历史维保记录和维修手册构建企业知识库,维修人员依靠知识库定位问题和维修

——
IT/HR
智能使用内部IT/HR使用手册构建企业知识库,企业内部员工可通过知识库快速解决住IT/HR上遇到的问题

——
法律
记录法律条文与历史判例,快速检索资料,给出法律建议

——
教育
使用教材和题库建构不同教育阶段的知识库,模拟和辅助老师/家长对孩子进行教育

——
客服
通过与呼叫中心/聊天机器人服务结合,可自动基于企业知识库就客户提出的问题进行聊天回复

——
电商
使用商品信息构建商品数据库,消费者通过检索+问答快速了解商品的详细信息

——
游戏
使用游戏的信息(例如游戏介绍、游戏攻略等)构建知识库,基于知识库自动回复玩家提出的问题

客户痛点
目前智能搜索知识库产品落地遇到的最主要困境,是数据实效性(validity)和私域专属数据(domain know-how)的问题。
目前的业界共识中,存在两种解决方案:

A. 对自然语言处理技术算法进行微调和训练,输入大量私域数据,使算法在特定领域范围内进行迭代演进;
B. 把全部的私域知识存在向量数据库中,需要时在向量数据库中做基于语义的向量检索。
企业落地企业知识库方案面临的挑战

需要专业的数据/算法/软件工程师的人力投入
大量存储和算力需求导致硬件投入庞大
如何引导用户,使搜索描述更加准确
如何充分利用用户行为优化搜索引擎
如何根据知识库内容,直接面向用户解读文件含义
产品功能
1. 基于 OpenSearch 或 Kendra 构建存储知识库文档的向量数据库
2. 使用多种文本处理算法训练和微调构建语义理解层
3. 基于 React 的 Gradio WebUI 前端访问界面,部署在 EC2 上,用户可通过网页或 REST API 的形式进行文档搜索
4. 提供历史查询记录功能,通过 Session ID 可实现多轮对话功能与历史追溯
5. 解决方案以轻量化、插件式提供,可作为服务独立使用,也可作为插件与其他服务结合,形成端到端的完整应用
6. 可进行引导式机制搜索,提高搜索输入描述的精准度
7. 即使用户问题在知识库里未找到答案,也会基于目前存在的通用基础语料输出通用答案
产品优势
架构敏捷先进
使用 MVP 架构体系(NLP Models、Vector Database、Prompt Engineering),能够快速、低成本、高灵活性地构建由自然语言处理模型和向量数据库支持的智能问答知识库系统。使用 CDK 一键部署,仅需 2-5 天即可上线使用。
成本极大优化
比起使用微调 (Fine-Tune) 大语言模型的方案,使用自然语言处理模型+向量数据库+提示词工程的方案,能够降低 99.9% 的成本。并达到和直接微调大语言模型媲美的效果。
答复精准可控
向量数据库能够根据用户输入,精准匹配到数据库中存储的语料片段,并给出具体的参考路径。解决传统自然语言处理算法在不清楚的领域中“胡说八道”的问题。
良好交互体验
起传统关键字搜索+原文返回的知识库系统,自然语言处理模型可以理解用户的自然语言输入,并与 VDB 进行交互。VDB 返回的搜索结果也会由自然语言处理模型进行理解后转述,给予用户更贴近自然语言对话的使用体验。
产品架构图
01
基于 EC2 构建网页/API 访问入口
02
集成 API Gateway 和 Lambda 函数的实现前端和后端搜索引擎、数据库、模型推理端点交互
03
使用 OpenSearch 或 Kendra 作为向量数据库,自动持续迭代向量索引,采用引导式搜索机制,提高输出匹配精准度
04
数据源存放在 S3 上,OpenSearch/Kendra 通过连接器获取数据对象
05
采用 SageMaker 的 Notebook 或 Lambda 将原始数据向量化,并注入 OpenSearch/Kendra
06
历史查询记录存储在DynamoDB 中
产品使用效果
此方案的问答界面比较简单,也非常易用,主要由左边的参数输入部分以及右边的答案生成部分组成。

左边为参数输入部分,除 Query 外其余参数可以不用输入使用默认值:

1. Task:针对不同需求场景的问答:

● Knowledge base Q&A:针对知识库内容问答;

● Chat:针对未出现在知识库里的通用知识问答。

2. Model type:支持不同搜索库的选择,搜索库逐渐更新,目前主要用在英文语料,中文语料选择 other。

3. Prompt:提示词。方案有使用默认提示词,如需对提示词修改调优,需要保留{question}和{context}字段,其他字段可以任意修改;

4. Search engine:方案支持 2 种搜索引擎,分别为 OpenSearch 和 Kendra。

5. Top_k of source text:查找与问题相关的文档数量。查找到的相关文档将组合成 Prompt 后送到后台算法推理,默认有1~4可以选择。

6. Temperature parameter:控制生成答案的随机性,数值越大答案就越有创造性,越小答案就越按照文档回答,调整范围为 0.01~1。

7. Confidence:答案置信度,有三种类型:

● query_answer_scoer:计算问题与答案的相似度;

● answer_docs_score:计算答案与相关文档的相似度;

● docs_list_overlap_score:计算问题相关文档与答案相关文档的重合率; 最终会根据选择的计算类型,在 Confidence 栏输出答案置信度的计算结果。

8. Source:根据问题找到的相关文档,输出相关文档的来源标题、相关分数和具体文本内容。

9. Url:请求的 Url,用于检查请求参数是否正确。

10. Request Time:请求时长


解决方案服务支持计划


服务内容

标准服务(Service Care)

白金服务(Service Plus)

1. 技术支持服务

    原始语料导入支持

    向量数据库引擎选择(OpenSearch/Kendra)

    大语言模型引擎选择(ChatGLM/通义千问等)

    提示词优化

2. 支持时间

5*8

5*8

3. 服务等级(SLA)

一般指导:<24小时

系统受损:<12小时

一般指导:<24小时

系统受损:<12小时

生产系统受损:<4小时

4. 架构师级别

       助理级

专业级

5. 支持语言(Chat/Email)

       中文

中文/英文

6. 支持形式

       线上/线下

线上/线下


速赢项目定制开发支持服务

服务类别

服务内容

收费模式

项目经理

负责项目进度管理、资源协调、关键问题跟进、项目验收
  • 项目报价:根据客户速赢项目场景的复杂度给于项目报价。


  • 人力资源补给报价:根据客户选定的服务类别与人力需求进行报价,总需求人天需大于50人天。

技术架构顾问(SA)

  • 原始语料优化指导(调整原始语料格式、数据结构等)

  • 向量数据库引擎优化 (优化向量索引,提升查询速度和准确性)

  • 前端界面定制调整 (主题、UI 元素等定制)

  • 服务架构定制化调整(定制化调整服务部署方式、功能实现逻辑等)

开发人员

资深开发人员


最佳实践

打造智能客服系统,助力企业降本增效

伊克罗德信息助力客户构建能够自然语言对话的智能客户系统,以及对内部售前、售后人员使用的智能助理系统,实现成本节省50%以上
立即获得帮助
让我们针对您的需求,为您打造专属解决方案
info@ecloudrover.com
留言与反馈
致电:400-002-0885
云代理伙伴
扫描关注微信公众号
获取更多云端资讯
联系我们
——

模板表单-2(1)

  • 姓名*

  • 电话*

  • 邮箱*

  • 职称*

  • 公司*

  • 地址*

  • 需求*

  • * 点击提交,即表示您同意我们存储和处理您提交的个人信息,以向您提供所请求的内容,该信息仅供公司提供服务使用。您的信息受到相关法律的安全保护。