【Financial RAG Demo 项目】知识库构建

张开发

• 2026/4/12 6:29:35 • 15 分钟阅读

分享文章

知识库服务(KnowledgeBaseService) 初始化__init__(self)1. 初始化向量数据库self.chromaChroma(collection_namerag,embedding_functionDashScopeEmbeddings(modeltext-embedding-v4),persist_directory./chromadb)使用langchain_chroma的Chroma。定义三个参数collection_name数据库的名称。embedding_function向量转换使用的模型。persist_directory数据库的位置持久化地址。模型使用langchain_community.embeddings的DashScopeEmbeddings阿里云通义千问的类。2. 初始化文本分割器self.spliterRecursiveCharacterTextSplitter(chunk_size300,chunk_overlap30,separators[\n\n,\n,.,!,?,。,,, ,],length_functionlen)使用langchain_text_splitters的RecursiveCharacterTextSplitter。定义四个参数chunk_size文本块最大长度计算方法用length_function指定。chunk_overlap相邻文本块重叠的字符数。separators分割时检测的分隔符一个列表按顺序决定优先级。先尝试用\n\n(段落) 分割若超过最大长度再尝试\n。length_function指定长度计算方法。len表示用 Python 的字符计算任何一个文本单位都算一个字符。️ 主函数upload_by_str(self, data: str, filename)1. MD5 去重流程计算文件的 MD5 - 检测是否已有相同 MD5 - 保存未处理过的 MD5哈希对象 (HASH)意义接收字节序列内部处理后返回 32 位的字符串。一般流程使用字符串的encode()方法把文件转换为字节序列调用hashlib模块的哈希算法函数如md5()、sha1()、sha256()、blake2b生成对应的哈希对象使用update()方法传入字节序列使用digest()或hexdigest()(分别是二进制和十六进制) 完成计算并取出字符串。对比阶段实际生产可用 SQLite 来存储。2. 分割器knowledge_chunks:list[str]self.spliter.split_text(data)使用spliter的split_text()方法接收字符串返回一个列表里面是切好的字符串。3. 数据入库元数据metadata{source:filename,create_time:datetime.now().strftime(%Y-%m-%d %H:%M:%S),operator:Semones}source文件名。operator上传者。create_time入库时间。调用datetime模块的datetime类的now()方法获取当前时间。strftime()方法把datatime对象规格化为字符串。使用方法符号含义示例%Y四位数的年份2026%y两位数的年份26%m月份 (01-12)04%d日期 (01-31)01%H小时 (00-23)21%I小时 (01-12)09%M分钟 (00-59)47%S秒 (00-59)52%B完整月份名April%b缩写月份名Apr%A完整星期名Wednesday%a缩写星期名Wed%pAM/PMPM入库self.chroma.add_texts(knowledge_chunks,metadatas[metadatafor_inknowledge_chunks])用Chrome类的add_texts()方法传入文本列表和元数据列表两个参数。同一文件内文本段的元数据相同用列表推导式生成一个与knowledge_chunks元素个数相同的元数据列表即可。

更多文章

前端开发 2026/4/12 2:33:48

javaweb汽车租赁业务员租聘系统设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析核心业务流程技术实现要点扩展功能建议项目技术支持源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作同行可拿货,招校园代理 ,本人源头供货商功能模块分析用户管理模块实现业务员…

张开发

前端开发 2026/4/12 8:13:04

热血江湖自动上号工具源码

上号太难了，一个自动上号的工具，不用一直守在电脑旁边等线了。易语言写的自动上号工具，自动呼免费神器或宝宝，自动查线，不满员的时候就开始自动上号，根据设置的服务器线路自动选择，人物的选择…

张开发

前端开发 2026/4/12 2:36:45

Mac用户如何打破局域网通信壁垒：飞秋Mac版完全指南

Mac用户如何打破局域网通信壁垒：飞秋Mac版完全指南【免费下载链接】feiq 基于qt实现的mac版飞秋，遵循飞秋协议(飞鸽扩展协议)，支持多项飞秋特有功能项目地址: https://gitcode.com/gh_mirrors/fe/feiq 还在为Mac电脑无法与Windows同…

张开发

前端开发 2026/4/9 9:38:05

第三模块，python11111

1111

张开发

前端开发 2026/4/12 2:36:47

百川2-13B-4bits量化版模型卡解析：OpenClaw任务能力边界实测

百川2-13B-4bits量化版模型卡解析：OpenClaw任务能力边界实测 1. 为什么需要实测模型能力边界当我第一次把百川2-13B-4bits量化版接入OpenClaw时，最迫切的问题是：这个被压缩过的模型到底能帮我做什么？官方Model Card给出了基准测…

张开发

前端开发 2026/4/12 5:17:20

如何高效使用DREAM3D：材料科学数据分析的全面指南

如何高效使用DREAM3D：材料科学数据分析的全面指南【免费下载链接】DREAM3D Data Analysis program and framework for materials science data analytics, based on the managing framework SIMPL framework. 项目地址: https://gitcode.com/gh_mirrors/dr/DREAM…

张开发

前端开发 2026/4/12 2:36:34

微软UDOP-large应用案例：跨境电商发票处理效率提升300%

微软UDOP-large应用案例：跨境电商发票处理效率提升300% 1. 引言：跨境电商财务的“效率之痛” 如果你在跨境电商公司待过，一定对财务部门的发票处理流程印象深刻。每天，来自亚马逊、Shopify、速卖通等平台的订单发票，…

张开发

前端开发 2026/4/12 2:42:47

PICO开发效率翻倍：手把手教你用PDC串流实现Unity场景‘所见即所得’

PICO开发效率革命：用PDC串流实现Unity场景实时同步的终极指南在VR内容开发领域，迭代效率往往决定着项目的成败。传统开发流程中，开发者需要反复在Unity编辑器和头显设备之间切换，每次修改后都要经历漫长的构建部署过程&#xff0…

张开发

前端开发 2026/4/12 2:54:51

手把手教学：在IDEA中配置与调试gte-base-zh Java客户端项目

手把手教学：在IDEA中配置与调试gte-base-zh Java客户端项目如果你是一名Java开发者，最近想在自己的项目里集成文本向量化功能，比如做语义搜索、文档分类或者智能问答，那么gte-base-zh这个模型肯定在你的候选名单里。它是一个专门…

张开发

前端开发 2026/4/12 2:41:14

别再手搓表格了！用WPF的TreeListView控件优雅展示层级数据（附完整XAML模板）

别再手搓表格了！用WPF的TreeListView控件优雅展示层级数据（附完整XAML模板） 在WPF开发中，处理层级数据展示一直是个令人头疼的问题。想象一下这样的场景：你需要展示一个文件系统，既要能看到文件夹的树形结构…

张开发

前端开发 2026/4/12 2:48:26

5步高效获取国家中小学智慧教育平台电子课本：tchMaterial-parser全攻略

5步高效获取国家中小学智慧教育平台电子课本：tchMaterial-parser全攻略【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取课本内…

张开发

前端开发 2026/4/11 12:43:38

中文文献管理效率革命：茉莉花插件的颠覆性体验

中文文献管理效率革命：茉莉花插件的颠覆性体验【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件，用于识别中文元数据项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 问题洞察：中…

张开发

【Financial RAG Demo 项目】知识库构建

最新文章

CLIP-GmP-ViT-L-14多场景落地：图文检索/无障碍辅助/内容风控三位一体

深度解析MTKClient：联发科设备底层控制与刷机的高级实战指南

假如确认度场是爱因斯坦先生发现的，他会如何呢？

霜儿-汉服-造相Z-Turbo场景应用：为汉服电商快速生成商品展示概念图

深度解析ComfyUI-Manager：如何掌握节点安装进度监控与队列管理

Phi-4-mini-reasoningGPU算力优化：动态批处理（dynamic batching）提效实测

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

javaweb汽车租赁业务员租聘系统设计与实现

热血江湖自动上号工具源码

Mac用户如何打破局域网通信壁垒：飞秋Mac版完全指南

第三模块，python11111

百川2-13B-4bits量化版模型卡解析：OpenClaw任务能力边界实测

如何高效使用DREAM3D：材料科学数据分析的全面指南

微软UDOP-large应用案例：跨境电商发票处理效率提升300%

PICO开发效率翻倍：手把手教你用PDC串流实现Unity场景‘所见即所得’

手把手教学：在IDEA中配置与调试gte-base-zh Java客户端项目

别再手搓表格了！用WPF的TreeListView控件优雅展示层级数据（附完整XAML模板）

5步高效获取国家中小学智慧教育平台电子课本：tchMaterial-parser全攻略

中文文献管理效率革命：茉莉花插件的颠覆性体验