4.03

实体抽取

测试

将文档格式化+约束schema汇总——大模型——返回实体+证据+关系
测试先格式化信息传入，结果只抽取了400实体，输出预算也很紧，模型一轮里既要抽实体，又要补证据、抽关系，负担太重，实体召回上不去。

现在方案

长文档按章节切大段，不碎片化
分段只做高召回实体
证据和关系后置到全局阶段

1.document_reader

把原始 Word/PDF 解析成规范化全文包 reading_pack。保留全文段落、章节目录、表格、图题、编号和定位信息，作为系统内部标准输入。

2.segment_builder

针对超长文档，按“章节边界 + 长度上限”切成 3 段左右的大段，尽量保持章节完整

3.segment_context_builder

为第 2、3 段生成“受控桥接摘要”。摘要只继承前段核心实体和必要上下文，不允许引入新事实，作用是保持跨段连续性。

4.segment_extractor

每个分段只做第一轮“高召回实体候选抽取”，不在这一轮强行抽属性、关系和完整证据，先把实体数拉起来。

5.segment_merge

把多段实体结果合并、去重、别名归一，形成全局实体池。

6.global_evidence

基于全篇和全局实体池，统一补证据。为了稳定性，证据轮按批次执行，避免一次性给几百个实体补证据导致输出失控。

7.global_relations

在全局实体池上统一抽关系。关系不在分段阶段做，避免局部视角影响全局判断。

8. review_html

最终把 reading / entities / evidence / relations 生成为一个审查 HTML，方便人工核查，而不是直接看一堆 JSON。

结合schema，汇总为大模型的输入
新增用户管理功能，以及管理员可以给普通用户开通公共库的权限
普通用户沿用统一的admin用户的模型部署

后续

关系覆盖率提升
type_guess 向固定 schema 收敛
再往后就是 SQLite 落库和服务化接口

4.13

筛选和数据写入

使用schema初步筛选，从前一次跑的300多个实体进行筛选，得到了152实体，181证据和23关系
写入到SQLite，并转化未json

接入前端

将数据接入前端测试
修改为只是图形点和关系图两种模式，点击可出现属性

加一个证据回溯超链接可以回溯跳转到具体章节片段

4.17

优化请求次数

减少叶子节点，大约21万字文档收缩到请求15次
按照段落分出大概是哪段schema，然后在去拼接payload
细分段落 + schema约束 + JSON输出约束
新增合并脚本，合并别名、属性、证据、来源段落

按知识库提取

按知识库，多文档去抽取实体
前端多文档共同展示实体

4.25

新增前后端独立执行程序

前端页面打开时候，默认列举出知识库列表，选择加载对应知识库实体
新增后端抽取实体独立程序
新增后端约束规则网页端配置UI

打通知识库+知识图谱

把知识图谱的前端已经接入到知识库里面去了
接入抽取知识库实体的后端服务

cowx的笔记页

Explorer

4月研究内容