5.22
部署到服务器上
-
将项目部署到了服务区
-
修复Linux系统的依赖环境问题
-
绑定三级域名,现在可以通过 wiki.geo.bhidi.com 访问,内网内都可以访问了,
-
接入服务区自己部署的千问3.6 27B-fp8,输出速率是30token/s
抽取自动计算,输出测试
-
目前可利用256K上下文,2并行
-
完整输出约50,000字符,按照30的速率,需要20-30分钟,加上程序化执行清洗等过程大约40分钟一个文档
-
可用上下文 = 模型本身上下文上限 * 上下文利用率
-
可输入 token = 可用上下文 - 模型此次输出上下文 - 输入安全token数
-
prompt软上限字符 = min(max_segment_chars, 可输入 token * estimated_chars_per_token)
-
单段正文目标字数 = (prompt软上限字符 - prompt固定开销) / 正文转prompt膨胀系数
-
分段数 = ceil(文档总字数 / 单段正文目标字数)
继续修复schema约束条件
-
新增段落的”空间范围“属性,暂定工程区、区域、坝址区、上、下水库、输水系统、地下厂房、临时与辅助建筑物、天然建筑材料这几项
-
依据可研报告,细分了地层岩性、地形地貌、地质构造、工程地质问题与评价、区域地震与构造稳定性、水文地质、天然建筑材料、物理地质现象、岩体工程特性这几类标签
-
重新定制schema约束的配置,现在都是针对报告类别进行细化
-
定制了新的配置UI
-
关系重新定义,表格清洗,变为key/value形式
-
目前只做了可研报告类的约束,其他还没做
重新定义抽取流程。细化抽取细节了
-
继续原文清洗,尤其是表格类进行图标以及key/value的清洗
-
按类别去清洗得到分好多个标签的json
-
重新定义json结构,目前就是主题、范围、原文段落、具体块

-
定义json的输出结构,目前定义为:实体、标签、范围、证据原文段落、细节的key/vlue属性

优化UI
-
新增新传文档的知识图谱提示。 用户上传了文档,就想去看图谱,其实还需要重新抽取,可以新增一个指定文档抽取,然后跟其他合并起来
-
更改优化选择知识库UI
5.29
调研岩芯特征提取技术
- opencv依赖固定的几何特征,他是用Canny 边缘检测这类方式,但是图像有土、碎渣形态各异,光照不均匀,跑边缘不合适
- 岩芯照片特征比较明显,要不是土,要不是完整的柱状,或者碎渣,使用cnn架构训练图像识别的好
- 使用实例分割比较好,直接去把对应范围抠图,根据对应范围mask可以计算像素宽度,结合箱槽像素宽比,可以用来计算进取率和rqd
- 基模是想选YOLO 实例分割,他的好处是推理速度快
- 后期可以尝试配合微调技术,比如LoRA,PEFT技术等
- 计划在攒够约 50-100 张干净的整箱标注图,训练试试
标注
指定标注标准,先暂定了3类标注特征,全风化/覆盖层、柱状、碎块状、牌
先不考虑进尺
先训练,训练一部分,在返回来使用训练结果模型进行辅助标注
