5.22

部署到服务器上

  • 将项目部署到了服务区

  • 修复Linux系统的依赖环境问题

  • 绑定三级域名,现在可以通过 wiki.geo.bhidi.com 访问,内网内都可以访问了,

  • 接入服务区自己部署的千问3.6 27B-fp8,输出速率是30token/s

抽取自动计算,输出测试

  • 目前可利用256K上下文,2并行

  • 完整输出约50,000字符,按照30的速率,需要20-30分钟,加上程序化执行清洗等过程大约40分钟一个文档

  • 可用上下文 = 模型本身上下文上限 * 上下文利用率

  • 可输入 token = 可用上下文 - 模型此次输出上下文 - 输入安全token数

  • prompt软上限字符 = min(max_segment_chars, 可输入 token * estimated_chars_per_token)

  • 单段正文目标字数 = (prompt软上限字符 - prompt固定开销) / 正文转prompt膨胀系数

  • 分段数 = ceil(文档总字数 / 单段正文目标字数)

继续修复schema约束条件

  • 新增段落的”空间范围“属性,暂定工程区、区域、坝址区、上、下水库、输水系统、地下厂房、临时与辅助建筑物、天然建筑材料这几项

  • 依据可研报告,细分了地层岩性、地形地貌、地质构造、工程地质问题与评价、区域地震与构造稳定性、水文地质、天然建筑材料、物理地质现象、岩体工程特性这几类标签

  • 重新定制schema约束的配置,现在都是针对报告类别进行细化

  • 定制了新的配置UI

  • 关系重新定义,表格清洗,变为key/value形式

  • 目前只做了可研报告类的约束,其他还没做

重新定义抽取流程。细化抽取细节了

  • 继续原文清洗,尤其是表格类进行图标以及key/value的清洗

  • 按类别去清洗得到分好多个标签的json

  • 重新定义json结构,目前就是主题、范围、原文段落、具体块

  • 定义json的输出结构,目前定义为:实体、标签、范围、证据原文段落、细节的key/vlue属性

优化UI

  • 新增新传文档的知识图谱提示。 用户上传了文档,就想去看图谱,其实还需要重新抽取,可以新增一个指定文档抽取,然后跟其他合并起来

  • 更改优化选择知识库UI

5.29

调研岩芯特征提取技术

  • opencv依赖固定的几何特征,他是用Canny 边缘检测这类方式,但是图像有土、碎渣形态各异,光照不均匀,跑边缘不合适
  • 岩芯照片特征比较明显,要不是土,要不是完整的柱状,或者碎渣,使用cnn架构训练图像识别的好
  • 使用实例分割比较好,直接去把对应范围抠图,根据对应范围mask可以计算像素宽度,结合箱槽像素宽比,可以用来计算进取率和rqd
  • 基模是想选YOLO 实例分割,他的好处是推理速度快
  • 后期可以尝试配合微调技术,比如LoRA,PEFT技术等
  • 计划在攒够约 50-100 张干净的整箱标注图,训练试试

标注

指定标注标准,先暂定了3类标注特征,全风化/覆盖层、柱状、碎块状、牌

先不考虑进尺

先训练,训练一部分,在返回来使用训练结果模型进行辅助标注