cowx的笔记页

❯

❯

❯

5月研究内容

5月研究内容

Jun 04, 20265 min read

5.22

部署到服务器上

将项目部署到了服务区
修复Linux系统的依赖环境问题
绑定三级域名，现在可以通过 wiki.geo.bhidi.com 访问，内网内都可以访问了，
接入服务区自己部署的千问3.6 27B-fp8，输出速率是30token/s

抽取自动计算，输出测试

目前可利用256K上下文，2并行
完整输出约50,000字符，按照30的速率，需要20-30分钟，加上程序化执行清洗等过程大约40分钟一个文档
可用上下文 = 模型本身上下文上限 * 上下文利用率
可输入 token = 可用上下文 - 模型此次输出上下文 - 输入安全token数
prompt软上限字符 = min(max_segment_chars, 可输入 token * estimated_chars_per_token)
单段正文目标字数 = (prompt软上限字符 - prompt固定开销) / 正文转prompt膨胀系数
分段数 = ceil(文档总字数 / 单段正文目标字数)

继续修复schema约束条件

新增段落的”空间范围“属性，暂定工程区、区域、坝址区、上、下水库、输水系统、地下厂房、临时与辅助建筑物、天然建筑材料这几项
依据可研报告，细分了地层岩性、地形地貌、地质构造、工程地质问题与评价、区域地震与构造稳定性、水文地质、天然建筑材料、物理地质现象、岩体工程特性这几类标签
重新定制schema约束的配置，现在都是针对报告类别进行细化
定制了新的配置UI
关系重新定义，表格清洗，变为key/value形式
目前只做了可研报告类的约束，其他还没做

重新定义抽取流程。细化抽取细节了

继续原文清洗，尤其是表格类进行图标以及key/value的清洗
按类别去清洗得到分好多个标签的json
重新定义json结构，目前就是主题、范围、原文段落、具体块
定义json的输出结构，目前定义为：实体、标签、范围、证据原文段落、细节的key/vlue属性

优化UI

新增新传文档的知识图谱提示。用户上传了文档，就想去看图谱，其实还需要重新抽取，可以新增一个指定文档抽取，然后跟其他合并起来
更改优化选择知识库UI

5.29

调研岩芯特征提取技术

opencv依赖固定的几何特征，他是用Canny 边缘检测这类方式，但是图像有土、碎渣形态各异，光照不均匀，跑边缘不合适
岩芯照片特征比较明显，要不是土，要不是完整的柱状，或者碎渣，使用cnn架构训练图像识别的好
使用实例分割比较好，直接去把对应范围抠图，根据对应范围mask可以计算像素宽度，结合箱槽像素宽比，可以用来计算进取率和rqd
基模是想选YOLO 实例分割，他的好处是推理速度快
后期可以尝试配合微调技术，比如LoRA，PEFT技术等
计划在攒够约 50-100 张干净的整箱标注图，训练试试

标注

指定标注标准，先暂定了3类标注特征，全风化/覆盖层、柱状、碎块状、牌

先不考虑进尺

先训练，训练一部分，在返回来使用训练结果模型进行辅助标注

分享：

↗

点击右上角「···」
选择「转发给朋友」
或「分享到朋友圈」

打开微信扫一扫分享

Graph View

5.22
部署到服务器上
抽取自动计算，输出测试
继续修复schema约束条件
重新定义抽取流程。细化抽取细节了
优化UI
5.29
调研岩芯特征提取技术
标注