中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx
《中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx》由会员分享,可在线阅读,更多相关《中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx(16页珍藏版)》请在三一文库上搜索。
1、中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书编制:审核:批准:一、项目概况及总体要求钻完井工程设计结构化处理通用算法项目需要通过建设钻完井中英文语料库、知识库,结合文档结构解析技术、人工智能技术,实现从非结构化钻完井工程设计文档中批量、快速提取结构化数据的功能,以解决集团公司数据治理工作中设计只能以文档资料入湖的困境,便于后期入湖、应用和打通设计数据与WelIRePort系统(数据湖)底层数据连接。二、服务内容和范围2.1 服务内容本次需要采购的服务为钻完井工程设计结构化处理通用算法开发服务,包含整体方案设计、算法研究、工具开发及测试、系统运维共计四大部分。
2、具体服务内容如下:(1)整体方案设计与甲方沟通确认开发需求,对甲方提供的示例文档及数据做分析研究,明确数据中各参数意义,熟悉钻完井工程设计的文档结构和特点。在需求分析的基础上,调研各种技术方案在本项目上实施的可行性,对重点技术做初步的测试分析,进而确定最终技术方案。编写并提交详细技术方案,至少包括【设计文档结构解析算法实施方案】、【设计文档中文本的提取和识别方案】、【数据清洗及脱敏方案】、【数据保密方案】、【语料库的标注方案】、【知识库的选型方案】、【知识库的自动化构建方案】、【知识库的人工审核方案】、【神经网络模型算法的选型方案】、【神经网络模型训练及模型优化方案】、【神经网络模型的部署方案
3、等技术方案。在甲方技术人员的参与下,细化项目需求分析,落实技术关键点,梳理技术路线,确认开发技术架构,完成项目的蓝图设计、原型设计和数据库设计,并提交蓝图设计报告、原型系统、数据库模型。(2)算法研究:D实现设计文档结构解析算法对ClOc、docxPDF、图片类的设计文档,基于文档标签(doc、docx)、字体字号大小及OCR识别技术等,实现设计文档结构的解析,达到等同人工视觉判断的效果。需要识别的文档结构至少应包括如下内容: 不同页面:签字页、目录页、正文页、附录页; 章节结构:目录、一级标题、二级标题、三级标题、四级标题、五级标题、段落前的小标题、正文文本、表格及表格内的文本、图片、页眉
4、页脚、页码; 能够正确的识别以图片格式出现的表格以及由文本框或其他素材复合形成的图片。2)建设钻完井中英文语料库建立钻完井标准语料数据集。包括钻完井专业相关的标准文件、钻完井专业技术书籍等语料的收集、段落文本的提取及表格文本的提取、清洗、脱敏等工作。该语料数据集至少应当包含APl标准、国家标准、SY及SY/T标准、中海油企业标准、中海油各分子公司QHSE体系文件及井控管理实施细则中与钻完井专业相关的标准文件和海洋钻井手册、海上油气田完井手册等钻完井专业技术书籍。建立钻完井法律法规语料数据集。包括钻完井作业生产相关法律法规等语料的收集、提取段落文本及表格文本、清洗等工作。该语料数据集至少应当包
5、含中华人民共和国环境影响评价法、中华人民共和国安全生产法、中华人民共和国海洋石油勘探开发环境保护管理条例、海洋石油安全管理细则、海洋石油勘探开发化学消油剂使用规定、海洋石油安全生产规定等钻完井作业生产相关法律法规。建立钻完井日志语料数据集。包括钻完井日志数据的收集、清洗、脱敏等工作。建立钻完井设计语料数据集。包括中海油国内海上、国际公司及中联公司钻完井设计文档的收集、段落文本的提取及表格文本的提取、清洗、脱敏等工作。开发数据标注应用,并对上述各钻完井语料数据集中文本的特征、属性和词性进行标注,对钻完井设计语料数据集中需要进行结构化提取的数据进行标注,形成带标注的语料库作为最终的钻完井中英文语料
6、库。标注内容至少应能够满足钻完井工程设计结构化处理神经网络模型训练的需求。3)建立钻完井基础知识库建立包含钻完井设计所涉及的钻完井及相关专业概念、数据间关系的钻完井基础知识库,形成钻完井知识图谱。4)训练钻完井工程设计结构化处理神经网络模型基于通用自然语言大模型+钻完井中英文语料库+钻完井基础知识库+深度学习神经网络,训练钻完井工程设计结构化处理模型,实现从非结构化钻完井工程设计文档中批量、快速提取结构化数据的功能,并提供【模型训练及微调代码和过程记录】。具体工作包括:模型选型及优化、模型训练、模型试部署和测试、模型微调及优化、模型使用说明编写等。具体要求如下:模型支持提示学习(prompt)
7、0 模型输出为标准的结构化文本,如json等。模型支持微调。模型至少应支持提取如下结构化数据:a.地质类数据:钻探依据、地层层位预测、地层压力、温度预测、钻井工程风险提示、录井要求、测井计划、DST测试计划等内容。b.油藏类数据:油田概况、构造特征、储层特征、油气藏类型、流体性质、地质分层、靶点数据、井位图、地层温度压力、钻完井实施要求、配产数据、资料录取要求、钻完井地质风险提示、地质性溢油风险分析等油藏类数据。c.钻完井类数据:钻井轨道设计数据、钻井工程设计基本数据、井身结构数据、钻井液设计数据、固井设计数据、水力摩阻计算结果数据、完井液设计数据、射孔设计数据、防砂设计数据、生产管柱设计数据
8、机采设计数据、井口采油树设计数据、设计工期数据、器材清单等钻完井类数据。模型使用说明应详尽的描述模型的功能、使用方法、微调方法、增强训练方法,并分别提供代码示例。(3)工具开发及测试:完成钻完井工程设计结构化处理通用工具的开发及测试工作,程序功能正常运行无缺陷,性能指标满足要求,安全无漏洞,并形成性能测试报告、安全测试报告。利用所开发的工具建设历史井钻完井设计结构化数据库I套。编写软件详细设计说明书、软件测试报告、软件使用手册、系统组件说明书、系统部署手册等文档材料。1)钻完井工程设计结构化处理通用工具(单机应用系统)在训练好的钻完井工程设计结构化处理神经网络模型基础上,通过开发单机应用,提
9、供良好的人机交互界面,提供输入文档、处理文档、输出采用标记语言编写的结构化文档、提取结构化数据并以结构化文本或数据库文件的形式输出等功能,最终形成【钻完井工程设计结构化处理通用工具】。主要包括设计文档资料调取模块、设计文档结构解析模块、文本内结构化数据提取模块、表格内结构化数据提取模块、图形图像内结构化数据提取模块、结构化数据导出模块六大功能模块。设计文档资料调取模块:一是通过用户指定需要结构解析的设计文档存储位置,并设置文档资料获取规则,实现软件模块周期检查设计文档资料。二是开发文件上传工具,通过用户手动上传文件的方式获取设计文档资料。设计文档结构解析模块:在设计文档结构解析算法的基础上,开
10、发设计文档结构解析模块,实现对设计文档结构的智能解析,达到等同人工视觉判断的效果。同时用类似于MarkdoWn、HTML、XML等标记语言来标记文档的结构,并生成标准化的结构文档。 文本内结构化数据提取模块:在钻完井工程设计结构化处理神经网络模型基础上,实现提取标题、段落文本等文本内容中用户所需结构化数据的功能。 表格内结构化数据提取模块:通过分析表格结构,在钻完井工程设计结构化处理神经网络模型基础上,实现分析确认表格数据项和对应数值、分析表格数据项及对应数值与需求数据间的关系并提取用户所需结构化数据的功能。图形图像内结构化数据提取模块:通过OCR识别,在钻完井工程设计结构化处理神经网络模型基
11、础上,实现提取图形图像中用户所需结构化数据的功能。结构化数据导出模块:以结构化文本(如json)或数据库文件的形式输出用户所需的结构化数据。系统辅助功能包括系统配置、许可管理、消息提醒、权限管理、用户管理、操作日志等系统辅助功能。2)建设历史井钻完井设计结构化数据库基于关系型数据库,建设钻完井设计数据库;并在训练好的钻完井工程设计结构化处理模型基础上,对历史井钻完井设计进行处理,并把模型输出的结构化数据转储在钻完井设计数据库中。(4)系统运维自验收合格之日起,提供为期1年的免费系统运维服务。2.2工作量清单乙方负责下述2项工作任务,具体工作量如下:服务名称主要服务内容提交工作成果整体方案设计整
12、体方案设计详细技术方案、蓝图设计报告、原型系统、数据库模型算法研究设计文档结构解析技术研究设计文档结构解析算法建设钻完井中英文语料库钻完井中英文语料库建立钻完井基础知识库钻完井基础知识库训练钻完井工程设计结构化处理神经网络模型钻完井工程设计结构化处理神经网络模型、模型训练及微调代码和过程记录、模型使用说明服务名称主要服务内容提交工作成果工具开发及测试开发钻完井工程设计结构化处理通用工具(单机应用系统)软件详细设计说明书、钻完井工程设计结构化处理通用工具、软件测试报告、软件使用手册、系统组件说明书、系统部署手册、性能测试报告、安全测试报告、软件系统使用培训教程(含视频)建设历史并钻完井设计结构化
13、数据库历史井钻完井设计结构化数据库系统运维系统免费运维1年系统免费运维2.3服务地点天津滨海新区。2.4服务期限合同签订之日起至2024年6月30日。三、执行标准/规范该服务项目应用或执行的标准或规范包括(如有最新标准按最新执行):3.1 国家法律法规信息安全技术网络安全等级保护实施指南GB/T25058-2019信息安全技术网络安全等级保护基本要求GB/T22239-2019】信息安全技术网络安全等级保护安全设计技术要求【GB/T25070-20193.2 海油信息化管理规定中海油能源发展股份有限公司网络安全管理办法【TLO5-15,2021,海油发展】中海油能源发展股份有限公司数据管理办法
14、TI-01-I4,2021,海油发展】中海油能源发展股份有限公司信息化建设及评价管理办法【TL01-12,2021,海油发展】采购技术标准-信息系统软件开发服务【CGBZ12I-2021,海油发展】3.3 技术依据工程技术公司系统建设规划及技术路线智能油田的总体蓝图规划中国海洋石油有限公司境内勘探开发数据标准规范QHS14007-2011深水探井钻井工程设计指南“Q/HS14007-2011深水探井钻井工程设计指南第1号修改单”QHS2015.12018海上油气田开发井钻完井工程设计编制指南第1部分:钻井工程QHS2015.22018海上油气田开发井钻完井工程设计编制指南第2部分:完井工程海
15、洋钻井手册海洋完井手册四、服务要求4.1 供应商资质要求详见采办计划公告4.2 设计/施工方案要求乙方负责完成系统的蓝图设计、原型设计、技术方案、详细设计等,符合本技术要求书“二、服务内容和范围”中涉及的全部要求,符合中海油信息安全、管理要求。投标时,要求乙方必须提交初步开发方案。开发方案应当具有可判断性,方案中应当体现出乙方的技术能力和对本项目的详细建设思路。初步开发方案具体要求如下:(1)方案能很好地理解项目建设的背景、必要性和可行性;(2)方案在充分理解项目建设需求的基础上,提出针对性的架构设计,平台架构符合主流技术发展趋势,具有先进性、前瞻性等特点;(3)方案具有可实施性,有完整的项目
16、管理方法论,能够对建设中的组织、沟通、计划、风险等方面进行有效控制,有完善的质量保障措施。(4)方案中应确保所有需求都被分配给了软件单元,并对每一个软件单元进行详细设计。方案中应设计关于软件单元的外部接口、软件单元之间的接口。方案应针对软件项需求开展数据库详细设计。(5)方案中应规定要测试的软件单元的测试需求和进度安排、软件集成的测试需求和进度安排。(6)方案系统设计符合公司安全、管理要求,符合网络安全等级保护二级要求。(7)方案有完整的售后服务保障措施。4.3 服务具体要求1 .软件项目的开发应当遵守中国海洋石油集团公司、海油发展及工程技术公司的统一技术要求。2 .代码管理要求代码开发过程中
17、需要使用代码版本管理工具,保证多人协作过程中代码的可管理、可维护性。但不能使用公网代码管理平台,如GitHUb、Gitee.GitIab等。3 .代码质量要求乙方应有成文的代码评审规范及流程,应安排专人负责代码审核,并按照甲方的要求,指导、约束和控制本项目的代码质量。4 .钻完井中英文语料库和钻完井基础知识库的建设过程中,包括语料收集、文本识别、数据清洗、数据脱敏、文本标注等工作,均应在离线环境下完成,且均应当采用自动化、信息化的手段完成,减少人工工作量,从而减少接触设计文档的人员数量,防止文档泄露。5 .钻完井工程设计结构化处理通用工具(单机应用系统):(1)主要功能要求: 支持文档类型至
18、少包括:word文档(doc、docx)、wps文档(WPs)、pdf文档、png图像、jpg图像。 支持文档结构解析,在设计文档结构解析算法基础上实现,输出采用标记语言编写的结构化文档,如MarkdOWn文档、HTML文档等;达到等同人工视觉判断解析文档结构的效果。支持从设计文档中提取指定的结构化数据,并以结构化文本或数据库文件的形式输出。支持对文档的批量结构化处理。(2)系统兼容性要求:支持在WindOWSIo及以上WindOWS操作系统上运行;支持跨平台部署,能够在不修改或少量修改源代码的情况下,通过编译或构建生成可以直接运行在Linux桌面操作系统上的应用。(3)工作模式要求:至少提供
19、如下2大类7种工作模式:1)标注模式:常规标注模式在常规标注模式下,仅提供标注功能,可以修改删除已有标记并保存。所有模式下均默认自动分词。智能标注模式在智能标注模式下,利用已标注文档,自动对设计结构化处理模型进行训练,并对新载入的文档进行识别,对文档进行自动标记,同时提供标注功能,可以修改删除己有标记并保存;可以修改自动识别出的结构化数据表并保存。2)识别模式:常规识别模式在常规识别模式下,根据用户输入的提示(prompt)或导入的需提取的结构化数据表,仅显示识别结果,不提供修改标记的功能。识别结果校正模式在识别结果校正模式下,根据用户输入的提示(prompt)或导入的需提取的结构化数据表,先
20、进行识别,对文档进行自动标记,同时提供标注功能,可以修改删除已有标记并保存;可以修改识别出的结构化数据表并保存。批量识别模式:在批量识别模式下,用户批量上传文件,然后根据用户输入的提示(prompt)或导入的需提取的结构化数据表,提取指定的结构化数据,并以结构化文本或数据库文件的形式输出。批量识别模式默认为常规识别模式,批量识别完成后可手动切换为识别结果校正模式。后台批处理模式:通过用户指定需要结构解析的设计文档存储位置,自定义工作模式:各识别模式下相关的提示(prompt)或结构化数据表可以保存为新的子工作模式,便于后面再次使用。(4)用户界面要求:用户界面至少应提供如下功能:支持加载(上传
21、)文档;加载(上传)方式至少包括如下两种:点击加载(上传)按钮,弹出对话框选择文件加载(上传);通过拖拽文件加载(上传)。支持原文档与标注结果、识别结果的对比显示。支持标注、修改标注、删除标注的功能。支持修改识别结果。支持标注、识别结果导出和保存。支持输入提示(prompt)O支持导入需提取的结构化数据表。支持多种用户界面主题,支持自定义用户界面主题。(5)系统辅助功能要求:至少应包括系统配置、许可管理、消息提醒、权限管理、用户管理、操作日志等系统辅助功能。(6)性能要求:用CPU推理的情况下,以Inteli7-8700+DDR416G内存的工作机为测试平台,单个设计文档(2万字内)提取50组
22、结构化数据的处理时间不超过5min。用GPU推理的情况下,以NvdiaRTXA20006G显存或NVIDIAGeForceGTX10606GB显存的工作机为测试平台,单个设计文档(2万字内)提取50组结构化数据的处理时间不超过0.5min0结构化数据提取准确率总体要求在80%以上。以下关键数据提取准确率要求在90%以上:a.地质类数据:钻探依据、地层层位预测、地层压力、温度预测、钻井工程风险提示、录井要求、测井计划、DST测试计划等数据。b.油藏类数据:油田概况、构造特征、储层特征、油气藏类型、流体性质、地质分层、靶点数据、井位图、地层温度压力、钻完井实施要求、配产数据、资料录取要求、钻完井地
23、质风险提示、地质性溢油风险分析等数据。b.钻完井类数据:钻井轨道设计数据、钻井工程设计基本数据、井身结构及套管程序数据、钻井液设计数据、固井设计数据、水力摩阻计算结果数据、完井液设计数据、射孔设计数据、防砂设计数据、生产管柱设计数据、机采设计数据、井口采油树设计数据、设计工期数据、器材清单等数据。上述数据具体数据项、数据类型、量纲要求参照中国海洋石油有限公司境内钻完井数据规范、采集规范及质量规范,按甲方要求执行。(7)保护要求:应用授权控制要求:支持单机授权码授权;禁止未获得合法授权的计算机使用。模型保护要求:支持钻完井工程设计结构化处理神经网络模型的本地加密部署,防止模型泄露。6 .历史井钻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中海油 能源 发展 股份有限公司 钻完井 工程设计 结构 处理 通用 算法 开发 服务 采购 技术 要求
