近年来,金慧软件凭借自身的品牌影响力,积极保持着与多所知名高校的良好合作关系,旨在借助双方资源,本着互相协作、各施所长、双向支持的精神,为双方搭建创新实践的平台,实现优势互补、共同成长。


最近,上海交大联合金慧软件合作完成了机械与动力工程学院毕业生团队创新课题项目,于今年6月底成果项目在云端实现成功展示。


从今年年初开始,金慧软件和交大指定的毕业生项目组以每周1次的视频或语音沟通的形式,及时指导项目进展中遇到的一些问题,从细节出发,积极帮助毕业生项目组顺利完成项目,鼓励项目组成员调整心态,积极保持沟通交流,一起克服困难,并祝福他们在本科阶段获得一个完美的结果。



此项目主要围绕《关于机器学习的电子文件结构化数据提取及问题检测》课题进行项目设计。由于在当前大数据背景下,许多传统工程企业面临着工程文件的管理问题,因此此次项目主要开发一套程序,用于对合同文件的数据提取和工程图纸的错误检测,从而准确地识别和提取PDF电子合同文件中的信息,监测工程图纸中乱码、错位、空缺等常见错误信息,优化算法,提高识别率等等。


此项目合同文件的处理分为PDF向TXT和TXT向JSON的两步转化。第一步利用OCR技术提取合同文档扫描件中的文字内容,再进行消除非自然换行等处理,得到规范化的纯文本;第二部利用词嵌入技术和机器学习将文本以句子为单位转化成向量并进行分类、标记、输出。


通过6个月项目组齐心的努力,最终获得丰硕的项目成果:


• 此款程序满足了 OCR单页转化时长控制1.5s内,实现图片内容向文字内容的准确转化,合同文件信息提取准确率达到95%以上。

• 此款程序实现对工程图纸各个基本错误信息的监测,并且在查全率和准确率上面均达到了目标要求。

……