面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。
目前该业务是由专人人工解读上市公司公告,撰写每日风险总结报告,然而这项工作不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动:
- 资料版面布局多样
公告文本的版面格式涵盖了段落、目录树、表格、图像等多种样式。
- 公告内容差异大
不同种类公告内容差异大,不同行业披露信息差异大,不同公司撰文风格差异大。
- 标注样本稀少
因标注标准复杂、专业性强导致的标注成本高,不同类别公告数量差异大,因监管和公司运营情况调整导致的标注时效性难以保证。
金仕达软件科技有限公司利用自然语言处理技术中的信息抽取技术ERNIE-UIE,打造了上市公司公告信息抽取系统,从上市公司常见的公告文本数据中,提取引起证券价格较大变化的重要事件及关键信息,实现自动提取影响证券价格较大变化的重要事件,为金融业务的开展提供风险管控的依据,并将此过程中积累的技术与经验推广到证券交易业务、风险管理业务以及客户服务等应用场景。在PaddleOCR和PaddleNLP的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著:文档页面导航准确率100% ,信息抽取准确率达到95% ,单篇抽取可在1秒内完成。上市公司公告信息抽取系统节约了80%的人工解读时间,极大提升了融资融券、反洗钱、操作风险管理业务的效率。
3月23日晚7:00,金仕达AI实验室负责人、高级研究员孙科老师将做客飞桨直播间,分享上市公司公告信息抽取产业落地经验,更有孙科老师多年金融AI从业经验分享!
01 解决思路
本项目中使用了提示学习来解决小样本问题,在项目中引入PaddleNLP中的ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于Prompt的信息抽取多任务统一建模方式,可以实现标注少量数据进行微调,即可完成在公告文本信息抽取任务中的任务适配,大大降低标注门槛和成本。 PaddleNLP中的ERNIE-UIE是一个大一统诸多任务的开放域信息抽取技术方案:通过构建结构化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE能够对不同的信息抽取目标进行统一编码,从而实现多任务的统一建模。ERNIE-UIE开创了基于Prompt的信息抽取多任务统一建模方式,通过大规模多任务预训练学习的通用抽取能力,可以实现不限定行业领域和抽取目标,零样本快速冷启动。简单场景,无需训练数据,即可全部抽取正确。针对复杂抽取需求,标注少量数据微调即完成任务适配,大大降低标注门槛和成本。除实体抽取任务外,在金融、医疗、互联网三大自建测试集的关系、事件抽取任务上进行实验,标注少样本也可带来显著的效果提升,即使模型在某些场景下表现欠佳,人工标几个样本,交给模型后就会有大幅的效果提升。
上市公司公告信息抽取系统架构图ERNIE-UIE对于数据量更大的类别有更好的预测结果,即使对于少样本,诸如APER、EPER和TPER等类别,模型仍具有一定程度的预测能力,体现了ERNIE-UIE在小样本学习上的优势。
ERNIE-UIE进行实体抽取的效果模型训练完成后,转为推理模型,之后,利用飞桨服务化部署框架Paddle Serving方便集成的特性,将公告信息抽取服务快速部署为线上服务。用户通过WEB端访问业务框架后台时,即可直接调用智能文档解析服务展示结果。
相关项目
- PaddleNLP GitHub地址
https://github.com/PaddlePaddle/PaddleNLP
- PaddleNLP Gitee地址
https://gitee.com/paddlepaddle/PaddleNLP
02 技术拓展——文心大模型
随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。
文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。
从技术研发到落地应用,大模型的发展已经进入产业落地的关键期。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。