人工智能时代下,检察官用什么工具能更好地提升办案质量和效率,为依法治国贡献检察力量?这个问题,嘉诚信息正在与其所服务的人民检察院一起交出答卷。作为国家的法律监督机关,人民检察院对司法机关、国家工作人员职务犯罪和公民违法犯罪行为进行监督。随着社会发展,检察机关法律监督工作面临更高的要求。2021年6月党中央印发《中共中央关于加强新时代检察机关法律监督工作的意见》,明确要求“全面提升法律监督质量和效果”。在此指导意见下,最高检于2022年推动实施“数字检察战略”, 强调数字技术和检察工作深度融合,加快推进法律监督模式重塑变革,推进溯源治理,实现从个案办理到类案监督再到系统治理,让法律监督更好地服务社会治理。嘉诚信息,一家致力于通过大数据、人工智能等技术助力客户实现数智化转型的公司,依托自身大数据积累优势与深刻的行业理解洞察,使用飞桨自然语言处理模型库PaddleNLP和基于文心大模型的通用信息抽取模型ERNIE-UIE,以“法律文书非结构化数据挖掘”为切入点,研发大数据法律监督解决方案持续服务全国检察机关,共同实践走通了以“数字革命”驱动新时代法律监督整体提质增效之路。

实现溯源治理,找到“结构化数据”是关键

溯源治理,是指在法律监督过程中追溯源头,不仅仅是办理眼前的一个案子,更要发现同类型案件规律,“从个案到类案”,从而针对性地制发检察建议,从制度和流程上推动类型案件深层原因的解决,助推社会治理现代化。习近平总书记强调:“法治建设既要抓末端、治已病,更要抓前端、治未病。”因此溯源治理尤为重要。

图片

从个案到类案,践行溯源治理

如何实现从个案到类案的转变?检察机关工作人员首先面临的难题是怎样从浩如烟海的各类法律文书中发现有价值的案件监督线索。

“大量的案件资料通常以文本文书的方式存在于内部或公开信息中,这些非结构化的资料当中包括许多‘关键要素’,如案发地点、行政区划、相关金额、诉讼当事人等等,而与类案共性相关的高价值线索就散落其中。”嘉诚信息上海创新研究院副院长崔放介绍道,“以往检察官只能一个一个地去看案件资料、识别关键信息,发现类案监督线索的难度较大。随着数字检察战略的提出,我们紧跟检察机关工作需求,用大数据、人工智能技术把‘非结构化数据’进行关键要素提取后成为 ‘结构化数据’,从而极大地降低检察官的线索发现难度,提升类案线索分析和发现的效率。”

图片

案件线索纷繁复杂,如何快速找到关键要素?

例如,嘉诚信息曾成功协助某地检察机关办理套路贷虚假诉讼案件。此类案件主要内容为同一当事人起诉不同被告,在法院的民事裁判文书中包含借款详情信息,未经提取前便是“非结构化数据”。检察官单独去看一份一份的民事裁判文书,很难发现各个案件之间隐藏的关联性,监督难度大。但当从百万级的裁判文书中提取出一些“结构化数据”,如双方当事人身份信息、原被告出庭情况、借款详情后,当地检察院发现有很多相同身份信息的人或公司在持续起诉不同的被告,被告大多不出庭,并且通过分析对比,发现大多数为重复使用借条或额外收取费用,从而提高被告还款额度。因此,这些结构化数据构成了很明显的监督线索,检察院判断相关案件涉及虚假诉讼, 提出抗诉和再审检察建议,并向法院制发类案监督检察建议,向市场监督管理局制发社会治理检察建议,建议其加强公司企业监管,摸排涉嫌“套路贷”违法犯罪公司,查处违法违规公司企业,保障了法律的公平公正。

基于飞桨和文心大模型造“永动机”! 全国1亿案件1个月跑完,用200+法律监督模型助力数字检察

嘉诚信息的团队中有很多专业法学背景的成员,并持续投入大量精力进行案件研究,使团队和检察机关工作人员沟通更高效,能更好地把行业需求转化为模型开发逻辑;另一方面,公司从2017年就开始数据积累,通过对公开数据中涉及各种监督模型的关键要素持续挖掘,打下了良好的法律监督大数据基础。然而在非结构化数据提取技术上,由于进入行业较早,市场中可外采的解决方案较少,团队决定采用自研的方式来训练法律监督模型。最初嘉诚信息采用传统的信息抽取技术,因过程中需要大量的文本标注工作,还专门组建了十几个人的数据标注团队,但模型准确度一直不够理想。尤其是2021年随着公司业务拓展至全国范围后,业务量和数据量大幅增加,客户对产品的要求也越来越高,传统的信息抽取技术再难以满足业务需求。“后来我们进行了整体的调研对比,最终选择了百度飞桨。首先它是开源的,协议对商业化也很友好。技术上,飞桨和基于文心大模型的通用信息抽取模型ERNIE-UIE给了我们很大的惊喜,想不到居然会有这么好的效果。”崔放介绍道,“以前不理解大模型,知道ERNIE-UIE以后甚至觉得有些不可思议。它对标注数据量要求非常少,以前我们需要标注几千上万个数据,现在只需标注30-50个就已经很好地实现了法律文书数据提取,且模型精度由原先的70%提升至91%。 我们之前的十几个数据标注人员,现在已经全都转型为法研和项目管理人员,为公司发挥了更大价值,也收获了个人职业成长。”嘉诚信息的大数据法律监督解决方案当中,有一款专门针对民事的法律监督产品,开发过程中使用ERNIE-UIE表现极为优秀。很多民事虚假诉讼涉及全国跨区域作案,因此构建一个全国范围的案件库十分必要,而将所有相关案件汇集后,总数量超过1亿。崔放介绍:“以前我们是不敢去跑全国的案件线索的,都是一个市一个市地去跑,因为数据挖掘是有时间需求的,如果要跑全国,可能2、3年都不一定能跑完。现在借助飞桨和ERNIE-UIE,我们构建了一个24小时的‘永动机’机制,持续去跑全国线索。最终使用ERINIE-UIE的nano模型,一个月左右就可以跑完全国1亿案件的数据循环, 这才得以开发出极高效能的民事法律监督产品,提升检察机关监督效率。比如我们和某区基层人民检察院合作,为其提供了民事检察监督助手系统,检察官在使用以后,3个月办理民事监督案件72件,数量是过去3年的总和。”

图片

飞桨自然语言处理模型库PaddleNLP的通用信息抽取模型ERNIE-UIE,以文心大模型为基础,在没有专业团队的情况下,使用小样本训练,进行定制化开发,可以大量节省标注成本。ERNIE-UIE提供了base、medium、mini、micro、nano等多模型尺寸选择,可满足精度和速度的不同要求。具体来说,嘉诚信息技术方案归纳为如下步骤:

数据准备阶段

数据采集、标注和增强。从公开的合规网络途径获取数据用于研究,利用Python、Flink程序等脚本,对规范数据的格式进行处理。再结合实际抽取需求对领域数据进行标注,通过PaddleNLP提供的数据协议将标注数据转为ERNIE-UIE模型训练的数据格式;

训练阶段

基于ERNIE-UIE nano在领域标注数据上对模型进行微调;

模型部署阶段

训练完成后,将模型部署到飞桨预测的服务器上。通过调用ERNIE-UIE进行信息提取,再将抽取到的实体、关系等结构化数据作为基础标签供业务模型使用,完成NLP功能的部署。

图片

技术方案流程图

目前,嘉诚信息通过和全国多家检察机关的密切配合,大数据法律监督解决方案在刑事检察、民事检察、行政检察、公益诉讼检察、未成年人检察等领域积累了200余个成熟的法律监督模型,支持与其他大数据监督模型系统对接,提供模型上传、共享、整合、本地化应用能力。服务覆盖全国25个省市县区的近800家检察院,把检察官从相对简单、繁杂、重复的劳动中解脱出来,让检察官有更充裕的时间和精力把检察智慧用在法律监督的提质增效上。

image.png

嘉诚信息数字检察业务全景

持续创新,让技术更易用。 赋能党政机关、企事业单位数智转型 创造社会价值

让技术更便捷易用,从而更好地服务检察机关工作人员,创造真正的应用价值,是嘉诚信息长久以来持续创新的方向。

在底层技术方面,嘉诚信息自主研发“慧眼预警指数”、“时空数据分析”两大技术,与“非结构化数据转结构化数据”一起,构成了助力检察机关实现监督线索发现的核心技术壁垒。在数据转为结构化数据后,通过“慧眼预警指数”, 结合不同案件类型需要的统计数据维度,形成新的要素规则,从而实现不同类型案件的数据关联机制,达到预警效果。同时,通过“时空数据分析”技术,将大量相关数据进行统计,如大量个案的案发地点识别后,转变为经纬度投放到地图上,清晰显示案件的地理位置聚集情况,从而帮助检察机关从时空角度发现案件关联的同一时间段相似特征线索的关联性和真实性。在应用侧,嘉诚信息持续优化使用体验,创新开发了“要素检索模式”和“可视化知识图谱”工具。“要素检索模式”即为将提取出来的核心要素以标签形式可视化地呈现在检察官眼前,检察官可以结合不同类型案件需求,通过鼠标点击的方式来组合相关标签,比如套路贷案件,检察官可以选择“当事人未出庭”、“民间借贷”、“某贷款公司”等标签,实现对此类案件的快速检索。“可视化知识图谱”则是在ERNIE-UIE信息抽取的基础上,进一步做了线索的可视化处理。最常见的应用场景就是将原告、被告、律师、法官信息等人和案信息提取出来,形成参与方关系网,帮助检察官发现复杂关系网背后的潜在线索。

图片

一案多连可视化知识图谱:体现法官、律师、第三人关联,诉讼人关联在此基础上,嘉诚信息助力各地检察机关办理了多起极具社会意义的类案。如在外卖平台野蛮生长时期,通过大数据平台模型,与某市人民检察院合作,基于外卖商家公示的数据分析,为检察院提供了一系列不合规商家清单,从而促进了当地的食药监部门对于网络外卖餐饮监管的加强。又如与某市人民检察院合作,开发校园周边违规经营监督模型,帮助检察机关及时发现监督校园周边违法设置的娱乐场所、酒吧、烟酒及彩票销售点等不适宜未成年人活动场,该案例被最高检评为大数据赋能未成年人监督的全国典型案例之一。除了持续赋能检察机关,嘉诚信息也将产品、服务及解决方案拓展至更多党政机关、企事业单位,截至目前,嘉诚信息产品、服务及解决方案已应用于全国30个省份、自治区及直辖市,以智慧政务、网络安全为两大核心业务版块,服务客户涵盖党委、政府、检察院、法院、司法监狱、生态环境、自然资源、卫生医疗、金融、教育等多个领域,携手实现更广泛的社会价值。“我自己是做技术出身,最开始就是希望通过技术的力量去解决一些问题,让社会变得更好。”崔放介绍到,“而随着经验的增长,我认识到仅仅凭技术是无法促进社会公共利益和国家利益保护的,但如果我们能将技术赋能到行业,把检察院、法院等政法机关客户服务好的话,就可以一起为这个社会、为国家、为我们的公众利益作出贡献。这也是嘉诚信息创新发展的源动力。”未来,嘉诚信息还将持续在技术创新上发力,除文本信息提取,还将拓展到图片、视频等关键信息的提取。而飞桨与文心大模型也将持续携手更多行业伙伴,共同助力政法行业使用人工智能技术实现质效提升。正如崔放所说,“把法律人工智能发展得越来越好,让法律制度的理性之光和科学技术的智慧之光交相呼应,大放异彩。”


飞桨PaddlePaddle
30 声望34 粉丝

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度...