SF
通用文本信息抽取技术白皮书
通用文本信息抽取技术白皮书
注册登录
关注博客
注册登录
主页
关于
RSS
合合信息线下技术交流日报名启动!超多福利等你来领!
合合技术团队
11 月 21 日
阅读 1 分钟
32
快到年终啦,合合信息打算和上海的新老朋友进行一场零距离聚会!我们在上海1927鲁迅与内山纪念书局精心策划了一场技术交流见面会,活动现场可以体验好玩的黑科技,在思想的交流与碰撞中结交新朋友,探索技术产品热门议题。参会还可带走敲多丰富的伴手礼~
文档数字化采集与智能处理:图像弯曲矫正技术概述
合合技术团队
11 月 13 日
阅读 3 分钟
58
由于电子文档更容易存档、编辑、签名和共享的特点,文档电子化的趋势逐年显著,而随着高质量摄像头在手机等移动设备上的普及,利用移动设备对文档进行数字化采集已经非常普遍。移动设备让每一位使用者能够便捷采集文档图像,不过,这也使原始文档图像的情况变得复杂多变:页面弯曲、阴影遮挡、摩尔纹、图片模糊、字迹不...
启信宝产业洞察:广东领跑低空经济,无人机产业强势崛起
合合技术团队
11 月 7 日
阅读 2 分钟
104
低空经济作为一个新兴领域,正逐步走进大众视野,成为推动区域经济发展、促进产业升级的重要力量。2024年是“低空经济元年”,一系列国家政策的密集出台更是让低空经济驶入了“起飞”跑道。今年3月,工业和信息化部四部门印发《通用航空装备创新应用实施方案(2024-2030年)》提出,“加快通用航空技术和装备迭代升级,建设现...
TextIn ParseX文档解析SDK工具新增Java版本
合合技术团队
11 月 6 日
阅读 6 分钟
65
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。此前,为了让用户获得文档解析引擎返回的丰富版面元素,我们推出了一系列的sdk函数(+link),包括目录树、公式、表格、图片、全文m...
单月30k+ Downloads!一款头部Embedding开源模型
合合技术团队
10 月 23 日
阅读 4 分钟
197
在数字化转型的浪潮中,文本数据的处理和分析成为了各行各业关注的焦点。如何将人类阅读的文本转换为机器可理解的形式,并且能够准确地召回和提取这些转换结果,成为了提升我们工作效率和体验的关键。无论是从社交媒体中提取情感倾向,还是对大量文档进行内容相似性分析,或是在复杂的对话系统中实现精准的语义理解,文...
AIGC时代如何打击图片造假诈骗?合合信息文档篡改检测有妙招
合合技术团队
10 月 22 日
阅读 2 分钟
188
近日,第七届中国模式识别与计算机视觉大会(简称“PRCV 2024”)在乌鲁木齐举办。大会由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办。作为模式识别和计算机视觉领域学术盛会,PRCV 2024吸引了众多国内外科研工作者及行业从业者参与,分...
做好个人信息保护“守门员”,合合信息入选首批PIA典型案例集
合合技术团队
10 月 18 日
阅读 1 分钟
148
信息风险是数字时代出现的新型风险之一,人工智能等技术在便利人们生活的同时,也潜藏着个人信息泄露、滥用的隐患。为了保障个人信息安全,维护公民在网络空间的合法权益,近期,中国网络安全产业联盟数据安全工作委员会(简称“CCIA数安委”)组织编制了《个人信息保护影响评估(PIA)典型案例集》(简称“《PIA典型案例集...
复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能
合合技术团队
10 月 17 日
阅读 1 分钟
119
10月13日,复旦大学全球供应链研究中心(以下简称“中心”)揭牌仪式在复旦大学管理学院政立院区隆重举行。我国的供应链体系庞大复杂,在百年未有之大变局下,保障产业链供应链安全已成为我国的重要战略目标。中心的设立旨在回应国家战略需求,推动全球供应链的科学研究和实践创新。复旦大学副校长陈志敏,国家自然科学基...
用户的声音| 出色的表格解析能力!TextIn文档解析助力金融信息化企业数据底座建设
合合技术团队
10 月 16 日
阅读 3 分钟
167
最近,合小研收到了一些重要的用户反馈——它们来自各个行业领域的先锋用户,“大模型+”的前沿探索者。对AI从业者来说,今年诺贝尔奖的公布像一剂强心针,调动起了大家的热情,在世界范围内更广泛地看见AI的无限可能性。TextIn团队和我们的用户都是其中的一员。我们探讨各自的赛道和前进的方向,并在不同的领域注入AI的力量...
启信宝数据产业报告:我国数据产业蓬勃发展,产业景气度向好
合合技术团队
10 月 12 日
阅读 2 分钟
202
近年来,随着数据战略地位的显著提升,数据产业在全球范围内迎来了前所未有的发展机遇。近日,合合信息旗下启信宝发布了《数据产业全景——关键指标分析与趋势洞察》报告,对我国数据产业蓬勃发展的态势进行了系统性地解析,基于产业链视角,深入剖析了数据产业的上中下游产业链,并通过产业的指标统计分析,为行业观察者...
PDF解析+RAG,手把手教你在Coze搭建个人知识库!
合合技术团队
10 月 11 日
阅读 3 分钟
520
在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。 它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。 此外,个人知识库还能够帮助我们系统化整理知识、融会贯通,将零散的信息整合成有条理的知识体系,省去人工梳理消耗的时间精力。它可以充当优秀“智库”的角色——...
OCR+PDF解析配套前端工具开源详解!
合合技术团队
10 月 10 日
阅读 2 分钟
245
面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景,配套的可视化工具能够极大地提升我们的使用体验和工作效率。通过可视化界面,我们可以直观地看到文本识别、解析和翻译的结果,便捷评估产品效果。今天来跟大家分享一个非常棒的开源项目——TextIn ParseX-Frontend,帮助我们轻松搭建优秀的前端可视化界面...
PS技术vs篡改检测,P图“照妖镜”实力如何?
合合技术团队
9 月 30 日
阅读 3 分钟
346
如何判断一张图片有没有被P过?社媒上的美颜照片尚属小事,但如果身份证、护照、学历证明这些重要文件和图片也能通过PS神技篡改,问题就大了。于是,江湖流传几款“鉴P技巧”,其中受到广泛肯定的主要有两种:检查图片中的异常区域如果一张图片被PS修改过,那么图片中可能会存在一些异常区域,如颜色、光线、透视关系等方...
中国信通院携手合合信息发布《文本图像篡改检测系统技术要求》
合合技术团队
9 月 20 日
阅读 2 分钟
123
Deepfake(深度伪造)技术野蛮生长,引发了一系列负面后果。在韩国通讯软件Telegram上,某私密聊天室成员利用女性照片非法合成色情照片和视频,影响极为恶劣。除了普通的受害者,知名人士也难以逃脱图像伪造的“魔爪”,某视频网站上,由AI合成的马斯克等名人为虚假投资做背书的视频泛滥成灾。不法分子利用人工智能技术兴...
助力园区数字化转型,合合信息市北高新园区打造“一企一画像”个性化服务
合合技术团队
9 月 18 日
阅读 1 分钟
149
在数字化时代的浪潮中,产业园区的数字化转型已成为推动经济发展、提升管理效率和增强竞争力的关键因素。上海市市北高新技术服务业园区(以下简称“市北高新园区”)携手合合信息旗下启信产业大脑™推出“一企一画像”创新平台,在国内率先探索产业园区数字化转型发展新路径。该平台展现了数字技术赋能园区管理的巨大潜力。目...
AI假图检测:Deepfake层出不穷,怎么才能“有图有真相”?
合合技术团队
9 月 12 日
阅读 2 分钟
423
随着AIGC技术的迅猛发展,互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动,也在AI技术的加持下如虎添翼,成为不少企业与机构的头疼难题。其中,在我们的日常生活里,影像资料广为流传的名人是典型重灾区,新技术也成为诈骗犯手中的利器。...
论文解读 -TongGu
合合技术团队
9 月 9 日
阅读 7 分钟
129
一、简要介绍文言文是通往中国古代丰富遗产和智慧的门户,但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型(LLM)在自然语言处理(NLP)方面显示出了显著的能力,但它们在文言文理解(CCU)方面存在困难,特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境,论文提出了Tong...
TextIn ParseX:助力开发者解析版面元素信息
合合技术团队
9 月 5 日
阅读 6 分钟
204
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。产品特点支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。支持多种语言:支持简体中文/繁体中文/英文/...
合合信息启信宝参编国内首份《数据产业图谱(2024)》
合合技术团队
9 月 3 日
阅读 2 分钟
177
近日,在2024中国国际大数据产业博览会上,北京交通大学张向宏教授正式发布了国内首部《数据产业图谱(2024)》(以下简称“图谱”)。该图谱由北京交通大学牵头,联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。
AI赋能新质生产力培育,合合信息登上《人民日报》
合合技术团队
9 月 2 日
阅读 2 分钟
168
古籍数字化保护是一项极具挑战性的、规模庞大的任务,需要解决看清古籍、理解古籍、修复古籍等系列技术难题。2024年世界人工智能大会上,合合信息古籍修复项目通过AIGC技术对损毁的“敦煌遗书”进行字形、颜色、背景修复,吸引了全球各地文化机构及参观者的关注。
数博会聚焦:合合信息启信宝践行数据创新应用
合合技术团队
8 月 30 日
阅读 2 分钟
187
8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。
图像处理中的对抗性研究:浅谈水印去除技术
合合技术团队
8 月 29 日
阅读 7 分钟
230
不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。
A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报
合合技术团队
8 月 28 日
阅读 2 分钟
154
财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬,上市公司进入了中报披露高峰期。据东方财富Choice数据统计,截至8月14日数据,A股有超过1715只个股公布了2024年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。
巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot
合合技术团队
8 月 22 日
阅读 3 分钟
216
近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。短短的时间内,已经有不少朋友愉快地和我们的工具开始玩耍。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!1 专属翻译官外语文献翻译难?小语种阅读不便?PDF文件只能手动复制、逐段翻译?在学术领域和工作中,我们或多或少地被这些问...
沪港数据竞赛圆满落幕,启信宝独揽双重大奖
合合技术团队
8 月 21 日
阅读 2 分钟
115
为进一步加大沪港两地协同效应,实现城市科技创新发展愿景,沪港两地正围绕数据流通和应用展开多维度的合作。近期,备受瞩目的“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。上海市数据局副局长、上海市大数据中心主任邵军,香港特别行政区政府数字政策办公室数字政策专员黄...
Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体
合合技术团队
8 月 19 日
阅读 2 分钟
196
在扣子搜索“pdf转markdown”,或在Coze平台搜索“pdf2markdown”,即可找到插件,在你的专属智能体中便捷使用文档解析功能。如果想测试解析插件在你需要的场景下表现如何,可以直接对话bot,试用pdf转markdown效果。同时,TextIn团队提供了简单的Workflow示例供参考,有搭建工作流需要的朋友也可直接复制使用。现在,“pdf转...
变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界
合合技术团队
8 月 14 日
阅读 2 分钟
145
谈“糖”色变、追求养生、低卡生活……这些热门词汇频频在社交媒体上掀起讨论热潮。有这样一批年轻人不但捕捉到了这些词汇背后真实的用户需求,并且正在利用AI技术寻找解决之道。
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
合合技术团队
8 月 14 日
阅读 3 分钟
134
TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何影响数据清洗与RAG系统开发。我们依旧从...
商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档
合合技术团队
8 月 2 日
阅读 2 分钟
175
随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。中国商业银行在跨境供应链金...
PDF解析,还能做得更好
合合技术团队
8 月 1 日
阅读 2 分钟
311
随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。
1
(current)
2
下一页
1
(current)
下一页