通用文本信息抽取技术白皮书

合合信息线下技术交流日报名启动！超多福利等你来领！

2024-11-21

阅读 1 分钟

358

快到年终啦，合合信息打算和上海的新老朋友进行一场零距离聚会！我们在上海1927鲁迅与内山纪念书局精心策划了一场技术交流见面会，活动现场可以体验好玩的黑科技，在思想的交流与碰撞中结交新朋友，探索技术产品热门议题。参会还可带走敲多丰富的伴手礼~

文档数字化采集与智能处理：图像弯曲矫正技术概述

合合技术团队

2024-11-13

阅读 3 分钟

507

由于电子文档更容易存档、编辑、签名和共享的特点，文档电子化的趋势逐年显著，而随着高质量摄像头在手机等移动设备上的普及，利用移动设备对文档进行数字化采集已经非常普遍。移动设备让每一位使用者能够便捷采集文档图像，不过，这也使原始文档图像的情况变得复杂多变：页面弯曲、阴影遮挡、摩尔纹、图片模糊、字迹不...

TextIn ParseX文档解析SDK工具新增Java版本

合合技术团队

2024-11-06

阅读 6 分钟

395

TextIn ParseX通用文档解析是一款大模型友好的解析工具，支持将pdf文档、jpg、img图像等文件快速转换为markdown格式，支持各类表格、公式解析，帮助大语言模型的数据清洗和文档问答任务。此前，为了让用户获得文档解析引擎返回的丰富版面元素，我们推出了一系列的sdk函数（+link），包括目录树、公式、表格、图片、全文m...

单月30k+ Downloads！一款头部Embedding开源模型

合合技术团队

2024-10-23

阅读 5 分钟

659

在数字化转型的浪潮中，文本数据的处理和分析成为了各行各业关注的焦点。如何将人类阅读的文本转换为机器可理解的形式，并且能够准确地召回和提取这些转换结果，成为了提升我们工作效率和体验的关键。无论是从社交媒体中提取情感倾向，还是对大量文档进行内容相似性分析，或是在复杂的对话系统中实现精准的语义理解，文...

AIGC时代如何打击图片造假诈骗？合合信息文档篡改检测有妙招

合合技术团队

2024-10-22

阅读 2 分钟

643

近日，第七届中国模式识别与计算机视觉大会（简称“PRCV 2024”）在乌鲁木齐举办。大会由中国自动化学会（CAA）、中国图象图形学学会（CSIG）、中国人工智能学会（CAAI）和中国计算机学会（CCF）联合主办，新疆大学承办。作为模式识别和计算机视觉领域学术盛会，PRCV 2024吸引了众多国内外科研工作者及行业从业者参与，分...

做好个人信息保护“守门员”，合合信息入选首批PIA典型案例集

合合技术团队

2024-10-18

阅读 1 分钟

477

信息风险是数字时代出现的新型风险之一，人工智能等技术在便利人们生活的同时，也潜藏着个人信息泄露、滥用的隐患。为了保障个人信息安全，维护公民在网络空间的合法权益，近期，中国网络安全产业联盟数据安全工作委员会（简称“CCIA数安委”）组织编制了《个人信息保护影响评估（PIA）典型案例集》（简称“《PIA典型案例集...

复旦大学全球供应链研究中心揭牌，合合信息共话大数据赋能

合合技术团队

2024-10-17

阅读 1 分钟

337

10月13日，复旦大学全球供应链研究中心（以下简称“中心”）揭牌仪式在复旦大学管理学院政立院区隆重举行。我国的供应链体系庞大复杂，在百年未有之大变局下，保障产业链供应链安全已成为我国的重要战略目标。中心的设立旨在回应国家战略需求，推动全球供应链的科学研究和实践创新。复旦大学副校长陈志敏，国家自然科学基...

用户的声音｜出色的表格解析能力！TextIn文档解析助力金融信息化企业数据底座建设

合合技术团队

2024-10-16

阅读 3 分钟

476

最近，合小研收到了一些重要的用户反馈——它们来自各个行业领域的先锋用户，“大模型+”的前沿探索者。对AI从业者来说，今年诺贝尔奖的公布像一剂强心针，调动起了大家的热情，在世界范围内更广泛地看见AI的无限可能性。TextIn团队和我们的用户都是其中的一员。我们探讨各自的赛道和前进的方向，并在不同的领域注入AI的力量...

启信宝数据产业报告：我国数据产业蓬勃发展，产业景气度向好

合合技术团队

2024-10-12

阅读 2 分钟

509

近年来，随着数据战略地位的显著提升，数据产业在全球范围内迎来了前所未有的发展机遇。近日，合合信息旗下启信宝发布了《数据产业全景——关键指标分析与趋势洞察》报告，对我国数据产业蓬勃发展的态势进行了系统性地解析，基于产业链视角，深入剖析了数据产业的上中下游产业链，并通过产业的指标统计分析，为行业观察者...

PDF解析+RAG，手把手教你在Coze搭建个人知识库！

合合技术团队

2024-10-11

阅读 3 分钟

2.1k

在这个信息爆炸的时代，搭建个人知识库就像是拥有了一个超级智能的“外脑”。它不仅能帮你储存知识，还能在你需要的时候迅速地调取信息，提高知识的使用效率。此外，个人知识库还能够帮助我们系统化整理知识、融会贯通，将零散的信息整合成有条理的知识体系，省去人工梳理消耗的时间精力。它可以充当优秀“智库”的角色——...

OCR+PDF解析配套前端工具开源详解！

合合技术团队

2024-10-10

阅读 2 分钟

887

面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景，配套的可视化工具能够极大地提升我们的使用体验和工作效率。通过可视化界面，我们可以直观地看到文本识别、解析和翻译的结果，便捷评估产品效果。今天来跟大家分享一个非常棒的开源项目——TextIn ParseX-Frontend，帮助我们轻松搭建优秀的前端可视化界面...

PS技术vs篡改检测，P图“照妖镜”实力如何？

合合技术团队

2024-09-30

阅读 3 分钟

861

如何判断一张图片有没有被P过？社媒上的美颜照片尚属小事，但如果身份证、护照、学历证明这些重要文件和图片也能通过PS神技篡改，问题就大了。于是，江湖流传几款“鉴P技巧”，其中受到广泛肯定的主要有两种：检查图片中的异常区域如果一张图片被PS修改过，那么图片中可能会存在一些异常区域，如颜色、光线、透视关系等方...

助力园区数字化转型，合合信息市北高新园区打造“一企一画像”个性化服务

合合技术团队

2024-09-18

阅读 1 分钟

471

在数字化时代的浪潮中，产业园区的数字化转型已成为推动经济发展、提升管理效率和增强竞争力的关键因素。上海市市北高新技术服务业园区（以下简称“市北高新园区”）携手合合信息旗下启信产业大脑™推出“一企一画像”创新平台，在国内率先探索产业园区数字化转型发展新路径。该平台展现了数字技术赋能园区管理的巨大潜力。目...

AI假图检测：Deepfake层出不穷，怎么才能“有图有真相”？

合合技术团队

2024-09-12

阅读 2 分钟

随着AIGC技术的迅猛发展，互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动，也在AI技术的加持下如虎添翼，成为不少企业与机构的头疼难题。其中，在我们的日常生活里，影像资料广为流传的名人是典型重灾区，新技术也成为诈骗犯手中的利器。...

论文解读 -TongGu

合合技术团队

2024-09-09

阅读 7 分钟

489

一、简要介绍文言文是通往中国古代丰富遗产和智慧的门户，但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型（LLM）在自然语言处理（NLP）方面显示出了显著的能力，但它们在文言文理解（CCU）方面存在困难，特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境，论文提出了Tong...

TextIn ParseX：助力开发者解析版面元素信息

合合技术团队

2024-09-05

阅读 6 分钟

642

TextIn ParseX通用文档解析是一款大模型友好的解析工具，支持将pdf文档、jpg、img图像等文件快速转换为markdown格式，支持各类表格、公式解析，帮助大语言模型的数据清洗和文档问答任务。产品特点支持多种扫描内容：能良好处理各类图片与扫描文档，包括手机照片、截屏等内容。支持多种语言：支持简体中文/繁体中文/英文/...

合合信息启信宝参编国内首份《数据产业图谱（2024）》

合合技术团队

2024-09-03

阅读 2 分钟

496

近日，在2024中国国际大数据产业博览会上，北京交通大学张向宏教授正式发布了国内首部《数据产业图谱（2024）》（以下简称“图谱”）。该图谱由北京交通大学牵头，联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。

AI赋能新质生产力培育，合合信息登上《人民日报》

合合技术团队

2024-09-02

阅读 2 分钟

508

古籍数字化保护是一项极具挑战性的、规模庞大的任务，需要解决看清古籍、理解古籍、修复古籍等系列技术难题。2024年世界人工智能大会上，合合信息古籍修复项目通过AIGC技术对损毁的“敦煌遗书”进行字形、颜色、背景修复，吸引了全球各地文化机构及参观者的关注。

数博会聚焦：合合信息启信宝践行数据创新应用

合合技术团队

2024-08-30

阅读 2 分钟

439

8月28日，2024中国国际大数据产业博览会在贵阳开幕。会议期间，国家数据局局长刘烈宏主持召开企业家座谈会，上海合合信息科技股份有限公司董事长镇立新受邀参加。

图像处理中的对抗性研究：浅谈水印去除技术

合合技术团队

2024-08-29

阅读 7 分钟

771

不论是在社交媒体平台还是各类工作学习资料，大大小小的图像和文件水印是我们习以为常的附赠产物，在图像上叠加可见水印为解决版权问题提供了一种强有力的手段，它被用于在互联网共享时标识和保护图像版权。

A股迎来中报季，合合信息文档解析技术辅助大模型深度解读财报

合合技术团队

2024-08-28

阅读 2 分钟

372

财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬，上市公司进入了中报披露高峰期。据东方财富Choice数据统计，截至8月14日数据，A股有超过1715只个股公布了2024年半年度业绩预告，海量的财报文件对于金融行业从业者而言，无疑是巨大的工作量。

巧用PDF转Markdown插件，在扣子（Coze）手搓一个有趣好玩的AI Bot

合合技术团队

2024-08-22

阅读 3 分钟

857

近期，TextIn团队开发的PDF转Markdown插件已经上架Coze平台。短短的时间内，已经有不少朋友愉快地和我们的工具开始玩耍。今天我们抛砖引玉，介（an）绍（li）几种PDF转Markdown插件的有趣玩法！1 专属翻译官外语文献翻译难？小语种阅读不便？PDF文件只能手动复制、逐段翻译？在学术领域和工作中，我们或多或少地被这些问...

沪港数据竞赛圆满落幕，启信宝独揽双重大奖

合合技术团队

2024-08-21

阅读 2 分钟

337

为进一步加大沪港两地协同效应，实现城市科技创新发展愿景，沪港两地正围绕数据流通和应用展开多维度的合作。近期，备受瞩目的“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。上海市数据局副局长、上海市大数据中心主任邵军，香港特别行政区政府数字政策办公室数字政策专员黄...

Coze插件发布！PDF转Markdown功能便捷集成，打造你的专属智能体

合合技术团队

2024-08-19

阅读 2 分钟

763

在扣子搜索“pdf转markdown”，或在Coze平台搜索“pdf2markdown”，即可找到插件，在你的专属智能体中便捷使用文档解析功能。如果想测试解析插件在你需要的场景下表现如何，可以直接对话bot，试用pdf转markdown效果。同时，TextIn团队提供了简单的Workflow示例供参考，有搭建工作流需要的朋友也可直接复制使用。现在，“pdf转...

变“金点子”为“好应用”，合合信息智能文档处理技术助力大学生探索AI创新边界

合合技术团队

2024-08-14

阅读 2 分钟

434

谈“糖”色变、追求养生、低卡生活……这些热门词汇频频在社交媒体上掀起讨论热潮。有这样一批年轻人不但捕捉到了这些词汇背后真实的用户需求，并且正在利用AI技术寻找解决之道。

TextIn文档树引擎，助力RAG知识库问答检索召回能力提升

合合技术团队

2024-08-14

阅读 3 分钟

438

TextIn团队的文档解析测评工具Markdown Tester在Github发布后，我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理，包括段落、表格、公式、阅读顺序等维度。今天，我们将介绍另一项重要指标，也是业内面对的一项普遍性难点：标题识别，以及它如何影响数据清洗与RAG系统开发。我们依旧从...

商业银行国际结算规模创新高，合合信息AI助力金融行业智能处理多版式文档

合合技术团队

2024-08-02

阅读 2 分钟

439

随着我国外贸新业态的快速增长，银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告（2023—2024）》，2023年我国主要商业银行国际结算规模再创历史新高，达到11.57万亿美元，较上一年增幅4.4%。中国商业银行在跨境供应链金...

PDF解析，还能做得更好

合合技术团队

2024-08-01

阅读 2 分钟

646

随着大模型文档智能应用逐渐步入正轨，文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识，将其转化为机器能够识别、读取的信息，将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件，为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。

超13万律师使用的工具，启信宝推出“司法大数据”功能

合合技术团队

2024-07-30

阅读 2 分钟

461

合合信息旗下的启信宝，作为行业领先的商业查询APP，依托其3亿企业及机构的实时动态数据，涵盖工商、股权、司法、知识产权等多维度信息，推出了“司法大数据”功能。

【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

合合技术团队

2024-04-15

阅读 13 分钟

783

在当今的数字化时代，电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档，各种格式的电子文档承载着丰富的知识与信息，支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长，如何高效、准确地处理和分析这些电子文档，已经成为信息技术领域面临的一大挑战。在这一背景下，电子文...