TextIn ParseX：助力开发者解析版面元素信息

TextIn ParseX通用文档解析是一款大模型友好的解析工具，支持将pdf文档、jpg、img图像等文件快速转换为markdown格式，支持各类表格、公式解析，帮助大语言模型的数据清洗和文档问答任务。

产品特点支持多种扫描内容：能良好处理各类图片与扫描文档，包括手机照片、截屏等内容。支持多种语言：支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。
表格识别效果好：能准确识别各种格式的表格，包括有线表格、无线表格、密集表格，并支持各种类型的合并单元格识别与还原。阅读顺序还原准：能理解和还原文档的结构和元素排列，确保阅读顺序的准确性，支持多栏布局的论文、年报、业务报告等内容。自研文档树引擎：从语义出发，提取段落embedding值，预测标题层级关系，通过构造文档树提高检索召回效果。

为了让用户获得文档解析引擎返回的丰富版面元素，我们开发了一系列的sdk函数，包括目录树、公式、表格、图片、全文markdown等结果的获取函数。对于api用户来说，评估文档解析引擎的版面分析结果准确性是困难的，可视化的前端界面可以一定程度解决定性评估的问题，另外一些场景中，用户希望能够可视化文件解析的结果，并对结果进行编辑修正，获得更高精度的解析结果，这个时候前端可视化组件就是必不可少的了。
为了满足这些需求，方便用户，我们将textin.com上面的前端可视化组件进行了开源，请用户批评指正。
1、SDK功能介绍TextIn ParseX是一套标准的多平台支持的python sdk，帮助开发者解析pdf_to_markdownRestful API返回结果，获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。为了方便用户获取版面元素，此次更新，调用接口增加了'page_details'参数，返回的json结果里面新增加了'pages'的字段。pip install TextInParseX如果报错timeout，可以尝试国内源：pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com首先，你要在textin开通文档解析服务，然后可以在试用工作台点击用户图标，再点击账号与开发者信息（或者登陆后从textin首页->账户与充值->账号与开发者信息，或者点击https://www.textin.com/console/dashboard/setting）中获得api_id和secret_code。你可以通过ParseX直接调用url获取解析对象。import TextInParseX as px

初始化解析器

app_id = "#############################" #填入你的textin的api_id和secret——code
secret_code = "#############################"

parseX_client = px.ParseXClient(app_id, secret_code)

pdf_file_path = "example.pdf" #你的本地文件路径

通过ParseX直接调用url获取解析对象

result = parseX_client.begin_analyze_document_from_url(pdf_file_path)也可以参考textin.com的restful api调用，通过python，curl，或者postman工具获得api的原始json文件，再通过ParseX解析json文件获得解析对象。import TextInParseX as px
import json

json_file = 'test_json/example.json'
with open(json_file, 'r') as fr:

json_result = json.load(fr)

parseX_client = px.ParseXClient()
result = parseX_client.begin_analyze_document_from_json(json_result)

或者直接输入json文件

result = parseX_client.begin_analyze_document_from_file(json_file)如果你想要获得全文级别的结果，例如文档的markdown信息，所有文本、表格、段落、图片信息，可以如下处理：print('Markdown:')
print(result.all_markdown)
print("\n")

print("All text in document:")

为可视化方便, 输出0-1000个字符

parseX_client.print_all_elements(result.all_text, 0, 1000)
print("\n")
print(f"Total tables in document: {len(result.all_tables)}")
for index, table in enumerate(result.all_tables):

print(f"Table {index}:")
parseX_client.print_all_elements(table)
print("\n")

print(f"Total paragraphs in document: {len(result.all_paragraphs)}")
for p_idx, each_paragraph in enumerate(result.all_paragraphs):

print(f"\n--- Paragraph {p_idx}/{len(result.all_paragraphs)} ---")
print(f"Paragraph position: {each_paragraph.pos}")
for l_idx, each_line in enumerate(each_paragraph.lines):
    print(f"  Line {l_idx}/{len(each_paragraph.lines)}")
    print(f"    Line positions: {each_line.pos}")
    print(f"  Line text: {each_line.text}")

print(f"Total images in document: {len(result.all_images)}")
for index, image in enumerate(result.all_images):

print(f"Image {index}:")
parseX_client.print_all_elements(image)
print("\n")

all_images_cv_mat = result.get_all_images_cv_mat()
print(f"Total images (as cv::Mat) in document: {len(all_images_cv_mat)}")
for idx, mat in enumerate(all_images_cv_mat):

print(f"Image {idx} (cv::Mat) shape: {mat.shape}")分别获取每页的表格信息、图片信息，段落纯文本信息，段落坐标，每行的信息：#页的索引指向pdf和文档的页，按照页数的规则，从1开始； table等版面元素的索引默认程序读取的规则，从0开始

for page in result.pages:

print(f"=== Page {page.page_id} ===")
print("\n")

for index, table in enumerate(page.tables):
    print(f"Table {index}:")
    parseX_client.print_all_elements(table)
    print("\n")

for index, image in enumerate(page.images):
    print(f"Image {index}:")
    parseX_client.print_all_elements(image) 
    print("\n")

images_cv_mat = page.get_images_cv_mat()
print(f"Total images (as cv::Mat) in page {page.page_id}: {len(images_cv_mat)}")
for idx, mat in enumerate(images_cv_mat):
    print(f"Image {idx} (cv::Mat) shape: {mat.shape}")
print("\n")

print("Text:")
# 限定只能打印前1000个字符
parseX_client.print_all_elements(page.paragraph_text, 0, 1000)  
print("\n")

# 获取当前页的段落
print(f"Total paragraphs: {len(page.paragraphs)}")
for p_idx, each_paragraph in enumerate(page.paragraphs):
    print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")
    print(f"Paragraph position: {each_paragraph.pos}")
    for l_idx, each_line in enumerate(each_paragraph.lines):
        print(f"  Line {l_idx}/{len(each_paragraph.lines)}")
        print(f"    Line positions: {each_line.pos}")
        print(f"  Line text: {each_line.text}")
print('Finished getting paragraphs')
print("\n\n")如果想获取每行的位置和文本，可以如下处理：    # 获取当前页的段落
print(f"Total paragraphs: {len(page.paragraphs)}")
for p_idx, each_paragraph in enumerate(page.paragraphs):
    print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")
    print(f"Paragraph position: {each_paragraph.pos}")
    for l_idx, each_line in enumerate(each_paragraph.lines):
        print(f"  Line {l_idx}/{len(each_paragraph.lines)}")
        print(f"    Line positions: {each_line.pos}")
        print(f"  Line text: {each_line.text}")
print('Finished getting paragraphs')
print("\n\n")2、前端组件功能介绍在解析结果审核校对、效果测评等场景下，需要可视化展示文档解析后的结果。在 TextIn.com 体验页上，我们提供丰富的可视化和交互功能，这部分前端组件现已开源！项目用ES6开发，基于React框架。仓库地址：https://github.com/intsig-textin/parsex-frontend

目前前端组件已实现以下特性：预览渲染主流图片格式和pdf文件，提供缩放和旋转功能markdown结果渲染，支持各级标题、图片、公式渲染展示各类解析元素提取展示，支持查看表格、公式、图片，和原始 JSON 结果解析元素文档位置溯源，原文画框标注各元素位置，可以点击画框跳转解析结果，也可以点击解析结果跳转原文画框各级目录树还原展示，支持点击跳转相应章节接口调用选项参数配置，支持配置不同参数组合，获取相应解析结果复制和导出markdown文件复制解析后的表格和图片，可以直接粘贴到Excel表格中以上功能，都可以在
TextIn.com 上体验使用
地址： https://www.textin.com/console/recognition/robot_markdown?service=pdf_to_markdown
后续我们将开放更多的sdk函数，例如让用户获取所有的手写元素，复选框元素，也欢迎各位用户朋友给我们提更多的类似需求。在一些国家标准、专利、扫描书的场景，用户还需要将文件解析后的结果进行校对，为了满足这样的需求，后续我们会在前端组件里面导入编辑的功能，并增加电子档pdf格式的导出功能。
Copy以下链接，即刻使用：
SDK：https://github.com/intsig-textin/parsex-sdk
前端组件：https://github.com/intsig-textin/parsex-frontend
文档解析的测评工具：https://github.com/intsig-textin/markdown_tester
文本向量化模型：https://huggingface.co/aspire/acge_text_embedding

扫描下方二维码，加入技术交流群，随时与我们技术团队小伙伴探讨你的场景需求！在TextIn官网获取新用户1000页免费额度。更多额度福利、大模型应用技术学习材料，关注公众号合研社即刻领取！

TextIn ParseX：助力开发者解析版面元素信息

初始化解析器

通过ParseX直接调用url获取解析对象

或者直接输入json文件

为可视化方便, 输出0-1000个字符

合合技术团队

引用和评论

真实场景文档理解：字节发布的WildDoc基准数据集向OCR提出了什么挑战？

一文掌握 MCP 上下文协议：从理论到实践

开放创新，昇腾 CANN 再向深处

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读