暂无相关搜索结果！

AI大模型识别图文PDF并生成markdown文本

修改时间： 2026-03-13T11:11:23+08:00 阅读次数：1123

概述
项目部分截图
工作流
图片pdf源文件
识别生成的markdown文本
项目细节
技术方案概述
（一）pdf拆分
（二）AI大模型识别pdf文本内容生成markdown文本
（三）ORC识别并提取df中的图片
（四）markdown文本合并替换”md-picture”关键字
测试案例

概述

AI结合传统OCR技术，识别图片pdf中的文本并提取图片生成 markdown文本

项目部分截图

工作流

图片pdf源文件

识别生成的markdown文本

项目细节

技术方案概述

（一）pdf拆分

将上传的pdf文件拆分为多个指定页数的pdf小文件

（二）AI大模型识别pdf文本内容生成markdown文本

利用ai大模型识别的pdf中的文本内容，并将文本内容转换为markdown文本，其中”图片”部分替换为”md-picture”关键字

（三）ORC识别并提取df中的图片

使用传统OCR技术识别pdf中的图片，将图片从pdf提取并上传到图片服务器，生成图片url链接

（四）markdown文本合并替换”md-picture”关键字

将所有的markdown文本合并，并将文本中的”md-picture”关键字替换为图片url链接

测试案例

测试地址：http://10.254.31.137:30000/workflow/bpjOz0SpJt3ROEWe

点击“从本地上传”，上传要转换的pdf文件，之后点击“运行”开始执行

执行成功后会输出“文件下载链接”

文件中是转换后的markdown文本内容

附件

test.pdf

作者：admin 创建时间：2025-07-01 20:48
最后编辑：陈晓东更新时间：2026-03-13 11:01