概述
AI结合传统OCR技术,识别图片pdf
中的文本并提取图片生成 markdown文本
项目部分截图
工作流
图片pdf源文件
识别生成的markdown文本
项目细节
技术方案概述
(一)pdf拆分
将上传的pdf文件拆分为多个指定页数的pdf小文件
(二)AI大模型识别pdf文本内容生成markdown文本
利用ai大模型识别的pdf中的文本内容,并将文本内容转换为markdown文本,其中”图片”部分替换为”md-picture”关键字
(三)ORC识别并提取df中的图片
使用传统OCR技术识别pdf中的图片,将图片从pdf提取并上传到图片服务器,生成图片url链接
(四)markdown文本合并替换”md-picture”关键字
将所有的markdown文本合并,并将文本中的”md-picture”关键字替换为图片url链接
作者:admin 创建时间:2025-07-01 20:48
最后编辑:admin 更新时间:2025-07-11 10:07
最后编辑:admin 更新时间:2025-07-11 10:07