网站首页 > 技术文章 正文
MonkeyOCR是上个月刚发布的一款文档解析工具,可以将PDF文档或图片识别转换为markdown格式文件。官方测试显示性能极佳。我基于当前最新版制作了免安装一键启动整合包,支持批量操作,并降低了显卡要求。
MonkeyOCR官方介绍
MonkeyOCR 采用结构-识别-关系 (SRR) 三重范式,简化了模块化方法的多工具流程,同时避免了使用大型多模式模型进行全页文档处理的低效率。
- 与基于流水线的方法MinerU相比,我们的方法在九种类型的中英文文档上平均提高了5.1%,其中公式提高了15.0%,表格提高了8.6%。
- 与端到端模型相比,我们的 3B 参数模型在英文文档上取得了最佳平均性能,优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。
- 对于多页文档解析,我们的方法达到了每秒 0.84 页的处理速度,超过了 MinerU(0.65)和 Qwen2.5 VL-7B(0.12)。
MonkeyOCR整合包使用说明
将网盘内的软件压缩包下载到本地电脑上并解压。双击【启动软件.exe】
选择待处理文件,或是将文件或文件夹鼠标左键按住拖动到软件窗口内释放。
输入文件路径就处理文件,输入文件夹路径就处理文件夹内所有pdf文档
【组大小】按特定分组大小对输入路径(一个目录)中的图像进行分组解析
【nums】这是我自己添加的一个参数,因为原应用用起来有些问题,这个主要是增加对低端显卡的支持,如果显卡为20X6G等低端显卡,运行报错的话尝试设置为1.如果显卡为40X高端大显存显卡可尝试增大该值,会影响处理速度。如果软件没有报错的话建议保持默认即可。
【单任务】单任务识别,如识别文本、公式、表格,(仅输出 Markdown 格式)
【输出单页面】解析 PDF 并按页面拆分结果
默认只输入待处理文件和保存位置即可,没有必要的话其它设置可不用管。
软件支持批量操作,输入文件夹路径或是将文件夹拖入软件窗口即可。
视频教程及效果演示:
注意事项
未测试最低配置要求,建议英伟达显卡显存不低于6G,如果报错:No enough gpu memory for runtime。则需要更多显存
软件只支持windows 10或11
软件运行路径中不要有非英文字符及空格,待处理文件同样注意
PDF转MD软件MonkeyOCR整合包下载链接
猜你喜欢
- 2025-07-23 零基础入门AI智能体:智能体介绍(智能体类型)
- 2025-07-23 Python轻松实现markdown转网页,完美支持mermaid图表、latex公式
- 2025-07-23 iPadOS 26备忘录再升级:支持通话录音转录、Markdown导出
- 2025-07-23 一款能打破 Markdown 天花板的神器 —— Quarkdown
- 2025-07-23 网上的好文章,一键转存成 Markdown,永久阅读!
- 2025-04-26 3款 .NET 开源的编辑器,包含代码、文本和Markdown编辑功能!
- 2025-04-26 Markdown 格式如何转换成 Word?
- 2025-04-26 jupyter lab修改默认文件目录
- 2025-04-26 一款优秀的微信Markdown编辑神器及私有化部署流程
- 2025-04-26 PDF文件转markdown格式软件Marker1.6.1版整合包下载
- 1517℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 594℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 521℃MySQL service启动脚本浅析(r12笔记第59天)
- 489℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 489℃启用MySQL查询缓存(mysql8.0查询缓存)
- 477℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 456℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 454℃MySQL server PID file could not be found!失败
- 最近发表
-
- PS所有滤镜的说明(六)(ps滤镜详解)
- 5款小白也能用的在线图片编辑器!电商效率飙升就靠它!
- Java变量(java变量有什么作用)
- Java面试常见问题:Java注解(java中的面试题)
- Java编程入门第一课:HelloWorld(java编程从入门到实践)
- Java基础教程:Java继承概述(java里继承的概述)
- java基础之——访问修饰符(private/default/protected/public)
- 如何规划一个合理的JAVA项目工程结构
- 将机器指令翻译成 JavaScript -- 终极目标
- Web 服务器基准测试:Go vs. Node.js vs. Nim vs. Bun
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (81)
- es6includes (73)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- c语言min函数头文件 (68)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)