设为首页收藏本站

 找回密码
 立即注册

只需一步,快速开始

搜索
查看: 191|回复: 18

[实用软件] 做了个不用联网本地使用的paddleocr识别程序,主要是把pdf to txt

 火.. [复制链接]
累计签到:34 天
连续签到:1 天
灌水成绩
15
68
5671
主题
帖子
积分

等级头衔

ID : 690

助理工程师

积分成就 测量币 : 5671
在线时间 : 0 小时
注册时间 : 2026-3-3
最后登录 : 2026-7-4

勋章
UID勋章测量学徒测量员
发表于 2026-4-21 14:29:35 | 显示全部楼层 |阅读模式 IP:北京
最近下载了不少pdf文件,手机看起来费劲,没找到合心意的,就打包了百度的paddleoce(3.2版本),本地使用不用联网,主要是把pdf和图片转变成txt文件。
使用的是PP-OCRv5_mobile_det,为啥用它,电脑破而已,带不起服务端。如果你电脑牛逼,你可以修改dxc.py把模型换成服务端试试。

蓝奏网盘总上传失败,只能百度:https://pan.baidu.com/s/1mk91OEnmnDqpiV3tDD70iw?pwd=1111,下载里面的paddleocr.rar压缩包,解压到任意目录(不要包含中文,根目录最好),双击运行1.bat。
提取码:1111
简单的一批就不做图形界面了,总共就4步,dxc.py是主脚本,你可修改成你需要的功能:

1.拖入文件回车,然后选择提取的页面范围。
2.选择横竖版面,直接回车就是自动识别(如果是竖版的话,是从右往左提取的)。
3.选择放大倍数,如果字体太小导致识别率不高时,可适当放大到1.5,2倍
4.选择线程数,超过10个页面才会出现这个选择,cpu好的可试试6,8。完成后文件保存在程序目录。
累计签到:59 天
连续签到:47 天
灌水成绩
2
223
14807
主题
帖子
积分

等级头衔

ID : 523

中级工程师

积分成就 测量币 : 14807
在线时间 : 519 小时
注册时间 : 2026-2-17
最后登录 : 2026-7-5

勋章
发表于 2026-4-23 08:24:19 | 显示全部楼层 IP:北京
步骤很详细,照着做就能实现。
回复

使用道具 举报

累计签到:27 天
连续签到:1 天
灌水成绩
1
169
11238
主题
帖子
积分

等级头衔

ID : 595

中级工程师

积分成就 测量币 : 11238
在线时间 : 0 小时
注册时间 : 2025-12-6
最后登录 : 2026-6-18

勋章
UID勋章测量学徒测量员
发表于 2026-4-30 02:09:19 | 显示全部楼层 IP:广东东莞
内容很扎实,经得起推敲。
回复

使用道具 举报

累计签到:58 天
连续签到:47 天
灌水成绩
4
225
14506
主题
帖子
积分

等级头衔

ID : 570

中级工程师

积分成就 测量币 : 14506
在线时间 : 528 小时
注册时间 : 2025-10-20
最后登录 : 2026-7-5

勋章
UID勋章测量学徒测量员
发表于 2026-4-30 02:09:19 | 显示全部楼层 IP:广东东莞
适合查漏补缺,巩固知识点。
回复

使用道具 举报

累计签到:57 天
连续签到:45 天
灌水成绩
3
203
13239
主题
帖子
积分

等级头衔

ID : 520

中级工程师

积分成就 测量币 : 13239
在线时间 : 515 小时
注册时间 : 2025-11-1
最后登录 : 2026-7-5

勋章
UID勋章测量学徒测量员
发表于 2026-5-1 01:21:43 | 显示全部楼层 IP:广东东莞
很多细节平时容易忽略,这篇提醒到了。
回复

使用道具 举报

累计签到:52 天
连续签到:47 天
灌水成绩
3
236
15725
主题
帖子
积分

等级头衔

ID : 531

中级工程师

积分成就 测量币 : 15725
在线时间 : 521 小时
注册时间 : 2026-1-28
最后登录 : 2026-7-5

勋章
UID勋章测量学徒测量员
发表于 2026-5-1 01:41:59 | 显示全部楼层 IP:广东东莞
知识点讲得很系统,不是零散堆砌。
回复

使用道具 举报

累计签到:62 天
连续签到:44 天
灌水成绩
3
227
14070
主题
帖子
积分

等级头衔

ID : 512

中级工程师

积分成就 测量币 : 14070
在线时间 : 519 小时
注册时间 : 2025-9-22
最后登录 : 2026-7-5

勋章
UID勋章测量学徒测量员
发表于 2026-5-1 01:43:51 | 显示全部楼层 IP:广东东莞
对比了好几篇,这篇最靠谱。
回复

使用道具 举报

累计签到:63 天
连续签到:42 天
灌水成绩
2
252
15478
主题
帖子
积分

等级头衔

ID : 586

中级工程师

积分成就 测量币 : 15478
在线时间 : 525 小时
注册时间 : 2026-1-15
最后登录 : 2026-7-5

勋章
UID勋章测量学徒测量员
发表于 2026-5-1 01:43:51 | 显示全部楼层 IP:广东东莞
对底层原理讲得很清楚。
回复

使用道具 举报

累计签到:6 天
连续签到:2 天
灌水成绩
2
43
2332
主题
帖子
积分

等级头衔

ID : 1084

高级技术员

积分成就 测量币 : 2332
在线时间 : 0 小时
注册时间 : 2026-1-24
最后登录 : 2026-6-11

勋章
测量员UID勋章测量学徒
发表于 2026-5-10 07:03:23 | 显示全部楼层 IP:沙特阿拉伯
代码简洁优雅,学到了。
回复

使用道具 举报

累计签到:34 天
连续签到:2 天
灌水成绩
2
197
4081
主题
帖子
积分

等级头衔

ID : 891

助理工程师

积分成就 测量币 : 4081
在线时间 : 0 小时
注册时间 : 2025-9-18
最后登录 : 2026-6-19

勋章
UID勋章测量学徒测量员
发表于 2026-5-15 18:01:22 | 显示全部楼层 IP:美国
好帖,来顶下
回复

使用道具 举报

快速回复换一批
路过留名
马克一下
楼主好人一生平安
看帖回帖是美德。 悄悄地我来了,顺便留下一条充满正能量的回帖。 🌊🤝
博大精深。 关注楼主了,以后这类硬核文章请务必多发一些! 🔔❤️
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|精密测量技术论坛 ( 桂ICP备2026007449号-1 )

GMT+8, 2026-7-5 10:51 , Processed in 0.623457 second(s), 52 queries .

Powered by 精密测量技术论坛

© 2025-2026 联系站长

快速回复 返回顶部 返回列表