推荐三款支持中文的OCR软件

网上许多书籍只有扫描来的PDF版本,有的甚至是相机拍摄制作的。虽然在PC上阅读起来还是很方便的,但有不能复制文本、索引及搜索内容的缺陷;在6寸屏的电子书设备上就更难阅读了——需要切白边、切双页等繁琐处理。而OCR软件可以识别图像中的文字,甚至识别图像中的排版格式,处理后可以将数字化的内容转换为各种格式。
在推荐三款优秀的OCR软件之前,博主首先警告大家不要使用汉王、清华紫光、尚书七号这几款传统的OCR软件。这几个软件技术落后,后两个甚至已经多年不更新。贴上汉王最新版OCR软件使用过程的截图,这么粗糙的软件实在是让人恶心——插入广告(而且是制作水平很低劣,毫无设计美感可言的广告)、不能批量识别、对中文的识别效果还不如国外软件。博主在此恶毒地诅咒汉王这种坑害国人的“民族企业”快快破产。
博主用来进行测试的扫描版PDF为《花间十六声》,14M306页。
以下为推荐软件

世界排名第一的OCR文字识别工具,提供高效和精准的文档识别、数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像、图片型PDF转化成可编辑的文本。 ABBYY FineReader可以看作是超级无敌的PDF转换器,能转换任意类型的PDF,其他PDF转换工具、或清华紫光OCR、尚书七号、汉王OCR等在它面前都可谓是浮云。比较常用的功能为:扫描到Word、将PDF/图像、图片转换为Word文档或者可编辑/可搜索的PDF文档,另外也支持将PDF/图像转换为Excel文档。

该软件为中文界面,设计上很接近Office2007的操作体验,对中文的识别效果很不错。我还发现它可以识别原来的排版格式,并在word文档中近似地展示出来。默认情况下扫描完成后直接发送到word文档。软件有训练模式,训练后识别效果又可以得到提升。
识别过程
文字识别效果,有少许错误
识别后的图文混排页面
识别出的版权页,保留了原有排版

CAJViewer全文浏览器是中国期刊网的专用全文格式阅读器, 作为光盘国家工程研究中心、同方知网公司CAJViewer系列产品的最新版本,CAJViewer可兼容阅读CAJNHKDHPDF等格式文件。

这是CNKI推出的阅读器,支持它的专有格式CAJ(国内数字图书馆广泛采用这种格式)。软件功能很强大,完美连结了中国知网,还支援几百种专业辞典查询。它对中文的OCR识别准确率在同类软件中最高,但是不能够批量识别——因为CNKI本身是靠版权生存的公司。

Wondershare PDF Converter Pro是一款具备专业转换效果的PDF转换器,支持将PDF转换为WordExcelPowerPointEPUBHTMLText等格式,转换后能保留源PDF的文本、图片、表格、超链接、页面布局与格式等信息。 转换PDFXLS/XLSX时,能够使设置是否保存表单的格式信息,如字体颜色等,转换PDFEPUB时,则可设置字体颜色及背景色。

这款软件目前只有英文界面。特色是可以直接转换为开放的epub格式,更方便在电子书设备上阅读。但实际上wordepub也是很方便的。它的转换效率和准确率与ABBYY FineReader无明显区别
特别推荐“精品绿色便携软件”博客
作者已经连续好几年制作优秀软件的便携绿色版,以上所有标注引用的软件介绍以及下载链接都来自他的网站。作者会不断更新每款绿色软件到最新版。

另外推荐一个PDF转换服务提供商——易捷
虽然以上几款软件功能已经很强大,但软件识别后还少不了人工校对,还是费时费力。不缺钱缺时间的人可以找它,5-15元每份。得到转换的书籍后,希望你可以顺便将它发布到网上,供有需要的网友下载。不过易捷上卖的PDF工具箱就没必要买了,以上推荐的软件+福昕就足够了。

2 comments

    1. 夕月木说道:

      谢谢你哇!可惜我现在才看到。

发表评论

电子邮件地址不会被公开。 必填项已用*标注