据说最好用的OCR工具是ABBYY的,适合于转换很多页面的PDF,不过这家伙收费。
另外Office套件中的OneNote识别效果也很好,只是只能一张一张地识别图片。
免费的看这个链接介绍的不错:Free OCR Software Downloads

其中Free OCR,它使用的是Google维护的OCR开源引擎tesseract,当前在github上star数是16.4K。并且可以从tesseract上下载任一语言的识别引擎。下载下来放到C:\FreeOCR\tessdata中就可以了。
我下载了中文的识别文件有40~50MB,可是使用Free OCR会导致其崩溃...

tesseract对中文的识别似乎不是很好,网上说都需要进行训练,比如这篇:
Tesseract-OCR识别中文与训练字库实例
Windows下Tesseract4.0识别与中文手写字体训练

标签: none 阅读量: 1242

添加新评论