开源Tesseract.js能够识别提取图片中文字

Tesseract.js是一个Tesseract OCR(文字识别软件)引擎,能够识别并提前图片中各种语言的文字,支持60多种语言。

比如图片文件中有以下诗句:
冬日平泉路晚归
山路难行日易斜
烟村霜树欲栖鸦
夜归不到应闲事
热饮三杯即是家

Tesseract.js能够从图片中完整提取这首诗句,现在微信微博经常是将文章变成图片发表,现在有了这个工具,我们可以将图片又转回文字了。

使用很简单:



Tesseract.recognize(myImage)
.progress(function (p) { console.log('progress', p) })
.then(function (result) { console.log('result', result) })


GitHub - naptha/tesseract.js: Pure Javascript OCR