Java使用Tess4J实现图像文字识别
OCR技术
OCR(Optical Character Recognition),光学字符识别的意思,也被称作文字识别。简单讲就是对图片文件中的文字进行识别和提取的过程。现实生活中使用的场景也非常多,比如文件扫描、车牌号识别、图片内容识别等。图像识别也是人工智能的一个重要领域。
Tess4J
Tesseract是一个开源的OCR引擎,Tess4J则是对Tesseract OCR API的Java JNA封装,使java能够通过调用Tess4J的API来使用Tesseract OCR。Tesseract OCR是支持Tess4J进文件文字识别的基础,Tess4J支持TIFF、JPEG、GIF、PNG、BMP、PDF等格式。Tess4J可直接使用Maven方式引入。
快速体验
环境信息
操作系统:Ubuntu 18.04.6 LTS
JDK:openjdk version "1.8.0_352"
Maven:Apache Maven 3.6.0
1、安装Tesseract
按照官方文档安装Tesseract,Ubuntu系统可以直接通过apt来安装。
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
2、新建maven工程,引入tess4j依赖。
<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifac...
点击查看剩余70%
网友评论