shababsoftwares / ocr-text-extractor
这是一个简单的PHP项目,使用Tesseract从任何图像中提取文本。
v1.0
2024-01-19 10:37 UTC
Requires
- php: ^7.2
README
这是一个使用Tesseract-OCR读取和提取任何图像中的文本的简单PHP代码。
安装
首先,通过Composer安装此包。
composer create-project shababsoftwares/ocr-text-extractor
如何安装Tesseract-OCR
您需要安装Tesseract-OCR并设置环境变量。
在Windows 10,11上
安装指南请参考此链接 如何在Windows上安装tesseract ocr
安装Tesseract-OCR,编辑环境系统变量,添加新的路径 %InstalationPath%/Tesseract-OCR
,例如 C:\Program Files (x86)\Tesseract-OCR
在系统变量中添加新变量:变量名 TESSDATA_PREFIX
,变量值 %InstalledPath%/Tesseract-OCR
// C:\Program Files (x86)\Tesseract-OCR\
在Linux / ubuntu上
步骤1:更新您的系统,通过更新APT索引开始安装过程。
sudo apt update
步骤2:将Tesseract OCR 5 PPA添加到您的系统中。要将Tesseract OCR 5 PPA添加到您的系统,运行以下命令
sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel
步骤3:在Ubuntu上安装Tesseract 运行以下命令
sudo apt install -y tesseract-ocr
安装完成后,更新您的系统
sudo apt update
确认已安装的Tesseract版本。
$ tesseract --version
设置图像路径和输出文本文件路径。
shell_exec('"C:\\Program Files (x86)\\Tesseract-OCR\\tesseract" "C:\\xampp\\htdocs\\OCR-Text-Recognition\\images\\'.$file_name.'" out');
许可证
MIT许可证(MIT)。有关更多信息,请参阅LICENSE。
Shabab Softwares
Shabab Softwares (c) 2024