shababsoftwares/ocr-text-extractor

这是一个简单的PHP项目,使用Tesseract从任何图像中提取文本。

v1.0 2024-01-19 10:37 UTC

This package is auto-updated.

Last update: 2024-09-19 17:16:07 UTC


README

Downloads License

这是一个使用Tesseract-OCR读取和提取任何图像中的文本的简单PHP代码。

安装

首先,通过Composer安装此包。

composer create-project shababsoftwares/ocr-text-extractor

如何安装Tesseract-OCR

您需要安装Tesseract-OCR并设置环境变量。

在Windows 10,11上

安装指南请参考此链接 如何在Windows上安装tesseract ocr

安装Tesseract-OCR,编辑环境系统变量,添加新的路径 %InstalationPath%/Tesseract-OCR,例如 C:\Program Files (x86)\Tesseract-OCR

在系统变量中添加新变量:变量名 TESSDATA_PREFIX,变量值 %InstalledPath%/Tesseract-OCR // C:\Program Files (x86)\Tesseract-OCR\

在Linux / ubuntu上

步骤1:更新您的系统,通过更新APT索引开始安装过程。

    sudo apt update

步骤2:将Tesseract OCR 5 PPA添加到您的系统中。要将Tesseract OCR 5 PPA添加到您的系统,运行以下命令

    sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel

步骤3:在Ubuntu上安装Tesseract 运行以下命令

    sudo apt install -y tesseract-ocr

安装完成后,更新您的系统

    sudo apt update 

确认已安装的Tesseract版本。

    $ tesseract --version

设置图像路径和输出文本文件路径。

shell_exec('"C:\\Program Files (x86)\\Tesseract-OCR\\tesseract" "C:\\xampp\\htdocs\\OCR-Text-Recognition\\images\\'.$file_name.'" out');

许可证

MIT许可证(MIT)。有关更多信息,请参阅LICENSE

Shabab Softwares

www.shababsoftwares.com

Shabab Softwares (c) 2024