vmbcarabbacan / teseract-ocr
提取文本图像和PDF文件
1.0.11.3
2024-07-23 11:00 UTC
Requires
- php: ^7.2|^8.0
- ext-imagick: *
- smalot/pdfparser: *
- spatie/pdf-to-image: ^2.3
- symfony/process: *
- thiagoalessio/tesseract_ocr: ^2.13
This package is auto-updated.
Last update: 2024-09-23 11:20:59 UTC
README
#要求 确保GD库已启用在您的PHP安装中。通常您可以通过在php.ini文件中取消注释或添加以下行来启用它:extension=gd extension=imagick
在您可以使用PHP中的Imagick之前,您需要确保您的服务器上已安装并启用了Imagick扩展。如果Imagick尚未安装,您通常可以使用包管理器如apt(适用于基于Debian的系统)或yum(适用于基于CentOS/RHEL的系统)来安装它。例如,在Ubuntu上,您可以使用以下命令安装Imagick
sudo apt-get install -y php-imagick
#安装
tesseract --list-langs
#使用 以提取酋长国身份证详情
use Vmbcarabbacan\TeseractOcr\TesseractOcr; #file can be jpg, png or pdf $path = 'path/id/test.jpg' $tesseract = new TesseractOcr(); return $tesseract->setpath($path)->emiratesId()->lang('Arabic')->generateFile(); #returns emirates id, name, dob and extracted string
以提取政策详情
use Vmbcarabbacan\TeseractOcr\TesseractOcr; #file can be jpg, png or pdf $path = 'path/id/policy.pdf' $tesseract = new TesseractOcr(); return $tesseract->setpath($image)->policy()->lang('eng')->generateFile(); #returns policy number, policy start date, policy end date and extracted string