mvrc / php-email-crawler
此包已被废弃,不再维护。没有推荐替代包。
PHP 网站邮件爬虫,用于抓取网站的电子邮件。
dev-master
2020-08-06 02:14 UTC
This package is auto-updated.
Last update: 2021-03-06 03:35:47 UTC
README
Simple Email Crawler
A PHP Email Crawler. 使用 simple_html_dom 爬取单个网站或多个网站的电子邮件地址。
功能
- 从目标网站抓取电子邮件
- 即使电子邮件地址的 @ 符号是 (at) 或其他符号,也能抓取电子邮件!(检查 classes/config.class.php 以控制正则表达式)
- 深度抓取(爬虫会在目标网站上导航)(检查 classes/config.class.php 以控制路径)
- 轻松输出为逗号分隔列表或纯文本
- 批量爬取网站(进行中)
- 过滤掉重复的电子邮件地址
- 在爬取之前测试网站连接并验证链接
- 在返回之前验证电子邮件以确保它们有效
安装
git clone https://github.com/marcosraudkett/simple-email-crawler.git
用法
使用自动加载器包含
<?php /* use autoloader */ require_once "/path/to/includes/init.php"; ?>
不使用自动加载器包含
<?php /* include email_crawler */ require_once "/path/to/classes/email_crawler.class.php"; ?>
爬取一个网站
<?php /* Your url that you wish to crawl */ $url = 'http://example-site.com'; $crawler = new email_crawler($url, false); $crawl = $crawler->crawl_site(); if($crawl['results'] != '') { if(count($crawl['results']) != 0) { foreach($crawl['results'] as $result) { echo $result['email'].' (Element: '.$result['element'].') <br>'; } } } /* Example output: info@examplemail.com (Element: a) info@example.com (Element: p) info@divexample.com (Element: div) info@spanexample.com (Element: span) */ ?>
爬取一个网站(输出为逗号分隔列表)
<?php /* Your url that you wish to crawl */ $url = 'http://example-site.com'; /* settings: unique: true, depth: null, print_type: list (comma separated) */ $crawler = new email_crawler($url, true, null, 'list'); $crawl = $crawler->crawl_site(); if($crawl != '') { print_r($crawl); } /* Example output: info@examplemail.com, info@example.com, info@divexample.com, info@spanexample.com */ ?>
爬取一个网站(纯文本列表)
<?php /* Your url that you wish to crawl */ $url = 'http://example-site.com'; /* settings: unique: false, depth: null, print_type: emails_only_plain */ $crawler = new email_crawler($url, false, null, 'emails_only_plain'); $crawl = $crawler->crawl_site(); if($crawl != '') { print_r($crawl); } /* Example output: info@examplemail.com info@example.com info@divexample.com info@spanexample.com */ ?>
贡献
欢迎帮助此项目,或者如果您发现了错误,请随时访问 问题页面。