mvrc/php-email-crawler

此包已被废弃,不再维护。没有推荐替代包。

PHP 网站邮件爬虫,用于抓取网站的电子邮件。

dev-master 2020-08-06 02:14 UTC

This package is auto-updated.

Last update: 2021-03-06 03:35:47 UTC


README

CircleCI

Simple Email Crawler

A PHP Email Crawler. 使用 simple_html_dom 爬取单个网站或多个网站的电子邮件地址。

功能

  • 从目标网站抓取电子邮件
  • 即使电子邮件地址的 @ 符号是 (at) 或其他符号,也能抓取电子邮件!(检查 classes/config.class.php 以控制正则表达式)
  • 深度抓取(爬虫会在目标网站上导航)(检查 classes/config.class.php 以控制路径)
  • 轻松输出为逗号分隔列表或纯文本
  • 批量爬取网站(进行中)
  • 过滤掉重复的电子邮件地址
  • 在爬取之前测试网站连接并验证链接
  • 在返回之前验证电子邮件以确保它们有效

安装

git clone https://github.com/marcosraudkett/simple-email-crawler.git

用法

使用自动加载器包含

<?php
  /* use autoloader */
  require_once "/path/to/includes/init.php";
?>
不使用自动加载器包含
<?php
  /* include email_crawler */
  require_once "/path/to/classes/email_crawler.class.php";
?>
爬取一个网站
<?php
  /* Your url that you wish to crawl */
  $url = 'http://example-site.com';
  $crawler = new email_crawler($url, false);
  $crawl = $crawler->crawl_site();
  
  if($crawl['results'] != '')
  {
    if(count($crawl['results']) != 0) 
    {
      foreach($crawl['results'] as $result) 
      {
        echo $result['email'].' (Element: '.$result['element'].') <br>'; 
      }
    }
  }
  
  /* 
  Example output:
    info@examplemail.com (Element: a) 
    info@example.com (Element: p) 
    info@divexample.com (Element: div) 
    info@spanexample.com (Element: span) 
  */
?>
爬取一个网站(输出为逗号分隔列表)
<?php
  /* Your url that you wish to crawl */
  $url = 'http://example-site.com';
  /* settings: unique: true, depth: null, print_type: list (comma separated) */
  $crawler = new email_crawler($url, true, null, 'list');
  $crawl = $crawler->crawl_site();
  if($crawl != '') { print_r($crawl); }
  
  /* 
  Example output:
    info@examplemail.com, info@example.com, info@divexample.com, info@spanexample.com
  */
?>
爬取一个网站(纯文本列表)
<?php
  /* Your url that you wish to crawl */
  $url = 'http://example-site.com';
  /* settings: unique: false, depth: null, print_type: emails_only_plain */
  $crawler = new email_crawler($url, false, null, 'emails_only_plain');
  $crawl = $crawler->crawl_site();
  if($crawl != '') { print_r($crawl); }
  
  /* 
  Example output:
    info@examplemail.com info@example.com info@divexample.com info@spanexample.com
  */
  
?>

贡献

欢迎帮助此项目,或者如果您发现了错误,请随时访问 问题页面