2dareis2do/newspaper-playwright-wrapper

用于Newspaper3/4k文章和Playwright抓取与整理的PHP包装器

1.0.5 2024-06-13 14:04 UTC

This package is auto-updated.

Last update: 2024-09-13 14:43:49 UTC


README

Software License Packagist Version

一个简单的PHP包装器,用于Newspaper3/4k文章抓取和整理,支持Playwright。

使用Newspaper3/4k脚本与Playwright的结合,可以实现对每个网站cookie和所需动作的自动化处理。

现在您还可以传递一个抓取方法的第三个参数。这允许您按站点覆盖包含的ArticleScraping.py。

安装必要的包

pip install newspaper4k
pip install playwright
python -m playwright install
python -m playwright install-deps

特性

  • 多线程文章下载框架
  • 新闻URL识别
  • 从HTML中提取文本
  • 从HTML中提取顶部图片
  • 从HTML中提取所有图片
  • 从文本中提取关键词
  • 从文本中提取摘要
  • 从文本中提取作者
  • 提取谷歌趋势术语
  • 支持10+种语言(英语、中文、德语、阿拉伯语等)

.. code-block:: pycon

>>> import newspaper
>>> newspaper.languages()

Your available languages are:
input code      full name

  ar              Arabic
  be              Belarusian
  bg              Bulgarian
  da              Danish
  de              German
  el              Greek
  en              English
  es              Spanish
  et              Estonian
  fa              Persian
  fi              Finnish
  fr              French
  he              Hebrew
  hi              Hindi
  hr              Croatian
  hu              Hungarian
  id              Indonesian
  it              Italian
  ja              Japanese
  ko              Korean
  lt              Lithuanian
  mk              Macedonian
  nb              Norwegian (Bokmål)
  nl              Dutch
  no              Norwegian
  pl              Polish
  pt              Portuguese
  ro              Romanian
  ru              Russian
  sl              Slovenian
  sr              Serbian
  sv              Swedish
  sw              Swahili
  th              Thai
  tr              Turkish
  uk              Ukrainian
  vi              Vietnamese
  zh              Chinese

立即获取

运行 ✅ pip3 install newspaper3k

不要 ⛔ pip3 install newspaper

在python3上,您必须安装newspaper3k而不是 newspapernewspaper是我们的python2库。虽然使用pip安装newspaper很简单,但您如果在ubuntu上尝试安装,可能会遇到可修复的问题。

如果您在Debian / Ubuntu上,请使用以下命令安装

  • 安装安装newspaper3k包所需的pip3命令:

    $ sudo apt-get install python3-pip

  • Python开发版本,需要Python.h:

    $ sudo apt-get install python-dev

  • lxml需求:

    $ sudo apt-get install libxml2-dev libxslt-dev

  • 为了使PIL能够识别.jpg图片:

    $ sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev

注意:如果您在安装libpng12-dev时遇到问题,请尝试安装libpng-dev

如果您在OSX上,请使用以下命令安装,您可以使用homebrew或macports

::

$ brew install libxml2 libxslt

$ brew install libtiff libjpeg webp little-cms2

$ pip3 install newspaper3k

$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

否则,请使用以下命令安装

注意:您仍然可能需要通过包管理器安装以下库

  • PIL:libjpeg-dev zlib1g-dev libpng12-dev
  • lxml:libxml2-dev libxslt-dev
  • Python开发版本:python-dev

::

$ pip3 install newspaper3k

$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

安装

composer require 2dareis2do/newspaper-playwright-wrapper

一次性下载句子分词器

安装NLTK包后,请安装特定功能所需的数据集/模型。

特别是您需要Punkt句子分词器。https://www.nltk.org/api/nltk.tokenize.punkt.html

例如:

$ python

加载python解释器

>>> import nltk
>>> nltk.download('all')

或者

>>> nltk.download('punkt')

用法

use Twodareis2do\ScrapeNewspaperPlaywright\NewspaperPlaywrightWrapper;

$parser = new NewspaperPlaywrightWrapper();

$parser->scrape('your url', false);

阅读更多

(Newspaper)[https://github.com/codelucas/newspaper]

(nltk)[http://www.nltk.org/install.html]

(使用Python抓取和总结新闻文章)[https://medium.com/@randerson112358/scrape-summarize-news-articles-using-python-51a48af1b4e2]