2dareis2do / newspaper-playwright-wrapper
用于Newspaper3/4k文章和Playwright抓取与整理的PHP包装器
Requires
- php: >=7.0
- symfony/process: ^6.0 || ^7.0
README
一个简单的PHP包装器,用于Newspaper3/4k文章抓取和整理,支持Playwright。
使用Newspaper3/4k脚本与Playwright的结合,可以实现对每个网站cookie和所需动作的自动化处理。
现在您还可以传递一个抓取方法的第三个参数。这允许您按站点覆盖包含的ArticleScraping.py。
安装必要的包
pip install newspaper4k
pip install playwright
python -m playwright install
python -m playwright install-deps
特性
- 多线程文章下载框架
- 新闻URL识别
- 从HTML中提取文本
- 从HTML中提取顶部图片
- 从HTML中提取所有图片
- 从文本中提取关键词
- 从文本中提取摘要
- 从文本中提取作者
- 提取谷歌趋势术语
- 支持10+种语言(英语、中文、德语、阿拉伯语等)
.. code-block:: pycon
>>> import newspaper
>>> newspaper.languages()
Your available languages are:
input code full name
ar Arabic
be Belarusian
bg Bulgarian
da Danish
de German
el Greek
en English
es Spanish
et Estonian
fa Persian
fi Finnish
fr French
he Hebrew
hi Hindi
hr Croatian
hu Hungarian
id Indonesian
it Italian
ja Japanese
ko Korean
lt Lithuanian
mk Macedonian
nb Norwegian (Bokmål)
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ro Romanian
ru Russian
sl Slovenian
sr Serbian
sv Swedish
sw Swahili
th Thai
tr Turkish
uk Ukrainian
vi Vietnamese
zh Chinese
立即获取
运行 ✅ pip3 install newspaper3k
✅
不要 ⛔ pip3 install newspaper
⛔
在python3上,您必须安装newspaper3k
,而不是 newspaper
。 newspaper
是我们的python2库。虽然使用pip安装newspaper很简单,但您如果在ubuntu上尝试安装,可能会遇到可修复的问题。
如果您在Debian / Ubuntu上,请使用以下命令安装
-
安装安装
newspaper3k
包所需的pip3
命令:$ sudo apt-get install python3-pip
-
Python开发版本,需要Python.h:
$ sudo apt-get install python-dev
-
lxml需求:
$ sudo apt-get install libxml2-dev libxslt-dev
-
为了使PIL能够识别.jpg图片:
$ sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev
注意:如果您在安装libpng12-dev
时遇到问题,请尝试安装libpng-dev
。
-
下载NLP相关语料库:
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
-
通过pip安装分布:
$ pip3 install newspaper3k
如果您在OSX上,请使用以下命令安装,您可以使用homebrew或macports
::
$ brew install libxml2 libxslt
$ brew install libtiff libjpeg webp little-cms2
$ pip3 install newspaper3k
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
否则,请使用以下命令安装
注意:您仍然可能需要通过包管理器安装以下库
- PIL:
libjpeg-dev
zlib1g-dev
libpng12-dev
- lxml:
libxml2-dev
libxslt-dev
- Python开发版本:
python-dev
::
$ pip3 install newspaper3k
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
安装
composer require 2dareis2do/newspaper-playwright-wrapper
一次性下载句子分词器
安装NLTK包后,请安装特定功能所需的数据集/模型。
特别是您需要Punkt句子分词器。https://www.nltk.org/api/nltk.tokenize.punkt.html
例如:
$ python
加载python解释器
>>> import nltk
>>> nltk.download('all')
或者
>>> nltk.download('punkt')
用法
use Twodareis2do\ScrapeNewspaperPlaywright\NewspaperPlaywrightWrapper; $parser = new NewspaperPlaywrightWrapper(); $parser->scrape('your url', false);
阅读更多
(Newspaper)[https://github.com/codelucas/newspaper]
(nltk)[http://www.nltk.org/install.html]
(使用Python抓取和总结新闻文章)[https://medium.com/@randerson112358/scrape-summarize-news-articles-using-python-51a48af1b4e2]