mehrdad-dadkhah / article-scrapping-php-wrapper
基于 Newspaper3k 的文章抓取和编辑的简单 PHP 包装器
Requires
- php: >=7.0
- symfony/process: >=3.0
README
基于 Newspaper3k 的文章抓取和编辑的简单 PHP 包装器
功能
- 多线程文章下载框架
- 新闻 URL 识别
- 从 HTML 提取文本
- 从 HTML 提取顶部图片
- 从 HTML 提取所有图片
- 从文本中提取关键词
- 从文本中提取摘要
- 从文本中提取作者
- 从文本中提取 Google 趋势术语
- 支持 10+ 种语言(英语、中文、德语、阿拉伯语等)
.. code-block:: pycon
>>> import newspaper
>>> newspaper.languages()
Your available languages are:
input code full name
ar Arabic
be Belarusian
bg Bulgarian
da Danish
de German
el Greek
en English
es Spanish
et Estonian
fa Persian
fi Finnish
fr French
he Hebrew
hi Hindi
hr Croatian
hu Hungarian
id Indonesian
it Italian
ja Japanese
ko Korean
lt Lithuanian
mk Macedonian
nb Norwegian (Bokmål)
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ro Romanian
ru Russian
sl Slovenian
sr Serbian
sv Swedish
sw Swahili
th Thai
tr Turkish
uk Ukrainian
vi Vietnamese
zh Chinese
立即获取
运行 ✅ pip3 install newspaper3k
✅
NOT ⛔ pip3 install newspaper
⛔
在 python3 中,您必须安装 newspaper3k
,而不是 newspaper
。 newspaper
是我们的 Python2 库。尽管使用 pip
安装 newspaper 很简单,但您如果在 ubuntu 上尝试安装,可能会遇到可解决的问题。
如果您在 Debian / Ubuntu 上,请使用以下命令进行安装
-
安装安装
newspaper3k
包所需的pip3
命令:$ sudo apt-get install python3-pip
-
Python 开发版本,用于 Python.h:
$ sudo apt-get install python-dev
-
lxml 依赖项:
$ sudo apt-get install libxml2-dev libxslt-dev
-
为了使 PIL 识别 .jpg 图片:
$ sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev
注意:如果您在安装 libpng12-dev
时遇到问题,请尝试安装 libpng-dev
。
-
下载 NLP 相关语料库:
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
-
通过 pip 安装发行版:
$ pip3 install newspaper3k
如果您在 OSX 上,请使用以下命令进行安装,您可以使用 homebrew 或 macports
::
$ brew install libxml2 libxslt
$ brew install libtiff libjpeg webp little-cms2
$ pip3 install newspaper3k
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
否则,请使用以下命令进行安装
注意:您可能仍然需要通过您的包管理器安装以下库
- PIL:
libjpeg-dev
zlib1g-dev
libpng12-dev
- lxml:
libxml2-dev
libxslt-dev
- Python 开发版本:
python-dev
::
$ pip3 install newspaper3k
$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
安装
composer require mehrdad-dadkhah/article-scrapping-php-wrapper
python:
import nltk
nltk.download('all')
用法
use MehrdadDadkhah\Scrapp\ArticleScrappingWrapper; $parser = new ArticleScrappingWrapper(); $parser->scrapp('your url');
阅读更多
(Newspaper)[https://github.com/codelucas/newspaper]
(nltk)[http://www.nltk.org/install.html]
(使用 Python 抓取和总结新闻文章)[https://medium.com/@randerson112358/scrape-summarize-news-articles-using-python-51a48af1b4e2]
(伊朗波斯语语料库)[https://wortschatz.uni-leipzig.de/en/download/iranian-persian]