mehrdad-dadkhah/article-scrapping-php-wrapper

基于 Newspaper3k 的文章抓取和编辑的简单 PHP 包装器

1.0.5 2020-09-30 06:55 UTC

This package is auto-updated.

Last update: 2024-09-29 05:22:28 UTC


README

基于 Newspaper3k 的文章抓取和编辑的简单 PHP 包装器

Software License Packagist Version

功能

  • 多线程文章下载框架
  • 新闻 URL 识别
  • 从 HTML 提取文本
  • 从 HTML 提取顶部图片
  • 从 HTML 提取所有图片
  • 从文本中提取关键词
  • 从文本中提取摘要
  • 从文本中提取作者
  • 从文本中提取 Google 趋势术语
  • 支持 10+ 种语言(英语、中文、德语、阿拉伯语等)

.. code-block:: pycon

>>> import newspaper
>>> newspaper.languages()

Your available languages are:
input code      full name

  ar              Arabic
  be              Belarusian
  bg              Bulgarian
  da              Danish
  de              German
  el              Greek
  en              English
  es              Spanish
  et              Estonian
  fa              Persian
  fi              Finnish
  fr              French
  he              Hebrew
  hi              Hindi
  hr              Croatian
  hu              Hungarian
  id              Indonesian
  it              Italian
  ja              Japanese
  ko              Korean
  lt              Lithuanian
  mk              Macedonian
  nb              Norwegian (Bokmål)
  nl              Dutch
  no              Norwegian
  pl              Polish
  pt              Portuguese
  ro              Romanian
  ru              Russian
  sl              Slovenian
  sr              Serbian
  sv              Swedish
  sw              Swahili
  th              Thai
  tr              Turkish
  uk              Ukrainian
  vi              Vietnamese
  zh              Chinese

立即获取

运行 ✅ pip3 install newspaper3k

NOT ⛔ pip3 install newspaper

在 python3 中,您必须安装 newspaper3k而不是 newspapernewspaper 是我们的 Python2 库。尽管使用 pip 安装 newspaper 很简单,但您如果在 ubuntu 上尝试安装,可能会遇到可解决的问题。

如果您在 Debian / Ubuntu 上,请使用以下命令进行安装

  • 安装安装 newspaper3k 包所需的 pip3 命令:

    $ sudo apt-get install python3-pip

  • Python 开发版本,用于 Python.h:

    $ sudo apt-get install python-dev

  • lxml 依赖项:

    $ sudo apt-get install libxml2-dev libxslt-dev

  • 为了使 PIL 识别 .jpg 图片:

    $ sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev

注意:如果您在安装 libpng12-dev 时遇到问题,请尝试安装 libpng-dev

如果您在 OSX 上,请使用以下命令进行安装,您可以使用 homebrew 或 macports

::

$ brew install libxml2 libxslt

$ brew install libtiff libjpeg webp little-cms2

$ pip3 install newspaper3k

$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

否则,请使用以下命令进行安装

注意:您可能仍然需要通过您的包管理器安装以下库

  • PIL:libjpeg-dev zlib1g-dev libpng12-dev
  • lxml:libxml2-dev libxslt-dev
  • Python 开发版本:python-dev

::

$ pip3 install newspaper3k

$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

安装

composer require mehrdad-dadkhah/article-scrapping-php-wrapper
python:

import nltk
nltk.download('all')

用法

use MehrdadDadkhah\Scrapp\ArticleScrappingWrapper;

$parser = new ArticleScrappingWrapper();

$parser->scrapp('your url');

阅读更多

(Newspaper)[https://github.com/codelucas/newspaper]

(nltk)[http://www.nltk.org/install.html]

(使用 Python 抓取和总结新闻文章)[https://medium.com/@randerson112358/scrape-summarize-news-articles-using-python-51a48af1b4e2]

(伊朗波斯语语料库)[https://wortschatz.uni-leipzig.de/en/download/iranian-persian]