darkerth / auto_scrapy
汽车广告爬虫
dev-master
2017-05-20 12:40 UTC
This package is not auto-updated.
Last update: 2024-09-23 16:30:43 UTC
README
根据一些参数从各种立陶宛汽车广告网站上爬取今天的广告。
要求
- Python 2.7+
如何运行
- 导航到爬虫目录:
cd auto/spiders
- 使用以下命令执行爬虫:
python auto_spider.py {filename} {manufacturer} {model} {year_from} {year_to} {price_from} {price_to}
示例:python auto_spider.py response audi a4 2000 2006 0 3000
- 这将爬取2000-2006年间、价格为0-3000的奥迪A4汽车。爬取结果保存在{filename}.json文件中。
HTTPS支持
如果您需要爬取带有SSL证书的网站
sudo apt-get install libssl-dev
pip install pyopenssl --upgrade
待办事项
- 代理支持
- 深度广告爬取
- 随机延迟