python爬虫新类库requests-html,事半功倍
用过requests库的同学都应该都喜欢他的简洁优雅,现在requests-html同样优雅,而且从名称可以看出应该是解析html的库,下面先简单的介绍一下使用方法,然后再来编写一个爬虫
从requests-html的Github的主页,我们可以看到这个库有以下功能特点:
支持JavaScript
支持CSS选择器。
支持xpath选择器
模拟用户代理
自动重定向
连接池和COOKIE持久性
支持异步
一、安装
pip install requests-html
先看一个例子
from requests_html import HTMLSession session = HTMLSession() def parse(): r = session.get('http://www.qdaily.com/') # 获取首页新闻标签、图片、标题、发布时间 for x in r.html.find('.packery-item'): yield { 'tag': x.find('.category')[0].text, 'image': x.find('.lazyload')[0].attrs['data-src'], ...
点击查看剩余70%
网友评论0