python爬虫新类库requests-html,事半功倍

用过requests库的同学都应该都喜欢他的简洁优雅,现在requests-html同样优雅,而且从名称可以看出应该是解析html的库,下面先简单的介绍一下使用方法,然后再来编写一个爬虫
从requests-html的Github的主页,我们可以看到这个库有以下功能特点:
支持JavaScript
支持CSS选择器。
支持xpath选择器
模拟用户代理
自动重定向
连接池和COOKIE持久性
支持异步
一、安装
pip install requests-html
先看一个例子
from requests_html import HTMLSession
session = HTMLSession()
def parse():
r = session.get('http://www.qdaily.com/')
# 获取首页新闻标签、图片、标题、发布时间
for x in r.html.find('.packery-item'):
yield {
'tag': x.find('.category')[0].text,
'image': x.find('.lazyload')[0].attrs['data-src'],
...点击查看剩余70%
网友评论0