python爬虫新类库requests-html,事半功倍

python爬虫新类库requests-html,事半功倍

python爬虫新类库requests-html,事半功倍

用过requests库的同学都应该都喜欢他的简洁优雅,现在requests-html同样优雅,而且从名称可以看出应该是解析html的库,下面先简单的介绍一下使用方法,然后再来编写一个爬虫
从requests-html的Github的主页,我们可以看到这个库有以下功能特点:

支持JavaScript
支持CSS选择器。
支持xpath选择器
模拟用户代理
自动重定向
连接池和COOKIE持久性
支持异步

一、安装

pip install requests-html

目前只支持python3.6

先看一个例子

from requests_html import HTMLSession

session = HTMLSession()

def parse():
    r = session.get('http://www.qdaily.com/')
    # 获取首页新闻标签、图片、标题、发布时间
    for x in r.html.find('.packery-item'):
        yield {
            'tag': x.find('.category')[0].text,
            'image': x.find('.lazyload')[0].attrs['data-src'],
       ...

点击查看剩余70%

{{collectdata}}

网友评论0