python爬虫新类库requests-html，事半功倍-BFW博客

python爬虫新类库requests-html，事半功倍

用过requests库的同学都应该都喜欢他的简洁优雅，现在requests-html同样优雅，而且从名称可以看出应该是解析html的库，下面先简单的介绍一下使用方法，然后再来编写一个爬虫
从requests-html的Github的主页，我们可以看到这个库有以下功能特点：

支持JavaScript
支持CSS选择器。
支持xpath选择器
模拟用户代理
自动重定向
连接池和COOKIE持久性
支持异步

一、安装

pip install requests-html

目前只支持python3.6

先看一个例子

from requests_html import HTMLSession

session = HTMLSession()

def parse():
    r = session.get('http://www.qdaily.com/')
    # 获取首页新闻标签、图片、标题、发布时间
    for x in r.html.find('.packery-item'):
        yield {
            'tag': x.find('.category')[0].text,
            'image': x.find('.lazyload')[0].attrs['data-src'],
       ...

点击查看剩余70%

打赏博主×

python爬虫新类库requests-html，事半功倍

网友评论0

tensorflow 使用Python训练模型，js使用模型

新年快乐html特效页面汇集

谷歌seo和百度seo的不同点

如何仅使用纯js获取手机内网和外网IP地址

python+selenium之操作大全及操作案例解析

谨防！安卓手机打开视频就中毒了

it业未来四大增长行业，看你选对了吗

BFWSOA框架的异步依赖缓存

uniapp+php使用阿里云进行人脸实名认证采坑笔记

js多张图合成一张图片的几种方式

{{item.title}}

程序员会不会被人工智能替代

tensorflow 使用Python训练模型，js使用模型

在python中运行js代码的几个类库execjs，PyV8，js2py

python爬虫新类库requests-html，事半功倍

异构数据源离线同步工具DataX

使用scrapy-redis搭建分布式爬虫环境

andriod中使用retrofit进行网络请求【实战】

支付宝app支付RSA2签名放在服务端php的编写方式

js+php+java动态中文web字体生成压缩解决方案

php正则匹配多个结果，按位置顺序替换结果

如何让ai帮我自动在小红书或抖音上自动根据需求截流与潜在客户聊天拉客？

如果用go编写一个在virtualbox中启动的简单操作系统？

go如何搭建一个零信任网络？

如何用python实现一个公网代理访问软件？

如何用go实现一个公网代理访问软件？

如何用python实现一个内网穿透打洞程序，实现内网的80端口暴露到公网上可以访问？

如何用go实现一个内网穿透打洞程序，实现内网的80端口暴露到公网上可以访问？

何为Shadowsocks 代理？

python如何实现类似php的opendir目录相互隔离的fastcgi多租户虚拟空间？

nodejs如何实现类似php的opendir目录相互隔离的fastcgi多租户虚拟空间？