python爬虫新类库requests-html，事半功倍-BFW博客

python爬虫新类库requests-html，事半功倍

用过requests库的同学都应该都喜欢他的简洁优雅，现在requests-html同样优雅，而且从名称可以看出应该是解析html的库，下面先简单的介绍一下使用方法，然后再来编写一个爬虫
从requests-html的Github的主页，我们可以看到这个库有以下功能特点：

支持JavaScript
支持CSS选择器。
支持xpath选择器
模拟用户代理
自动重定向
连接池和COOKIE持久性
支持异步

一、安装

pip install requests-html

目前只支持python3.6

先看一个例子

from requests_html import HTMLSession

session = HTMLSession()

def parse():
    r = session.get('http://www.qdaily.com/')
    # 获取首页新闻标签、图片、标题、发布时间
    for x in r.html.find('.packery-item'):
        yield {
            'tag': x.find('.category')[0].text,
            'image': x.find('.lazyload')[0].attrs['data-src'],
       ...

点击查看剩余70%

打赏博主×

python爬虫新类库requests-html，事半功倍

网友评论0

vue编写兼容chatgpt、coze、千问、智谱流式ai问答助手webui交互页面

bfwexam 一款在线it面试答题系统

win10下用python+openai打造一个ai语音交互助手

入门:手把手教你用zoom来开发一个视频会议安卓和ios app

mysql8.0新特性开窗函数（Window Functions）

div实现隐藏滚动条拖动滚动效果

js如何进行中文分词？

为啥要创建bfwui

程序员搞笑集锦

推荐几款html网页中录制摄像头和麦克风的录音录像js插件

{{item.title}}

程序员会不会被人工智能替代

tensorflow 使用Python训练模型，js使用模型

在python中运行js代码的几个类库execjs，PyV8，js2py

python爬虫新类库requests-html，事半功倍

异构数据源离线同步工具DataX

使用scrapy-redis搭建分布式爬虫环境

andriod中使用retrofit进行网络请求【实战】

支付宝app支付RSA2签名放在服务端php的编写方式

js+php+java动态中文web字体生成压缩解决方案

php正则匹配多个结果，按位置顺序替换结果

如何用html写出一个调用大模型api实现ai下象棋的游戏？

ai生成软著软件著作权材料的ai提示词怎么写？

如何给网页富文本编辑器增加ai续写、ai润色优化等功能?

vue如何实现类似百度超级ai画布的ai笔记网页代码？

mongodb如何备份与恢复数据库？

有没有类似豆包pc端ai大模型编程代码块折叠右侧流式输出带预览的前后端代码？

nodejs有没有很快的目录爬虫和通配符文件查找库？

js如何流式输出ai的回答并折叠代码块，点击代码块右侧可预览代码？

ai大模型如何将文章转换成可视化一目了然的图片流程图图表？

大模型生成html版本的ui原型图和ppt演示文档的系统提示词怎么写？