浏览器使用js中ajax实现网页爬虫效果
抓取网页python中pyspider,scrapy,request-html等优秀的库,js中怎么爬取网页呢?
是的,ajax是不能跨域抓取网页,但是我们可以通过nodejs或者同域代理访问来实现网页抓取
1、nodejs实现
var request = require('request'); request('爬取的网页url', function (error, response, body) { if (!error&&response.statusCode == 200) { console.log(body) // 进行存储或下一步处理 } });
2、同域代理
同域代理就是在浏览器url的同一个域名下,前端浏览器js通过ajax将要爬取的网页url传给后端,后端采用php或java进行网页抓取,将爬取的结果返回给js,js进行下一步的处理
$.get("/scrap.php?targeturl=爬取的网页url", function(result){ console.log(result);//下一步处理 });后端php采用
<?php $url = $_GET["targeturl"]; //前端传过来的网址 if($url!=""){ $ch ...
点击查看剩余70%
网友评论0