用php抓取网站中网页并下载依赖的css及js图片等(网站下载到本地)

如果我们要抓取网页的话,php中的curl或file_get_content,或在file_get_html,很简单是不是
那么如果把一个企业的网站及各个子页面抓取保存到本地怎么弄呢,爬虫可以做,具体怎么做呢,今天我们来演示一下如何通过php把一个企业的网站整站爬取下载下来,包括里面的图片js、css的依赖文件
废话不多,先上代码
<?php
require 'simple_html_dom.php';
// Create DOM from URL or file
$str = 'http://effect.bfw.wiki/CodeBlock/View/id/15625645726477080017.html';
$html = file_get_html($str);
$fn = getfilename($str);
// 下载相关的script
foreach ($html->find('script') as $element) {
echo $element->src . '<br>';
downloadFile($element->src, getfilename($element->src));
$element->src = getfilename($element->src);
}
...点击查看剩余70%
网友评论0