用php抓取网站中网页并下载依赖的css及js图片等(网站下载到本地)

用php抓取网站中网页并下载依赖的css及js图片等(网站下载到本地)

用php抓取网站中网页并下载依赖的css及js图片等(网站下载到本地)

如果我们要抓取网页的话,php中的curl或file_get_content,或在file_get_html,很简单是不是

那么如果把一个企业的网站及各个子页面抓取保存到本地怎么弄呢,爬虫可以做,具体怎么做呢,今天我们来演示一下如何通过php把一个企业的网站整站爬取下载下来,包括里面的图片js、css的依赖文件

废话不多,先上代码

<?php
require 'simple_html_dom.php';
// Create DOM from URL or file
$str = 'http://effect.bfw.wiki/CodeBlock/View/id/15625645726477080017.html';
$html = file_get_html($str);
$fn = getfilename($str);

// 下载相关的script
foreach ($html->find('script') as $element) {
    echo $element->src . '<br>';
    downloadFile($element->src, getfilename($element->src));
    $element->src = getfilename($element->src);

}
...

点击查看剩余70%

{{collectdata}}

网友评论0