博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简化日常工作系列之二 ----- 定时采集小说
阅读量:5143 次
发布时间:2019-06-13

本文共 2851 字,大约阅读时间需要 9 分钟。

2.去跑一遍采集小说的脚本任务

为了减少依赖,之前采集小说的实现是两部分:
第一部分:nodejs去目录页抓取章节的url,写入txt文件存储。
第二部分:php利用封装的curl类和分析解析类去分别获取标题内容,写入HTML文件。
这样不仅要让进行定时任务的物理机或docker上要有php环境也要有nodejs环境。由于我擅长php,所以改为两部分全部由php完成。采集的完整代码可以见前面写过的采集类等博客。

curl封装类beta版的博客记录: .

优化curl封装类的博客记录: .

如果不熟悉的朋友,可以先看这部分博客后再阅读本文。

代码关键部分:

$menuUrl = 'http://www.zhuaji.org/read/2531/';$menuContents = MyCurl::send($menuUrl, 'get');$analyzer = new Analyzer();$urls = $analyzer->getLinks($menuContents);

后面再循环去curl每个章节页面,抓取和解析内容并写入文件即可。

代码简洁和可读性已经比较好了。现在我们考虑效率和性能问题。这个代码都是一次性下载完所有文件,唯一做去重判断都是在每次get到章节内容之后对比文件名是否存在。但已经做了一些无用费时的网络请求。目前该小说有578章,加上目录被爬一次,一共要发起578+1次get请求,以后小说还会不断增加章节,那么执行时间会更长。

这个脚本最大的瓶颈就在网络消耗上。

此脚本效率不高,每次都是把所有章节的页面都去爬一次,网络消耗很大。如果是第一次下载还好,毕竟要下载全部。如果是每天都执行,那么其实我是想增量地去下载前一天新增的章节。

又有几个思路可以考虑:

1.我们要考虑每次执行之后最后一个被存下来的页面的id要记录下来。然后下一次就从这个id开始继续下载。
2.中间断掉也可以反复重新跑。(遵从第一条最后一句)

这样就能从新增的页面去爬,减少了网络请求量,执行效率大幅提高。

其实这个问题就变成想办法记录执行成功的最后一个章节id的问题了。

我们可以把这个id写入数据库,也可以写入文件。为了简单和少依赖,我决定还是写文件。

单独封装一个获取最大id的函数,然后过滤掉已经下载的文件。完整代码如下:

function getMaxId() {    $idLogFiles = './biggestId.txt';    $biggestId = 0;    if (file_exists($idLogFiles)) {        $fp = fopen($idLogFiles, 'r');        $biggestId = trim(fread($fp, 1024));        fclose($fp);    }    return $biggestId;}/** * ׼client to run */set_time_limit(0);require 'Analyzer.php';$start = microtime(true);$menuUrl = 'http://www.zhuaji.org/read/2531/';$menuContents = MyCurl::send($menuUrl, 'get');$biggestId = getMaxId() + 0;$analyzer =new Analyzer();$urls = $analyzer->getLinks($menuContents);$ids = array();foreach ($urls as $url) {    $parts = explode('.', $url);    array_push($ids, $parts[0]);}sort($ids, SORT_NUMERIC);$newIds = array();foreach ($ids as &$id) {    if ((int)$id > $biggestId) array_push($newIds, $id);}if (empty($newIds)) exit('nothing to download!');foreach ($newIds as $id) {    $url = $id . '.html';    $res = MyCurl::send('http://www.zhuaji.org/read/2531/' . $url, 'get');    $title = $analyzer->getTitle($res)[1];    $content = $analyzer->getContent('div', 'content', $res)[0];        $allContents = $title . "
". $content; $filePath = 'D:/www/tempscript/juewangjiaoshi/' . $title . '.html'; if(!file_exists($filePath)) { $analyzer->storeToFile($filePath, $allContents); $idfp = fopen('biggestId.txt', 'w'); fwrite($idfp, $id); fclose($idfp); } else { continue; } echo 'down the url:' , $url , "\r\n";}$end = microtime(true);$cost = $end - $start;echo "total cost time:" . round($cost, 3) . " seconds\r\n";

加在windows定时任务或linux下的cron即可每天享受小说的乐趣,而不用每次手动去浏览网页浪费流量,解析后的html文件存文字版更舒服。不过这段代码在低版本的php下会报错,数组简化写法[44,3323,443]是在php5.4之后才出现的。

之前下载完所有小说需要大概2分多钟。改进最终结果为:

效果显著,我在/etc/crontab里面设置如下:

0 3 * * * root /usr/bin/php /data/scripts/tempscript/MyCurl.php >> /tmp/downNovel.log

这个作者的小说真心不错,虽然后期写得很后宫和文字匮乏,常到12点还在更新,所以把每天定时任务放在凌晨3点采集之。

转载于:https://www.cnblogs.com/freephp/p/5148792.html

你可能感兴趣的文章
查询数据库锁
查看>>
我对于脚本程序的理解——百度轻应用有感
查看>>
面试时被问到的问题
查看>>
当前记录已被另一个用户锁定
查看>>
Node.js 连接 MySQL
查看>>
那些年,那些书
查看>>
注解小结
查看>>
java代码编译与C/C++代码编译的区别
查看>>
Bitmap 算法
查看>>
转载 C#文件中GetCommandLineArgs()
查看>>
list control控件的一些操作
查看>>
绝望的第四周作业
查看>>
一月流水账
查看>>
npm 常用指令
查看>>
判断字符串在字符串中
查看>>
Linux环境下Redis安装和常见问题的解决
查看>>
HashPump用法
查看>>
cuda基础
查看>>
Vue安装准备工作
查看>>
oracle 创建暂时表
查看>>