网站首页 > 技术文章 正文
使用nodejs,express,koa各实现一次爬虫实战。
三个项目代码放到了github:https://github.com/liangchaofei/node_crawler上,可以直接下载运行。
node爬虫
- 安装爬虫利器superagent和cheerio 本文不作介绍。
npm i superagent cheerio --save
- 确定爬虫页面:http://bbs.tianya.cn/list-45-1.shtml
- 分析页面dom结构
- 看出每个标题都是在class为mt5下的tr下面,所以遍历.mt5下的tr
- 把数据当到data目录下
express爬虫
- 安装包
npm install express superagent cheerio superagent-charset --save
- 确定爬虫页面:https://www.qqtn.com/
- 分析页面结构
- 看出每个标题都是在div.g-main-bg ul.g-gxlist-imgbox li a下面,进行遍历
$('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) { var $element = $(element); var $subElement = $element.find('img'); var thumbImgSrc = $subElement.attr('src'); items.push({ title: $(element).attr('title'), href: $element.attr('href'), thumbSrc: thumbImgSrc }); });
- 把数据items存到img.json中
fs.access(path.join(__dirname, '/img.json'), fs.constants.F_OK, err => { if (err) { // 文件不存在 fs.writeFile(path.join(__dirname,'/img.json'), JSON.stringify([ { route, items } ]), err => { if(err) { console.log(err) return false } console.log('保存成功') }) } else { fs.readFile(path.join(__dirname, '/img.json'), (err, data) => { if (err) { console.log(err) return false } data = JSON.parse(data.toString()) let exist = data.some((page, index) => { return page.route == route }) if (!exist) { fs.writeFile(path.join(__dirname, 'img.json'), JSON.stringify([ ...data, { route, items }, ]), err => { if (err) { console.log(err) return false } }) } }) } res.json({ code: 200, msg: "", data: items }); })
koa爬虫
- 安装
npm i koa koa-router cheerio superagent --save
- 确定爬虫页面:https://www.freebuf.com/
- 分析页面结构
- 遍历div .news-list .news-info dl dt a
$('div .news-list .news-info dl dt a').each((index, ele) => { data.push({ title: $(ele).attr('title'), href: $(ele).attr('href') }) })
- 把数据添加到data.json中
fs.access(path.join(__dirname, 'data.json'), err => { if (err) { fs.writeFile(path.join(__dirname, 'data.json'), JSON.stringify([ { data } ]), err => { if (err) { return; } }) } else { fs.readFile(path.join(__dirname, 'data.json'), (err, res) => { data = res.toString() if (err) { return; } }) } })
以上把node,express,koa都简单的实现了爬虫,面对复杂的页面,还需要不断的学习其他技术。
上面三个项目代码放到了github上,可以直接下载运行。
如果对你有帮助,欢迎star。
微信公众号:
猜你喜欢
- 2024-10-02 nodejs中使用sqlite3数据库(nodejs连接mysql数据库)
- 2024-10-02 NodeJS & Dapr Javascript SDK 官方使用指南
- 2024-10-02 专门为前端工程师设计 Nodejs+React 实战开发区块链“慕课”DApp
- 2024-10-02 若依nodejs全栈(四:用户列表增删改查接口的实现)
- 2024-10-02 系统性学习(3) Node.js——手写 Events
- 2024-10-02 完美支持Vue3,一个自带管理模板的Vue3开源组件库——vuestic
- 2024-10-02 GitHub精选 | 后台权限管理系统(基于Node.js)
- 2024-10-02 若依nodejs全栈(三:用户信息和路由接口的实现)
- 2024-10-02 技术开发者应该如何构建小团队的微服务方案?
- 2024-10-02 全局变量、事件绑定、缓存爆炸?Node.js内存泄漏问题分析
- 最近发表
- 标签列表
-
- cmd/c (64)
- c++中::是什么意思 (83)
- 标签用于 (65)
- 主键只能有一个吗 (66)
- c#console.writeline不显示 (75)
- js判断是否空对象 (63)
- pythoncase语句 (81)
- es6includes (73)
- sqlset (64)
- phprequire_once (61)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)