网站首页 > 技术文章 正文
使用nodejs,express,koa各实现一次爬虫实战。
三个项目代码放到了github:https://github.com/liangchaofei/node_crawler上,可以直接下载运行。
node爬虫
- 安装爬虫利器superagent和cheerio 本文不作介绍。
npm i superagent cheerio --save
- 确定爬虫页面:http://bbs.tianya.cn/list-45-1.shtml
- 分析页面dom结构
- 看出每个标题都是在class为mt5下的tr下面,所以遍历.mt5下的tr
- 把数据当到data目录下
express爬虫
- 安装包
npm install express superagent cheerio superagent-charset --save
- 确定爬虫页面:https://www.qqtn.com/
- 分析页面结构
- 看出每个标题都是在div.g-main-bg ul.g-gxlist-imgbox li a下面,进行遍历
$('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) { var $element = $(element); var $subElement = $element.find('img'); var thumbImgSrc = $subElement.attr('src'); items.push({ title: $(element).attr('title'), href: $element.attr('href'), thumbSrc: thumbImgSrc }); });
- 把数据items存到img.json中
fs.access(path.join(__dirname, '/img.json'), fs.constants.F_OK, err => { if (err) { // 文件不存在 fs.writeFile(path.join(__dirname,'/img.json'), JSON.stringify([ { route, items } ]), err => { if(err) { console.log(err) return false } console.log('保存成功') }) } else { fs.readFile(path.join(__dirname, '/img.json'), (err, data) => { if (err) { console.log(err) return false } data = JSON.parse(data.toString()) let exist = data.some((page, index) => { return page.route == route }) if (!exist) { fs.writeFile(path.join(__dirname, 'img.json'), JSON.stringify([ ...data, { route, items }, ]), err => { if (err) { console.log(err) return false } }) } }) } res.json({ code: 200, msg: "", data: items }); })
koa爬虫
- 安装
npm i koa koa-router cheerio superagent --save
- 确定爬虫页面:https://www.freebuf.com/
- 分析页面结构
- 遍历div .news-list .news-info dl dt a
$('div .news-list .news-info dl dt a').each((index, ele) => { data.push({ title: $(ele).attr('title'), href: $(ele).attr('href') }) })
- 把数据添加到data.json中
fs.access(path.join(__dirname, 'data.json'), err => { if (err) { fs.writeFile(path.join(__dirname, 'data.json'), JSON.stringify([ { data } ]), err => { if (err) { return; } }) } else { fs.readFile(path.join(__dirname, 'data.json'), (err, res) => { data = res.toString() if (err) { return; } }) } })
以上把node,express,koa都简单的实现了爬虫,面对复杂的页面,还需要不断的学习其他技术。
上面三个项目代码放到了github上,可以直接下载运行。
如果对你有帮助,欢迎star。
微信公众号:
猜你喜欢
- 2024-10-02 nodejs中使用sqlite3数据库(nodejs连接mysql数据库)
- 2024-10-02 NodeJS & Dapr Javascript SDK 官方使用指南
- 2024-10-02 专门为前端工程师设计 Nodejs+React 实战开发区块链“慕课”DApp
- 2024-10-02 若依nodejs全栈(四:用户列表增删改查接口的实现)
- 2024-10-02 系统性学习(3) Node.js——手写 Events
- 2024-10-02 完美支持Vue3,一个自带管理模板的Vue3开源组件库——vuestic
- 2024-10-02 GitHub精选 | 后台权限管理系统(基于Node.js)
- 2024-10-02 若依nodejs全栈(三:用户信息和路由接口的实现)
- 2024-10-02 技术开发者应该如何构建小团队的微服务方案?
- 2024-10-02 全局变量、事件绑定、缓存爆炸?Node.js内存泄漏问题分析
- 1509℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 530℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 495℃MySQL service启动脚本浅析(r12笔记第59天)
- 474℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 471℃启用MySQL查询缓存(mysql8.0查询缓存)
- 452℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 431℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 428℃MySQL server PID file could not be found!失败
- 最近发表
- 标签列表
-
- c++中::是什么意思 (83)
- 标签用于 (65)
- 主键只能有一个吗 (66)
- c#console.writeline不显示 (75)
- pythoncase语句 (81)
- es6includes (73)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- chromepost (65)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- & (66)
- java (73)
- js数组插入 (83)
- linux删除一个文件夹 (65)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)