网站首页 > 技术文章 正文
使用nodejs,express,koa各实现一次爬虫实战。
三个项目代码放到了github:https://github.com/liangchaofei/node_crawler上,可以直接下载运行。
node爬虫
- 安装爬虫利器superagent和cheerio 本文不作介绍。
 
npm i superagent cheerio --save
- 确定爬虫页面:http://bbs.tianya.cn/list-45-1.shtml
 - 分析页面dom结构
 
- 看出每个标题都是在class为mt5下的tr下面,所以遍历.mt5下的tr
 
- 把数据当到data目录下
 
express爬虫
- 安装包
 
npm install express superagent cheerio superagent-charset --save
- 确定爬虫页面:https://www.qqtn.com/
 - 分析页面结构
 
- 看出每个标题都是在div.g-main-bg ul.g-gxlist-imgbox li a下面,进行遍历
 
 $('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) {
 var $element = $(element);
 var $subElement = $element.find('img');
 var thumbImgSrc = $subElement.attr('src');
 items.push({
 title: $(element).attr('title'),
 href: $element.attr('href'),
 thumbSrc: thumbImgSrc
 });
 });
- 把数据items存到img.json中
 
 fs.access(path.join(__dirname, '/img.json'), fs.constants.F_OK, err => {
 if (err) { // 文件不存在
 fs.writeFile(path.join(__dirname,'/img.json'), JSON.stringify([
 {
 route,
 items
 }
 ]), err => {
 if(err) {
 console.log(err)
 return false
 }
 console.log('保存成功')
 })
 } else {
 fs.readFile(path.join(__dirname, '/img.json'), (err, data) => {
 if (err) {
 console.log(err)
 return false
 }
 data = JSON.parse(data.toString())
 let exist = data.some((page, index) => {
 return page.route == route
 })
 if (!exist) {
 fs.writeFile(path.join(__dirname, 'img.json'), JSON.stringify([
 ...data,
 {
 route,
 items
 },
 ]), err => {
 if (err) {
 console.log(err)
 return false
 }
 })
 }
 })
 }
 res.json({ code: 200, msg: "", data: items });
 })
koa爬虫
- 安装
 
npm i koa koa-router cheerio superagent --save
- 确定爬虫页面:https://www.freebuf.com/
 - 分析页面结构
 
- 遍历div .news-list .news-info dl dt a
 
 $('div .news-list .news-info dl dt a').each((index, ele) => {
 data.push({
 title: $(ele).attr('title'),
 href: $(ele).attr('href')
 })
 })
- 把数据添加到data.json中
 
 fs.access(path.join(__dirname, 'data.json'), err => {
 if (err) {
 fs.writeFile(path.join(__dirname, 'data.json'), JSON.stringify([
 {
 data
 }
 ]), err => {
 if (err) {
 return;
 }
 })
 } else {
 fs.readFile(path.join(__dirname, 'data.json'), (err, res) => {
 data = res.toString()
 if (err) {
 return;
 }
 })
 }
 })
以上把node,express,koa都简单的实现了爬虫,面对复杂的页面,还需要不断的学习其他技术。
上面三个项目代码放到了github上,可以直接下载运行。
如果对你有帮助,欢迎star。
微信公众号:
猜你喜欢
- 2024-10-02 nodejs中使用sqlite3数据库(nodejs连接mysql数据库)
 - 2024-10-02 NodeJS & Dapr Javascript SDK 官方使用指南
 - 2024-10-02 专门为前端工程师设计 Nodejs+React 实战开发区块链“慕课”DApp
 - 2024-10-02 若依nodejs全栈(四:用户列表增删改查接口的实现)
 - 2024-10-02 系统性学习(3) Node.js——手写 Events
 - 2024-10-02 完美支持Vue3,一个自带管理模板的Vue3开源组件库——vuestic
 - 2024-10-02 GitHub精选 | 后台权限管理系统(基于Node.js)
 - 2024-10-02 若依nodejs全栈(三:用户信息和路由接口的实现)
 - 2024-10-02 技术开发者应该如何构建小团队的微服务方案?
 - 2024-10-02 全局变量、事件绑定、缓存爆炸?Node.js内存泄漏问题分析
 
- 最近发表
 - 
- 聊一下 gRPC 的 C++ 异步编程_grpc 异步流模式
 - [原创首发]安全日志管理中心实战(3)——开源NIDS之suricata部署
 - 超详细手把手搭建在ubuntu系统的FFmpeg环境
 - Nginx运维之路(Docker多段构建新版本并增加第三方模
 - 92.1K小星星,一款开源免费的远程桌面,让你告别付费远程控制!
 - Go 人脸识别教程_piwigo人脸识别
 - 安卓手机安装Termux——搭建移动服务器
 - ubuntu 安装开发环境(c/c++ 15)_ubuntu安装c++编译器
 - Rust开发环境搭建指南:从安装到镜像配置的零坑实践
 - Windows系统安装VirtualBox构造本地Linux开发环境
 
 
- 标签列表
 - 
- cmd/c (90)
 - c++中::是什么意思 (84)
 - 标签用于 (71)
 - 主键只能有一个吗 (77)
 - c#console.writeline不显示 (95)
 - pythoncase语句 (88)
 - es6includes (74)
 - sqlset (76)
 - apt-getinstall-y (100)
 - node_modules怎么生成 (87)
 - chromepost (71)
 - flexdirection (73)
 - c++int转char (80)
 - mysqlany_value (79)
 - static函数和普通函数 (84)
 - el-date-picker开始日期早于结束日期 (76)
 - js判断是否是json字符串 (75)
 - c语言min函数头文件 (77)
 - asynccallback (87)
 - localstorage.removeitem (77)
 - vector线程安全吗 (73)
 - java (73)
 - js数组插入 (83)
 - mac安装java (72)
 - 无效的列索引 (74)
 
 
