网站首页 > 技术文章 正文
使用nodejs,express,koa各实现一次爬虫实战。
三个项目代码放到了github:https://github.com/liangchaofei/node_crawler上,可以直接下载运行。
node爬虫
- 安装爬虫利器superagent和cheerio 本文不作介绍。
npm i superagent cheerio --save
- 确定爬虫页面:http://bbs.tianya.cn/list-45-1.shtml
- 分析页面dom结构
- 看出每个标题都是在class为mt5下的tr下面,所以遍历.mt5下的tr
- 把数据当到data目录下
express爬虫
- 安装包
npm install express superagent cheerio superagent-charset --save
- 确定爬虫页面:https://www.qqtn.com/
- 分析页面结构
- 看出每个标题都是在div.g-main-bg ul.g-gxlist-imgbox li a下面,进行遍历
$('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) {
var $element = $(element);
var $subElement = $element.find('img');
var thumbImgSrc = $subElement.attr('src');
items.push({
title: $(element).attr('title'),
href: $element.attr('href'),
thumbSrc: thumbImgSrc
});
});
- 把数据items存到img.json中
fs.access(path.join(__dirname, '/img.json'), fs.constants.F_OK, err => {
if (err) { // 文件不存在
fs.writeFile(path.join(__dirname,'/img.json'), JSON.stringify([
{
route,
items
}
]), err => {
if(err) {
console.log(err)
return false
}
console.log('保存成功')
})
} else {
fs.readFile(path.join(__dirname, '/img.json'), (err, data) => {
if (err) {
console.log(err)
return false
}
data = JSON.parse(data.toString())
let exist = data.some((page, index) => {
return page.route == route
})
if (!exist) {
fs.writeFile(path.join(__dirname, 'img.json'), JSON.stringify([
...data,
{
route,
items
},
]), err => {
if (err) {
console.log(err)
return false
}
})
}
})
}
res.json({ code: 200, msg: "", data: items });
})
koa爬虫
- 安装
npm i koa koa-router cheerio superagent --save
- 确定爬虫页面:https://www.freebuf.com/
- 分析页面结构
- 遍历div .news-list .news-info dl dt a
$('div .news-list .news-info dl dt a').each((index, ele) => {
data.push({
title: $(ele).attr('title'),
href: $(ele).attr('href')
})
})
- 把数据添加到data.json中
fs.access(path.join(__dirname, 'data.json'), err => {
if (err) {
fs.writeFile(path.join(__dirname, 'data.json'), JSON.stringify([
{
data
}
]), err => {
if (err) {
return;
}
})
} else {
fs.readFile(path.join(__dirname, 'data.json'), (err, res) => {
data = res.toString()
if (err) {
return;
}
})
}
})
以上把node,express,koa都简单的实现了爬虫,面对复杂的页面,还需要不断的学习其他技术。
上面三个项目代码放到了github上,可以直接下载运行。
如果对你有帮助,欢迎star。
微信公众号:
猜你喜欢
- 2024-10-02 nodejs中使用sqlite3数据库(nodejs连接mysql数据库)
- 2024-10-02 NodeJS & Dapr Javascript SDK 官方使用指南
- 2024-10-02 专门为前端工程师设计 Nodejs+React 实战开发区块链“慕课”DApp
- 2024-10-02 若依nodejs全栈(四:用户列表增删改查接口的实现)
- 2024-10-02 系统性学习(3) Node.js——手写 Events
- 2024-10-02 完美支持Vue3,一个自带管理模板的Vue3开源组件库——vuestic
- 2024-10-02 GitHub精选 | 后台权限管理系统(基于Node.js)
- 2024-10-02 若依nodejs全栈(三:用户信息和路由接口的实现)
- 2024-10-02 技术开发者应该如何构建小团队的微服务方案?
- 2024-10-02 全局变量、事件绑定、缓存爆炸?Node.js内存泄漏问题分析
- 最近发表
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (88)
- es6includes (74)
- sqlset (76)
- apt-getinstall-y (100)
- node_modules怎么生成 (87)
- chromepost (71)
- flexdirection (73)
- c++int转char (80)
- mysqlany_value (79)
- static函数和普通函数 (84)
- el-date-picker开始日期早于结束日期 (76)
- js判断是否是json字符串 (75)
- c语言min函数头文件 (77)
- asynccallback (87)
- localstorage.removeitem (77)
- vector线程安全吗 (73)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- 无效的列索引 (74)
