网站首页 > 技术文章 正文
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为文件存储。
概述
前几期文章中我们已经了解到了请求库、解析库的使用,已经学会了如何向目标网站发送请求以及解析响应信息,那么我们还需要知道如何将数据进行存储。数据存储有很多方式,本期会介绍如何将数据存入文本文件,如 TXT、JSON、CSV 等。
TXT 文件存储
介绍
TXT文件存储是最基本的数据存储方式,TXT 文本文件基本上兼容任何平台,因此它的应用也非常广泛。使用代码操作 TXT 文件十分简单,但是缺点也非常明显,不利于对数据进行检索。
使用
Python 中操作 TXT 文件需要使用到内置的 open() 函数。
open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)
open() 函数有七个参数分别为:
file:文件路径
mode:打开方式,默认为(r)只读模式
buffering:文件缓冲
encoding:字符编码
errors:报错级别
newline:换行模式,默认以\n换行
closefd:控制在关闭文件时是否彻底关闭文件
文件打开方式分为以下几种:
r:以只读方式打开文件
w:以写入方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
x:创建新文件并以写入方式打开文件
a:以追加方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
b:二进制模式
t:文本模式
+:读取与写入
wb:以二进制写入方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
w+:以读写方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
wb+:以二进制读写方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
ab:以二进制追加方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
ab+:以二进制追加读写方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
f = open('data.txt','r',encoding="utf-8")
f.seek(2) #从指定下标位置开始读取
data = f.read()
f.close()
f = open('data.txt','w',encoding="utf-8")
f.write('hello')
f.write(' ')
f.write('world')
f.close()
#hello world
上下文管理器
上文中可以看到,对一个文件进行读写操作后需要使用 close() 方法关闭文件。如果不使用 close() 关闭文件会导致资源泄露问题。为了避免这个问题和优化代码,我们可以使用上下文管理器来操作文件。
with open('data.txt','w',encoding='uutf-8')as f:
f.write('hello')
f.write(' ')
f.write('world')
当 with 语句块结束后文件会自动关闭,这样不需要再调用 close() 方法。
JSON 文件存储
介绍
JSON 全称为 JavaScript Object Notation,也就是 JavaScript 对象标记,是一种轻量级的数据交换格式。人们可以很容易的对 JSON 格式的数据进行阅读和编写,同时也方便了机器进行解析和生成。JSON 采用完全独立于程序语言的文本格式,但是也使用了类 C 语言的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使 JSON 成为理想的数据交换语言。
JSON 通过对象和数组的组合来表示数据,而在 JavaScript 中,一切皆为对象,因此任何数据类型都可以通过 JSON 来表示。
在 JavaScript 中 JSON 通常以对象或数组的形式存在。对象形式为被花括号包裹的键值对结构,如 { key1 : value1, key2 : value2 },key表示对象的属性,value表示对象的值。数组形式与对象形式的区别就在于它是被方括号所包裹,如[{ key1 : value1}, {key2 : value2}]。对象形式与数组形式可以自由组合,任意嵌套。JSON中字符串类型的数据需要以双引号包围。
JSON 的这种结构非常简洁清晰,且结构化程度很高,因而被广泛使用。
使用
JSON 是一个数据格式,本质上是纯字符串类型,在 Python 中它可以被转换为对应的数据类型,如对象形式可以被转换为字典,数组类型可以转换为列表。Python 中内置了一个强大的 JSON 库,通过它可以简便的实现 JSON 文件的读写操作。
JSON 库提高了四个方法:
json.dump():将 JSON 对象写入文件
json.dumps():将Python对象编码成 JSON 字符串
json.load():从 JSON 文件中读取数据
json.loads():将已编码的 JSON 字符串解码为Python对象
下面我们以这段数据作为示例:
{
"1001": {
"name": "张三",
"age": 21,
"gender": "female"
},
"1002": {
"name": "李四",
"age": 22,
"gender": "male"
}
}
读取数据
data.json 文件内容为示例 JSON 数据。
with open('data.json','r',encoding='utf-8')as f:
data = f.read()
print(type(data))
#输出:<class 'str'>
可以看到,我们直接从 JSON 文件里面读取的数据是字符串类型,这不利于我们对它进行操作,我们可以使用 json.loads() 方法将 JSON 字符串转换为字典类型。
import json
with open('data.json','r',encoding='utf-8')as f:
data = f.read()
print(type(data))
data = json.loads(data)
print(type(data))
#输出:
#<class 'str'>
#<class 'dict'>
我们也可以使用更加简洁的写法,通过 json.load() ,直接对文件操作对象进行解析。
import json
data = json.load(open('data.json',encoding='utf-8'))
print(type(data))
#输出:<class 'dict'>
写入数据
使用 write() 方法写入文件时,它只能传入字符串类型的数据。因此我们需要将字典数据先转换为 JSON 字符串,可以通过 json.dumps() 方法实现。
import json
data = {
"1001": {
"name": "张三",
"age": 21,
"gender": "female"
},
"1002": {
"name": "李四",
"age": 22,
"gender": "male"
}
}
print(data)
data = json.dumps(data)
print(type(data))
with open('data.json','w',encoding="utf-8")as f:
f.write(data)
#输出:
#<class 'dict'>
#<class 'str'>
当然,将数据写入文件也有更加简便的方法。
import json
data = {
"1001": {
"name": "张三",
"age": 21,
"gender": "female"
},
"1002": {
"name": "李四",
"age": 22,
"gender": "male"
}
}
json.dump(data,open('data.json','w',encoding='utf-8'),indent=2,ensure_ascii=False)
CSV 文件存储
介绍
CSV 全称 Comma-Sparated Values(逗号分隔值),它以纯文本形式存储数据表格。CSV 文件是一个字符序列,它由任意数目的记录组成,记录之间以某种换行符分隔。文件的每条记录由字段和字段值组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。CSV 并不是一种单一的、明确定义的文本格式,它泛指具备以下特征的任何文件:
- 纯文本呢,使用某个字符集
- 由记录组成
- 每条记录被分隔符分隔为字段
- 每条记录都有相同的字段序列
使用
Python 中提供了一个内置的 csv 库来对 CSV 文件进行操作。
写入
import csv
#writerow默认换行,因此需要通过 newline 将换行符设置为空,避免重复换行
with open('data.csv','w',encoding='utf-8',newline="") as csvfile:
#delimiter:指定分隔符,默认为逗号
writer = csv.writer(csvfile,delimiter = " ")
#写入一行
writer.writerow(['id', 'name', 'age'])
writer.writerow(['1001', 'jack', 15])
writer.writerow(['1002', 'marin', 22])
writer.writerow(['1003', 'alex', 19])
#写入多行
writer.writerows([['1004', 'lucy', 23],['1005', 'john', 30]])
csv库也提供了其它的写入方法
import csv
with open('data.csv','w',encoding='utf-8',newline="") as csvfile:
#字典写入对象
writer = csv.DictWriter(csvfile,fieldnames=['id','name','age'])
writer.writeheader()
writer.writerow({'id':'1001','name':'jack','age':21})
writer.writerow({'id': '1002', 'name': 'marin', 'age': 22})
writer.writerows([{'id': '1003', 'name': 'lucy', 'age': 23},{'id': '1004', 'name': 'mike', 'age': 22}])
读取
import csv
with open('data.csv','r',encoding='utf-8')as csvfile:
reader = csv.reader(csvfile)
for row in reader:
print(row)
总结
上文中讲到了 TXT、JSON、CSV 三种文件的存储方式,介绍了如何对这些文件进行读写操作。文本文件存储的优势在于简单、方便,适合存储少量信息,但想要规范的储存数据的话并不推荐使用文本文件储存。
猜你喜欢
- 2025-07-24 uestudio(ide集成开发环境)(ue4集群)
- 2025-07-24 2020学习python技巧资料之python缩进规则
- 2025-04-30 世界上最难的5种编程语言(最难的编程语言是什么)
- 2025-04-30 python散装笔记——200 常见陷阱(python lzo)
- 2025-04-30 也许是最客观、全面的比较 Rust 与 Go,值得你读
- 2025-04-30 7 C++ 数据类型(c++的数据类型包括什么)
- 2025-04-30 最难的 5 种编程语言!C/C++竟不在其列,它们到底是谁?
- 2025-04-30 VC++ 6.0 编译前准备工作及工作区设置指南
- 2024-07-20 这是C语言无法修改得东西,C语言基础教程之常量解析
- 2024-07-20 我的C语言学习日记02—c语言的环境配置和基础知识
- 1517℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 594℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 521℃MySQL service启动脚本浅析(r12笔记第59天)
- 489℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 489℃启用MySQL查询缓存(mysql8.0查询缓存)
- 477℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 456℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 454℃MySQL server PID file could not be found!失败
- 最近发表
-
- PS所有滤镜的说明(六)(ps滤镜详解)
- 5款小白也能用的在线图片编辑器!电商效率飙升就靠它!
- Java变量(java变量有什么作用)
- Java面试常见问题:Java注解(java中的面试题)
- Java编程入门第一课:HelloWorld(java编程从入门到实践)
- Java基础教程:Java继承概述(java里继承的概述)
- java基础之——访问修饰符(private/default/protected/public)
- 如何规划一个合理的JAVA项目工程结构
- 将机器指令翻译成 JavaScript -- 终极目标
- Web 服务器基准测试:Go vs. Node.js vs. Nim vs. Bun
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (81)
- es6includes (73)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- c语言min函数头文件 (68)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)