网站首页 > 技术文章 正文
声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。
#第一步导入模块
import re
import requests
#第二步获取你想爬取的网页地址,发送请求,获取网页内容
url = "
https://www.msn.cn/zh-cn/news/technology/%E4%BB%8E-%E6%81%92%E6%98%9F%E8%80%80%E7%81%AD-%E5%88%B0-%E6%9C%94%E5%BC%A6%E6%99%A6%E6%9C%9B-%E5%85%A8%E7%90%83%E8%89%BA%E6%9C%AF%E5%AE%B6%E4%B8%BA%E4%BD%95%E7%BA%B7%E7%BA%B7%E4%B8%BA%E4%B8%8A%E6%B5%B7%E5%A4%A9%E6%96%87%E9%A6%86%E6%89%93%E9%80%A0%E5%B1%95%E5%93%81/ar-AAQK647?ocid=msedgdhp&pc=U531"
response = requests.get(url) #得到响应对象
data = response.text #获得字符串文本
#第三步通过正则表达式选择你想得到的文本内容,并显示选择的结果
new_list = re.findall('<p>(.*?)</p>', data) #得到你想要的内容列表
print(new_list) #显示你想要的内容
以上所涉及知识点:一是requests模块库get()的知识储备。二是正则表达式findall()知识的储备。在
当然上面省略一些知识:
1、如判断访问网站是否成功
2、列表的for语句显示
3、得到的文本以什么方式存储,存储的地址和文件是否已经存在等
希望以上总结对您有帮助!!!!!!
猜你喜欢
- 2025-07-27 UV 迄今最快、最好的 Python 包管理器
- 2025-07-27 第二章:Python 运算符与表达式(python语言中运算符号)
- 2025-07-27 掌握Python比较运算符:核心要点与实战解析
- 2025-07-27 Python开发必会技巧:访问限制(python访问数据)
- 2025-07-27 Python教程(九):While循环与真实示例
- 2025-07-27 Python字符串对齐神技!4种方法让你的输出瞬间专业10倍
- 2025-07-27 Python运算符与表达式(python运算符含义)
- 2025-07-27 一图看懂 Python 2 / Python 3 编码 | CSDN 博文精选
- 2025-07-27 让 Python 代码飙升330倍:从入门到精通的四种性能优化实践
- 2025-05-03 如何在 Python 中创建一个不可变的字典 - Adam Johnson
- 1517℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 596℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 521℃MySQL service启动脚本浅析(r12笔记第59天)
- 489℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 489℃启用MySQL查询缓存(mysql8.0查询缓存)
- 477℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 456℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 454℃MySQL server PID file could not be found!失败
- 最近发表
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (88)
- es6includes (74)
- sqlset (76)
- windowsscripthost (69)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- c语言min函数头文件 (68)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)