网站首页 > 技术文章正文

四个小案例，学懂Python爬虫的requests库

nanyue 2025-05-11 17:28:38 技术文章 58 ℃

requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。

如何使用：（requests模块的编码流程）

指定url
UA伪装
请求参数的处理
发起请求
获取响应数据
持久化存储

环境安装： pip install requests

这里是requests 的中文文档

https://docs.python-requests.org/zh_CN/latest/

我们只要先把这部分学懂就可以来使用下面的程序：

快速上手

发送请求
传递 URL 参数
响应内容
二进制响应内容
JSON 响应内容
原始响应内容
定制请求头
更加复杂的 POST 请求
POST一个多部分编码(Multipart-Encoded)的文件
响应状态码
响应头
Cookie
重定向与请求历史
超时
错误与异常

下面是四个小案例，涉及到了上边的json，post，响应头等知识，通过案例学习是最实用的。

实战编码：

爬取搜狗首页的页面数据

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#- 需求：爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    #step_1:指定url
    url = 'https://www.sogou.com/'
    #step_2:发起请求
    #get方法会返回一个响应对象
    response = requests.get(url=url)
    #step_3:获取响应数据.text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    #step_4:持久化存储
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

这样的话我们就把搜狗首页的源代码爬取出来了。

保存本地搜狗搜索结果

接下来我们爬取搜狗的结果，实现在输入框输入请求的文字，然后就可以直接保存搜索结果的网页。

#!/usr/bin/env python 
# -*- coding:utf-8 -*-

#UA：User-Agent（请求载体的身份标识）
#UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，
#说明该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求
#为不正常的请求（爬虫），则服务器端就很有可能拒绝该次请求。

#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
if __name__ == "__main__":
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #处理url携带的参数：封装到字典中
    kw = input('enter a word:')
    param = {
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url,params=param,headers=headers)

    page_text = response.text
    fileName = kw+'.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功！！！')

本地百度翻译

输入需要查询的词，自动在本地保存json格式的文件。

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
import json
if __name__ == "__main__":
    #1.指定url
    post_url = 'https://fanyi.baidu.com/sug'
    #2.进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

    }
    #3.post请求参数处理（同get请求一致）
    word = input('enter a word:')
    data = {
        'kw':word
    }
    #4.请求发送
    response = requests.post(url=post_url,data=data,headers=headers)
    #5.获取响应数据:json()方法返回的是obj（如果确认响应数据是json类型的，才可以使用json（））
    dic_obj = response.json()

    #持久化存储
    fileName = word+'.json'
    fp = open(fileName,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False)

    print('over!!!')

豆瓣电影保存

豆瓣电影涉及到的ajax，封装到字典中，然后保存到本地json格式中。

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
import json
if __name__ == "__main__":
    url = 'https://movie.douban.com/j/chart/top_list'
    param = {
        'type': '24',
        'interval_id': '100:90',
        'action':'',
        'start': '0',#从库中的第几部电影去取
        'limit': '20',#一次取出的个数
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

    }
    response = requests.get(url=url,params=param,headers=headers)

    list_data = response.json()

    fp = open('./douban.json','w',encoding='utf-8')
    json.dump(list_data,fp=fp,ensure_ascii=False)
    print('over!!!')

以上的案例都不涉及保存文本格式，因为这里只涉及到请求，还未涉及到解析，所以只保存了json文件或者是代码文件，真正需要解析的是下一章，BeautifulSoup。

关注我@秋语棠，学更多python知识

上一篇：干货!最简单的检测爬虫突破封禁的方法
下一篇：如何使用Ora2Pg迁移Oracle数据库到openGauss

网站首页 > 技术文章 正文