优秀的编程知识分享平台

网站首页 > 技术文章 正文

「Python」在HTTP请求使用长连接(keep-alive)提高传输效率

nanyue 2024-10-03 23:39:51 技术文章 21 ℃

在Python编程中会遇到向远端服务器发送HTTP请求以获取数据的情况。在Python中可以使用requests库来完成HTTP请求的发送和响应的获取。

相比python内置的urlib2或者urllib3, requests更加简便易用。

request基本用法

requests库在初次使用之前需要安装:

pip install requests

requests库的基本使用方法比较简单直接,例如下面的代码:

import requests

url = "https://www.httpbin.org/get?q=1"

'''
    使用requests.get向url的地址发送GET请求。
    返回的Response对象r中包含了所有的HTTP响应的所有数据内容。
    r.status_code:响应状态码
    r.headers: 响应头
    r.content_type:数据类型
    r.content: 响应的数据内容(字节形式)
    r.text: 响应的数据内容(unicode文本)
'''
r = requests.get(url)

print(r.text)

上述代码中,requests.get函数封装了所有的HTTP请求细节,包括:与远端服务器建立(TCP)连接,发送GET请求,接收对方的响应,断开与远端服务器的连接,返回Response对象。

在每次调用get函数的过程中,都会重新建立一次连接。当我们需要多次与同一远端服务通信时,每发送一次请求就建立一次连接,会导致效率低下,非常影响性能。 因此需要重复使用已建立的连接来多次发送请求。

使用Session重复使用连接

HTTP协议中的Keep-Alive提供了长连接保持机制,允许我们使用同一连接多次发送请求。

在requests库中,Kepp-Alive机制在Session对象中实现。我们看下面的例子。

import requests

#服务端url
urls = ("https://www.httpbin.org/get?q=1",
        "https://www.httpbin.org/get?p=2",
        "https://www.httpbin.org/get?r=3"
       )

#创建一个Session对象
s = requests.session()

'''
使用Session对象向服务端发送GET请求。
'''

for url in urls:
    r = s.get(url)
    print("########################")
    print("Response from {}:".format(url))
    print("########################")
    print(r.text)

在上述代码中使用session()函数创建了一个Session对象,Session对象中的Keep-Alive缺省值是True,这样就会保持一个连接并可重复使用。

在代码中使用创建的Session对象多次向远端服务发送请求。只在第一次发送请求的时候会建立新的连接,后续的请求会使用已经建立的连接,这样可以使得通信的效率有很大的提升。

连接池和线程

此外,还可以使用连接池结合线程向服务器并行发送请求,如下代码所示。

import requests
from threading import Thread

s = requests.Session() 

# 使用HTTPAdapter设置连接池的数量,并与session绑定
s.mount('http://', requests.adapters.HTTPAdapter(pool_maxsize=2))

#读取url的线程函数
def thread_get(url):
    r = s.get(url)
    print("Response from {}:\n\n{}".format(url,r.text))

#服务端url
urls = ("https://www.httpbin.org/get?q=1",
        "https://www.httpbin.org/get?p=2",
        "https://www.httpbin.org/get?r=3"
       )

threads = []

#创建并启动线程
for url in urls:
    t = Thread(target=thread_get, args=(url,))
    t.start()
    threads.append(t)

#等待所有线程结束    
for t in threads:
    t.join()

运行该代码,可以看到输出结果会与前面单线程的运行结果有所不同。

以上代码均在Python 3.6上运行测试通过。

最近发表
标签列表