网站首页 > 技术文章正文

DrissionPage:让你的 Python 爬虫和自动化脚本飞起来!

nanyue 2025-05-11 17:28:15 技术文章 13 ℃

还在为复杂的网页自动化和数据抓取而头疼吗？别担心，DrissionPage 来了！这个由 g1879 大佬开发的开源项目，就像一位全能选手，既能像浏览器一样操控网页，又能像 requests 一样高效收发数据包，简直是 Python 爬虫和自动化脚本的福音。

一、项目简介

DrissionPage，正如其名，是一个强大的网页自动化工具，它基于 Python，却拥有超越传统工具的性能和灵活性。它不仅能控制浏览器，还能直接处理数据包，甚至可以将两者结合使用，让你在网页自动化和数据抓取之间自由切换，不再受限于单一模式。

DrissionPage 的目标是“简单且强大”，它内置了许多人性化设计和便捷功能，让你的代码更简洁优雅，开发效率更高。如果你厌倦了繁琐的配置和复杂的语法，那么 DrissionPage 绝对值得你一试。

二、核心功能

1. 自研内核，性能飞跃

DrissionPage 采用完全自研的内核，不依赖于 webdriver，这意味着你无需为不同版本的浏览器下载不同的驱动，告别了版本兼容的烦恼。它运行速度更快，可以跨 iframe 查找元素，无需繁琐的切入切出操作，把 iframe 当普通元素对待，逻辑更清晰。

2. 强大的元素定位

DrissionPage 提供了极简的定位语法，让你查找元素更加便捷。它还内置了等待和自动重试机制，即使在不稳定的网络环境下，也能保证程序的稳定运行。

3. 浏览器和数据包双管齐下

DrissionPage 不仅能控制浏览器，还能直接收发数据包。你可以根据实际需求，选择最适合的方式进行操作。例如，对于需要模拟用户行为的场景，可以使用浏览器控制；对于只需要获取数据的场景，可以使用数据包收发，效率更高。

4. 更多亮点功能

多标签页操作： 可以同时操作多个标签页，无需切换，效率更高。
缓存读取： 可以直接读取浏览器缓存来保存图片，无需用 GUI 点击保存。
网页截图： 可以对整个网页截图，包括视口外的部分。
Shadow-root 处理： 可以处理非 open 状态的 shadow-root。
下载工具： 提供强大的下载工具，操作浏览器也能享受高速且可靠的下载功能。
配置管理： 使用 ini 文件保存常用配置并自动调用，提供便捷设置。
解析引擎： 内置 lxml 作为解析引擎，解析速度提升几个数量级。
POM 模式封装： 以 POM 模式封装，可直接用于测试，且易于扩展。

三、部署方式

DrissionPage 支持 Windows、Linux 和 Mac 系统，Python 版本要求 3.6 以上。

1. 安装

你可以通过 pip 命令轻松安装 DrissionPage：

pip install DrissionPage

2. 浏览器配置

DrissionPage 默认控制 Chrome 浏览器，但也支持其他 Chromium 内核的浏览器，如 Edge。

2.1 自动查找

程序默认会自动在系统内查找 Chrome 路径，如果你的浏览器安装在默认位置，通常无需额外配置。

2.2 手动设置

如果程序无法自动找到浏览器路径，你需要手动设置。

方法一： 使用代码设置：
from DrissionPage import ChromiumOptions path = r'D:\Chrome\Chrome.exe' # 请改为你电脑内Chrome可执行文件路径 ChromiumOptions().set_browser_path(path).save()
方法二： 使用命令行设置：
dp -p "D:\Chrome\chrome.exe"
注意： 确保命令行环境与项目环境一致，并先使用 cd 命令定位到项目路径。

四、使用方式

1. 简单示例：登录 Gitee

以下代码演示了如何使用 DrissionPage 控制浏览器登录 Gitee：

from DrissionPage import Chromium

# 启动或接管浏览器，并创建标签页对象
tab = Chromium().latest_tab

# 跳转到登录页面
tab.get('https://gitee.com/login')

# 定位到账号文本框，获取文本框元素
ele = tab.ele('#user_login')

# 输入账号
ele.input('您的账号')

# 定位到密码文本框并输入密码
tab.ele('#user_password').input('您的密码')

# 点击登录按钮
tab.ele('@value=登 录').click()

2. 代码解析

Chromium()：创建 Chromium 对象，用于连接浏览器。
latest_tab：获取一个标签页对象。
get()：访问指定网址，等待页面加载完成。
ele()：查找元素，返回一个 ChromiumElement 对象。
input()：对元素输入文本。
click()：点击元素。

3. 更多用法

DrissionPage 的功能远不止这些，你可以通过阅读官方文档了解更多用法，例如：

元素操作：获取元素属性、文本内容、执行 JavaScript 代码等。
数据包收发：发送 GET/POST 请求，处理响应数据。
文件下载：高速下载文件，支持断点续传。
多线程/多进程：提高程序运行效率。

五、总结

DrissionPage 是一款功能强大、易于使用的 Python 网页自动化工具，它集成了浏览器控制和数据包收发功能，并提供了许多人性化的设计和便捷功能。无论你是爬虫爱好者，还是自动化脚本开发者，DrissionPage 都能帮助你提高效率，简化开发流程。

上一篇： vue 如何实现跨域
下一篇： PHP类Web网站适应移动设备十贴士

网站首页 > 技术文章 正文