网站首页 > 技术文章 正文
《诡秘之主》是起点的超级热门小说,到底有多火呢,看看下面这张图就知道了:
正好乌贼的这本神书完结了,就拿它举例子演示一下python爬虫,前后不到30行代码。
现在盗版小说泛滥,随便找个网址,爬它:https://www.xsbiquge.com/15_15338/
这里我打算用selenium来进行爬取,之前我更新过相关文章,感兴趣可以看一看。
首先导入各种库:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
一般使用selenium会自动打开浏览器,随着程序的运行,浏览器也会自动进行相应操作,如果不想这样可以将webdriver设置成“无头”浏览器:
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.xsbiquge.com/15_15338/')
可以看到当前页面是这样的目录形式,点一下想看的章节,就会进入正文页面:
所以思路可以是这样,先获取不同章节的url链接,再通过selenium登录相应的url链接,爬取所在章节的正文内容。
首先爬取所有章节的url链接,在当前的目录页面右键单击“检查”:
找到各个章节所在的位置,右键单击“copy”---“copy xpath”,复制相应章节的xpath地址:
我以前三章为例,可以发现很有规律,第一章就是dd[1],第二章就是dd[2],以此类推...
所以可以通过for循环,遍历所有章节的xpath地址,通过selenium定位所在标签,并获取href,将其保存到列表里:
url_list = []
name_list = []
for i in range(1,1453):
xpath_path = '//*[@id="list"]/dl/dd[{}]'.format(i)
url = driver.find_element_by_xpath(xpath_path).find_element_by_xpath('.//a').get_attribute('href')
name = driver.find_element_by_xpath(xpath_path).text
url_list.append(url)
name_list.append(name)
print(url_list)
print(name_list)
有了url链接,就可以爬取正文啦,通过selenium登录各个章节的url,通过xpath地址定位正文的位置,获取text内容,最后通过 with open 以 'a'(追加写)的方式保存成txt文件(可以发现,因为selenium每次爬不同章节的时候都要登录相应的章节url,所以效率比较低,整套代码跑完需要十几分钟,而如果用requests+re的方式则只需要几分钟):
for j in range(0,1452):
print('正在爬取第{}章'.format(j+1))
url = url_list[j]
driver.get(url)
content = driver.find_element_by_xpath('//*[@id="content"]').text
with open('诡秘之主.txt','a') as f:
f.write('\n'+name_list[j])
f.write(content)
最后不要忘了关闭浏览器:
driver.quit()
求关注!求点赞!求转发!
猜你喜欢
- 2024-11-14 Playwright自动化测试工具之元素定位实战
- 2024-11-14 利器 | AppCrawler 自动遍历测试实践(二):定制化配置
- 2024-11-14 java组件HuTool相关工具类的使用二
- 2024-11-14 Python爬虫之xpath用法全解析(py xpath)
- 2024-11-14 怎么用xpath写drissionpage?或者用相对位置?
- 2024-11-14 通过python+Xpath实现抓取某网站推荐的歌曲
- 2024-11-14 Python自动化工具(python写自动化工具)
- 2024-11-14 web自动化测试——xpath常用案例(web自动化测试平台)
- 2024-11-14 手把手教你如何用Python爬取网站文本信息
- 2024-11-14 史上最全 Appium 自动化测试从基础到框架实战精华学习笔记(一)
- 最近发表
-
- count(*)、count1(1)、count(主键)、count(字段) 哪个更快?
- 深入探索 Spring Boot3 中 MyBatis 的 association 标签用法
- js异步操作 Promise fetch API 带来的网络请求变革—仙盟创梦IDE
- HTTP状态码超详细说明_http 状态码有哪些
- 聊聊跨域的原理与解决方法_跨域解决方案及原理
- 告别懵圈!产品新人的接口文档轻松入门指南
- 在Javaweb中实现发送简单邮件_java web发布
- 优化必备基础:Oracle中常见的三种表连接方式
- Oracle常用工具使用 - AWR_oracle工具有哪些
- 搭载USB 3.1接口:msi 微星 发布 990FXA Gaming 游戏主板
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (88)
- es6includes (74)
- sqlset (76)
- apt-getinstall-y (100)
- node_modules怎么生成 (87)
- chromepost (71)
- flexdirection (73)
- c++int转char (80)
- mysqlany_value (79)
- static函数和普通函数 (84)
- el-date-picker开始日期早于结束日期 (76)
- js判断是否是json字符串 (75)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)