网站首页 > 技术文章正文

手把手教你爬取热门小说《诡秘之主》

nanyue 2024-11-14 16:48:23 技术文章 29 ℃

《诡秘之主》是起点的超级热门小说，到底有多火呢，看看下面这张图就知道了：

正好乌贼的这本神书完结了，就拿它举例子演示一下python爬虫，前后不到30行代码。

现在盗版小说泛滥，随便找个网址，爬它：https://www.xsbiquge.com/15_15338/

这里我打算用selenium来进行爬取，之前我更新过相关文章，感兴趣可以看一看。

首先导入各种库：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

一般使用selenium会自动打开浏览器，随着程序的运行，浏览器也会自动进行相应操作，如果不想这样可以将webdriver设置成“无头”浏览器：

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.xsbiquge.com/15_15338/')

可以看到当前页面是这样的目录形式，点一下想看的章节，就会进入正文页面：

所以思路可以是这样，先获取不同章节的url链接，再通过selenium登录相应的url链接，爬取所在章节的正文内容。

首先爬取所有章节的url链接，在当前的目录页面右键单击“检查”：

找到各个章节所在的位置，右键单击“copy”---“copy xpath”，复制相应章节的xpath地址：

我以前三章为例，可以发现很有规律，第一章就是dd[1]，第二章就是dd[2]，以此类推...

所以可以通过for循环，遍历所有章节的xpath地址，通过selenium定位所在标签，并获取href，将其保存到列表里：

url_list = []
name_list = []
for i in range(1,1453):
    xpath_path = '//*[@id="list"]/dl/dd[{}]'.format(i)
    url = driver.find_element_by_xpath(xpath_path).find_element_by_xpath('.//a').get_attribute('href')
    name = driver.find_element_by_xpath(xpath_path).text
    url_list.append(url)
    name_list.append(name)
print(url_list)
print(name_list)

有了url链接，就可以爬取正文啦，通过selenium登录各个章节的url，通过xpath地址定位正文的位置，获取text内容，最后通过 with open 以 'a'（追加写）的方式保存成txt文件（可以发现，因为selenium每次爬不同章节的时候都要登录相应的章节url，所以效率比较低，整套代码跑完需要十几分钟，而如果用requests+re的方式则只需要几分钟）：

for j in range(0,1452):
    print('正在爬取第{}章'.format(j+1))
    url = url_list[j]
    driver.get(url)
    content = driver.find_element_by_xpath('//*[@id="content"]').text
    with open('诡秘之主.txt','a') as f:
        f.write('\n'+name_list[j])
        f.write(content)

最后不要忘了关闭浏览器：

driver.quit()

求关注！求点赞！求转发！

上一篇： Python爬虫之xpath用法全解析（py xpath）
下一篇： java组件HuTool相关工具类的使用二

网站首页 > 技术文章 正文

手把手教你爬取热门小说《诡秘之主》

猜你喜欢

网站首页 > 技术文章正文