网站首页 > 技术文章 正文
AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。
安装
第一步,老规矩,先安装
Install-Package AngleSharp
使用
解析 HTML 文档
using AngleSharp.Html.Parser;
var html = @"<html><body><h1>Hello, World!</h1></body></html>";
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找 <h1> 元素
var h1 = document.QuerySelector("h1");
// 输出 <h1> 中的文本
Console.WriteLine(h1.TextContent); // Output: Hello, World!
解析并抓取网页
// 创建 HttpClient 来抓取网页
using AngleSharp.Html.Parser;
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找页面中的标题
var title = document.QuerySelector("title");
// 输出页面标题
Console.WriteLine(title.TextContent);
DOM 操作
选择器和查询
var h1 = document.QuerySelector("h1"); // 获取第一个 <h1> 元素
var allLinks = document.QuerySelectorAll("a"); // 获取所有 <a> 标签
获取元素属性
var firstLink = document.QuerySelector("a");
var href = firstLink.GetAttribute("href");
Console.WriteLine(href); // 输出链接地址
修改元素
var heading = document.QuerySelector("h1");
heading.TextContent = "New Heading"; // 修改文本内容
heading.SetAttribute("class", "new-class"); // 修改 class 属性
遍历节点
var links = document.QuerySelectorAll("a");
foreach (var link in links)
{
Console.WriteLine(link.GetAttribute("href"));
}
4异步操作
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 使用异步抓取网页内容
using var client = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 使用 HTML 解析器解析网页
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 操作 DOM
var h1 = document.QuerySelector("h1");
Console.WriteLine(h1.TextContent);
}
}
5. 实战:抓取网页中的所有链接
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 获取网页
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建解析器
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 获取所有的链接
var links = document.QuerySelectorAll("a");
// 输出所有链接
foreach (var link in links)
{
var href = link.GetAttribute("href");
Console.WriteLine(href);
}
}
}
总结
AngleSharp 是一个强大的工具,可以帮助你在 C# 中进行 HTML 和 XML 的解析和操作。它对于网页抓取、数据提取等任务非常有用。通过提供类似浏览器的 DOM 操作接口,它能使你更容易地处理和操作网页内容。
- 上一篇: C#中的9个“黑魔法”与“骚操作”
- 下一篇: C#接口(c接口镜头)
猜你喜欢
- 2025-07-24 Channels: C# 实现高效的线程间通信
- 2025-07-24 一路踩坑,被迫聊聊 C# 代码调试技巧和远程调试
- 2025-07-24 C# 获取Windows的系统信息(c# 获取本机的ip地址)
- 2025-07-24 C# 读取本地网络配置信息(c# 读取配置文件的方法)
- 2025-07-24 MODBUS协议在C#中的应用案例(c#modbus 程序)
- 2025-07-24 C#接口(c接口镜头)
- 2025-07-24 C#中的9个“黑魔法”与“骚操作”
- 2025-07-24 C#.NET Ninject 详解(c#.net framework)
- 2025-07-24 C#.NET HttpClient 使用教程(c#开启http服务)
- 2025-07-24 C#.NET in、out、ref详解(c# .net5)
- 1517℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 594℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 521℃MySQL service启动脚本浅析(r12笔记第59天)
- 489℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 489℃启用MySQL查询缓存(mysql8.0查询缓存)
- 477℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 456℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 454℃MySQL server PID file could not be found!失败
- 最近发表
-
- PS所有滤镜的说明(六)(ps滤镜详解)
- 5款小白也能用的在线图片编辑器!电商效率飙升就靠它!
- Java变量(java变量有什么作用)
- Java面试常见问题:Java注解(java中的面试题)
- Java编程入门第一课:HelloWorld(java编程从入门到实践)
- Java基础教程:Java继承概述(java里继承的概述)
- java基础之——访问修饰符(private/default/protected/public)
- 如何规划一个合理的JAVA项目工程结构
- 将机器指令翻译成 JavaScript -- 终极目标
- Web 服务器基准测试:Go vs. Node.js vs. Nim vs. Bun
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (81)
- es6includes (73)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- c语言min函数头文件 (68)
- asynccallback (71)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)