优秀的编程知识分享平台

网站首页 > 技术文章 正文

2025软考架构师大数据学习篇五(软考架构师案例分析必背)

nanyue 2025-06-15 18:12:19 技术文章 2 ℃

软考架构师大数据知识点继续学习如下:

之前已经讲过Lambda架构,今天来说说Kappa架构

数据系统=数据+查询

Kappa不同于Lambda同时计算流计算和批计算并合视图,它只会通过流计算一条的数据链路计算并产生视图。本质上是通过改进Lambda架构中的Speed Layer,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据。教程687页

Kappa架构原理:在Lambda的基础上进行了优化,删除了Batch Layer的架构,将数据通道以消息队列进行替代。Kappa架构分为实时层、服务层。

(1)实时层:核心功能是处理输入数据,生成实时视图

具体是使用流式处理引擎逐条处理输入数据,生成实时视图。

架构实现方式是采用Apache Kafka回访数据,然后采用Flink或Spark Streaming进行处理。

(2)服务层:核心功能是使用实时视图中的结果数据集响应用户请求

具体是使用数据湖中的存储作为服务层。

Kappa优点:教程688页

Kappa架构的优点在于将实时和离线代码统一起来,方便维护而且统一了数据口径的问题,避免了Lambda架构中与离线数据合并的问题,查询历史数据的时候只需要重放存储的历史数据即可。

Kappa缺点:教程688页

(1)消息中间件缓存的数据量和回溯数据有性能瓶颈。通常算法需要过去180天的数据,如果都存在消息中间件,无疑有非常大的压力。同时,一次性回溯订正180天级别的数据,对实时计算的资源消耗也非常大。

(2)在实时数据处理时,遇到大量不同的实时流进行关联时,非常依赖实时计算系统的能力,很可能因为数据流先后顺序问题,导致数据丢失。

(3)Kappa在抛弃了离线数据处理模块的时候,同时抛弃了离线计算更加稳定可靠的特点。

Lambda虽然保证了离线计算的稳定性,但双系统的维护成本高且两套代码带来后期运维困难。教程688页

考生一定要要掌握Kapp工作原理、架构图、实现技术、优缺点。

下次内容将对Lambda架构和Kappa架构多维度进行对比。

更多学习内容,可以关注软考课堂,欢迎交流

最近发表
标签列表