当前位置：首页 > 网站优化 >

阅读Spark静态内存管理详解，能掌握优化内存使用，提升Spark性能的秘诀吗？

GG网络技术分享 2025-11-24 06:17 17

可用的Storage内存

可用的Execution内存

这篇文章Yi经被阅读了242次啦！你知道吗，Spark在1.6版本之前，使用的是静态内存管理，从头再来。而到了1.6之后就变成了统一内存管理。想知道为什么吗？那就继续kan下去吧！

先说说我们要了解Spark官网的配置信息，还有那个Spark内存管理详情图，真的hen有用哦！，还有这张图：，挺好。

在Spark1.6之前，使用的是静态内存管理，而Spark1.6之后使用的是统一内存管理。从StaticMemoryManager的单例对象中，别纠结... 我们Ke以知道，再说说为每个executor分配到的关于storage的内存：

BlockManager是spark自己实现的内部分布式文件系统，BlockManager接受数据的时候是以iterator的形式，并且这些数据有序列化和非序列化的。需要注以下两点：，将心比心...

这片内存用于程序本身运行所需的内存，以及用户定义的数据结构和创建的对象，算是吧... 此内存有上面两部分决定，默认为0。

memoryFraction即ExecutionMemory占所有Neng使用内存的百分比,由参数spark.shuffle.memoryFraction来确定。safetyFraction是execution部分的一个平安阈值,由参数spark.shuffle.safetyFraction来确定。

Or Memory。这片内存区域是给系统预留的内存,包括程序本身运行所需的内存。，盘它。。

起来 Ru果不引入safety的话，整个executor内存的60%用于storage，20%用于execution，剩下20%用于其他。在引入safetyFraction后默认情况下storage占了整个executor内存的54%，往白了说... execution占了16%，那么到头来还剩下30%内存用于其他用途。

Spark内存管理详解

订阅专栏本文深入分析Spark内存管理模型，涵盖统一内存管理模块，包括堆内和堆外内存区域的详细说明，以及Execution内存和Storage内存的机制，帮助理解和优化Spark内存使用。本文将对Spark的内存管理模型进行分析，太刺激了。下面的分析全部是基于Apache Spark 2.2.1进行的。为了让下面的文章kan起来不枯燥，我不打算贴出代码层面的东西。文章仅对统一内存管理模块进行分析，如对之前的静态内存管理感兴趣，请参阅网上其他文章。

大体上... 我们dou知道SparkNeng够有效的利用内存并进行分布式计算，其内存管理模块在整个系统中扮演着非常重要的角色。为了...

概念补充

我无法认同... 落花无声在Spark中，内存管理是非常重要的一个环节，直接关系到Spark作业的性Neng和稳定性。本文将深入探讨Spark内存管理的原理及性Neng优化实战经验，帮助读者geng好地理解和优化Spark作业的性Neng。

内存管理原理：Spark采用了基于内存的计算模式，的速度。Spark的内存管理主要有两种模式：静态内存管理和动态内存管理，让我们一起...。

吃瓜。静态内存管理：静态内存管理是通过Spark的内存管理器来Executor的内存大小，根据作业的需求来内存分配。动态内存管理Neng够geng好地适应不同作业的需求，提升作业的性Neng。

从getMaxExecutironMemory方法可知，每个executor分配给execution的内存为：Execution Memory = systemMaxMemory *memoryFraction * safetyFraction, 默认为executor大可用内存。

每个JVM上的taskKe以Zui多申请至多1/N的execution内存。Ru果task的申请没有被批准，它会释放一部分内存，并且下次申请的时候，它会申请geng小的一部分内存。

unroll是storage中比较特殊的一部分，它默认占据总内存的20%，说到点子上了。。

Execution内存在运行时会被分配给运行在JVM上的task。这里不同的是分配给每个task的内存并不是固定的，而是动态的。spark不是一上来就分配固定大小的内存块给task，而是允许一个task占据JVM所有execution内存，他破防了。。

那些不cache数据的应用在运行时只占用一小部分可用内存，主要原因是默认的内存配置中，storage用去了safety内存的60%，切记...。

抄近道。注意：为了防止过多的spilling数据，只有导致比较严重的I/O问题。

用于shuffle聚合内存，取决于joins,sorts,aggregations等过程中频繁的IO需要的Buffer临时数据存储，我跪了。。

哭笑不得。举个例子， Spark之所以有一个SafetyFraction这样的参数，是为了避免潜在的OOM。比方说进行计算时有一个提前未预料到的比较大的数据，会导致计算时间延长甚至OOM，safetyFraction为storage和executiondou提供了额外的buffer以防止此类的数据倾斜。这部分内存叫Zuo预留内存。

简单 spark在shuffle write的过程中，每个executor会将数据写到该executor的物理磁盘上，下一个stage的task会去上一个stage拉取其需要处理的数据，官宣。并且是边拉取边进行处理的，这个时候会用一个aggregate的数据结构，比如hashmap边拉取数据边进行聚合。这部分内存就被称Zuoexecution内存。

StorageMemory=systemMaxMemory*storageMemoryFraction*safetyFraction=

Spark是基于内存的大数据计算引擎，所以呢，在编写Spark程序或者提交Spark任务的时候，要特别注意内存方面的优化和调优。Spark官方也提供了hen多配置参数用来进行内存或CPU的资源使用，但是为什么我们要进行这些参数的配置，这些参数是怎么影响到任务施行的，本篇文章将从Spark内...

提升，静态内存管理的方式Yi经不太适应新的硬件水平，Spark又推出了统一内存管理的策略。统一内存管理与静态内存管理大致是一样的，只是在静态内存管理的基础上，加入了动态占用机制。对于运行期间，存储内存和施行内存不够的情况下Ke以临时占用对方的内存，这就使得内存使用的灵活...，这事儿我可太有发言权了。

Spark内存管理的局限性

也就是说默认分配executor大可用内存的*。源码如下：，我们一起...

eviction策略：在spark技术文档中，eviction一词经常出现。eviction并不是单纯字面上驱逐的意思。说句题外话， spark我们通常dou把它叫Zuo内存计算框架，严格意义spark并不是内存计算的新技术。无论是cache还是persist这类算子，官宣。 spark在内存安排上，绝大多数用的dou是LRU策略。即当内存不够的时候，会evict掉Zui远使用过的内存数据block。当evict的时候，spark会将该数据块evict到硬盘，而不是单纯的抛弃掉。

unroll的优先级还是比较高的，它使用的内存空间Ke以从storage中借用，Ru果在storage中没有现存的数据block，它甚至Ke以占据整个storage空间。Ru果storage中有数据block，哎，对！它Ke以大drop掉内存的数据是以spark.storage.unrollFraction来控制的。由图6可知，这部分默认为storage的20%。

2.1 静态内存管理

2.2 统一内存管理

3. 存储内存管理

3.1 RDD的持久化机制

通过对数据结构的分析，Ke以kan出存储级别从三个维度定义了RDD的Partition的存储方式：存储位置:磁盘/堆内内存/堆外内存。如MEMORY_AND_DISK是一边在磁盘和堆内内存上存储，实现了冗余...

Executor内运行的任务同样共享施行内存，Spark用一个HashMap结构保存了任务到内存耗费的映射。每个任务可占用的施行内存大小的范围为1/2N ~ 1/N，体验感拉满。其中N为当前Executor内正在运行的任务的个数。每个任务在启动之时要向MemoryManager请求申请Zui少为1/2N的施行内存，Ru果不...

PPT你。没有适用于所有应用的默认配置，通常需要开发人员针对不同的应用进行不同的参数配置。比如根据任务的施行逻辑，调整shuffle和storage内存占比来适应任务的需求。

不夸张地说... 注意：这个20%的空间并不是静态保留的，而是通过drop掉内存中的数据block来分配的。Ru果unroll失败了spark会把这部分数据evict到硬盘。

为了进一步优化内存的使用以及提高Shuffle时排序的效率， Spark引入了堆外内存，就这？使之Ke以直接在工作节点的系统内存中开辟空间，存储性Neng。

在默认情况下堆外内存并没有被启用，需要，所以相一言难尽。比堆内内存来说降低了管理的难度，也降低了误差。

这样需要开发人员具备较高的spark原理知识。

通过阅读Spark静态内存管理详解，我们Ke以了解到Spark内存管理的原理和优化方法，这对于提升Spark性Neng非常重要。在实际应用中，我们需要，以达到Zui佳的性Neng表现。

标签： Spark 静态内存管理详解

上一篇：学习网站界面设计，如何把握关键因素提升用户体验？
下一篇： “如何避免注册时用户名密码错误？”

网站优化

阅读Spark静态内存管理详解，能掌握优化内存使用，提升Spark性能的秘诀吗？

Spark内存管理详解

概念补充

Spark内存管理的局限性

为您推荐

提交需求或反馈

产品中心

H5单页免费源码

免费源码

联系我们

QQ在线客服

关注微信