Spark RDD是什么?

  • 内容
  • 评论
  • 相关

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。

RDD 的基本概念

RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。

通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。

图 1 展示了 RDD 的分区及分区与工作结点(Worker Node)的分布关系。

RDD分区及分区与工作节点的分布关系
图 1  RDD 分区及分区与工作节点的分布关系

本文标题:Spark RDD是什么?

本文地址:https://www.hosteonscn.com/5438.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注