Kubernetes部署让Spark更灵活

Source : mp.weixin.qq.com Author : 阳沁珂

Spark 是一个开源的数据处理框架，能快速处理大量数据的转换。其高性能来自Spark的分布式框架，通常一个任务会被平均分配，跨机器集群工作。但Spark本身并不管理这些计算机，他需要一个集群的管理器来管理集群。Spark定义了需要执行的任务，而管理器决定了任务将如何被分配被执行，由此可见其重要性。这个管理器需要负责任务的接收、资源的调度和分配、任务的启动、TaskTrack监控等。传统上，我们会选择Hadoop YARN来作为资源调度管理器，并且使用spark-submit提交任务。但随着云计算的推广与容器的流行，因其需要依赖于HDFS的本地环境，YARN的部署方式显得捉襟见肘。在技术的递进下，从Spark3.3.1开始正式推出了Kubernetes的资源管理方式，其设计框架与云计算紧密结合，将Spark应用从本地HDFS集群中解耦合，赋予其更多的灵活性。