• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

Kubernetes部署让Spark更灵活

出处: mp.weixin.qq.com 作者: 阳沁珂

Spark 是一个开源的数据处理框架,能快速处理大量数据的转换。其高性能来自Spark的分布式框架,通常一个任务会被平均分配,跨机器集群工作。但Spark本身并不管理这些计算机,他需要一个集群的管理器来管理集群。Spark定义了需要执行的任务,而管理器决定了任务将如何被分配被执行,由此可见其重要性。这个管理器需要负责任务的接收、资源的调度和分配、任务的启动、TaskTrack监控等。 传统上,我们会选择Hadoop YARN来作为资源调度管理器,并且使用spark-submit提交任务。但随着云计算的推广与容器的流行,因其需要依赖于HDFS的本地环境,YARN的部署方式显得捉襟见肘。在技术的递进下,从Spark3.3.1开始正式推出了Kubernetes的资源管理方式,其设计框架与云计算紧密结合,将Spark应用从本地HDFS集群中解耦合,赋予其更多的灵活性。

查看原文 176 技术 lddgo 分享于 2023-05-30