• 微信公众号:美女很有趣。 工作之余,放松一下,关注即送10G+美女照片!

加速APACHE SPARK 3.X之一:Spark处理简介

开发技术 开发技术 5小时前 2次浏览

英文版原文:https://www.nvidia.com/en-sg/deep-learning-ai/solutions/data-science/apache-spark-3/ebook-sign-up/

  IDC预测,数据中心、边缘计算和物联网产生的数据将在未来7年内增加5倍,达到175ZB。随着数据的巨大增长,Apache软件基金会的Apache spark已经成为分布式扩展数据处理最流行的框架之一,在本地和云上数百万台服务器上运行。本章介绍了Spark框架,并解释它是如何执行应用程序的。

  Apache Spark是一个用于大规模数据处理的快速通用分析引擎,可以在Hadoop、Apache Mesos、Kubernetes、独立运行或在云中运行。Spark提供了高级操作符,可以使用交互式shell、笔记本或打包应用程序轻松在Scala、Python、R或SQL中构建并行应用程序。

  在Spark核心数据处理引擎的基础上,还有用于SQL和DataFrames、机器学习、GraphX、图计算和流处理的库。这些库可以一起用于来自各种数据源的海量数据集,如HDFS、Alluxio、Apache Cassandra、Apache HBase或Apache Hive。

加速APACHE SPARK 3.X之一:Spark处理简介

 

 

 Spark如何在集群上执行

  Spark应用程序在集群节点的执行器进程中以并行任务的形式运行,在驱动程序中的SparkSession对象和集群上的资源或集群管理器(无论是单机、Mesos、YARN或Kubernetes)之间协调执行。

加速APACHE SPARK 3.X之一:Spark处理简介

 

  Spark也可以在一台机器上运行,称为本地模式。在本地模式下,驱动程序和任务在同一个Java虚拟机的线程中运行。本地模式对于原型、开发、调试和测试都很有用。但是,本地模式并不适用于运行生产应用程序。

 (未完待续….2021/7/22 23:37:10)


程序员灯塔
转载请注明原文链接:加速APACHE SPARK 3.X之一:Spark处理简介
喜欢 (0)