本文章简要概述了spark sql 的执行流程以及基本原理。 spark sql 本质是将sql 语…
RDD简介 RDD,全称为Resilient Distributed Datasets(弹性分布式数…
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: &nbs…
apache impala 什么是Impala? Impala是用于处理存储在Hadoop集群中的大…
Hbase简介 HBase是一个开源的非关系型分布式数据库( NoSQL),它参考了谷歌的BigTa…
https://github.com/apache/atlas (github 拉取对应…
什么是spark? Spark是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。S…
1.1 分布式计算框架 1.1.1 编程模型 1.&…