pk10北京赛车_电脑版
            Spark Shell基本操作

            RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。

            通过本任务,您将掌握以下内容:

            1、理解Spark Shell作用和运行原理。

            2、理解Spark算子的概念。

            3、掌握RDD的两种操作类型:Transformation和Action。

            4、掌握RDD常用操作方法:reduceByKey、distinct、sortByKey、join 等。



            • 教学老师:lin
            • 任务难度:
            • 主题分类:基础学习
            • 预计学习时间:1h 30m
            展开剩余
            收 起
            • 01
              Spark Shell操作
              完成本任务之前,您需理解Spark RDD算子概念,熟练掌握Hadoop shell命令。
              1h 30m
            175
            学员评论(0)
            pk10北京赛车_电脑版