2022.1.3

今天装spark环境

推荐这些技术文章:

spark设计与运行原理,基本操作

Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。
答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案。因此,Spark所提供的生态系统同时支持批...

Spark底层内存计算框架与Spark RDD核心深入解读 Spark云计算架构师级别开发实战课程

何谓Spark RDD?

 
      Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed
Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD
的基本概念及与 RDD 相关的概念做基本介绍。
...

Spark——Standalone 环境安装及简单使用

Standalone 环境安装

将 spark-3.0.0-bin-hadoop3.2.tgz 文件解压缩在指定位置(/opt/module)

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

修改解压后文件名称为spark-standalone

mv spark-3.0.0-bin-hadoop3.2 spark...

hive on spark 读取中文乱码

问题描述
集群默认计算引擎是 hive ,这两天自己试了一下 hive on spark 发现一个奇怪现象,首先 hive 引擎中文做简单查询或者聚合查询都正常,使用 spark 引擎简单查一个表的中文字段也没事,但是只要对 中文字段进行 group by 操作就乱码了
问题解决
在开启 spark session 后 加两个设置就好了

set spark.executor.extraJava...

2022.4.4学习成果

rpm –qa
–a选项是查询所有已经安装的软件包。
-q是查询一个包是否安装
(显示区别:已经安装的rpm包不会显示后缀.rpm ,而未安装的包则显示后缀.rpm)
一般查询一个安装包是否安装的的命令为:例如:rpm -qa | grep screen
Spark目录介绍bin —— Spark操作命令conf —— 配置文件data —— Spark测试文件examples —— Spark...

基于Docker搭建大数据集群(四)Spark部署

主要内容

spark部署

前提

zookeeper正常使用
JAVA_HOME环境变量
HADOOP_HOME环境变量

安装包
微云下载 | tar包目录下

Spark2.4.4

一、环境准备
上传到docker镜像
docker cp spark-2.4.4-bin-hadoop2.7.tar.gz cluster-master:/root/tar

解压
tar xivf spa...

Spark idea 在域环境下 报 无效的Spark url的问题,解决方式

 
改为以下代码即可:
val conf = new SparkConf().setMaster("local[*]").setAppName("rdd").set("spark.driver.host","localhost")

 

...

Spark基础+性能优化

基础篇:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html高级篇:https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

...

数据仓库(四)——数仓环境搭建

第一章 Hive环境搭建
1.1 Hive引擎简介
    Hive引擎包括:默认MR、。 tez、spark
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark...

spark-sql 写代码的三种方式

spark-sql 写代码的三种方式
目录spark-sql 写代码的三种方式一、在idea里面将代码编写好打包上传到集群中运行----上线使用1、编写代码2、打包上传到Hdoop集群中3、spark-submit提交到Yarn上运行二、Spark shell 命令栏里面写代码----测试使用(项目上几乎不使用)三、spark-sql命令栏写代码在进入 spark-sql 的过程中会输出很多...

文章标题:2022.1.3
文章链接:https://www.dianjilingqu.com/4087.html
本文章来源于网络,版权归原作者所有,如果本站文章侵犯了您的权益,请联系我们删除,联系邮箱:saisai#email.cn,感谢支持理解。
THE END
< <上一篇
下一篇>>