Spark 学习中遇到的一些问题-伙伴云

Spark 学习中遇到的一些问题

网友投稿 928 2022-05-29

Spark 学习中遇到的一些问题

SparkSQL 相关

在执行 insert 语句时报错，堆栈信息为：FileSystem closed。常常出现在 ThriftServer 里面。

原因：

由于 hadoop FileSystem.get 获得的 FileSystem 会从缓存加载，如果多线程一个线程 closedFileSystem 会导致该 BUG

解决方法：

hdfs 存在不从缓存加载的解决方式，在 hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true 即可

在执行 Sparksql 操作 orc 类型的表时抛出：java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException

原因：

分区或者表下存在空的orc文件。该 BUG 在 Spark2.3.0之后才修复

解决方法：

规避解决。修改 ORC 的默认分割策略为：hive.exec.orc.split.strategy=BI 进行解决。Orc 的 split 有3种策略（ETL、BI、HYBIRD），默认是 HYBIRD(混合模式，根据文件大小和文件个数自动选择 ETL 还是 BI 模式)，BI 模式是按照文件个数来分 split

ThriftServer 登录异常：javax.security.sasl.AuthenticationException: Error validating LDAP user

原因：

Spark 学习中遇到的一些问题

是由于密码错误或者 LDAP 服务异常

解决方法：

解决密码和验证问题

SparkCore 相关

jar包版本冲突时：java.lang.ClassNotFoundException: XXX

原因：

一般可能是用户 jar和 Spark jar 冲突

解决方法：

1、最好和 Spark 相关的 jar 进行适配。

2、如果不行可以使用参数：spark.driver.userClassPathFirst和spark.executor.userClassPathFirst 设置为true

集群节点异常导致 Spark job 失败，如磁盘只读。

原因：

Spark 是一个高性能、容错的分布式计算框架，一旦它知道某个计算所在的机器出现问题会依据之前生成的 lineage 重新在这台机器上调度这个 Task，如果超过失败次数就会导致 job 失败。

解决方法：

Spark 有黑名单机制，在超出一定次数的失败后不会往该节点或者 Executor 调度 Task。设置相应 Black 参数：spark.blacklist.enabled=true

on yarn 启动 spark-sql 和 spark-submit 时出现：java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

原因：

和 yarn 相关 Jersey 包冲突

解决方法：

配置上–conf spark.hadoop.yarn.timeline-service.enabled=false

spark

学习 笔记20170601">【PMP】学习 笔记20170601

928 2022-05-29

已打开的窗口（电脑任务栏不显示已打开的窗口）

928 2022-05-29

粘贴总是有问题">图片粘贴总是有问题

928 2022-05-29

Spark 学习中遇到的一些问题

学习 笔记20170601">【PMP】学习 笔记20170601

已打开的窗口（电脑任务栏不显示已打开的窗口）

粘贴总是有问题">图片粘贴总是有问题

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

客户管理工具是什么？">客户管理工具是什么？

友情链接

Spark 学习中遇到的一些问题

微信扫一扫：分享

学习笔记20170601">【PMP】学习笔记20170601

粘贴总是有问题">图片粘贴总是有问题

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

客户管理工具是什么？">客户管理工具是什么？

友情链接