2016 - 2024

感恩一路有你

spark编程基础 大数据中的Scala好掌握吗,自学可以吗?

浏览量:2931 时间:2021-03-12 11:43:26 作者:admin

大数据中的Scala好掌握吗,自学可以吗?

学习大数据技术需要掌握Scala。

但是,在学习Scala之前,您最好在一定程度上了解java和任何函数式语言(Haskell、SML等),特别是在您可以在编程范式之间自由切换之后。

Scala不偏向大数据方向的科学研究。它被用于许多地方,如火花。

1,JVM基础,与Java完全兼容。对于坚实的java基础的学生,学习斯卡拉非常友好!2!在普通工具中,水槽和Hadoop是用java编写的,Scale和卡夫卡是Scala编写的。

所以对于想学习大数据的学生来说,Scala确实是最受推荐的。

作为一种相对较新的语言,Scala有一个混乱的社区。在scala社区中有许多不同的尝试,主要是Java和Haskell,以及actor和reactive编程。如果你还没有掌握一个成熟的编程范例,我认为你很可能买不起Scala。!当java编程基础很好的时候,学习Hadoop系统,然后安排学习Scala,然后学习Scale,卡夫卡等等。这个顺序更科学合理,更容易让大家掌握。

推荐书籍:Scala编程,Scala函数编程https://www.toutiao.com/i6543924910664712718/

为什么Spark要用Scala实现?

SBT更适合构建Scala项目,Maven更适合构建java项目。2对于spark中的API,Java和scala是不同的,但是差别不大。三。如果使用Scala开发spark原型程序,可以使用spark-s Shell或spark Shell进行交互式实时查询。使用Scala甚至可以减少一个数量级的代码量,但是Scala的阈值很高。建议:使用Scala构建spark作业,因为spark本身是由SBT构建的。同时,利用Scala开发spark-job有助于理解spark的实现机制,它与Scala是一个很好的匹配。RDD的许多思想都与Scala类似,如map、filter等高阶算子与Scala的概念表完全相同。Java在很短的代码中有很多行函数。它类似于FP中的不可变延迟计算,实现了分布式内存对象RDD,同时实现了流水线。Scala擅长借用,比如设计初衷是支持JVM,所以它可以完美地借用Java的生态功能。像spark一样,很多东西不应该自己写,而是可以直接使用和借鉴,比如直接在yarn、mesos、EC2中部署,使用HDFS、S3,借用hive的SQL解析部分;

3。Akka还可以促进高效网络通信的发展。

为什么Spark要用Scala实现?

1. 为了让spark连接到hive的原始数据仓库,我们需要在hive中连接hive-网站.xml将该文件复制到spark的conf目录,这样您就可以通过这个配置文件找到hive的元数据和数据存储。

在这里,因为我的spark是自动安装和部署的,所以我需要知道CDH将配置-网站.xml它在哪里?摸索之后。此文件的默认路径在/etc/hive/conf下

类似地,spark的conf在/etc/spark/conf下

此时,如上所述,相应的配置单元被更改-网站.xml复制到spark/conf目录

如果hive的元数据存储在mysql中,我们需要准备mysql相关的驱动程序,例如mysql-connector-java-5.1.22-bin.jar文件.

spark编程基础 spark和scala的关系 spark与scala版本对应

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。