spark编程基础 大数据中的Scala好掌握吗,自学可以吗?
大数据中的Scala好掌握吗,自学可以吗?
学习大数据技术需要掌握Scala。
但是,在学习Scala之前,您最好在一定程度上了解java和任何函数式语言(Haskell、SML等),特别是在您可以在编程范式之间自由切换之后。
Scala不偏向大数据方向的科学研究。它被用于许多地方,如火花。
1,JVM基础,与Java完全兼容。对于坚实的java基础的学生,学习斯卡拉非常友好!2!在普通工具中,水槽和Hadoop是用java编写的,Scale和卡夫卡是Scala编写的。
所以对于想学习大数据的学生来说,Scala确实是最受推荐的。
作为一种相对较新的语言,Scala有一个混乱的社区。在scala社区中有许多不同的尝试,主要是Java和Haskell,以及actor和reactive编程。如果你还没有掌握一个成熟的编程范例,我认为你很可能买不起Scala。!当java编程基础很好的时候,学习Hadoop系统,然后安排学习Scala,然后学习Scale,卡夫卡等等。这个顺序更科学合理,更容易让大家掌握。
推荐书籍:Scala编程,Scala函数编程https://www.toutiao.com/i6543924910664712718/
为什么Spark要用Scala实现?
SBT更适合构建Scala项目,Maven更适合构建java项目。2对于spark中的API,Java和scala是不同的,但是差别不大。三。如果使用Scala开发spark原型程序,可以使用spark-s Shell或spark Shell进行交互式实时查询。使用Scala甚至可以减少一个数量级的代码量,但是Scala的阈值很高。建议:使用Scala构建spark作业,因为spark本身是由SBT构建的。同时,利用Scala开发spark-job有助于理解spark的实现机制,它与Scala是一个很好的匹配。RDD的许多思想都与Scala类似,如map、filter等高阶算子与Scala的概念表完全相同。Java在很短的代码中有很多行函数。它类似于FP中的不可变延迟计算,实现了分布式内存对象RDD,同时实现了流水线。Scala擅长借用,比如设计初衷是支持JVM,所以它可以完美地借用Java的生态功能。像spark一样,很多东西不应该自己写,而是可以直接使用和借鉴,比如直接在yarn、mesos、EC2中部署,使用HDFS、S3,借用hive的SQL解析部分;
3。Akka还可以促进高效网络通信的发展。
为什么Spark要用Scala实现?
1. 为了让spark连接到hive的原始数据仓库,我们需要在hive中连接hive-网站.xml将该文件复制到spark的conf目录,这样您就可以通过这个配置文件找到hive的元数据和数据存储。
在这里,因为我的spark是自动安装和部署的,所以我需要知道CDH将配置-网站.xml它在哪里?摸索之后。此文件的默认路径在/etc/hive/conf下
类似地,spark的conf在/etc/spark/conf下
此时,如上所述,相应的配置单元被更改-网站.xml复制到spark/conf目录
如果hive的元数据存储在mysql中,我们需要准备mysql相关的驱动程序,例如mysql-connector-java-5.1.22-bin.jar文件.
spark编程基础 spark和scala的关系 spark与scala版本对应
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。