2016 - 2024

感恩一路有你

hbase 独立运行模式 如何学习大数据处理?

浏览量:3053 时间:2023-05-28 23:36:16 作者:采采

如何学习大数据处理?

大数据的学习,最难的那是入门,如果没有传智播客给到学生建议您的话,那就是好好的学习sql,要能非常熟练不使用,另外多学习大数据处理的去相关思想;下面给有要的小伙伴罗列一个2019年全套的大数据学路线图:

大数据处理咨询技术,所不需要掌握到的是Java语言和Linux操作系统。这两个是基础,学习顺序的话不分先后。技术方面最方便的学习路径是然后去学习相关的高端点框架。很多人提起框架的话,可能会总觉得没法。当然我们如果是知道咨询框架的内部函数方法,是会很快太多了。

Hadoop:

在接近hadoop之前,大家必须有肯定会的Java基础。这一点给自学的小伙伴提出来的建议是首先学习Linux,后再学adoop的生态系统。在去学习Hadoop的第一个阶段应该是可以比较熟练的堆建伪分布式集群在内几乎分布式集群。也就是先让hadoop的环境搭建起来,能正常运行wordcount程序,我们才可以接下来的事情的分析hadoop生态系统。

Zookeeper:

可以不称之为万金油,安装Hadoop的HA的时候会用到它。之前去学Hbase的话也会会用到。好象是相互协作的信息。

Mysql:

我们去学习完大数据的处理,下面那就是要学习小数据的处理工具mysql数据库。因为装hive的时候会会用到。那就mysql需要手中掌握什么呢,那是我们是可以Linux上把它装完,运行过来。要学会配置简单增删改查,如何修改root的密码,创建家族数据库。主要注意是自学语法。

下一步的知识点我就不全部形态各异的奇石了,我们在每个阶段怎么学习结束了后,都要明白的知道自己有没有什么极度缺乏。那你也可以听从下图来测定自己的知识点是否是掌握清晰:

平台组件是什么?

平台组件乾坤二卦100元以内内容:

民间关系型数据库,为Hive、Hue、Spark组件可以提供元数据存储服务。

2.Elasticsearch

兼有搜索引擎和NoSQL数据库功能的开放源代码系统,基于组件JAVA/Lucene最终形成,闭源、分布式、意见RESTful请求。

3.Flink

一个批处理和流全面处理特点的统一计算框架,提供给数据全部分和并行化换算的流数据处理引擎。

4.Flume

一个分布式、比较可靠和高可用的海量的资源日志凝合系统,接受在系统中订制各形数据正在发送方,应用于收集数据;

同样的,Flume提供对数据参与简单的去处理,并写入各种数据得到方(可个性定制)的能力。

5.HBase

提供给海量数据存储功能,是奇异构建在HDFS之上的分布式、再朝列的存储系统。HDFSHadoop分布式文件系统能提供高吞吐量的数据访问,合适大规模数据集方面的应用。

成立在Hadoop基础上的开源的数据仓库,可以提供的的SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

能提供了图形化用户Web界面。Hue支持展示更多多种组件,目前允许HDFS、Hive、YARN/Mapreduce、Oozie、Solr、ZooKeeper。

8.Kafka

一个分布式的、分区的、多副本的实时动态消息发布和订阅系统。能提供可扩展、高吞吐、更低延迟、超高可靠性的消息清点交接服务。

9.Sqoop

实现与关系型数据库、文件系统之间收集数据和文件的数据加载工具;而提供REST API接口,供第三方调度平台动态链接库。

提供飞速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

11.Oozie

提供了对开源Hadoop组件的任务编排、先执行的功能。以JavaWeb应用程序的形式运行在Javaservlet容器(如:Tomcat)中,并在用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。

一个开源的、集高性能的key-value分布式存储数据库,允许极为丰富的数据类型,补充了memcached这类key-value存储的不足,满足的条件实时自动的高并发需求。

可以提供小文件后台合并功能,能自动出现发现系统中的小文件(是从文件大小阈值可以确定),在闲时并且合并,并把元数据存储到本地的LevelDB中,来降底NameNode压力,同时可以提供新的FileSystem接口,让用户能够透明的的对这些小文件接受访问。

一个更高性能,实现Lucene的全文检索服务器。Spark设计和实现内存通过可以计算的分布式计算框架。

需要提供分布式、更高性能、高可靠、宽容失败的实时计算平台,可以对海量数据并且实时地全面处理。CQL提供的类SQL流处理语言,这个可以飞快并且业务开发,时间缩短业务上线时间。

16.Yarn

资源管理系统,它是一个没限制的资源模块,是可以为各类应用程序进行资源管理和调度。

17.ZooKeeper

提供分布式、高可用性的协调服务能力。帮系统尽量的避免网络分区,最终达到成立比较可靠的应用程序。

数据 数据库 系统 组件 Hadoop

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。