apache搭建网站的架构图 hadoop框架?
Hadoop是由
Hadoop是Apache软件基金会下的分布式系统基础设施。Hadoop框架的核心设计是HDFS和
网络的工作架构:
1.浏览器的作用:用户向服务器提交请求,解析服务器返回的响应。
2.web服务器:它接受用户 请求并回复它们。Windows下有IIS,Linux下有Apache和Nginx。
3.网络应用:开发一个网络应用(博客,购物网站等。)用php,jsp,asp,aspx等开发语言。在服务器上运行
4.数据库:为了存储数据,数据库有一个接口,连接数据库的账号密码在应用程序中指定。
5.中间件:比如在Linux环境下,如果要运行一个以Apache为服务器的Java程序,就需要Tomcat环境的支持。Tomcat是一个中间件。目前Apache等服务器和中间件的区分越来越少,可以广泛理解为Apache、IIS、Nginx、Tomcat、Jboss的统称。
主要有以下四种流行的框架。
Hadoop
Hadoop无疑是大数据领域的第一站。这个由Apache基金会开发的分布式基础设施有一个广阔的生态系统。Hadoop提出的Map和Reduce的计算简洁优雅,实现了大量的算法和组件。然而,因为Hadoop 的计算任务需要在集群的多个节点上多次读写,在速度上会稍逊一筹,但是Hadoop s吞吐量也是其他框架无法比拟的。
暴风雨
Storm是Twitter的一个开源大数据框架。Hadoop有不同的批处理模式,Storm采用的是流式计算框架。但Storm与Hadoop的相似之处在于,它也提出了两个计算角色,Spout和Bolt。举一个通俗的例子来说明Storm和Hadoop的区别。Hadoop类似于水桶,而Storm类似于水龙头。要取水,Hadoop一桶一桶背,Storm只需要打开水龙头。风暴流计算框架使用内存,在延迟上有优势,但不会持久化数据。Storm对Java、Ruby、Python等语言都有很好的支持。
火花
Spark大数据框架作为Hadoop的升级版,是一个混合计算框架,Spark自带实时流处理工具。Spark也可以集成Hadoop,而不是MapReduce;甚至Spark也可以单独使用,通过分布式存储系统(如HDFS)部署集群。火花 的计算速度与Storm 美国火花公司。;的速度是Hadoop的100倍左右,成本比Hadoop 美国火花公司。;的普及主要在于统一引擎支持的批处理、流处理、交互查询、机器学习等常见场景。Spark声称可以处理流,但主要思想是提供小批量。因为是内存处理,如果处理的足够快,可以做到低延迟。本质上,它是一个基于内存的批处理过程。
弗林克
Flink大数据框架也是一个混合计算框架。Fink和Spark的区别在于,Fink专注于处理流数据,Flink的所有操作都是基于流的。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。