2016 - 2024

感恩一路有你

四大开源分布式存储 日志采集系统flume和kafka有什么区别及联系?

浏览量:1228 时间:2021-03-12 22:54:56 作者:admin

日志采集系统flume和kafka有什么区别及联系?

flume和Kafka的一些功能是相同的,但总的来说,它们是完全不同的;它们的场景是不同的,但它们可以一起使用。

简而言之,flume是一个分布式日志收集系统,它从各种服务器收集日志并将其传输到指定的位置,如HDFS。

Kafka是一个分布式消息中间件,有自己的存储,提供推拉数据访问功能。

整个过程如下:

登录服务器<--flume-->kafka-->hdfs-->离线计算

登录服务器<--flume-->kafka-->storm

希望我的回答能对您有所帮助

从kafka读取数据后,数据会自动删除吗?

基于接收器的实现将使用kakfa的高级消费API。与所有其他接收器一样,接收到的数据将保存到执行器,然后sparkstreaming将启动作业来处理数据。

在默认配置中,如果出现故障,此方法将丢失数据。为了确保零数据丢失,我们需要启用wal(writeaheadlogs)。它将接收到的数据同步保存到分布式文件系统,如HDFS。因此,在发生错误时可以恢复数据。

使用两个步骤:1。添加依赖项:Spark streaming Kafka 2.10-1.3.0

2导入器g.apache.spark. 卡夫卡.ux

构造函数是KafkaUtils.createDstream创建(SSC,[ZK],[consumer group ID],[per topic,partitions])使用Kafka高级使用者API使用接收器接收数据。对于所有接收器,接收到的数据将保存在spark executors中,然后通过spark Streaming启动作业来处理数据,默认情况下这些数据将丢失。它可以启用存储在HDFS上的wal日志

四大开源分布式存储 kafka监控api kafka低级api

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。