kafka消费者怎么从kafka获取数据 kafka日志存储详解？

浏览量：2987 时间：2023-06-10 16:34:29 作者：采采

kafka日志存储详解？

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java汇编语言。

Kafka是一种高吞吐量的分布式公告订阅消息系统，它也可以全面处理消费者规模的网站中的所有动作流数据。

这种动作（网页浏览，搜索和其他用户的行动）是在在现代网络上的许多社会功能的一个关键因素。

这些数据大多是而吞吐量的要求而处理日志和日志聚合来帮忙解决。

这对像Hadoop完全不一样的日志数据和离线分析系统，但又具体的要求实时动态处理的限制，这是个看似可行的解决方案。

Kafka的目的是的并行运行程序机制来统一线上和自动更新的消息处理，又是为了按照集群来提供给实时的消息。

可以是从100元以内几个方面：必须会减少数据生产，其次增加数据存放周期，从默认的7天中改1天，结果停止并发消费数据。

Kafka中消息是以topic参与分类的，生产者生产消息，消费者消费消息，全是再朝topic的。

topic是逻辑上的概念，而partition是物理上的概念，每个partition不对应于一个log文件，该log文件中存储的就是producer成产的数据。

Producer成产的数据会被断的追加悬赏到该log文件末端，且每条数据都是自己的offset。消费者组中的每个消费者，都会动态实时资料记录自己消费到了哪个offset，以备万一程序出错重新恢复时，从那次的位置再怎么消费。

Flume：管道----个人认为也很比较适合有多个生产者场景，或是有写入文件Hbase、HDFS和kafka需求的场景。

Kafka：消息队列-----因此Kafka是Pull模式，所以合适有多个消费者的场景。

目前应用场景，一台日志微博转发机共同负责出现日志。后端是需要消费日志信息，建议您可以不可以设置成log--gtKafka-gtStrom.要是以后有写入文件Hbase也可以HDFS的需求是可以，在Kafka后面再接上Strom，或者在日志点赞和评论机上就日志落地之前，由Flume去加载日志消息。

上一篇 linux怎么编程shell脚本如何运行shell脚本？

下一篇电信手机号怎么领腾讯会员用手机电信怎样刷svip？