深入浅出 Kafka(四)Kafka 简介


Kafka 特性:

  • 具有近乎实时的消息处理能力 顺序读写磁盘
  • 支持批量读写磁盘 并且会对消息进行批量压缩
  • 支持消息分区 可以在线增加分区,为每个分区创建多个副本,只会有一个 Leader 负责读写,其他副本与 Leader 同步。
  • 支持水平扩展

阅读全文

深入浅出 Kafka(三)稀疏索引与稠密索引


聚集索引:在一张表中,如果一个索引有如下特性,数据的物理顺序与键值的逻辑顺序相同。

稠密索引和稀疏索引都属于聚集索引。

1.稠密索引
定义:它是由键值和指针(指向记录本身地址)组成的一系列存储块,该存储块的键值与文件的逻辑顺序一致。
特性:每个存储块的每一个键对应的指针都指向每个数据块每一条记录,当要查找指定键 K 时,采用二分查找即可找到键K对应的记录,复杂度为 log2n。

2.稀疏索引
定义:它是由键值和指针(指向记录本身地址)组成的一系列存储块,该存储块的键值与文件的逻辑顺序单调性一致。
特性:每个存储块的每一个键对应的指针都指向每个数据块的第一条记录,当要查找指定建 K 时,先采用二分查找找到 <=K 的键 S,如果 S=K,则命中记录,如果 S<k,则顺序查找 =K 的键,复杂度大于 log2n,小于 n。

比较:

  • 稀疏索引占用的索引存储空间比较小,但是查找时间较长;
  • 稠密索引查找时间较短,索引存储空间较大。
阅读全文

深入浅出 Kafka(二)磁盘的基本概念


在谈这俩概念前、先来说说大 I/O 与小 I/O。通常,我们把 <=16KB 的 I/O 认为是小 I/O。而 >=32KB 的 I/O 认为是大 I/O。

当前大多系统使用的都是传统的机械磁盘。因此,整个系统设计要尽可能顺序I/O。避免昂贵的寻道时间和旋转延迟的开销。随机小 I/O 消耗比顺序大 I/O 更多的处理资源。随机小 I/O 更在意系统处理 I/O 的数量,即 IOPS,比如 OLTP。而顺序大 I/O 则更在意带宽,即 MB/s,比如 OLAP。因此,如果系统承载了多种不同的应用,必须了解它们各自的需求,是对 IOPS 有要求,还是对带宽有要求。

传统机械磁盘最大的问题在于读写磁头,读写磁头的存在可以让磁盘既能顺序 I/O、也可随机 I/O。但是,随机 I/O 需要花费昂贵的磁头旋转和定位来查找。因此,顺序 I/O 访问的速度远远快于随机 I/O。

顺序读写 = 读取一个大文件

随机读写 = 读取多个小文件

顺序读写比随机读写快的原因:

  1. 顺序读写 主要时间花费在了传输时间,而这个时间两种读写可以认为是一样的。
    随机读写 需要多次寻道和旋转延迟,而这个时间可能是传输时间的许多倍。
  2. 顺序读写 磁盘会预读,预读即在读取的起始地址连续读取多个页面。
    随机读写 因为数据没有在一起,将预读浪费掉了。
  3. 文件系统的 overhead 读写一个文件之前,得一层层目录找到这个文件,以及做一堆属性、权限之类的检查。写新文件时还要加上寻找磁盘可用空间的耗时。对于小文件,这些时间消耗的占比就非常大了。
阅读全文

深入浅出 Kafka(一)磁盘的基本概念


1.基本概念

(1)磁盘组合

  • 盘片=2盘面
  • 主轴
  • 磁道
  • 柱面
  • 扇区
  • 间隙
  • 块 磁盘被划分为磁盘块,每块的大小是 4-64kB。整个块被从一个称为缓冲区的连续内存区域中移进移出。块是在磁盘与主存之间所传输数据的逻辑单元,由一个或多个扇区所组成。

(2)磁头组合

  • 磁头臂
  • 磁头
  • 磁头组合 一个磁盘的所有磁头在一起叫做磁头组合,它们位于相同的柱面上。

阅读全文

排查 Logstash2.4 升级到 5.0 版本后 Kafka 不兼容问题


之前对 ELKB 环境从 2.4 版本升级到最新的 5.0 稳定版本,发现 kafka 集群运行报错,现在把排查过程记录下。

之前环境:
logstash2.4
logstash-input-kafka-2.0.9
logstash-output-kafka-2.0.5
kafka_2.10-0.8.2.2.tgz

升级后环境:
logstash5.0
logstash-input-kafka-2.0.9
logstash-output-kafka-2.0.5

报错信息:

[2016-11-16T14:35:44,739][ERROR][logstash.inputs.kafka] Unknown setting 'zk_connect' for kafka
[2016-11-16T14:35:44,741][ERROR][logstash.inputs.kafka] Unknown setting 'topic_id' for kafka
[2016-11-16T14:35:44,741][ERROR][logstash.inputs.kafka] Unknown setting 'reset_beginning' for kafka







阅读全文