DevOps

Kafka의 EOS 보장 및 성능 최적화 전략: Producer, Consumer, Broker 설정

백엔드 유성 2023. 8. 8. 23:07

1. EOS의 개념과 중요성

EOS (Exactly Once Semantics)는 메시지 전송에서 메시지가 한 번만 전송되고 처리되는 것을 보장하는 전송 보증입니다. 다시 말해, 송신자와 수신자 사이에 데이터의 중복 또는 손실 없이 데이터가 한 번만 전송되는 것을 의미합니다.

 

EOS의 중요성:

데이터 중복성 제거: 중복된 메시지는 데이터의 무결성을 해칠 수 있습니다. EOS는 이를 방지하여 데이터의 정확성을 보장합니다.
데이터 손실 방지: 손실된 메시지는 시스템의 안정성을 위협합니다. EOS는 모든 메시지가 제대로 전달되도록 보장합니다.
자원 효율성: 중복 메시지를 처리하는 데 필요한 자원을 절약하여 시스템의 효율성을 높입니다.

 

 

2. Kafka에서 EOS를 어떻게 구현하는지


Apache Kafka는 0.11.0 버전부터 EOS를 지원합니다. Kafka에서 EOS를 활성화하려면 다음 단계를 따라야 합니다:

Producer 설정: enable.idempotence를 true로 설정하여 중복 메시지 전송을 방지합니다.
Transaction API 사용: Kafka는 트랜잭션을 사용하여 여러 파티션에 걸친 메시지의 원자성을 보장합니다. Producer는 beginTransaction, commitTransaction, abortTransaction 메서드를 사용하여 트랜잭션을 제어할 수 있습니다.
Consumer 설정: isolation.level를 read_committed로 설정하여 uncommitted 메시지의 읽기를 방지합니다.
Kafka의 최적화 및 튜닝

 


1. Producer, Consumer, Broker 최적화 방법

Producer:

batch.size: 메시지를 한꺼번에 보낼 배치 크기를 조절하여 네트워크 호출 수를 줄입니다.
linger.ms: 메시지 배치를 보내기 전의 대기 시간을 설정하여 작은 메시지도 배치로 처리될 수 있게 합니다.

Consumer

fetch.min.bytes: 서버에서 데이터를 가져오기 전에 요구되는 최소 데이터 양을 설정합니다.
max.poll.records: 한 번의 poll() 호출로 가져올 수 있는 레코드의 최대 개수를 설정합니다.

Broker

log.segment.bytes: 로그 세그먼트의 크기를 조절하여 디스크 사용량을 최적화합니다.
log.retention.ms: 로그의 보존 기간을 설정하여 오래된 데이터를 자동으로 삭제합니다.
2. Network, Disk, JVM 설정에 관한 최적화

Network

Kafka에서는 receive.buffer.bytes와 send.buffer.bytes를 조정하여 소켓 버퍼의 크기를 최적화할 수 있습니다.

Disk

log.dirs: 브로커의 로그 파일이 저장될 디렉토리를 지정합니다. 고성능의 디스크를 선택하는 것이 중요합니다.
num.io.threads: 디스크 I/O 작업을 처리하는 스레드의 수를 조절합니다.

JVM

Kafka를 실행하는 JVM의 힙 사이즈를 조절하여 메모리 사용량을 최적화할 수 있습니다. (-Xms와 -Xmx 옵션 사용)
JVM의 가비지 컬렉션 설정을 조절하여 성능을 향상시킬 수 있습니다.
이와 같이 Kafka의 성능과 안정성을 위한 다양한 최적화 및 튜닝 방법이 있습니다. 시스템의 요구사항과 환경에 따라 적절한 설정 값을 선택하는 것이 중요합니다.