ceph & rocksdb · rocksdb group commit . thread scalibility 0 10,000 20,000 30,000 40,000...

Ceph & RocksDB

변일수(Cloud Storage팀)

Ceph Basics

Placement Group

myobject mypool

PG#1 PG#2 PG#3

hash(myobject) = 4 % 3(# of PGs) = 1 ← Target PG

mypool

PG#1 PG#2 PG#3

OSD#1 OSD#3 OSD#12

Recovery

mypool

PG#1 PG#2 PG#3

OSD#1 OSD#3 OSD#12

ObjectStore

Replication, ???, …

Peering, Heartbeat,

FileStore

BlueStore

https://www.scan.co.uk/products/4tb-toshiba-mg04aca400e-enterprise-hard-drive-35-hdd-sata-iii-6gb-s-7200rpm-128mb-cache-oem

ObjectStore

https://ceph.com/community/new-luminous-bluestore/

OSD Transaction

Consistency is enforced here!

qkv_committing

Request

flusth

ROCKSDBsync transaction

finish

• To maintain ordering within each PG, ordering within each shard should be guaranteed.

BlueStore Transaction

• Metadata is stored in RocksDB.• After storing metadata atomically, data is available to users.

Request

SSTFile

LogfileMemtable

Transaction Log

JoinBatchGroup (leader)

PreprocessWrite

WriteToWAL

MarkLogsSynced

ExitAsBatchGroupLeader

Write to memtable

#1 Thread #2 Thread

JoinBatchGroupAwaitState

#3 Thread

JoinBatchGroupAwaitState

PreprocessWrite

WriteToWAL

leader

LaunchParallelFollower

MarkLogsSyncedfollower

ExitAsBatchGroupFollower

CompleteParallelWorker

Concurrent write to memtable

Group commit

RocksDB Group Commit

Thread Scalibility

10,000

20,000

30,000

40,000

50,000

60,000

1 shard 10 shard

Shard Scalability

WAL disableWAL

RocksDB

RadosGW

• RadosGW is an application of RADOS

RadosGW

OSD Mon Mgr

RadosGW CephFS

• All atomic operations depen on RocksDB

RadosGW Transaction

Prepare Index

Write Data

Complete Index

Put Object

Index Object Data Object

k vk vk v

RocksDB

qkv_committing

Request

flusth

ROCKSDBsync transaction

finish

bstore_shard_finishers= true

• To maintain ordering within each PG, ordering within each shard should be guaranteed.

BlueStore Transaction

Performance Issue

Tail Latency

Performance Metrics

• "SILK: Preventing Latency Spikes in Log-Structured Merge Key-Value Stores" (ATC'19)

RocksDB Compaction Overhead

• Ceph highly depends on RocksDB• Strong consistency of Ceph is implemented using RocksDB transactions

• The performance of ceph also depends on RocksDB• Especially for Small IO

• But RocksDB has some performance Issues• Flushing WAL• Compaction

• ilsoobyun@linecorp.com

Conclusions

THANK YOU

ceph & rocksdb · rocksdb group commit . thread scalibility 0 10,000 20,000 30,000 40,000...

Documents

pg_shard: shard and scale out postgresql jason petersen...

millmyen put mirnogo voina put mirolyubivogo voina

4.2. način gradnje · 2018-08-07 · crnopalj put put...

katastarsko topografski plan ä$9$ &51$ *25$...makadamski...

©stéphane vandenplas triopolycordes€¦ · shard de...

osho moj put put belih oblaka

pingcap 官认证 tidb dbapctp考试大纲.pdf · rocksdb...

profile bangunan the shard

pag - cesta - košljun sluŽbena obalna crta ......put put...

m ongodb replica,shard cluster

121002 malmo shard presentation

flink技术栈及其适用场景3. rocksdb: kv store rocksdb...

unit 6 at a pe lesson. put your hands on your head. put your...

presentación para slider shard

keefektifan media board shard dengan pendekatan saintifik...

2.2. vodoopskrbna mreža i odvodnja · 2018-08-07 ·...

disclaimer - seoul national...

put kova^ka dolina - Žabljakzabljak.me/docs/1398234222-02 -...

prema ts kotlovnica · zemljani put zemljani put zemljani...

grada zadra - izmjene i...