infoshare 2013: wojciech meler, tomasz potęga: jak odebrać 1mld e-maili?
Post on 21-Oct-2014
457 views
DESCRIPTION
Wojciech Meler, Tomasz Potęga / WP.PL Jak odebrać 1mld e-maili? Prezentacja z konferencji infoShare 2013 Presented at infoShare 2013, Gdańsk 2013TRANSCRIPT
Jak odebrać 1 mld e-maili?
Wyzwania w największej poczcie w Polsce.
Kwestia skali
01
}}
Liczba przesłanych maili:
2 mld
63 mln
88 tys.
miesiąca
całego dnia
podczas oglądania tego slajdu
Spam
02farmaceutyki, randki, podróbki
}
Z całego strumienia przychodzącej poczty nawet 85% maili może być spamem
Filtr spamu
03
}
Wirus
04
Botnet
05
} }
Rozmiary
06
} }
liczba zarażonych
3,2 mln
3,6 mln
4,5 mln
Virut
Zeus
TDL4
10,5 mln
12 mln
30 mln
Conficker
Mariposa
BredoLab
DCC
07Distributed Checksum Clearinghouses
Ile i skąd?
08
968
589
13371292
377
729
1096
220
812
610
11011179
1504
1086
819
500
964
592
1004
CNMXROIDVNRSINTWPKSNPHLBSABFGMGHBJCING
analiza ilościowa w czasie rzeczywistym
DKIM
09Kryptografia w służbie ochrony poczty
10
DNA
34532
45653
23454
23454
67532
34525
98753
34532456532345423454675323452598753
34532
45653
23454
23454
67532
34525
98753
34532456532345423454675323452598753
34532456532345423454675323452598753
34532
45653
23454
23454
67532
34525
98753
34532456532345423454675323452598753
3453
245
653
2345
423
454
6753
234
525
9875
3
3453
245
653
2345
423
454
6753
234
525
9875
3
34532456532345423454675323452598753
34532
45653
23454
23454
67532
34525
98753
3453
245
653
2345
423
454
6753
234
525
9875
3
34532
45653
23454
23454
67532
34525
98753
Analiza wzorców i zależności w strumieniu maili
I had seen you private image on the web. Great pic. Get back soon.
I could send you my private picture. You will be happy. Waiting to hear back from you.
Looked at your primary photo at facebook. It was great. Please reply.
I ended up seeing you personal pic on facebook. Very interesting. Please drop me a line.
11
DNA
34532
45653
23454
23454
67532
34525
98753
I could send you my photo. You would be glad. Please get back soon.
Geografia spamu
12
Chiny bez wizy
13
Środki transportu
14
?700km/h50km/h
mailowymStop wariatom
15
6500km/h700km/h50km/h
ile to będzie punktów karnych?
Możesz oznaczyć spam lub skorzystać z automatu do czyszczenia skrzynki.
dla użytkownikówNarzędzia
16
wp-cleaner
Gdzie zapisać?
17
}
Dużo NFS
18
RAID +replikacja
asynchroniczna
kilkadzesiątmacierzy
Ponad1500 punktówmontowania
ZOHA
19Zookeeped Haystacks
Apache Zookeeper
20
Apache
konfiguracja klastra
bieżący stan
HA
Haystack
21
minimalna ilość metainformacji
błyskawiczny dostep do danych
duże pliki złożone z niewielkich
obiektów (needle in haystack)Padding
Data Checksum
Footer Magic Number
Data
Size
Flags
Alternate Keyneedle 3
Key
Cookie
Header Magic Number
needle 2
needle 1
superblock
Jak zrobiliśmy klaster
Klaster
22
Jakie maszyny
23
1U 4 x HDD
2U 12 x HDD
4U 48 x HDD
Jaki filesystem
24
ext4
btrfs
xfs
Jak zorganizować dyski
Dyski
25
kontroler RAID + 2 kopie w klastrze
kontroler SATA + 3 kopie w klastrze
Gdzie OS?
26
software RAID na dyskach twardych
pendrive
network boot
ZOHA: 100 serwerów, 1PB raw
ZOHA
27
node-3.r-3.c-1.zoha.srv
node-33.r-3.c-1.zoha.srv
node-2.r-3.c-1.zoha.srv
R3
node-1.r-3.c-1.zoha.srv
DHCP Zookeeper
H
node-3.r-2.c-1.zoha.srv
node-33.r-2.c-1.zoha.srv
node-2.r-2.c-1.zoha.srv
R2
node-1.r-2.c-1.zoha.srv
DHCP Zookeeper
H
node-3.r-1.c-1.zoha.srv
node-33.r-1.c-1.zoha.srv
node-2.r-1.c-1.zoha.srv
R1
node-1.r-1.c-1.zoha.srv
DHCP Zookeeper
H
ale mamy też cichego
testera, który załadował 6TB
Akcja wykop
28
-250GB na jednym koncie
Zapisane
29
A potem trzeba te 2 mld mailipokazać użytkownikom
}
Protokoły
30
POP3IMAP
Webmail
31
Technologie
32
Pytania?
33
Dziękujemy za uwagę