Опыт совместной работы хостера (webzilla) и клиента (cityads)...

Post on 16-Apr-2017

453 Views

Category:

Engineering

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

На пути к 100% uptimeили что следует делать для достижения 100% uptimeИгорь МызгинСтанислав Осипов2015

Докладчики

Игорь Мызгин

• XBT / Webzilla• 15+ лет в IT, опыт

работы как со стороны поставщика услуг, так и со стороны потребителя.

• Последние 10 лет - вопросы создания, развития и продаж дата-центров и услуг на их базе.

Станислав Осипов

• Системный администратор R&D департамента CityADS

• 15+ лет в IT• Более 10 лет -

специализация на развертывании, эксплуатации и развитии IT-инфраструктур.

Профиль CityADS• Холдинг из нескольких компаний,

специализирующийся на интернет-рекламе.

• 1+ млрд рублей оборота.• Две независимые рекламные платформы.• Присутствие

– офисной инфраструктуры в 10 странах– серверной инфраструктуры в 6 локациях:

RU, NL, BR, HK, CN, US• Чувствительны к задержкам, потерям,

полосе и профессиональности саппорта

3 вида настоящих проблем

• На стороне хостера• Связность промежуточных

сетей• На стороне потребителя услуг

Причины сбоев связи

Faulty hardware change / updateDenial of Service attack

Cooling outageMalware and viruses

Software bugPower surges

OverloadCable theft

Policy / procedural flawFlood

Power cutCable cut

Hardware failureFire

Heavy windHeavy snow / ice

Faulty software change / update

256671012

1622

3134

4057

6172

100117

ENISA Annual Incident Report 2014

Типичное распределение проблем

1010

2060

На самом деле

10

70

1010

Как это выглядит для компании

Сбои связиСбои хостераОверхед от сбоев хостера и связиСбои на стороне клиента

Меняем хостера на качественного

+ OpEx на хостинг (фиксированная и предсказуемая сумма)- OpEx сбоев (уменьшаем риск и непредсказуемые расходы)

98.9

Стало

Сбои связиСбои хостераОверхед от сбоев хостера и связиСбои на стороне клиента

1010

2060

Было0.10.9

0.1

Что нужно, чтобы научиться различать типы сбоев?1. Навести порядок в инфраструктуре: SysOps2. Навести порядок в мониторинге: SysOps, DevOps3. Навести порядок в конфигурациях: SysOps,

DevOps4. Навести порядок в правах доступа людей к

системам: SysOps, Managers5. Навести порядок в процессах тестирования и

развертывания: DevOps, QA, Managers6. Навести порядок в обработке инцидентов и

решении проблем: SysOps, Managers7. Навести порядок в коде: R&D, DevOps, Managers

"Ordnung muss sein!"

Мониторинг• Инвестиции времени в мониторинг

- лучший способ избежать настоящих убытков.

• Чем больше видим у себя, тем больше различаем свое и чужое.

• Больше одной системы внутреннего мониторинга и больше одной - внешнего.

• Внешняя система не должна позволять стирать инциденты.

Чем мы пользуемсяВнешний мониторинг:

– NR Synthetics, Monit-it, Pingdom– NR Browser, Grabzit

Внутренний мониторинг:– Zabbix, NR APM– собственные скрипты

Бизнес мониторинг:– SimilarWeb, сервис собственной

статистики трафика с менеджерскими интерфейсами

Pingdom

NewRelic Synthetics

Работа с инцидентами

Работа со статистикой инцидентов

Работа со статистикой инцидентов

NR APM: общий вид

NR APM: пример обнаруженной ошибки

Тестирование и развертывание: Continuous integration - карта

HR аспектПуть не туда:• штрафы• психологическое давление• игнорирование фактов и аргументов

#ненуачо

Рассказать последствия такой политики?

HR аспект

Uptime 146%

HR аспектПочему так?

Люди двух типов:• Умеют скрывать проблемы

– мало мотивации решать проблемы.• Не умеют скрывать проблемы

– не задержатся при наличии негативных механизмов.

Рекомендация:

Фиксированный бонус (от 80 до 100% оклада) за каждый календарный месяц uptime выше 99.98%

Мы все исправили! Что теперь?• Может выясниться, что хостера

менять не нужно!• Выстраивайте отношения по

интересующим вас услугам и уровню сервиса.

• Имя и контакты Account Manager?• Делегируйте заботу поддержания

контакта тому, кто умеет.• Открывайте новые возможности без

дополнительной проблемы в виде переезда.

Взгляд со стороны хостераИгорь Мызгин

Как правильно начать• NDA – не надо так!• Невнятное поведение, путаница в

требованиях?• Специфические технологии?• Законодательные ограничения?• Сложный процесс отбора?

Решение: RFP (request for proposal)Переписка и общение:

Будьте тем, кто вы есть.

Про маркетинг«SLA» 100.00% uptime?Public offer / legal documents на сайте.«Мелкий шрифт» и «звездочки» (сноски) в договорах, условиях и КП.Имя владельца/оператора физической площадки?Хостер занимается всем подряд?Разведка через социальные сети (LinkedIn и т.п.):

– Сколько у них инженеров? – Сколько R&D? – Кто ключевые технари? – Давно ли они в компании? – Чем раньше занимались?

Адекватность запросаНе x86-64?

>$1M?

Надо было еще вчера?

Ежа с ужом?

Что поможет получить самые вкусные условия от хостера?Прозрачность политики выбора.Долгосрочные отношения.Открытость и честность.Деловая культура:

– Посвящать критериям и процессу отбора отдельный раздел в RFP.

– Уведомлять о статусе процесса отбора на этапе до конечного принятия решения с корректным пояснением причин отсева.

Как выбрать новый хостингчтобы потом не болела голова

Что учитывать? Часть 1 - DC• Класс датацентра по TIA-942 (все и в

частности - защита от блэкаутов?).• Удобство и скорость связи с:

– техподдержкой– эккаунт менеджером

• SLA (соглашение об уровне сервиса).• Физическое расположение

площадки/площадок, регламенты доступа, склады для клиентоского ЗиПа?

• Наличие услуги аренды места для бэкапа– скорость предоставления– максимальный объем бэкапа– его стоимость– максимальный объем должен быть не меньше самого

большого логического тома на этой площадке.

Что учитывать? Часть 2 - telco• Опорный телеком хостера

– Каналы: тип, суммарная емкость, текущая загрузка.

– Dedicated или shared полоса. Ее возможный максимум. Цена полосы и превышения.

– IP адреса (если у вас нет AS) и связность (пиры) телекома.

– SLA телекома по отношению к вам и хостеру.

– Механизмы защиты сети (в т. ч. Anti-DDoS)– География сети.

• Список доступных альтернативных телекомов на площадке.– Стоимость подключения к альтернативе.

Что учитывать?

Способность хостера признавать свои сбои.

У ВАС НЕТ ПОЛУГОДА-ГОДА НА РИТУАЛЬНЫЕ ТАНЦЫ!

Отношения с хостероми другие приключения uptime

Downtime и SLA в числах, в пересчете за месяц• Tier-4 ЦОД: 99.995% - до 2 мин 14 сек• Tier-3 ЦОД: 99.982% - до 8 мин 03 сек• Telecom: 99.95% - до 22 мин 20 сек

Tier-3 + Telecom: - до 30 мин 23 сек

Какова для вас цена часа простоя?

Пример SLA доступности и ответственности хостера

Availability 99.99% or higher: ok99.98% - 99.90%: 5% credit99.89% - 95.00%: 25% credit94.99% - 90.00%: 50% credit89.99% or below: 100% credit

Хостеры любят traceroute и mtr• За минуту может происходить несколько

перемаршрутизаций.• Делайте traceroute в обе стороны в момент

наблюдения проблемы.• Сразу добавляйте вывод traceroute в

тикет.

Пример того, как иногда выглядит изменение маршрута во время поиска проблемы:

Примеры. Бразилия.• SLA и класс по TIA 942?

Нет, не слышали.• 16 часов? Бывало и хуже!• AntiDDoS? Привет от Arbor.• Tier1 апстрим – победа?• BR-IX: связность по-

бразильски ;-)

Примеры. Европа и США.• Облако - 12 часов, Карл!!• 6 часов у Tier-2 оператора…• 7 часов у Tier-1 оператора…

Но как!?

Выводы• Чужие проблемы – всегда часть ваших

проблем! • Сначала – увидеть, изучить и решить свои

проблемы.• Вклад хостинга в uptime - фундаментален. • Выбирать следует системно и без спешки.

И главное:• Вы – один из участников рынка независимо

от того, поставщик вы или потребитель.• Обратная связь от вас необходима всегда.• Высокий uptime – результат совместной и

непрерывной работы.

Вопросы?http://bit.ly/1k0yGQUhttp://bit.ly/1NgK0nf

Станислав Осипов:Игорь Мызгин:

top related