zabbix 3.2 - мониторинг качественно нового уровня / Алексей...
TRANSCRIPT
Zabbix 3.2 - мониторинг качественно нового уровняАлексей Владышев
Обо мне
Алексей Владышев
Создатель и руководитель Zabbix
Twitter: @avladishev
2
• Проблемы большого мониторинга
• Чем может помочь Zabbix 3.2?
3
План доклада
Большой мониторинг
4
Тысячи или десятки тысяч устройств
Шаблоны, макросы
5
Управление конфигурацией
Сетевое авто-обнаружение Низкоуровневое обнаружение
6
Динамическая конфигурация
Прокси Партиционирование Активные проверки
7
Масштабируемость
Master-master/slave replication Linux HA
Corosync/Pacemaker
8
Высокая доступность
Это убивает доверие к мониторингу
9
Ложные срабатывания
{server:mysql.status[Questions].avg(5m)} > 5000
10
MySQL server is overloaded
Умные триггеры
{server:mysql.status[Questions].avg(5m)} > 5000
11
Проблема: MySQL server is overloaded
Различные условия
{server:mysql.status[Questions].avg(10m)} < 1000Решение: MySQL server is back to normal
12
Парадокс: Чем лучше работает система мониторинга, тем больше
проблем она обнаруживает.
Но что со всем этим делать?
13
Два пути:
(1) уменьшить количество проблем (2) правильно их визуализировать
14
Теги событий
15
{server:mysql.status[Questions].avg(5m)} > 5000
16
MySQL server is overloaded
Tags Datacenter: AM2 Env: Production Service: DB Cluster
Теги дают нам возможность абстрагироваться от хостов и метрик и получить сервис-
ориентированный мониторинг
17
Service: DB Cluster
Service: Helpdesk
Service: WEB
Но мы не ограничены только сервисами!
18
Service: Oracle Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}
Datacenter: NY2 Datacenter: {$DATACENTER}
Area: Performance Area: Availability Area: Security
Environment: Staging Environment: Test
User impact: None User impact: Critical
19
Имя тега: ЗначениеZabbix 3.2.2
Различные измерения
Env: Production
20
Environment: Production
Значения тега
Datacenter: {$DATACENTER}
Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}
21
Так много проблем
22
Environment: Production
23
Datacenter: NY2
24
Impact: Critical
25
Impact: Critical AND in NY2
Отображение проблем
26
Сделано для людей
27
28
29
30
31
32
Фильтры!
33
34
Оповещения
35
36
Корреляция событий
37
Глобальная корреляция проблем
38
Port #33 on switch Cisco_050 is down
39
Мониторинг портов
Datacenter: AM2 Port: 33 Switch: Cisco_050
Port #33 on switch Cisco_050 is down
40
Мониторинг портов
Datacenter: AM2 Port: 33 Switch: Cisco_050
Port #40 on switch Cisco_050 is downDatacenter: AM2 Port: 40 Switch: Cisco_050
Нет корреляции Port 33 != Port 40
Port #33 on switch Cisco_050 is down
41
Мониторинг портов
Datacenter: AM2 Port: 33 Switch: Cisco_050
Port #40 on switch Cisco_050 is down
Port #33 on switch Cisco_050 is down
Datacenter: AM2 Port: 40 Switch: Cisco_050
Datacenter: AM2 Port: 33 Switch: Cisco_050
Корреляция!
Port #33 on switch Cisco_050 is down
42
Мониторинг портов
Datacenter: AM2 Port: 33 Switch: Cisco_050
Port #40 on switch Cisco_050 is down
Port #33 on switch Cisco_050 is down
Datacenter: AM2 Port: 40 Switch: Cisco_050
Datacenter: AM2 Port: 33 Switch: Cisco_050
Автоматически закрываем
Пример локальной корреляции
43
Мониторинг сервисов
44
… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started …
/var/log/services.log
Мониторинг сервисов
45
… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started
/var/log/services.log
Сколько триггеров и метрик нам необходимо для мониторинга состояния отдельно
каждого сервиса?
Zabbix 3.2:
Всего лишь одна метрика и один триггер!
46
47
Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down
Магический триггер
10/Aug/2016:06:25:30 service Jira stopped
48
Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down
Магический триггер
Tags: Datacenter: AM2 Env: Staging Service: {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)}
Tag for matching: Service
Как это работает?
49
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” PROBLEM
50
Как это работает?
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started
51
Как это работает?
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” PROBLEM
52
Как это работает?
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started
53
Как это работает?
10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” RESOLVED 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started 10/Aug/2016:06:55:31 service Jira started
54
Как это работает?
Тэги проблем и корреляция - это фундамент для будущих улучшений
55
Ручное закрытие проблем
56
57
58
Что ещё нового в Zabbix 3.2?
59
Иерархические группы
60
Servers Servers/Physical Servers/VMs
Location/Africa Location/Europe Location/Japan Location/North America
Templates Templates/Official Templates/SNMP Templates/Services Templates/Vendors Templates/Vendors/HP
61
Более простое управление правами
62
Фильтрация
Полный список улучшений в
Документации Zabbix 3.2
63
Как перейти на 3.2?
64
Zabbix 3.2 является мажорной версией, но не LTS релизом,
период поддержки 6-7 месяцев
65
Сроки поддержки
66
http://www.zabbix.com/life_cycle_and_release_policy
Обновление. Как обычно, очень просто…
Устанавливаем новые бинарники Zabbix server и proxy
Файлы новой версии интерфейса
Всё!
67
The Universal Open Source Enterprise Level Monitoring Solution
Спасибо!
Twitter: @avladishev
Email: [email protected]
Подробности на нашем стенде!