Обеспечение и контроль качества услуг
TRANSCRIPT
Обеспечение и контроль качества услуг
Обеспечение качественного пользовательского опыта за счет единого мониторинга производительности сети и приложений
Пётр Еропкин, региональный менеджер по развитию бизнеса в России и СНГ
Всем знакомая история …
Бизнес ИТ
Недопонимание между
Бизнесом и ИТ
Ирина Ивановна, ГлавБух Алексей, Дир. по ИТ
Что нужно бизнесу ИТ инфраструктура
Общие затраты на связь составили >45% от ИТ бюджетов 2013
Я могу обеспечитьдоступность
99.99% …
Ок, а какиетребования позадержкам приработе с ней у вас
есть?
itunesИнвестиции для бизнеса
Необходимая ИТ инфраструктура
TCO CRM системы может превысить $1,000,000 за 3 года для 500 пользователей –2013 год.
itunesРеакция бизнеса
Взгляд со стороны инфраструктуры
82% компаний в Европе испытывают проблемы с производительностью корпоративных приложений –2012 год
…крупные компании регулярно зависят от приложений, критичных для бизнеса, работающих через LAN – 2013 год
NetSuite
itunes
Давайте поместимэти функции в
облако!
Вы имеете ввиду Internet ?О каких конкретно приложениях вы
говорите? Вы уверены, что для них скоростьчерез сеть с качеством best effort
будет достаточна?
Это может стоить дороже…
Решение специалистов
ИТ
Это же мой
бюджет
Инновации, предлагаемые бизнесом
NetSuite
itunes
… мы тоже не понимаем…
Бизнес реальность Ответ ИТ
Из чего складывается опыт пользователей?
+Работа сетиПроизводительность элементов сети, включая файрволы, балансировщики
Работа приложенийВремя ответа приложений, определяемое скоростью работы приложения и инфраструктуры
Бизнес-процессыРазличные факторы, такие как дозвон до колл-центра, скорость реакции на тикеты+
WAN/Internet
Как часто происходят сбои в сети?
• Network, Application and Storage domains all have similar failure rates
• 50% of the respondents have outages on these domains several times a month
• 90% of respondents have outages at least once in 2 months.
• It is important to have visibility across these different domains
EMA Global Study – Network Management Megatrends
В чем причина сбоек?
EMA Global Study – Network Management Megatrends
• Most issues require collaboration across multiple domain/technology teams
• Network issues are by far the largest reason for performance degradation issues
• Performance of server and storage systems is also important to troubleshoot application issues
Сколько инструментов нужно для выявления причин…?
EMA Global Study – Network Management Megatrends
• Very few have a unified view of their infrastructure
• Even small companies are using 3-5 tools
• Medium and Large Enterprises have on average 10 tools to monitor performance
…результат
Что же делать CIO?
Служба ИТБизнес
CIO
Ответ:
Единая платформа мониторинга производительности
ИТ инфраструктуры и приложений
Что такое мониторинг производительности ИТ инфраструктуры и приложений? И кому это нужно?
Мониторинг производительности ИТ инфраструктуры: Network Performance Management (NPM)• Сбор данных с телекоммуникационного и ИТ оборудования и из систем управления• Расчет показателей загрузки и производительности для ресурсов и ИТ сервисов (например, IP VPN)
Мониторинг производительности приложений: Application Performance Management (APM)• Сбор данных о пользовательских транзакциях и индикаторах производительности приложений с пробников и агентов • Получение данных с уровня приложений непосредственно из сети на базе flow-технологий (например, Netflow) и технологий DPI
Метрики сетевых устройств
Сквозные метрики сети, метрики ИТ-инфраструктуры
Использование SLAподхода в разрезе
подразделений компании
Видимость качества
приложений
Большинство компаний
Некоторые компании Редкие компании
NPM-based APM-based
Почему важен интегрированный мониторинг ИТ-инфраструктуры + приложений?
Обеспечение пользовательского опыта
Use case:
Use Case: От “неработающей сети” к “партнерству”
Apple iTunes (TCP)
Apple iTunes!! iCloud sync
1. Хелпдеск видит и демонстрирует пользователю причину проблемы
2. Хелпдеск может сам позвонить пользователю и устранить проблему
3. Восприятие эффективности и профессиональности ИТ повышается
Опыт пользователей: Положительный
Восприятие бизнесом: ИТ – работают!
1. Пользователь звонитв хелпдеск
2. Жалоба, что сеть совсем не работает
Опыт пользователей:Негативный
Восприятие бизнесом: непрофессиональные
ИТ-шники
Use case:
Use Case: Максимизация эффективности КСПД
1. ТОП3 приоритетов в расходах компаний в2013 – Расширение полосы (IDC)
2. Сложность в защите бюджета – бизнесу нужны доказательства
Опыт пользователей: Противоречивый
Восприятие бизнесом: Слишком большие и необоснованные траты на КСПД
Gaming?!
1. Бизнес видит неправильное использование ресурсов КСПД
2. ИТ может контролировать бизнес-критичные приложения и обеспечивать их необходимыми ресурсами
3. ИТ может обоснованно доказать и сделать бизнескейс, когда полоса действительно нужна
4. ИТ помогает в достижении бизнес-целей при минимальных расходах
Опыт пользователей: Продуктивный
Восприятие бизнесом: КСПД – важный актив
компании
Use case:
Use Case: Найти способ сэкономть
1. Географически распределённой компании необходимо консолидировать ИТ системы
2. ИТ должны определить нагрузки по регионами и приоритизировать задачи консолидации
3. Далее ИТ проанализирует по площадкам трафик на сервера приложений и выберет кандидатов
Опыт пользователей: продуктивный
Восприятие бизнесом: Моя ИТ команда
помогает планировать и экономить деньги
Les Ulis has greatest traffic overall, and server based
France is analyzed first
Use case:
Use Case: Поиск причин медленной работы приложений
1. У пользователя возникли проблемы с веб-приложением , работающем на веб-сервере, расположенном в частном облаке
2. ЦОД обладает инструментами анализа приложений
3. ИТ анализирует распределение трафика при приложениям в рамках этого сервиса
2
3Traffic distribution
Use Case: Поиск причин медленной работы приложений
4. ИТ анализирует ресурсы в данном ЦОДе
5. Видит, что производительность внутренней сети между серверами и телеком. оборудованием в норме
6. Обнаруживает индикаторы высокой нагрузки на веб-сервере и сервере БД
7. На общем трафике из ЦОДаесть предупреждения, из-за высокого объем и задержек
8. ИТ переключается на карту серверов, связанных с приложением
5
Troubled server
6
7
4
8
Use Case: Поиск причин медленной работы приложений
Troubled server
ИТ находит причину проблемы между сервером СУБД и вербервером
Опыт пользователей: продуктивный
Восприятие бизнесом: ИТ быстрое, отвечает
на задачи бизнеса
Database issue
Как выбрать подходящую систему унифицированного мониторинга производительности
5 важных шагов
1. Гибкое и масштабируемое решение, способное поддержать расширение и
изменение вашей ИТ инфраструктуры
5 Факторов успеха
Расширяемый, уже готовый (out-of-the-box - OOB) сбор данных по производительности с сетевых устройств, северов, СХД, систем управления, …
Но как управлять новыми технологиями, моделями, вендорами и специфическими метриками, которые не поддерживается из коробки?
Сложности быстро меняющегося много-вендорного ландшафта• Метрики хранятся в различных местах
• Стандартные MIB, вендоские MIB, текстовые файлы, данные доступные только через CLI, базы данных EMS,…
• Различные метрики могут использоваться для расчёта KPI
• Например, данные по задержки могу учитывать ICMP ping, IP SLA, Y.1731 DMM, MPLS OAM, Carrier Ethernet SOAM, …
• Новые устройства или экзотические устройства могут не поддерживаться OOB
Давая возможность модифицировать содержимое коробки…
…InfoVista дает прозрачный инструмент с возможностью:
• Менять существующие KPI или создавать новые
• Расширять объектную ресурсную модель, чтобы учитывать новые технологии, оборудование и метрики
• Получать данные через SNMP, SOAP, плоские файлы, DB, или загрузки из CLI
ИЛИ использовать партнёрский сервис для интеграции новых устройств!
Сеть построена на оборудовании различных вендоровПример расчёта мульивендорного KPI для 3G Cell
VistaMart “External” formula for Nokia NetAct VistaMart “external” formula for
Huawei M2000
Call Set up Success Rate for Voice
NetAct Table and Column Name mappings
M2000 Function Set IDs and Raw Counter IDs
“It took our Australia Tier 1 customer 3 minutes to add this KPI. And data was available for self reporting in the next hour”
5 факторов успеха
1. Гибкое и масштабируемое решение, способное поддержать расширение и изменение
вашей ИТ инфраструктуры
2. Масштабируемость от небольших инсталляций до размера операторских сетей,
чтобы удовлетворить требованиям крупнейших компаний
3-х уровневая архитектура, обеспечивающая необходимую производительность платформы и масштабируемость для крупных компаний
Redundant Consolidation and Aggregation
KPI GenerationCentral Database
Business, Service, InfrastructureData Models
Distributed Collection and Analysis
DiscoveryBulk FileUpload
Device andInterface Polling
DPI Appliances(Physical/Virtual)
NetFlowAppliances
(Physical/Virtual)
SNMP, WMI, VMware API, ICMP, DPI, Network Flow Analysis (NetFlow, IPFIX, J-Flow, sFlow, cFlow),CSV, XML, Cisco IP SLAs, Juniper RPM, Huawei NQA, CLI, XML CLI, …
Single ManagementConsole
Automated Orchestration
Interactive,On-Demand Reports
and Dashboards
Unified Presentation and CollaborationLive Standby Replication
N+1 Failover
Data Collection via Active/Passive Polling using:
Self-service reporting
and dashboarding
Real-timeAlert Notification
Real-time Mass DataExport and Extraction
Schedule andEmail Reports
Activation,Provisioningand Inventory Solutions
Network EMSs:CiscoANA, Huawei U2000,Ericsson, NSN NetAct,Alcatel-Lucent SAM 5620,...
3-х уровневая архитектура, обеспечивающая необходимую производительность платформы и масштабируемость для крупных компаний
Redundant Consolidation and Aggregation
KPI GenerationCentral Database
Business, Service, InfrastructureData Models
Distributed Collection and Analysis
DiscoveryBulk FileUpload
Device andInterface Polling
DPI Appliances(Physical/Virtual)
NetFlowAppliances
(Physical/Virtual)
SNMP, WMI, VMware API, ICMP, DPI, Network Flow Analysis (NetFlow, IPFIX, J-Flow, sFlow, cFlow),CSV, XML, Cisco IP SLAs, Juniper RPM, Huawei NQA, CLI, XML CLI, …
Single ManagementConsole
Automated Orchestration
Interactive,On-Demand Reports
and Dashboards
Unified Presentation and CollaborationLive Standby Replication
N+1 Failover
Data Collection via Active/Passive Polling using:
Self-service reporting
and dashboarding
Real-timeAlert Notification
Real-time Mass DataExport and Extraction
Schedule andEmail Reports
Activation,Provisioningand Inventory Solutions
Network EMSs:CiscoANA, Huawei U2000,Ericsson, NSN NetAct,Alcatel-Lucent SAM 5620,...
i. Более 2.1 миллиарда транзакций в день
ii. 80% крупнейших операторов в мире
iii. Автоматическое распознавание новых устройств
1. Гибкое и масштабируемое решение, способное поддержать расширение и изменение
вашей ИТ инфраструктуры
2. Масштабируемость от небольших инсталляций до размера операторских сетей,
чтобы удовлетворить требованиям крупнейших компаний
3. Гибкая сервисная модель
5 Факторов успеха
Инструментарий контроля – сервисная модель и сквозная видимость качества услуги
• Услуга предоставляется через множество сетевых элементов
• Деградация параметров на сетевых устройствах негативно влияет на качество услуги
• InfoVista позволяет смотреть на услугу целиком, анализировать ее качество и заботиться об удовлетворенности абонентов
Business
Backbone router
MPLS LSP
Media Gateway
WAN InterfaceVirtual Interface
CE
Путь предоставления услуги
Измерения SLA
Управления SLA ИТ-сервисов на уровне подразделений компании
Крупная компания может иметь подразделения работающие в различных рабочих календарях и часовых поясах.
• Задание рабочих календарей, включая часовой пояс для подразделений, офисов и регионов.
• Исключение планового и внепланового тех. обслуживания из расчёта SLA.
• Перерасчет SLA после внеплановых тех. обслуживания.
• Расчёт day-to-month SLA
Пример превращения данных сервисной модели в наглядный инструмент поиска проблемных мест в сети
Высокий объем трафика приводит к
потере пакетов
Проблема доступности между двумя сайтами
Высокий объем трафика превышает выделенную полосу
1. Гибкое и масштабируемое решение, способное поддержать расширение и изменение
вашей ИТ инфраструктуры
2. Масштабируемость от небольших инсталляций до размера операторских сетей,
чтобы удовлетворить требованиям крупнейших компаний
3. Гибкая сервисная модель
4. Полностью настраиваемые отчеты и метрики
5 Факторов успеха
Полностью настраиваемый портал на HTML5
Ваше лого Ваши цвета
Ваши подразделения
Ваши SLA
Ваши отчеты
Кастомизируемые дашборды для мониторинга в реальном времени
… с возможностью траблшутинга с частотой опроса в 1 секунду…
5 Факторов успеха
1. Гибкое и масштабируемое решение, способное поддержать
расширение и изменение
вашей ИТ инфраструктуры
2. Масштабируемость от небольших инсталляций до размера
операторских сетей,
чтобы удовлетворить требованиям крупнейших компаний
3. Гибкая сервисная модель
4. Полностью настраиваемые отчеты и метрики
5. Мультивендорный Flow и DPI анализ
Как можно анализировать данные по работе приложений?
Информация по нагрузке приложений :
• Какую полосу пропускания использует приложение?
• Детали по площадке, IP source, destination, interface, protocol (udp, tcp, icmp)
• Включая информацию по CoS (e.g. ToS field)• Ограниченное распознавание приложений
• На основе портов или NBARv1• Т.е. трафик типа ОТТ может
отображаться как http/websphereapplication server
Традиционный flow-based APMДо LAYER 4 (port-based)
Современный DPI APMДо LAYER 7
Информация по нагрузке и производительности приложений :• Расширяемое, на основе сигнатур,
распознавание приложений• Время ответа приложений, от
пользователя до сервера (для площадки, для приложения)
• Качество пользовательского опыта по голосу и видео
• Сетевая задержка, задержка клиента, задержка приложения Network delay, client delay, application delay
Платформа InfoVista для объединенного мониторинга производительности ИТ-инфраструктуры и приложений
Бизнес результат Значимость ИТ
I’m a hero!
Исправление недопонимания между
Бизнесом и ИТ
InfoVista Unified NPM + APM Solution
www.infovista.com