Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский...
DESCRIPTION
Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт". Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/1.jpg)
1
Представление направлений деятельности организации в
структуре предметной области: метод "кластер-лифт"
Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон
Совместная работа с T. Fenner (ДИИС Биркбек), S. Nascimento и L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010)
Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластер-
анализу» clustering” Научного фонда ВШЭ (2009-2010)
![Page 2: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/2.jpg)
2
Cодержание
1. Постановка проблемы
2. Сущность метода «кластер-лифт»
3. Иллюстрация результатов
4. Заключение
5. Приложение: Описание метода5.1. Сбор данных об индивидуальных работах5.2. Кластеры сходства таксономических единиц5.3. Подъём кластеров в ACM-CSS Taxonomy
![Page 3: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/3.jpg)
3
Визуализация для оперативного контроля энергосети (Манхаттэн)
![Page 4: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/4.jpg)
4
Возможна ли подобная визуализация для целей стратегического анализа и управления?
• Карта местности?
• Энергетическая подстанция?
• Ее представление?
![Page 5: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/5.jpg)
5
Визуализация для стратегического анализа и управления:
• Карта местности?
–Таксономия предметной области• Энергетическая подстанция?
–Кластер таксономических единиц• Способ представления?
–Верхние уровни таксономической иерархии
![Page 6: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/6.jpg)
6
Визуализация деятельности исследовательской организации
• Организация?– A Computer Science Department
• Карта местности?– ACM Classification of Computer
Subjects • Энергетическая подстанция?
– Кластер таксономических единиц разрабатываемых в департаменте
• Представление?– Верхние уровни таксономической
иерархии
![Page 7: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/7.jpg)
7
ACM-CCS Taxonomy – Верхний уровень, 11 категорий
• A. General Literature• B. Hardware• C. Comp. Sys. Organization• D. Software• E. Data • F. Theory of Computation
J
D
IG H
CB E F
K
A
CS
• G. Maths of Computing
• H. Information Systems
• I. Computing Methodologies
• J. Computer Applications
• K. Computing Milieux
![Page 8: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/8.jpg)
8
ACM-CCS Taxonomy - Уровень 2, 9 категорий
• I. Computing Methodologies – I.0 GENERAL – I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION – I.2 ARTIFICIAL INTELLIGENCE – I.3 COMPUTER GRAPHICS – I.4 IMAGE PROCESSING AND COMPUTER VISION
– I.5 PATTERN RECOGNITION
– I.6 SIMULATION AND MODELING (G.3) – I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) – I.m MISCELLANEOUS
![Page 9: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/9.jpg)
9
ACM-CCS Taxonomy - Уровень 3, 7 категорий
I.5 PATTERN RECOGNITION o I.5.0 General o I.5.1 Models o I.5.2 Design Methodology
o I.5.3 Clusteringo I.5.4 Applicationso I.5.5 Implementation (C.3) - горизонтальная ссылка
o I.5.m Miscellaneous
![Page 10: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/10.jpg)
10
ПРОБЛЕМА
ПРЕДСТАВИТЬ:
• Исследовательскую деятельность департамента или центра Информатики
ВЕРХНИМИ УРОВНЯМИ
• ACM Классификации Информатики (ACM-CCS)
![Page 11: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/11.jpg)
11
ЗАЧЕМ? Объективный целостный портрет организации:
• Позиционирование организации в ACM-CCS таксономии
• Анализ структуры тематики организации• Обозрение проблемных узлов, не
вписывающихся в структуру таксономии• Обзор регионального развития (с
количественными характеристиками эффективности и недо- и/или пере-оснащенности)
• Планирование реорганизации и развития
![Page 12: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/12.jpg)
12
Иллюстрация: Центр СЕНТРИА (Новый университет Лиссабона) в
терминах среднего уровня ACM-CCS Таксономии:
Разрабатывается
26 ACM-CCS тем из общего числа 81
![Page 13: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/13.jpg)
13
Традиционный подход - пометить темы в таксономии: темы есть, системы нет
GE B KJA
E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8
HFC D
CS
I
I1 I2 I3 I4 I5 I6 I7
![Page 14: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/14.jpg)
14
Добиться системности I:
Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп
Для этого:– Собрать данные о тематике каждого
индивидуального проекта– Оценить сходство между темами по сходству
разработчиков– Сформировать тематические (нечеткие)
кластеры
![Page 15: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/15.jpg)
15
Добиться системности II:
Тематические кластеры представить в ACM-CCS более общими категориями в
зависимости от нестыковок (лифт)Головная тема
Пробел
Выброс
Тема из кластера
Минимизировать: HГолТем + GПробел + OВыброс
![Page 16: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/16.jpg)
16
GE B KJA
E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8
HFC D
CS
IHead subject
Subject’s offshoot
Gap I1 I2 I3 I4 I5 I6 I7
C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems
I. Computing Methodologies
![Page 17: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/17.jpg)
17
Центр СЕНТРИА (Новый университет Лиссабона)
– Структура: Шесть перекрывающихся кластеров
- Позиционирование: пять Головных тем (с соответствующими выбросами и пробелами)
– Проблемный узел: Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy
![Page 18: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/18.jpg)
18
Заключение: метод кластер-лифт
• Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии
• Инструмент анализа и планирования– Профиль организации – Интегральное представление региональной
структуры деятельности
• Необходима организация сбора данных– Через опрос– Через анализ документов – проектов, статей, и пр.,
включая Интернет (языковый барьер) – предстоит
• Работа по организации приложений
![Page 19: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/19.jpg)
19
Appendix: Technical aspects
• E-survey tool over ACM-CCS topics
• Similarity between topics
• Additive, crisp or fuzzy, clustering
• Lifting of thematic clusters in ACM-CCS Taxonomy
![Page 20: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/20.jpg)
20
Generic e-survey output: Fuzzy membership
![Page 21: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/21.jpg)
21
Similarity between ACM-CCS topics
• Contribution by an individual member:
– (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey
– A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer
subjects i and j
• Matrices A(i,j) summed up over all individuals weighted according to their span ranges
![Page 22: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/22.jpg)
22
Similarity between ACMC subjects: example 1
ACMC subjects: i, ii, iii, iv, v, vi
Chosen subject memberships for four members
i .6 .2
ii .4 .2 .2
iii .2 .4 .2
iv .3 .4 .2
v .5 .2
vi
2/5 3/5 3/5 5/5 – member weights
weight = number_of_subjects / max_number_of_subjects
![Page 23: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/23.jpg)
23
Similarity between ACMC subjects: example 2
i .36 .24 0 0 0 0 0 0 0 0 ii .24 .16 0 0 0 0 0 0 0 0 iii 0.4 0 0 0 0 0 +0.6 0 0 .04 .06 .10 +0.6 .... =iv 0 0 0 0 0 0 0 .06 .09 .15v 0 0 0 0 0 0 0 .10 .15 .25 1st member’s 2d member’s
i 0.184 0.136 0.040 0.040 0.040ii 0.136 0.128 0.088 0.088 0.040iii 0.040 0.088 0.160 0.172 0.100iv 0.040 0.088 0.172 0.190 0.130v 0.040 0.040 0.100 0.130 0.190
not_diagonal_mean =0.0874
![Page 24: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/24.jpg)
24
Clustering with no user-defined parameters
• Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005)
• Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009)
![Page 25: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/25.jpg)
25
Additive fuzzy clustering
Observed: – Similarity B=(bij), i,jI
To be found:– Cluster membership u=(ui)
– Intensity > 0
Fuzzy cluster similarity A= 2uuT
![Page 26: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/26.jpg)
26
Additive fuzzy clustering
• Model: Similarity B summarizes:– Background cluster g (all entities)– K fuzzy clusters (K unknown)– residuals E
B = Ag + A1 +A2+… +AK + E
E to be least-squares minimized over unknown clusters
![Page 27: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/27.jpg)
27
Method: One cluster at a time• Minu, ξ t,t T ∈ (wtt− ξutut)2
• Equivalent to Rayleigh quotient
Max uWuT/(uTu)
• Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership
![Page 28: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/28.jpg)
28
Natural stop-criteria
1. Negative eigenvalue ξ
2. Contributions
T(B) = ξ12 + ξ2
2 +…+ ξK2+ L2 (●)
having reached pre-specified proportions
![Page 29: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/29.jpg)
29
Generalising thematic clusters over ACM-CCS: good and bad cases
• Navy cluster is tight, all topics are in one ACM-CCS category (good to generalise)
• Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise)
CS
![Page 30: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/30.jpg)
30
Lifting with criterion of parsimony: Minimize the total penalty
• # Penalty– Head subject 1 3– Gap 1 1– Offshoot 2 0.5
• Total penalty: 5 = 1*H + 1G + 2O
![Page 31: Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон](https://reader035.vdocuments.pub/reader035/viewer/2022062802/56814467550346895db0fbb7/html5/thumbnails/31.jpg)
31
Cluster lifting algorithm : Bottom-up recursion
CHILD 3 Gap Head Offsh
Not HS Gn3 Hn3 On3
HS Gh3 Hh3 Oh3
PARENT Gap Head Offsh
Not HS Gn Hn On
HS Gh Hh Oh
CHILD 2 Gap Head Offsh
Not HS Gn2 Hn2 On2
HS Gh2 Hh2 Oh2
CHILD 1 Gap Head Offsh
Not HS Gn1 Hn1 On1
HS Gh1 Hh1 Oh1