СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на...

94
Технически университет – Варна Катедра “Компютърни науки и технологии” Венета Панайотова Алексиева СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И СИМУЛАЦИЯ Ръководство за лабораторни упражнения Варна

Upload: others

Post on 20-Jan-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Технически университет – Варна

Катедра “Компютърни науки и технологии”

Венета Панайотова Алексиева

СИСТЕМИ ЗА БИЗНЕС

МОДЕЛИРАНЕ И СИМУЛАЦИЯ

Ръководство за лабораторни упражнения

Варна

Page 2: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

2

Предговор

Ръководството за лабораторни упражнения е предназначено

за студентите от специалност “Компютърни технологии в бизнеса”

и има за цел да даде практически познания за съвременните

средства за моделиране и симулация на бизнес процеси. Специално

внимание се отделя на въпросите, свързани с представянето на

събраната статистическа информация във вид, подходящ за

създаване и анализ на модел на съответния бизнес процес.

Акцентирано е върху използване на големи обеми от данни, за да се

правят бизнес прогнози. Учебният материал е базиран на

вградените функции за анализ на данни в Excel и Rapid Miner 6.0.

Упражненията са структурирани в три основни раздела.

Първият раздел е встъпителен и включва запознаване с основните

понятия, свързани с изследване на обекти и процеси, събиране и

систематизиране на информация, първоначалната й обработка.

Вторият раздел представя техники за анализ на данни чрез

вградените функции за анализ на данни в Excel. Третият раздел

запознава с възможностите за анализ на данни чрез Rapid Miner 6.0.

Всяко упражнение съдържа компетентностите, които се

очаква да се получат и ключови твърдения, основни функции и

формули, които да помогнат при реализирането на практическите

задачи. Всяко от упражненията съдържа подробен пример.

Независимо, че акцентът е поставен върху създаването на модел на

изследвания процес и последващия подробен анализ на този модел,

следвайки стриктно поредността на упражненията се достига до

завършено изследване, т.к. те подробно отразяват дейностите на

всеки един етап- подготвителен, провеждане на изследването,

обработка на информацията, анализ и оползотворяване на

информацията, получена на база на модела (формулиране на

изводи).

Page 3: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

3

I. СЪБИРАНЕ И СИСТЕМАТИЗИРАНЕ НА ИНФОРМАЦИЯ.

ПЪРВОНАЧАЛНА ОБРАБОТКА

1. БАЗОВИ ПОНЯТИЯ, СВЪРЗАНИ С ИЗСЛЕДВАНЕТО НА

БИЗНЕС ПРОЦЕСИТЕ.

Цел на упражнението

Това упражнение е въвеждащо в предмета на дисциплината

„Системи за бизнес моделиране и симулация” и акцентира върху

запознаване с основните понятия, касаещи провеждането на

изследване на произволен процес. Представени са видовете

изследвания и дейностите при разработване на проект на

изследването.

Очаквани компетентности

Да се осъзнава необходимостта от изследването като процес.

Да се познават видовете изследвания според изследователя, според

обема на извадката, според размера на обектите.

Да се формулират ясно обект, предмет, цел, задачи и методи на

изследването.

Да се знаят характерните черти, източниците и етапите, през които

преминава изследването.

Да се познават дейностите при разработване на проект на

изследването.

Ключови твърдения

1. Същност на изследването

Изследването се явява систематичното събиране на данни и

техният последващ анализ, на чиято основа се достигат нови знания

за изследвания обект или процес, т.е. информираност за даден

процес се постига чрез провеждане на изследване.

2. Изследователските методи

Изследователските методи са методи, използвани за

изучаване на различни области. Всеки изследователски подход има

свои собствени уникални методи, но понякога е прието

изследователските методи да се разглеждат като отнасящи се до

Page 4: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

4

количествени методи за научни изследвания и лабораторни

изпитвания.

2.1. Видове изследвания според изследователя:

- изследователски изследвания (те са предмет на дейност в

изследователски институти)- извършват се в съответствие с

определени правила за правдоподобност, последователност,

прозрачност и в съответствие със законите на държавата.

- частни изследвания

- научни изследвания – за установяване на природните

закони, пояснения на причините породили различни събития,

прогнози за бъдещи такива, научни обяснения и инструменти за

разработка на научни изследвания. Тези проучвания включват

разследвания на военното разузнаване, полицейско разследване,

съдебномедицински изследвания, разследващата журналистика и

др.

2.2.Видове изследвания според обема на извадката:

- Изчерпателни изследвания – изследват се всички лица от

даден обект или съвкупност. Прилагат се при по-малки обекти или

колективи.

- Представителни (извадкови, репрезетативни) – изследват се

само една представителна част, наречена извадка.

2.3.Видове изследвания според размера на обектите:

- Монографично – изследва се само един обект, едно

предприятие, едно селище.

- Панелни – повтарящи се през определен период от време в

един и същи обект с една и съща анкетна карта.

- Комплексни – организират се с участието на няколко науки.

2.4. Видове изследвания според предназначението:

- Проучвания на общественото мнение – моментна снимка на

настроенията и нагласите на хората по повод актуални събития –

демоскопски изследвания.

Page 5: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

5

- Пийпълметрични (телеметрични) – рейтинг на различни

телевизионни предавания.

3. Етапи, през които преминава изследването

3.1. Подготвителен – разработват се програми, анкетни

карти, обосновава се актуалността на избраната тема, формулира се

целта на изследването и се конкретизират задачите, определя се

обекта и предмета на изследването, избират се методи (методика) за

провеждане на изследването, описва се процеса на изследването

3.2. Провеждане на изследването – анкетиране

3.3. Обработка на информацията – мненията и оценките на

хората се извличат от анкетните карти и се групират по видове.

Извършва се с компютри или на ръка.

3.4 Анализ на информацията – информацията да се

разтълкува, да се напише доклад с изводи върху нея.

3.5. Оползотворяване на информацията – да се вземе

решение и се пристъпи към действие след обсъждане на резултатите

от изследването и формулиране на изводите и оценка на получените

резултати.

4. Източници на събираната информация

Според начина на получаване (събиране) на информация за

създаване ан бизнес модел, източчниците биват:

- Нови изследвания;

- Документацията на обектите, свързани в изследвания –

събира се само от цифрова информация;

- Резултати от предишни изследвания – служат за сравнения с

новата информация;

- Публикации в печата – служат само за сигнали и ориентири.

5. Характерни черти на изследването

- Достоверност – вярно да отразява мнението на хората;

Page 6: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

6

- Представителност – да представлява мнението на цялата

човешка съвкупност която изследва;

- Анонимност – информацията е без име;

- Научност – информацията се събира и се обработва с научни

методи.

6. Цел и задачи на изследването

При определяне на целта на провежданото изследване се

започва от едно принципно положение: какъв ще бъде приносът от

това изследване за решаване на теоретически и практически

проблеми на избраната тематика. Задачите се определят от целта и

се формулират на нейна база.

Проектът на изследването (изследователската програма)

определя общата стратегия и съдържа методологическите,

процедурните и организационните предпоставки на изследването.

Разработването на проект на изследването включва три

взаимосвързани и взаимозависими дейности:

1. Разработване на концепция на изследването;

2. Разработване на методика на изследването;

3. Информационно осигуряване;

4. Анализ на събраната от изследването информация;

5. Изводи и решения на база проведеното изследване.

Дейности 4. и 5. са представени подробно в следващите

упражнения в това ръководство, а останалите дейности ще бъдат

представени накратко тук.

7. Дейност 1. Разработване на концепция на изследването

Разработването на концепция означава изясняване на

съдържателните, теоретичните и методологичните основи на

изследването. Тя включва няколко взаимосвързани елементи.

7.1. Формулиране на проблем на изследването

Page 7: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

7

Проблемът на изследването е един основен въпрос или група

въпроси, отговорите на които трябва да бъдат дадени в хода на

изследването. Проблемите могат да са научни, социални или

практически, а могат и да съчетават тези страни. Решението на един

проблем е в намирането на такава информация, която,

присъединена към изходната (предпоставките), дава възможност за

получаване на изчерпателен отговор. Самите отговори могат да

бъдат преки и косвени, пълни и частични, допустими и

недопустими.

Проблемът трябва да е така осмислен и формулиран, че да са

спазени няколко условия:

- да е своевременен;

- да са изпълнени всички правила за постановка на въпросите

- да е ясен, точен и определен (в противен случай се

провокират недопустими отговори);

- предпоставките за проблема да са истинни.

В избора на проблем се съдържат част от най-съществените

характеристики на изследователския процес. При избора на

проблема изследователят се ръководи от цял комплекс

съображения: съществуващата парадигма; нуждата от "печалба"

при възможно най-малко "разходи"; социологически,

гносеологически, логически, психологически фактори, действащи в

момента или в последствие; възможност за практическо

приложение на резултатите или научна ценност на проблема.

Изборът на един от множеството проблеми става като се отхвърлят

тези от тях, които не могат да бъдат решавани в момента,

независимо от причините и съображенията за това. Алтернативните

възможности се оценяват според следните критерии:

- Обективни - новост и актуалност; перспективност;

приложна стойност; значимост; инструментариум, с който се

разполага за създаване и анализ на модел; достъп до обектите на

изследването и до източници на информация (библиотеки,

електронни регистри, статистиеска информация); ресурси - време и

пари; лични ангажименти - семейство, обществена работа и т.н.

Page 8: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

8

- Субективни – касаят изследователя – образование;

квалификация; жизнен опит; професионална дейност; интереси;

лична изгода и т.н.

7.2. Избор на тема на изследването

Темата на изследването трябва да съдържа проблема му, да

отразява неговото противоречие. Проблемът е съдържателната

характеристика на темата, а самата тема уточнява и определя

границите на проблема в ситуацията на изследването. Затова тя в

последствие присъства в заглавието на разработката.

Темата на изследването може да включва един или няколко

проблема. От техния брой и от вида им се определя и сложността на

темата. Темата по принцип трябва да съдържа проблем, който е

разрешим и който е адекватен по трудност на силите на

изследователя.

Формулировката на темата на изследването трябва да бъде

максимално ясна, да не допуска двузначно тълкуване, да бъде

диференцирана според предмета на изследването, да не е широка, а

да обхваща тесен кръг от проблеми (при единичен изследовател), да

съществува необходимост от разработването й - практическа,

теоретична, да дава икономически и/или социален ефект.

8. Обект и предмет на изследването

Обектът на изследването е определена област от реалността.

Обектът не зависи от познаващия субект, за разлика от предмета.

Един и същ обект може да е подложен на различни изследвания.

Отделянето на обекта става на основата на анализа на проблема на

изследването, т. е. на съществуващото противоречие, което е в

неговата основа.

Теоретичният анализ и обобщенията се правят върху

идеализиран обект (генералната съвкупност), а самото емпирично

изследване се извършва върху емпиричен обект (извадка) – реално

локализиран времево и пространствено. Затова и изискванията към

извадката са много строги.

Page 9: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

9

Под предмет на изследването се разбират тези съществени

свойства и отношения на обекта, познаването на които е особено

важно за решаването на теоретичния или практическия проблем. В

предмета на изследването най-ярко се проявява противоречието,

залегнало в проблемната ситуация. Предметът е резултат от

взаимодействието на проблема и обекта на изследването.

Предметът предполага обекта, но не съвпада с него, той е негов

аспект; той обозначава границите, в които обектът се изучава в

конкретното изследване (качествени, времеви, пространствени). В

предмета трябва да проличи новото, което се привнася от

изследователя.

В зависимост от тяхната сложност има три вида предмети на

изследване:

- такива, които са добре изучени по-рано, но се проявяват в

нови, променени условия;

- неизучени предмети;

- предмет на изследване е самата система от обществени

знания.

9. Определяне на целта и задачите на изследването

Целта на изследването лаконично изразява основното, което

е предмет на изследване, което се търси, което трябва да се докаже,

да се достигне. Тя отразява проблемните аспекти на темата и

представя прогнозираното състояние на обекта, проектирания

резултат, т.е. показва как ще изглеждат нещата, когато целта се

постигне. Определянето на целта е изключително важен момент от

изследването, тъй като всички дейности по-нататък са подчинени на

нея. Тя трябва да е реална и достижима, да е осъществима в

пределите на наличните ресурси и в зададения срок, да гарантира

по-голям ефект в сравнение с други възможни цели, да е обоснована

повече по отношение на нуждата, която посреща, отколкото по

отношение на формата, която приема, като най-важни са целите,

свързани с качеството на изследвания или подлежащия на

преобразуване обект, да е общественозначима (или съобразена с

нуждите на финансиращата организация), да е актуална, да не е

Page 10: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

10

емоционално мотивирана, да е разделима на междинни цели

(задачи).

Задачите на изследването произтичат от целта и трябва да

осигурят реализирането й. Те отразяват логиката на изследването –

определена последователност от действия, минимализирани и

степенувани по важност чрез дърво на целите и йерархически

разположени във времето.

Задачите на изследването се делят на:

- главни и допълнителни,

- теоретически и практически.

Обикновено в едно изследване се формулират 3-4 основни

задачи:

- Първата е свързана с разработването на същността,

природата, структурата, закономерностите на функциониране на

обекта;

- Втората задача е свързана със системата от критерии и

показатели за характеристика на обекта;

- Третата – със създаването на конкретни методики за

изследване;

- Четвъртата – с формулирането на конкретни изводи,

препоръки и методики за изследване.

Добрата формулировка на целите и задачите на изследването

зависи от спазването на някои изисквания: започва с глагол в

неопределена форма, в повелително наклонение, характеризиращ

изпълняваното действие; конкретизира необходимия краен

резултат; отговаря на въпросите "какво?" и "кога?" трябва да бъде

направено, а не "защо?" и "как?"; употребени са ясни и точни думи

и е разбираема за всеки, който е свързан с реализирането й.

10. Научни въпроси и хипотези

Под хипотеза се разбира творческо предположение за

структурата на обектите; за характера и същността на връзката

Page 11: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

11

между изучаваните явления и факторите, детерминиращи тези

връзки. Това е предположение, изказано във форма, която прави

възможна емпиричната проверка на истинността му.

Хипотезата конкретизира целта на изследването и е главният

методологически инструмент, олицетворение на вътрешната логика

на изследването. Методологическата роля на хипотезата се

проявява в това, че тя е свързващо звено между теоретичната

концепция и методиката на изследването, което помага да се

отделят факторите, нужни за решаването на проблема. Тя изпълнява

насочваща функция в целия изследователски процес, предопределя

действията на изследователя. В специалната литература се дават

най-различни класификации на хипотезите.

Към хипотезите в изследването се отправят редица

изисквания, най-важните от които са следните:

Да не е в противоречие с факти, методологически принципи и

вече доказани теории. Да е правдоподобна и логична (изводът

да следва от предпоставките).

Да е операционализируема, да дава възможност за проверка

чрез емпирични методи. Да е доказуема. В хипотезите се

проверяват чрез частни типични случаи; косвено, чрез

следствия от промеждутъчни факти; проверката винаги е само

частична, относителна.

Формулировката на хипотезата да е проста по строеж и да не

съдържа ценностни съждения.

Да е формулирана съвсем определено и точно (граници).

Да не включва понятия, които не са емпирически

интерпретирани и уточнени, в противен случай тя е

непроверяема. Колкото по-разчленени и определени са

термините, в които се формулира хипотезата, толкова по-трудно

и същевременно по-значимо е предвиждането.

Формулировката на хипотезата да е под формата на

утвърдително или на импликативно (релация) съждение – "Ако

Page 12: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

12

..., то ... " Така да е формулирана, че да може лесно да се вземе

недвусмислено решение за потвърждение или отхвърляне.

11. Дейност 2. Разработване на методика на изследването

Разработването на методиката е възлов момент в

изследването и включва отговор на въпросите: къде, кога, какво, от

кого, как ще се изследва? Определят се обектите, които ще се

изследват (идеален – генералната съвкупност, и реален – конкретна

извадка); начинът на изследване и обработка на материалите

(методите); техниката на всеки метод (начинът на приложение, в

зависимост от особеностите на обекта); инструментариумът

(съвкупността от специални документи и апарати – анкетни карти,

протоколи, въпросници, бланки, методически материали и др., с

помощта на които се реализират технически методите на изследване

и се осъществява сборът и обработката на информация).

Изборът на вариант на методиката зависи от концепцията на

изследването, условията, в които се провежда, времето, с което

разполага изследователят, познанията на изследователя по темата.

12. Методи на научното познание

Те са представени в таблицата по-долу:

І. Общи ІІ. Специфични

А) Методи на емпирично изследване 1. Математически

1. Наблюдение 2. Физически

2. Сравнение 3. Химически

3. Измерване 4. Археологически

4. Броене 5. Биологически

5. Експериментиране 6. Технически

Б) Методи на теоретичното изследване 7. Социологически

1. От абстрактно към конкретно 8. Лингвистични

2. Хипотетичен 9. Психологически

3. Логически 10. Други

В) Комбинирани методи

1. Абстрахиране

2. Анализ

3. Синтез

Page 13: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

13

4. Индукция

5. Дедукция

6. Моделиране

7. Системни методи

8. Исторически метод

9. Други

13. Дейност 3. Информационно осигуряване

С тази дейност изследователят е зает през цялото време, като

най-интензивна е през етапа на формирането на концепцията.

Търсенето на информация за изследването зависи от някои

предпоставки:

- обективни – обем, вид, трудност на изследването, време, достъп

до източници и т.н.

- субективни – интелектуални способности, любознателност,

обща култура, ниво на специализирани знания и опит, ниво на

информационна и библиографска грамотност и др.

Търсенето на информация се основава на следните

принципи:

- Да е целенасочено и системно;

- Да се поставя винаги на преден план бързината на получаване

на информация;

- Да се използват информационните услуги на библиотеките.

Информационното осигуряване на изследването има две

съдържателни страни: проучване на научната литература и

проучване на практиката.

При проучване на информационните източници е

целесъобразно воденето на каталог или картотека на проучените

информационни източници.

Page 14: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

14

Задачи

Зад. 1

Разгледайте представения пример по-долу, който

представлява част от студентска разработка. Отговаря ли

формулировката на темата на изискванията за планиране на

изследване? Защо? Правилно ли е поднесена постановката на

проблема? Доказана ли е актуалността и обществената му

значимост? На какви информационни източници се позовава

предварителното проучване на темата? Задачите отговарят ли на

формулираната цел на изследването? Подходящ ли е SWOT анализа

като форма на аргументация за целта на изследването? Правилно ли

са избрани понятийните и емпирични индикатори?

1.Тема:

Проучване на потребителските нагласи за използване на

ипотечен кредит като начин за покупка на жилище

3. Постановка на проблема

В България голяма част от младите хора от по-малките

населени места заминават към столицата и големите областни

градове, тласкани от нуждата за по-добра реализация,

образование, и по-високи доходи. Тази миграция се базира на

факта, че много от индустриалните центрове се намират в

столицата и големите населени места, където икономическата

обстановка и стандарта на живот се различават значително с

тези, в малките градове и селата. Трайното установяване на друго

място води със себе си много последствия, като най-

същественото от тях е нуждата от жилище, тъй като много от

хората със сменено местожителство не разполагат със собствен

дом. Голяма част от тях разчитат на общежития и квартири, за

да подсигурят престоя си.

В България се счита, че придобиването на собствено

жилище представлява основна инвестиция за домакинствата,

която подсигурява тяхното нормално развитие, и е предпоставка

за създаване и отглеждане на поколение. По данни на „Евростат“,

в България близо 25% от населението живее под наем или в

Page 15: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

15

ипотекирано жилище, като една четвърт от хората със

собствени домове, живеят в имоти с много лошо общо състояние

или с пренаселена жилищна площ.

Закупуването на дом, от своя страна се оказва

предизвикателство за част от населението, тъй като средното

ниво на доходите в България е най-ниското в Европейския съюз.

Това дава основание, ипотечното жилищно кредитиране да се

счита за един от основните методи, с които може да бъде

закупено жилище. За разлика от останалите кредити, ипотечният

жилищен кредит се обезпечава чрез ипотека върху имота, който

се закупува с него. На практика това означава, че потребителят

гарантира с жилището си за изплащането на дълга.

Поради настъпилата икономическа рецесия в България, от

2008 година насам, потребителите теглят все по-рядко и по-малки

суми за кредити за покупка на дом според анализи на „Кредит

Център“. Свързана с това причина, е и нарастналата безработица

на населението в цялата страната, която притиска

потребителите и не им дава увереност, че биха могли да използват

жилищния ипотечен кредит, за да си закупят собствено жилище.

Това твърдение се подкрепя и от данни, представени във в-к

Капитал, според които средният размер на ипотечните заеми,

които теглят домакинствата в България е 34 000 евро, като тези

в по-големите градове са средно по 42 000 евро, а в по-малките –

рядко повече от 23 000 евро.

Според експертите от „Кредит Център“, от това

произтича и факта, че кредитният рейтинг на хората е

сравнително по-висок в големите областни центрове и се

разпределя пропорционално според големината на населеното

място.

Според наблюдения на „Кредит Навигатор“ потребителите

теглят ипотечен кредит при крайна нужда от жилище, а не по

желание, както е било през периода 2005-2008 година, в допълнение

на това повечето кредитополучатели, често отчитат и спад на

нивото на доходи си спрямо нивото в периода на отпускане на

кредита. В същото време, заради намаленото търсене на жилища,

пазара за неджими имущества се е свил и цените на имотите са

Page 16: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

16

намалели с близо 40% , което от своя страна притегля част от

потребителите със сигурни доходи за инвестиция в недвижимост

или закупуване на основно жилище.

Осигуряването на собствено жилище в период на

икономическа криза е основен проблем, свързан с обезпечаване на

сигурността на живота на домакинствата и неговото решаване

се свежда до няколко алтернативи. В частния случаи решение на

проблема би могло да бъде финансовата помощ от близки, както и

получаването на наследство.

В общ план, обаче, съществуват два варианта за решение на

проблема свързан с придобиване на собствено жилище:

1.1. Използването на инструмента жилищен ипотечен

кредит са придобиване на собствено жилище, при наличие на добри

кредитни показатели от страна на кредитоискателя.

1.2. Покупка на собствено жилище, чрез спестяване на

необходимите парични средства от страна на лицето или

домакинството.

3. Цел на изследването

Да се проучат нагласите на населението по отношение на

закупуването на собствен дом, както и отношението им към

използването на жилищния ипотечен кредит като начин за

придобиване на жилище

4. Задачи на изследването

4.1. Да се провери до каква степен гражданите са обезпечени

със собствени жилища и до колко те задоволяват техните нужди

и потребности

4.2. Да се установят предпочитанията на гражданите по

отношение жилищата, които биха искали да притежават –

тяхната големина, тип и район

4.3. Да се изследват начините, които потребителите биха

използвали, за да си закупят собствен дом

4.4. Да се анализира какви суми са склонни потенциалните

потребители на ипотечен кредит да изтеглят, за да придобият

собствен дом, както и начините за погасяване на дълга.

Page 17: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

17

5. Основна хипотеза

Посредством разработването и провеждането на

настоящото изследване, се очаква:

5.1. Придобиване на по-ясна и конкретна представа за

потребителските нагласи по отношение закупуването на

собствено жилище

5.2. Информиран избор на гражданите по отношение на

начините за закупуване на собствено жилище чрез използването на

ипотечен кредит

6. Създаване на теоретичен модел

6.1. Фактори

Едновременно въздействат няколко образуващи фактора:

- Ниско ниво на доходите на гражданите в България и

високите жилищни наеми

- Стремеж за придобиване на по-голяма социална сигурност

чрез покупка на собствено жилище

- Динамиката при смяната на местоживеенето на

гражданите

- Спадът от 40% в цените на имотите в България спрямо

тези от периода преди 2008 година

Изброените фактори са определящи при стремежа на

гражданите да изберат подходящото местожителство, което

ще им осигури по-добра реализация, да направят свободен избор по

отношение на жилището, което искат да притежават, както и

начина, по който мислят да осигурят необходимите за целта

средства. Освен тези, могат да се добавят и други фактори.

SWOT анализ за използване на ипотечен кредит като начин

за покупка на жилище

ВЪТРЕШНИ ФАКТОРИ ВЪНШНИ ФАКТОРИ

Силни Страни Възможности

-Непосредствено сдобиване със

собствено жилище

-Използване на външно

- Повишаване на доходите на

гражданите в България o Спад в

цените на имотите

Page 18: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

18

финансиране

- Съобразяване на размера на

вноските с финансовите

възможности на кредитоискателя

- Гъвкавост на периода за

изплащане на кредита

- Предоговориране на кредита с цел

по-добри условия

- Намаляване на лихвените

проценти при ипотечни кредити

- По-добра реализация на

кредитоискателя

- Получаване на доходност на

кредитоискателя от трети

страни -източници

- Намаляване на потребителските

разходи за стоки от първа

необходимост

- Предсрочно погасяване на

кредита

- Възможност за гратисен период

и преференциални лихвени

проценти

Слаби Страни Заплахи

- Отежняване на цялостната

стойност на имота с цената на

лихвите

- Дългосрочна финансова

ангажираност към кредитор

- Частично ограничаване на избора

на имот (по отношение на

неговите характеристики)

- Ограничаване на възможността

за теглене на други кредити

- Намаляване на общото финансово

състояние на кредитоискателя

- Затруднения при смяна на работа

в друго населено място

(отежняване на дохода на лицето с

допълнителен наем)

- Обвързване на живота на

домакинството със закупения

имот в населеното място (при

- Риск от изпадане в

несъстоятелност на

кредитоискателя

- Задълбочаване на икономическата

криза в България

- Спад в доходите на

кредитоискателя

- Недобре договорирани условия за

ипотечен кредит

- Загуба на трудоспособност на

потребителя в следствие на

външни фактори (болест или

временна нетрудоспособност)

- Загуба на работа на

кредитоискателя

- Поскъпване на стоки от първа

необходимост

- Повишаване на лихвени проценти

по изплащането на ипотечния

Page 19: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

19

нужда от замяна или продажба на

ипотекираното жилище)

- Затруднена размяна или покупко-

продажба на ипотекирания имот

при промяна в нуждите на

домакинството

кредит

- Поскъпване на жилищата в

България

- Наказателни лихви при

просрочени вноски

- Повишаване на местните имотни

данъци и такси смет

- Риск от трайна повреда на

жилището в следствие на бедствия

и аварии

Чрез така построеният SWOT анализ, се установява

наличността на два основни проблема, чието решаване ще

способства потребителите за по-успешното използване на

жилищния ипотечен кредит при покупката на собствен дом:

6.1.1. По-добра професионална реализация и увеличаване на

доходността на гражданите, за да се намалят част от рисковете

при теглене на ипотечен кредит

6.1.2. Съобразяване от страна на потребителя с

характеристиките на избраното жилище, с размерите и

условията на кредита и със собствените възможности за

финансово обезпечаване на дълга

6.2. Дърво на целите

6.2.1. Създаване на повече преференциални условия за

младите хора от страна на Кредитните институции,

включително повече на брой и по-дълги гратисни периоди, по-

голяма гъвкавост при изплащането на месечните вноски и по-ниски

лихвени проценти

6.2.2. Повишаване на работната заетост на гражданите в

България и подсигуряване на сигурна във времето доходност, с

която да могат да покриват своите нужди

6.2.3. Поддържане на реалистични цени на недвижимите

имоти, съобразени с пазарните условия в България и с имотните

характеристики

Page 20: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

20

За всяка формулирана цел, трябва да се разработи програма

с определени дейности, чието осъществяване във времето, да

доведе до постигане на набелязаните цели.

Например по цел 6.2.1 да се предвидят дейности като:

- Създаване на преференциални условия за

кредитополучатели на възраст от 25 до 35 години, както и на

тези с деца до 6 годишна възраст

- Намаляване или опростяване на лихви при раждане на

второ дете в домакинството по време на кредитния период

- Преференциални условия или лихви за млади семейства в

първите 2 години от сключването на граждански брак

- При просрочване на погасителни вноски, да не се

осъществяват т. нар. „наказателни лихви“

- Задължителна възможност за предсрочно погасяване на

кредита без понасяне на глоби

- Създаване на по-дълги гратисни периоди за студенти и

учащи

По цел 6.2.2 да се предвидят мерки като:

- Създаване на повече работни места за млади специалисти

- Повишаване на външните инвестиции в България

- Създаване на по-добри условия за развитие на малкия и

средния бизнес

- Предоставяне на възможности за безплатна квалификация

и преквалификация, съобразно нуждите на пазара на труда и

желанията на гражданите

- Съдействие от страна на кредитор при загуба на работа

на кредитополучател чрез договорирани отношения с Бюрото по

Труда за намиране на трайна заетост в по-кратки срокове и

осигуряване на предимство при търсене на работа чрез трудовите

борси

По цел 6.2.3, трябва да се извършат действия като:

- Държавно регулиране на комисионните на брокерските

фирми при продажба на имоти

Page 21: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

21

- Усвояване на средства от Европроекти с цел подобряване

общото състояние на съществуващия жилищен фонд на страната

- Правилно разпределяне на зонирането при данъчното

оценяване на имоти от експертите на общините

- Намаляване на данъчната ставка и увеличаване на

данъчната основа на енергийноефективните жилища и сгради.

7. Система на индикатори

Основно понятие – кредит

Понятийни индикатори – ипотечен кредит

Емпирични индикатори – Отпускане на средства от

кредитор на кредитоискател срещу жилищен залог на втория

Понятийни индикатори - жилищен ипотечен кредит

Емпирични индикатори - Отпускане на средства от

кредитор на кредитоискател с цел покупка на жилище срещу залог

върху него; сума; вноски; продължителност; лихва;

Понятийни индикатори – собствено жилище

Емпирични индикатори – Имот с първостепенна важност за

едно лице или домакинство; район на имота; жилищна площ; тип;

цена;

Зад. 2

Изберете своя тема на изследване, като следвате примера,

представен в предходната задача и посочените стъпки:

1. Информирайте се за избрания от Вас процес. Насочващи

въпроси могат да бъдат: по какъв начин представители на различни

социални групи участват и се отнасят към този процес;

потребителско поведение; структура на бюджета на времето;

отношения с колеги; предпочитани места за работа; стереотип на

работа; фактори, обуславящи използването на информационни и

комуникационни технологии в този процес....

2. Формулирайте темата – постановка на проблема, обосновка

на избора.

3. Определете задачи на изследването – за какви аспекти на

избрания процес ще събирате информация; какви са детайлите на

информацията.

Page 22: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

22

4. Формулирайте основни хипотези, допускани от Вас, като

автор на разработката – предположения за резултатите от

изследването; формулиране на основните елементи на теоретичния

модел, съобразно които да се осигури информация, за да се

потвърди или отхвърли формулираната хипотеза.

5. Създайте теоретичен модел – описание на процеса като

обект за изследване чрез понятия.

6. Направете избор на индикатори – система от понятия,

структурирана на няколко равнища – 1. Основни понятия; 2.

Конкретизация на основните понятия (понятийни и емпирични

индикатори); Преобразуване на индикаторите в количествено

измерими емпирични индикатори, чрез които се очертава процеса,

за който се набира информация.

Page 23: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

23

2. СЪСТАВЯНЕ НА ВЪПРОСНИК. ДОСТАТЪЧНОСТ НА

ДАННИТЕ. ИЗВАДКИ. ДОСТОВЕРНОСТ НА

ДАННИТЕ.

Цел на упражнението

Това упражнение акцентира върху съставяне на въпросник и

провеждане на изследване на произволен процес. Представени са

основните правила при съставяне на въпросници. Разгледани са

предварителната обработка на данните и статистическата обработка

на дискретни случайни величини.

Очаквани компетентности

Да се познават в детайли правилата за създаване на въпросници.

Да се формулират критерии за представителност на една извадка.

Да се знаят формулите за изчисляване на размах, математическо

очакване и дисперсия на случайна величина.

Да могат да се инсталират и да се знаят възможностите за

статистически анализ на Excel - Analisis Tool Pak и Solver Add-In.

Ключови твърдения

1.Събиране на данни

Събирането на данни за индикаторите може да стане чрез

анкета (пряка или косвена), интервю, наблюдение, експеримент и

др. Съществуват и т.нар. качествени методи, които често

предизвикват недоверие, тъй като не предлагат количествени

обобщения. Те са изключително подходящи за решаване на

проблеми, свързани с рекламата и други елементи на

комуникационния микс, защото предлагат навлизане в дълбочина

на проблема. Това се постига като се избягват т.нар. затворени

въпроси (с предварително подадени опции за избор) и участниците

дават свободни отговори. Груповите дискусии, известни още като

фокус-групи са много популярен качествен метод за избор на ново

лого, тестване на реклами и др. Съществуват и други качествени

методи, които успешно могат да бъдат прилагани за решение на

определени маркетингови проблеми, които не могат да бъдат

разрешени с помощта на количествените проучвания.

Page 24: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

24

1.1. Въпросник

Въпросникът е основен инструмент на множество методи в

както в социологическите, така и в маркетинговите изследвания,

включително анкета и интервю. Добре или недотолкова добре

направеният въпросник може да повлияе върху получените

резултати. Чрез въпросник се набира първична информация.

Въпросите са свързани пряко с емпиричните индикатори (на един

индикатор може да съответстват един или повече въпроси) и могат

да се измерят количествено.

1.2.Анкета

Анкетата представлява допитване в писмена или уеб-базирана

форма чрез въпроси, по които всеки може да изрази своето мнение.

Най-важното в една анкета е правилното формулиране на

изследователския проблем. Той трябва да е обществено значим и да

се предполага, че повечето хора ще имат мнение по него и ще са

съгласни да го споделят. Въпросите трябва да са интересно

формулирани, да не провокират, да не съдържат внушения в полза

на някой от предложените отговори.

Анкетата трябва да започва с обръщение към респондентите.

В него се представя институцията, която провежда изследването

(например MBMD) и в най-общи линии се описват целите на

изследването. Дават се инструкции за попълването на анкетата.

Уверява се, че изследването е анонимно. Изказва се благодарност за

отзивчивостта на респондентите.

Първият проблем касае броя на въпросите. Очевидно е, че в

едно проучване стремежът е да се попитат представителите на

целевата група за възможно най-много неща, които не се знаят за

тях. От друга страна обаче въпросник, чието попълване трае повече

от 25 -30 минути, се възприема за прекалено дълъг и досаден и

участниците отговарят на въпросите, без да се “замислят” над

съдържанието им.

2. Видове въпроси

Въпросите в анкетата могат да бъдат:

2.1. Открити (неструкрурирани)

Page 25: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

25

При тях анкетираният (респондентът) отговаря свободно и

със свои думи на зададения въпрос. По този начин се получава

богата информация, но такива анкети се обобщават трудно, тъй като

има голямо разнообразие на дадените отговори.

2.2. Закрити (структурирани)

При тях респондентите избират от няколко предварително

зададени възможни отговора. Това позволява да се изчисли

относителната честота на предпочетените от респондентите

отговори и по този начин да се съди за разпространеността на една

или друга социална нагласа. Относителната честота е броят на тези,

отговорили по определен начин, спрямо броя на всички изследвани

лица. Така, от честотата на отговорите може да заключим кое е

преобладаващото мнение.

2.3. Комбинирани(полуструктурирани)

Възможно е в една анкета да се приложат и двата типа

въпроси (открити и закрити) чрез отговор „друго”, където има

оставено празно място, на което респондентът може в свободен

текст да опише своя отговор, ако не може да избере от

представените му алтернативи. Помага на провеждащия анкетата да

конструира последваща, по-подходяща за тази извадка анкета.

3.Правила при създаване на въпросник

3.1. Използвайте такъв формат на въпроса, който да има само

един най-добър(най-подходящ) отговор.

3.2. Търсете максимално кратките формулировки, като

избягвате многословието.

3.3. Проблемът, върху който е фокусиран въпроса, трябва да е

зададен във формулировката му.

3.4. Въпросите трябва да са независими един от друг, но да са

подчинени натемата на изследването.

3.5. Избягвайте негативните фрази и отрицателните съждения

във формулировката на въпроса.

3.6. Въпросителната форма при формулировка на въпрос е за

предпочитане пред недовършеното изречение с предложения за

довършването му.

Page 26: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

26

3.7. При подредбата на отговорите следвайте тяхната

логическа последователност. (Например те могат да бъдат

подредени в хронологическа последователност или по азбучен ред.

При отговори, свързани с посочване на количество, да има

възходящо или низходящо подреждане.)

3.8. Отговорите трябва да имат приблизително еднаква

дължина и да са хомогенни по своя характер.

3.9. Избягвайте думи или фрази, които могат да играят ролята

на ключ за очаквания резултат от анкетата при избор на отговор.

3.10. Определете класа от неща, към който всички

алтернативи трябва да принадлежат.

3.11. Използвайте за алтернативи различни комбинации от

два или три елемента. По този начин от два елемента можете да

получите четири различни алтернативи: Пример:а) само А; б) само

Б; в) и двете; г) нито едно. При наличие на три елемента

възможностите нарастват на осем. Трябва да се има предвид, че

отговори от типа „нито едно от посочените по-горе“ и „всички от

посочените по-горе“ трябва да се използват много предпазливо,

защото не се считат за ефективни. Предложения за отговор от типа

„не знам“ и „не мога да преценя“ са абсолютно недопустими.

3.12. Използвайте задачите с множествен отговор само тогава,

когато другите видове задачи са по-неподходящи.

3.13. Визуалното оформление на въпроса трябва да съдейства

за по-бързо и лесно възприемане (Чрез маркиране - като се използва

получер шрифт, главни букви, подчертаване и др.; При

алтернативите се използват букви, а не цифри; Списъкът от

алтернативи се разполага вертикално, а не хоризонтално; Не бива

въпросът да се „разкъсва“ на две страници.)

3.14. Можете да нарушите всяко от написаните правила, ако

имате достатъчно основания за това.

4.Препоръки за създаване на уеб-базирани анкети

4.1. Всяка една анкета има конкретен въпрос. Този въпрос

трябва да присъствува в заглавието на анкетата. Не е информативно

заглавието да бъде само "Анкета". Редно е още от заглавието да си

проличава за какво се отнася тя.

Page 27: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

27

4.2. Анкетите могат да бъдат анонимни или явни. При явните

анкети всеки може да види кой за какво е гласувал. В заглавния

постинг на всяка една анкета ЗАДЪЛЖИТЕЛНО упоменавайте дали

тя е анонимна или явна. Редно е всеки да знае, преди да даде гласа

си. Има хора, които не желаят да гласуват в явни анкети, защото

искат да скрият някаква своя лична информация. Така че типа на

анкетата (анонимна или явна) задължително трябва да бъде

обявяван.

4.3. Има анкети, в които може да се гласува само за един

отговор, има и такива, в които може да се гласува за много.

ЗАДЪЛЖИТЕЛНО обявявайте от какъв тип е вашата анкета - с един

или с много отговори.

4.4. Анкети, които могат да съдържат чувствителна лична

информация (например възраст, доходи, кръвна група,

заболявания), ЗАДЪЛЖИТЕЛНО СА АНОНИМНИ.

4.5. Когато в отговорите изреждате нещо, което не изчерпва

всички възможности, ЗАДЪЛЖИТЕЛНО слагайте и отговор

"Други". Например питате какви модели коли имат хората - ясно е,

че не можете да изредите абсолютно всички модели. При това

положение ще изредите най-масовите и след това ще добавите и

отговор "Други".

4.6. Когато отваряте анкета само с два отговора "Да" и "Не",

не забравяйте, че има и хора, които все още не са се определили.

Затова задължително слагайте и трети отговор от типа "Не мога да

преценя в момента" или "Въздържам се".

5.Провеждане на изследването

Едно проучване съвсем не се състои в това да се измислят и

зададат няколко въпроса на известен брой потребители. В повечето

случаи провеждането на такова проучване изисква ресурси (не само

финансови, но и човешки) с каквито разполагат само някои по-

големи фирми. Ето защо повечето фирми се доверяват на агенции

или консултантски екипи, които специализират в провеждането на

такива изследвания.

Много често малките фирми се отказват от маркетинговите

проучвания, тъй като те се оказват твърде скъпи за тях. Трябва да се

Page 28: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

28

знае обаче, че не е необходимо да се прилага някакъв универсален

модел на маркетингово проучване, за да се получат задоволителни

за фирмата резултати. Освен това, в зависимост от целта на

проучването, може да се приложат по-нетрадиционни методи, които

също да доведат до значим за фирмата резултат (такива са например

качествените изследвания). Не на последно място, повечето

агенции, специализирани в провеждането на маркетингови

проучвания, предлагат т.нар. омнибус, в който фирмите се

включват и заплащат само няколко въпроса в един общ въпросник,

а проучването се провежда като представително за цялата страна и

по този начин значително снижават своите разходи.

6.Понятия

6.1.Измерим признак

Основата на всяко статистическо изследване е известно

множество данни, получени в резултат от измерване на едно или

няколко свойства, наричани признаци. Чрез изчисляване или

измерване на признаците се получава ред стойности, наричан ред

на измерване.

По редица причини посочените признаци, независимо от

природата си, са случайни величини. Те могат да приемат всяка

стойност, която принадлежи на областта на измерване на

съответния признак. Ако при измерването на даден признак са

получени n броя стойности, това е ред на измерване с обем n.

Наблюдаемите стойности x1, x2, …, xn, които приема във всеки

конкретен случай някой признак X, се наричат реализации на

случайната величина X.

Когато на обработване се подлагат измервания само на един

признак се говори за ред на измерването на един измерим признак.

В обратния случай едновременно се обработват данни от ред на

измерването на два или повече измерими признака.

6.2.Генерална съвкупност

Това е съвкупност от еднотипни единици (обекти), които се

изследват от гледна точка на даден признак.

6.3.Извадка

Тя представлява подмножество, избрано по случаен начин от

генералната съвкупност.

Page 29: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

29

В повечето случаи няма възможност да се достигне до всеки

един представител на целевата група, поради което повечето

маркетингови изследвания работят с т.нар. извадки. Това поражда

въпроса: колко човека да бъдат анкетирани, за да бъде извадката

представителна? Случайният избор на елементите на извадката от

генералната съвкупност е най-важното свойство на всяка една

извадка. То дава представителност на извадката – казва се, че такава

извадка е репрезентативна. Извадката се характеризира и с обема

си.

Извадката зависи от много фактори:

• целта на изследването;

• дизайна на въпросника;

• допустимата грешка при предложената извадка;

• дали с настоящата извадка ще се достигне до всички

подгрупи на целевата група;

• има ли алтернативен вариант на извадка, който също

отговаря на целите на изследването. (Важно е от гледна точка на

разходите и времетраенето на изследването.)

Възможно е по известни свойства на някое подмножество

обекти, взети от съвкупността, да се съди за неизвестни свойства на

останалите обекти от тази съвкупност. Счита се, че най-адекватният

подход е да се използва т.нар. случайна извадка, но при някои

видове проучвания прилагането й е недостатъчно ефективно и е

скъпо.

7.Обобщаване на резултатите

В повечето случаи крайният продукт от всяко статистическо

проучване включва количествено обработени резултати под

формата на таблици и/или графики, а също и презентация с основни

изводи или аналитичен доклад. Формата на поднасяне на

резултатите зависи от избора на клиента, преценката на

професионалистите и бюджетните ограничения, но и в двата случая

крайния резултат от проучването задължително трябва да съдържа

отговор на въпросите, поставени в началото на проекта, а не просто

анализ на получените данни.

Page 30: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

30

Резултатите се групират по видове. За да се превърнат в данни

за обработка, се представят в следния вид:

Въпрос 1 Въпрос2 ... Въпрос N

Анкетиран 1

Анкетиран 2

.....

Анкетиран М

8. Понятия, свързани с данните за обработка

Тези количествени изражения са дискретни величини и могат

да се обработват като такива.

Случайната величина X е дискретна, ако тя може да приема

краен или безкраен брой стойности x1, x2, …, xn, …

Тъй както всяка случайна величина X се характеризира с

теоретично разпределение F(x), една генерална съвкупност,

разглеждана по отношение на признака X, също се характеризира с

разпределението F(x). На практика вероятностния закон на

генералната съвкупност не е известен. Единственият източник на

информация за този закон е извадката с обем n, изтеглена от

генералната съвкупност.

От реализациите x1, x2, …, xn на X се определят

практическото разпределение и статистически числени

характеристики като средна стойност ( x ), дисперсия (s2),

коефициент на корелация (rxy) и пр. Практическото разпределение

се нарича емпирично и се разглежда като оценка на теоретичното

разпределение F(x) на генералната съвкупност. Следователно, по

данните за статистическите числени характеристики x , s2, rxy и т.н.,

и емпиричното разпределение на извадката се извършва

статистическа оценка на параметрите μ, σ2, ρxy и т.н., и се издига

статистическа хипотеза за теоретичното разпределение на

генералната съвкупност F(x). След провеждане на статистически

тест, тази статистическа хипотеза се приема или отхвърля.

9.Предварително обработване на извадките

(препроцесинг)

Page 31: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

31

Преди да се пристъпи към изчисляване на статистическите

характеристики редът на измерване се подлага на известно

предварително обработване. То се извършва в следните стъпки:

9.1. Изходна таблица – записване в таблица неподредените

елементи на извадката, постъпили по реда на получаване;

9.2. Първична таблица на разпределение – подреждане

данните по възходящ ред, отчитане на повтарящи се резултати –

чрез щрихови отметки и абсолютен брой, наричан абсолютна

честота;

9.3. Вторична таблица на разпределение (таблица на

честотите) – концентриране информацията от първичната таблица

на разпределение, която при големи извадки се оказва твърде

обширна. Това се постига чрез извършване на следното:

9.4. Размах на вариране R – определя се разликата между

най-голямата и най-малка стойности на извадката: minmax xxR ;

9.5. Класификация на измерванията – групиране в

класове (групи или интервали) по няколко последователни

стойности. Определяне граници на интервалите (класовете).

Препоръчително е интервалите да бъдат с еднакви широчини, а за

получаване на достатъчно прегледна и компактна вторична таблица

броят на интервалите k (цяло число) да бъде в границите 5 ≤ k ≤ 25.

При избран брой на групите k, широчината на интервала d е: k

Rd

9.6. Преизчисляване абсолютните честоти hm -

разпределяне данните от първичната таблица по класовете 1 ≤ m ≤

k;

9.7. Изчисляване относителните честоти fm – емпирично

разпределение на плътностите: n

hf m

m

9.8. Изчисляване кумулативната сума Fm – емпирично

разпределение:

m

1i

im fF

9.9. Графично представяне на разпределението –

използват се следните видове графика:

9.9.1. Хистограма или полигон;

Page 32: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

32

9.9.2. Диаграма на Бокс (кутийка с мустаци - box and

whiskers);

Изчисляват се :

9.10. Математическото очакване е известно и като средна

стойност. Математическото очакване EX (Expectation) на дискретна

случайна величина X, приемаща стойности xi с вероятности pi, i = 1,

2, …, се определя по формулата:

i

i

i pxXE

1

9.11. Дисперсията на дискретна случайна величина X се

определя от израза:

1

2222 )(i

ii pxXEXEXD

За практически пресмятания чрез прости преобразувания се

получава следната по-удобна формула, известна като формула на

изместването:

2

1

22222

i

ii pxEXXD

Вземането на положителния корен квадратен от дисперсията

на една случайна величина X се нарича средно квадратично или

стандартно отклонение и се означава със σ.

Задачи

Зад. 1

Добавете функциите за статистически анализ на данни в

Excel. За да се добави пакета за статистически анализ, се отива на

бутона Office, избира се Excel options, в диалоговия прозорец се

избира Add-Ins и се поставят отметки пред Analisis Tool Pak и Solver

Add-In. Избира се Go, после- Ok и Yes.При успешно добавяне на

тези специализирани функции, в менюто Data в края вдясно се

появява нова група бутони, съдържаща Data Analysis и Solver.

Зад. 2

Да се създаде изходна таблица с данни в Excel като се създава

модел с 1 атрибут, чиито стойности са числа (около 150 реда),

Page 33: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

33

получени със стойности с функцията NORMINV(RAND(),130,0.5),

където 130 е центъра на нормалното разпределение, а σ=0.5 е

разсейването около центъра.

Зад.3

За представените данни от предходната задача в изходната

таблица с неподредените елементи на извадката да се създаде

първична таблица на разпределение, в която да се подредят данните

по възходящ ред и да се отчетат повтарящи се резултати чрез

абсолютна честота. Да се състави вторичната таблица на

разпределение (таблица на честотите) чрез концентриране

информацията от първичната таблица на разпределение.

Зад.4

За така получената в предходната задача таблица да се

направят за всяка колона следните изчисления (обхвата на данните

във формулите е примерен):

Брой в една колона =COUNT(D5:D34)

размах на вариране R =MAX((D5:D34)- MIN(D5:D34)

Min =MIN(D5:D34)

Среден брой =AVERAGE(D5:D34)

1-ви квартил (Q1) =QUARTILE(D5:D34, 1)

Стандартно отклонение =STDEV(D5:D34)

Медиана =MEDIAN(D5:D34)

Коеф. на вариация = STDEV(D5:D34)/ AVERAGE(D5:D34)

3-ти квартил (Q3) =QUARTILE(D5:D34,3)

Асиметрия =SKEW(D5:D34)

Max =MAX(D5:D34)

-преизчисляване абсолютните честоти hm и разпределяне данните от

първичната таблица по класовете:

Долна граница

(m1)

Горна граница

(n1) Честота (o1)

1 2 =COUNTIF(D5:K34, "<2")

2 3 =(COUNTIF(D5:K34, "<3"))-O43

Page 34: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

34

.............

-изчисляване относителните честоти fm

-изчисляване кумулативната сума Fm

Зад.5

Разгледайте представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение. Правилно ли са подбрани въпросите?

Има ли въпроси, които се отнасят към един и същ признак? Може

ли някой от въпросите да отпадне? Може ли да се добави въпрос,

характеризиращ друг признак на обекта на изследването? Съгласно

представените данни от първичната обработка направените изводи

правилни ли са? Какви други изводи могат да се направят?

Разгледайте отново отговорите на анкетираните. Има ли въпроси, на

които отговорите са свързани (например ако на въпрос 1 отговаря с

а) на въпрос 5 отговаря с б) )?

Методика на извадката

На лотариен принцип на непосредствено изследване бяха

подложени 30 граждани.

Методика на регистрацията

В зависимост от източниците на информация и на начина на

тяхното използване, методът на регистрация беше анкета –

стандартна, индивидуална, еднократна, електронна.

В зависимост от броя на използваните източници методът

на регистрация е синтетичен.

Според критерия, характера, и съдържанието на

получената информация, методът на регистрация е качествен.

Основният метод за настоящото изследване е web-базирана

анкета. Спазено е изискването за неизразяване на отношение към

мнението и оценките на анкетираните.

Въпросник:

1. Имате ли собствено жилище?

Да.

Page 35: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

35

Да, но пространството в него не достига.

Не, живея под наем.

Не, все още живея при родителите ми.

2. В кой район на Вашето населено място, бихте желали да

живеете?

В централните части.

В крайните жилищни квартали.

Във вилните зони.

Извън рамките на населеното място.

3. Какъв тип жилище бихте предпочели да притежавате?

Гарсониера

Тристаен апартамент

Мезонет

Къща

4. От каква жилищна площ се нуждаете?

до 60 кв. метра

от 60 до 80 кв. метра

от 80 до 100 кв. метра

над 100 кв. метра

5. По какъв начин бихте закупили Вашето бъдещо жилище?

Чрез възможностите на жилищния ипотечен кредит.

Разполагам със заделени пари

Разчитам на помощта на близките ми

Очаквам да получа наследство.

6. Ако използвате кредит, каква сума бихте искали банката да ви

отпусне?

до 60 000 лв.

от 60 000 до 80 000 лв.

от 80 000 до 100 000 лв

над 100 000 лв.

Page 36: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

36

7. Каква сума месечно бихте могли да заделяте за изплащане на

Вашия кредит?

до 200 лв месечно

между 200 и 400 лв месечно

между 400 и 600 лв месечно

над 600 лв.

8. Какъв погасителен план бихте избрали за Вашия кредит?

С равни месечни вноски

С намаляващи месечни вноски

Индивидуално разработен погасителен план

С възможност за предсрочно погасяване на кредита

Прилагайки така представения въпросник, са получени

следните количествени индикатори:

От получените резултати е видно, че елементите на

извадката са получени в следствие на случаен принцип след

анкетиране на 30 граждани. Този обем дава основание да се

твърди, че извадката е непредставителна. Според изискванията за

фактически цифров материал при информационното осигуряване,

може да се твърди, че според зададената цел на изследваното

Page 37: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

37

явление и задачите, които произтичат от нея, извадката

отговаря на критерия за пълнота на данните. В зависимост от

изискванията за достатъчност, в настоящия анализ се

наблюдават всички единици от извадката, за това може да се

твърди че тя отговаря на този показател. При осъществяването

на анкетния въпросник са спазени изискванията за

целесъобразност, за формален и логически контрол за свързаност

на всеки един въпрос с темата на изследването, поради тази

причина, може да се заключи, че данните в извадката отговарят

на критерия за достоверност.

Така събраните данни ще бъдат параметризирани в

субективно-създадена скала със стойности от 1 до 4, като 1

съответства на отговор а), 2 съответства на отговорор б),и т.н.

по следния начин:

Числените характеристики на извадката, изчислени за всеки един

въпрос могат да бъдат видяни в следната таблица:

Page 38: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

38

А честотите са представени в следната таблица:

Асиметрията изразява влиянието, което оказват

допълнителни странични фактори върху изследваната съвкупност.

Според Полигона на честотите, асиметрията може да се

определи като лява отрицателна, тъй като лявото рамо е

стръмно, а дясното – полегато и изтеглено:

Коефициент на вариация – представлява разсейването на

признака, изразено в %. Дава възможност за сравнение на вариация

на различни признаци, използва се за оценка на еднородността на

извадката. Тъй като сумарния коефициент на вариация е по-голям

0

50

100

1 2 3 4

Честота

Page 39: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

39

от 30% за всички показатели, следва че извадката е силно

нееднородна по своя характер.

Изводи:

Според резултатите от анкетата, следва да се отбележи,

че 56,67% от анкетираните не живеят в собствени жилища, и

биха използвали методите на жилищния ипотечен кредит, за да си

закупят жилище, а само 16, 67% разполагат със заделени пари за

покупката на дом.

Повече от половината анкетирани са посочили, че биха

желали да използват специално разработен за тях погасителен

план или да имат възможност предсрочно да погасят своя кредит.

Като две трети са посочили, че сумата, която биха изтеглили е в

рамките до 60 000 лева, приблизително толкова са посочили, че

биха желали да живеят в имот от тип къща.

Зад. 6

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача и посочените стъпки:

1. Съставяне на въпросник – Въпросите са свързани пряко с

емпиричните индикатори, които могат да се измерят количествено.

Да се събират на една печатна страница, за да не отнемат време за

попълване на анкетирания повече от 10-15мин.

2. Провеждане на изследването – извадка от 30 анкетирани –

колеги, близки, непознати, за да имате представители на всяка

подгрупа на съвкупността.

3. Обобщаване на резултатите - групиране по видове и

превръщане на информацията в данни за обработка.

4. Провеждане на първична обработка на данните.

5. Формулиране на пъроначални изводи.

Page 40: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

40

II. АНАЛИЗ НА БИЗНЕС ПРОЦЕСИ С ИЗПОЛЗВАНЕ НА

ВГРАДЕНИТЕ ФУНКЦИИ ЗА АНАЛИЗ НА ДАННИ В

EXCEL

1. ИЗВАДКИ. РАЗПРЕДЕЛЕНИЯ. РАБОТА С ПАКЕТА ЗА

СТАТИСТИЧЕСКИ АНАЛИЗ НА ДАННИ В EXCEL

Цел на упражнението

Това упражнение акцентира върху работата с функциите в

пакета за статистически анализ на Excel - Data Analysis. Дадени са

математическите представяния на основните разпределения на

случайни величини.

Очаквани компетентности

Да могат да се инсталират и да се знаят възможностите за

статистически анализ на Excel - Analisis Tool Pak.

Да се познават различните разпределения на случайни величини.

Да могат да работят с генерирани случайни данни .

Да съставят хистограми и полигон на разпределение начестотите и да

ги анализират.

Ключови твърдения

1.Равномерно дискретно разпределение Такова разпределение на случайната величина X, която

може да приема n различни стойности x1, …, xn с вероятности p1, …,

pn, … и pi = 1/n се нарича равномерно дискретно разпределение.

Параметрите на равномерното дискретно разпределение са:

математическо очакване:

n

1i

n

1i

ii xn

1

n

1xEX

дисперсия:

n

1i

2

i

n

1i

n

1i

2

i

22

`i

22 xn

1x

n

1

n

1xXD

2.Биномиално разпределение - Биномиалния закон на

разпределение намира приложение в много практически случаи при

контрола на качеството. Разпределението на случайната величина

X, приемаща стойности k = 0, 1, …, n с вероятности pk, се нарича

Page 41: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

41

биномиално, ако дискретната функция на разпределение на

случайната величина X е бином от вида:

n xпри 1

nx0 при qpk

n

0 xпри 0

pxFxk

knk

xk

k

, като !kn!k

!n

k

n

Вероятността p е параметър на разпределението. Коефициентите

k

nса биномиални коефициенти.

Графичното изобразяване на биномиалното разпределение показва,

че в общия случай то е асиметрично. С увеличаване на n и p → 0.50

(50%) биномиалното разпределение става все по-малко

асиметрично.

математическо очакване: pnqp

k

npn knk

n

k

11

0

1

дисперсия: qpnpppnpkXDn

k

k

12

0

222

3.Разпределение на Поасон - Разпределението на Поасон е

дискретно, с плътност на вероятностите:

0,1,2,k ,e!k

kXPpk

k

и функция на

разпределение:

0 xприe

!k

0 xпри0

kXPxF

xk

kp

xk

и отговаря на условието:

1kXP0k

Коефициентът λ (>0) е параметър на разпределението на Поасон.

математическо очакване: EX

дисперсия: XD22

4.Нормално разпределение - Най-известното и най-често

прилагано в практиката на математическата статистика

Page 42: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

42

разпределение на непрекъсната случайна величина е нормалното

разпределение, известно още и като разпределение на Гаус.

Една непрекъсната случайна величина X, която може да приема

всякакви реални стойности от -∞ до +∞, притежава нормално

разпределение, ако нейната плътност се описва с уравнението:

x- при ,e2

1,;x

2

2

2

x

2където

e = 2.71828…, π = 3.14159…, а μ и σ2 са параметри на

разпределението.

За целта на изследванията, може да се генерират данни с

определен обем. За да се генерират данни според случайно

разпределение се избира: Data/ Data Analysis/Random Number

Generation. В диалоговия прозорец се избира: броя на

променливите(колоните), обема на извадката (редовете), на

distribution се посочва вида на разпределението, а после кое да е

значението и колко да е стандартното отклонение.

За да се изведе хистограма, отново от Data/ Data

Analysis/Histogram, се избира обхвата от всички стойности, избира

се втория обхват от стойности, за който ще се извежда честотата.

Ако резултатитетрябва да се изведат и графично, се поставя отметка

пред chart output.

Аналогично се подхожда и за останалите функции за

статистически анализ.

Задачи

Зад.1 Въведете посочената изходна таблица. Ако ползвате вградения

генератор на случайни числа, стойността е 100, а отклонението е 15:

82 110 106 92 88 92 96 100 96 92 114 94 75 78 125

100 90 98 86 86 86 100 108 102 112 108 94 116 82 92

94 104 92 94 90 114 88 84 85 90 96 92 78 106 120

86 96 98 102 120 92 116 90 108 114 118 94 102 112 112

Зад.2

Page 43: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

43

Представете графично изходната таблица, като стойността Х е

ордината, а съответния номер на изследване е абциса.

Зад.3. Съставете първичната таблица, сортирана в нарастващ ред.

Зад.4.

Изчислете с функциите на excel: Data/data Analysis/Descriptive

Statistics за всеки един от редовете. Направете изводи върху

получените резултати.

Row1

Mean

Standard Error

Median

Mode

Standard Deviation

Sample Variance

Kurtosis

Skewness

Range

Minimum

Maximum

Sum

Count

Зад.5

Съставете таблица на честотите, като интервалите са през 5

единици.

Долна Горна Честота

75 80 3 Countif(...,”<80”)

80 85 7

...

Page 44: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

44

Зад.6 По таблицата на честотите създайте хистограма (в excel:

Data/data Analysis/Histogram), полигон на честотите и кумулативна

диаграма, както е представено на фигурите по-долу.

Хистограма

Полигон на честотите

Кумулативна диаграма

Зад.7

Направете в отделен Sheet зад.1-зад.6 за биноминално

разпределение.

05

1015202530

75 80 85 90 95 100 105 110 115 120 125

%

X

0

5

10

15

20

25

30

75 80 85 90 95 100 105 110 115 120 125

%

X

0

20

40

60

80

100

120

75 80 85 90 95 100 105 110 115 120 125

Cu

mu

lati

ve %

X

Page 45: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

45

Зад.8

Разгледайте представения пример по-долу, който представлява

продължение на студентската разработка от предходното

упражнение.

Според статистическия анализ на дискретните

статистически редове, генериран с инструмента

DescriptiveStatistics на приставката за Анализи на Excel можем да

анализираме следните показатели:

Въпрос 1 2 3 4

Mean 2.433333333 2.233333 3.233333 3.033333333

Standard Error 0.242985896 0.195838 0.183725 0.162476052

Median 3 2.5 4 3

Mode 1 3 4 3

Standard Deviation 1.330888563 1.072648 1.006302 0.889917987

Sample Variance 1.771264368 1.150575 1.012644 0.791954023

Kurtosis -1.851207443 -1.45211 -0.46122 0.816753419

Skewness -0.034758272 0.037786 -0.9404 -1.011632033

Range 3 3 3 3

Minimum 1 1 1 1

Maximum 4 4 4 4

Sum 73 67 97 91

Count 30 30 30 30

Largest(1) 4 4 4 4

Smallest(1) 1 1 1 1

Confidence

Level(95.0%) 0.496961957 0.400534 0.375759 0.332300837

В следващата таблица са представени честотите на

стойностите в определените интервали, а в последствие и

хистограмата:

Page 46: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

46

Променлива X

Долна граница Горна граница Честота

1 2 88

2 3 32

3 4 54

4 5 50

Субективната числена интерпретация на отговорите във

въпросника, които не са подредени в градация, не позволява да се

направят смислени изводи по направената кумулативна диаграма.

Изводи:

Мода (Mode) – средна на гъстотата; представлява онова

значение на изследвания признак в дискретния статистически ред,

което има най-голяма честота. Така например може да се види, че

най-честия отговор на въпроса „Имате ли собствено жилище?“ е

„Да“, едновременно с това нито един от анкетираните не е

посочил, че пространството в жилищетото, което обитава не му

достига. На въпроса „В кой район на Вашето населено място,

бихте желали да живеете?“, пробладаващият отговор e “Във

вилните зони.”, а на въпроса: „По какъв начин бихте закупили

Вашето бъдещо жилище?“ – „Чрез възможностите на жилищния

ипотечен кредит.“, като повечето анкетирали са посочили, че

0.00%

50.00%

100.00%

150.00%

0

20

40

60

80

100

1 2 3 4 More

Frequency

Bin

Histogram

Frequency

Cumulative %

Page 47: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

47

биха избрали погасителен план с възможност за предсрочно

погасяване.

Зад. 9

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача.

Page 48: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

48

2. КОРЕЛАТИВНИ ВРЪЗКИ МЕЖДУ ДАННИТЕ.

КОВАРИАЦИЯ. РЕГРЕСИЯ. ДЕФИНИРАНЕ НА

НЕКОРЕЛАТИВЕН НАБОР ОТ ИНДИКАТОРИ.

Цел на упражнението

Това упражнение акцентира върху работата с функциите в

пакета за статистически анализ на Excel - Data Analysis, свързани с

анализ на връзките между два измерими признака.

Очаквани компетентности

Да се знаят възможностите за статистически анализ на Excel -

Analisis Tool Pak,свързани с корелация и регресионен анализ.

Да се разпознават съществуващи зависимости между изследваните

случайни величини.

Да се правят изводи на база регресионен анализ.

Ключови твърдения

1. Зависимост между Х и У

Kогато на анализ се подлагат едновременно два измерими

признака на обекта, всеки от елементите на извадка с обем n

представлява двойка стойности (x1,y1), (x2,y2), …, (xn,yn),

разглеждани като реализация на двумерен случаен вектор (X,Y).

Най-голям интерес представлява въпросът за съществуването

на зависимост между компонентите X и Y на случайния вектор. За

да се отговори на този въпрос е необходимо да се направи графично

представяне на данните в координатната система на признаците.

Например, обектът се представя с няколко признака, от които

се разглеждат само два признака - X и Y. Поставен е въпросът:

съществува ли зависимост между Х и Y.

На фигурата се вижда, че не съществува ясно изразена

функционална зависимост между двата наблюдавани признака.

Вижда се обаче известна тенденция – на по-малките стойности (xi),

съответстват по-големи стойности (yi). Това навежда на мисълта, че

високото X влияе отрицателно на Y. Изказаното предположение се

проверява чрез следващи математико-статистически операции и

направа на съответните изводи.

Page 49: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

49

2. Корелационна таблица За по-голяма прегледност на данните и за опростяване на

следващите изчисления, когато те се извършват ръчно, се съставя т.

нар. корелационна таблица. Подобно на таблицата на честотите за

един измерим признак и при корелационната таблица трябва да се

намерят интервалите на вариране на двете величини, да се

определят класове и да се определят абсолютните честоти hij на

попадение на измерванията по двойки.

За абсолютните честоти hij могат да бъдат изчислени

съответните относителни честоти hij/n. Абсолютните и относителни

честоти представляват двумерното емпирично разпределение на

случайнята величина (X,Y). Сумите по колони hi. и редове h.i дават

съответно емпиричните маргинални разпределения на X и Y,

които могат да бъдат представени и графично.

Корелационния анализ представлява бивариационно

честотно разпределение. Обикновено с X се означава независимата

променлива (фактора), а с Y - зависимата променлива (резултата).

Най-широко използваният индекс за праволинейна зависимост е

коефициентът на корелация на Пиърсън – единичен, резюмиран

индекс на степента, в която две променливи са линейно свързани

или зависими една от друга. Стандартният символ, с който се

бележи коефициента на корелация е R. Има стойност от (-1) до 1.

Когато R=0, няма линейна връзка между променливите, т.е няма

никаква корелация. Когато R=1 или R=-1, има перфектна линейна

връзка между двете променливи. Това означава, че диаграмата в

тези случаи ще бъде права линия. Знакът пред R показва посоката

0.0

20.0

40.0

60.0

80.0

100.0

120.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

(X)

(Y)

Page 50: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

50

на зависимостта между двете променливи. Когато R е с

положителен знак има права зависимост между двете променливи.

При нарастване на X, нараства и Y. Когато знакът е отрицателен,

има обратна зависимост. С нарастване на X, намалява Y. Този

коефициент на корелация зависи от целта на изследването. Трябва

да се интерпретира съдържателно. Корелационната скала е

ординална, а не интервална. Има две скали относно тълкуването на

коефициента:

0 < R < 0,3 – слаба корелация

0,3 < R < 0,5 – умерена корелация

0,5 < R < 0,7 – значителна корелация

0,7 < R < 0,9 – висока корелация

0,9 < R < 1,0 - много висока корелация

Другата скала е:

0 - 0,2 – слаба корелация

0,2 – 0,4 – умерена корелация

0,4 – 0,6 – значителна корелация 0,6 – 0,8 – висока корелация

0,8 – 1,0 - много висока корелация

3. Числови статистически характеристики на двумерна

случайна величина

За характеризиране на двумерното емпирично

разпределение, от изходните данни се изчисляват оценките на

средно аритметичните x и y , а също така и на емпиричните

дисперсии 2xs и 2

ys , като се използват известните формули.

n

1i

2i

2x

n

1i

i xxs ,xx ,

n

1i

2i

2y

n

1i

i yys ,yy

Горните четири параметъра характеризират емпиричните

маргинални разпределения, но интерес преди всичко представлява

степента на зависимост между двата измерими признака.

Информация за тази зависимост се получава от оценките за

емпиричната ковариация и емпиричната корелация на двете

случайни величини X и Y, изчислявани съответно по формулите:

Page 51: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

51

n

1i

iixy yyxx1n

1R

yx

xyxy

ss

Rr

Задачи

Зад.1

Изследвани са 3 индикатора, като е направена извадка от 60

анкетирани. Резултатите от анкетата са представени в таблица.За

целта на упражнението се работи с генерирани данни, като в

първата колона данните са получени с нормално разпределение -

стойността е 95, а отклонението е 15, За втората колона- стойността

е 115, а отклонението- 22, а за третата колона – стойността е 50,

отклонението е 5. Всяка от генерациите се получава в отделен sheet,

след което ги събирате в една таблица.( Това се прави от Data/ Data

Analysis/Random Number Generation. В диалоговия прозорец се

избира: броя на променливите(колоните), обема на извадката

(редовете), на distribution се посочва вида на разпределението,а

после кое да е значението и колко да е стандартното отклонение)

А В С

154 178 59

133 164 63

...... .... ....

Зад.2 За всеки от индикаторите е направен статистически анализ

както е показано по-долу. (Това се прави от Data/ Data

Analysis/Descriptive statistics. В диалоговия прозорец се избира за

кои колони да се направи извеждането, посочва се, че е по колони,

посочва се, че ще бъде в нов sheet, чеква се пред summary statistics и

confident level)

Column1 Column2 Column3

Mean 96.03333333 115.1666667 50.36666667

Standard Error 4.264487879 4.444648065 1.444053982

Median 97.5 112 49.5

Page 52: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

52

Mode 85 85 55

Standard Deviation 33.03258107 34.42809587 11.18559404

Sample Variance 1091.151412 1185.293785 125.1175141

Kurtosis -0.518841481 -0.057389841 -0.61440371

Skewness 0.002414868 0.515695874 -0.141333442

Range 136 157 48

Minimum 33 52 25

Maximum 169 209 73

Sum 5762 6910 3022

Count 60 60 60

Confidence Level(95.0%) 8.533220465 8.89372016 2.889545319

Зад.3. Получена е корелацията между тях, както е показано по-долу.

(За да се изведе корелацията между няколко величини, отново от

Data/ Data Analysis/Correlation и се посочва обхвата от стойности.)

Column 1 Column 2 Column 3

Column 1 1

Column 2 0.935318 1

Column 3 0.813229 0.814334 1

Зад.4.

Направена е хистограмата за 3-те колони, както е показано по-

долу: (Data/ Data Analysis/Histogram, маркират се данните от 3-те

колони, поставят се чекчета пред всички предложени, избира се в

нов sheet)

Bin

Fre

quency

Cumu

lative % Bin

Fre

quency

Cumu

lative %

25 1 0.56% 77.57142857 42 23.33%

51.28571 41 23.33% 51.28571429 41 46.11%

77.57143 42 46.67% 103.8571429 37 66.67%

103.8571 37 67.22% 130.1428571 30 83.33%

130.1429 30 83.89% 156.4285714 20 94.44%

156.4286 20 95.00% 182.7142857 7 98.33%

182.7143 7 98.89% More 2 99.44%

More 2 100.00% 25 1 100.00%

Page 53: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

53

Зад.5

Изчислена е регресията за 3-те колони, както е показано по-

долу: (Data/ Data Analysis/regresion, маркират се данните от 1-

тa колонa за Х, а 2-та – за У, поставят се отметки пред всички

предложени, избира се в нов sheet)

0.00%50.00%100.00%150.00%

0204060

77

.57

14…

51

.28

57…

10

3.8

57…

13

0.1

42…

15

6.4

28…

18

2.7

14…

Mo

re 25Fr

equency

Bin

Histogram

Frequency

Cumulative %

Page 54: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

54

Зад.6

Разгледайте представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение.

Корелативните връзки на данните са представени в

следващата таблица:

Според тях може да се отсъди, че съществува умерена

положителна корелация между:

Въпрос 2 („В кой район на Вашето населено място, бихте

желали да живеете?“) и Въпрос 3 („Какъв тип жилище бихте

предпочели да притежавате?“). Анкетираните отговорили, че

желаят да живеят във вилните зони, са посочили също така, че

биха искали да живеят в имот от тип „къща“. Тъй като

Page 55: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

55

съществуват още три възможните отговора за тези, които не

желаят да живеят във вилните зони, може да се твърди, че

коефициента на корелация е логичен.

Въпрос 3 („Какъв тип жилище бихте предпочели да

притежавате?“) и Въпрос 4 (От каква жилищна площ се

нуждаете?). Открива се следната зависимост - тези които биха

желали да живеят в къща, са посочвали, че се нуждаят от

жилищна площ между 80 и 100 кв.м. Аналогично, може да се

твърди, че при наличието на други възможни отговори във въпрос

4 , коефициента на корелация е следствен.

Много ниската идеална корелация (0.00 до 0.30;-0.30 до 0.00)

на въпросите 1, 5 и 7 ги определя като некорелативен набор от

индикатори. Това означава, че тези индикатори не са зависещи или

определящи относно останалите въпроси в анкетното запитване.

Зависимостите между две случайни величини се изследват

посредством два инструмента – корелация и регресия.

Регресионния анализ на всички въпроси, изведен с помощта на

метода Regression на Data Analysis оценява стойността на една

променлива за определен елемент според данните за стойността

на втора променлива за същия. С помощта на този метод, ще бъде

определен характера и формата на връзките между случайните

величини.

След като оценихме, че между въпроси 2 и 3 и въпроси 3 и 4

съществува умерена положителна корелация, следва да разгледаме

зависимостта с помощта на регресионния анализ. На следващата

таблица са представени коефициентите на въпросите с номера 2

и3: Coefficients

Intercept 0.211123723

Въп. 3 0.625425653

Според въведената по-рано в анализа скала за

параметризиране на отговорите, където на отговор а)

съответства 1, на отговор б) – 2 и т.н., нека изчислим значението

на коефициентите, където

Y= параметризиран отговор на Въпрос 3 ,

За отговор на въпрос 2 нека вземем б) = 2, следва:

Y= 0,625425653*2+0,211123723

Page 56: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

56

От тук може да се разсъждава, че хората отговорили, че

биха желали да живеят в крайните жилищни квартали, ще

посочат, че предпочитат или гарсониери или тристайни

апартаменти.

Останалите резултати от регресионния анализ на въпрос 2 и

въпрос 3 са представени по-долу.

Аналогично може да се разсъждава за връзката между

въпрос 3 и въпрос 4, според тази таблица: Coefficients

Intercept 1.283019

Въп. 4 0.642961

Където, ако положим отговор а)=1 на Въпрос 3, следва че

за Въпрос 4:

Y=0,642961*1+1,283019 ,

т.е. тези анкетирани, предпочели гарсониери, - се нуждаят от

площ между 60 и 80 кв. м.

Резултатите от регресионния анализ на Въпрос 3 и Въпрос

4, са представени по-долу.

Page 57: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

57

Зад. 7

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача.

Page 58: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

58

3. СТАТИСТИЧЕСКА ПРОВЕРКА НА ХИПОТЕЗИТЕ.

Цел на упражнението

Това упражнение акцентира върху работата с функциите в

пакета за статистически анализ на Excel - Data Analysis, свързани с

проверка на хипотезата за средната стойност μ на нормално

разпределена генерална съвкупност с известна дисперсия σ2.

Очаквани компетентности

Да се знаят възможностите за статистически анализ на Excel -

Analisis Tool Pak,свързани с хипотези.

Да се проверяват хипотези при един измерим признак.

Ключови твърдения

1. Статистическа проверка на хипотеза

Статистическата проверка на хипотезите се прилага с цел

използване получената от дадена извадка информация за

утвърждаване на извод относно разпределението на генералната

съвкупност. Това се основава на предварителна представа за

неизвестния вероятостен закон F(x) и неговите параметри,

формулирана във вид на статистическа хипотеза, означавана с H

или Ho – нулева или основна хипотеза.

Възприет е следният кратък запис Ho: F(x) = Fo(x), който се

чете така: допуска се, че Fo(x) е функцията на разпределение на

генералната съвкупност .

С помощта на статистически методи или критерии за

проверка на хипотезите се установява дали получените от извадката

данни съответстват на издигнатата хипотеза или не, т.е. приемане

или отхвърляне на хипотезата.

2.Видове хипотези според параметрите

Ако видът на разпределението F(x) е зададен с отделни

параметри и хипотезта се строи по такива неизвестни параметри,

говорим за параметрична хипотеза. Например, допускането за

неизвестното средно аритметично μ на едно нормално

разпределение е параметрична хипотеза. Тя се записва символично

като Ho: μ = μo, където μo е приетата стойност.

Page 59: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

59

Обратно, хипотезата от общ вид Ho: F(x) = Fo(x) е

непараметрична хипотеза, а методите за нейната проверка се

наричат непараметрични тестове. Те се явяват по-общи от

парамеричните, тъй като не се изисква допълнително

предположение за вида на функцията F(x). Същевременно

непараметричните хипотези и тестове са по-неефективни от тези на

параметричните хипотези.

3.Проверка по Пирсън (хи-вадрат) на хипотезата за

нормално разпределение

Числен метод за проверка на хипотезата за принадлежност

на дадена извадка към генерална съвкупност с нормално

разпределение е разработен от К. Пирсън. Методът е известен в

литературата като проверка по критерия хи-квадрат. Същността на

този метод се заключава в сравняване на емпиричното

разпределение на извадката, изразено чрез абсолютни, относителни

или натрупани честоти, с хипотетично теоретично нормално

разпределение на съответната генерална съвокупност. За целта се

издига хипотеза за неизвестна функция на разпределението F(x) на

генералната съвокупност, която се съпоставя с подходяща

извадкова функция. В зависимост от големината на отклоненията на

емпиричното разпределение от теоретично издигнатата хипотеза се

приема или отхвърля.

Статистическата хипотеза се формулира по следния начин –

Ho:F(x)=Φo(x,μо,σ2), където Φo е функция на разпределение по

нормален закон с параметри μо и σ2. В този случай хипотезата Ho не

дава числена информация нито за средно аритметичното μо, нито за

дисперсията σ2 на нормалното разпределение. Хипотезата Ho дава

възможност единствено да се провери дали случайната величина x е

разпределена нормално в генералната съвкупност. Съответните

параметри μо и σ2 се оценяват по извадковите стойности.

За да се построи извадковата функция за провека на

хипотезата Ho се използва таблицата на честотите. Мярката за

несъответствие между емпиричното извадково разпределение и

приетото според хипотезата теоретично разпределение Φo е

разликата между емпиричните честоти hm, m=1, 2, …, k и

съответните теоретични честоти npm, отнасящи се до един и същи

интервал.

Page 60: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

60

За да се пристъпи към изчисление на теоретичните честоти

npm, предварително е необходимо да се определят оценките на

параметрите μо и σ2 на нормалното рзпределение. До таблицата на

честотите се добавят колони за теоретичното разпределение и за

критерия хи-квадрат.

В таблицата по-горе om е горната граница на m интервал.

Теоретичната вероятност pm изразява вероятността случайната

величина X да попадне в m интервал. Тя се определя с онази част от

площта под гаусовата крива на разпределение, която е разположена

между границите на m интервал. Стойносттa Φ(am) се изчислява с

помощта на функциите на Excel NORMINV.

За проверка на хипотезата Hо се изчислява критерия хи-

квадрат, както е показано под черта в (8) колона на табличната

форма по-горе. Съответстващата на дадената реализация случайна

величина има приблизително хи-квадрат разпределение с k-1

степени на свобода. Това е в сила при npm>5. Интервалите, в които

това условие не е изпълнено се групират със съседните. Същото се

отнася и за съответните абсолютни честоти hm.

Накрая се прави избор на нивото на значимост α и се

изчислява границата на критичната област на разпределението хи-

квадрат 21k,

. Хипотезата Ho се отхвърля, ако 21k,

2

. В

противен случай хипотезата Ho се приема, тъй като при 21k,

2

се приема, че разликите между емпиричните честоти hm и

теоретичнните честоти npm са незначими и извадката принадлежи

на генерална съвокупност с нормално разпределение.

Може да се постигне същия резултат, ако се следват и

следните стъпки:

Page 61: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

61

1. За проверка на хипотезата за средната стойност на нормално

разпределената генерална съвкупност се издига работната хипотеза

Ho: μ = μo, където μo обикновено представлява номиналната

стойност на разглеждания параметър.

2. За проверка на работната хипотеза Ho от генералната

съвкупност се взема извадка с обем n и се изчисляват оценките x и

s2.

3. Изчислява се критерият nx

z

, където σ е известно

предварително.

4. Задава се ниво на значимост α и по него, чрез 1z ,

се определя квантилът zα, представляващ критична стойност на

критерия z.

5. Критерият за проверка се формулира както следва: при

zz (двустранно ограничение) хипотезата Ho се отхвърля и

обратно, при zz хипотезата се приема тъй като извадковото

средно не противоречи на работната хипотеза.

Задачи

Зад.1

Попълнете първа колона на дадената по-долу таблица със

следните данни и изчислете:

48 25 43 38 30 37 43 37 43 40 44 32 40 44 44 39 31 40 40 43 42

30 30 45 53 52 42 48 50 50 43 34 34 46 41 38 44 50 44 45 40 45 32 46

47 44 49 35 47 40 36 36 48 34 39 39 35 43 39 37 34 39 42 34 40 44 42

44 33 35 34 37 36 41 33 34 37 32 42 35 39 34 35 39 45 44 43 39 48 34

32 45 41 38 35 32 49 45 41 33 40 48 42 44 42 43 48 34 40 41 48 49 34

39 42 37 48 40 42 43 40 41 42 38 38 43 49 33 46 42 43 50 37 35 43 46

49 42 36 45 39 51 41 31 36 32 32 30 51 47

Изходни данни

Теоретично

разпределение Хи-квадрат

Номер

Абс.

чест.

Отн.

чест.

Натр.

чест. Средно.

Т.

отн.ч

Т.

абс.ч.

hm pm npm

0 41 20.5

mm hp

m

2mm

np

hp

Page 62: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

62

1 62 31.0

2 45 22.5

Сума:

Средно:

Работна хипотеза:

Брой интервали k=count(….,…)

Ниво на значимост a = 0.05

Редуц.бр.интер. k*= 6

Доп.бр.степ.своб. r= 1

Крит. граница(=CHIINV(бр.интервали,степ на свобода))

Степени на своб. m=к*-r-1 4

Зад. 2

Да се направи статистически анализ както следва: (Това се

прави от Data/ Data Analysis/Descriptive statistics. В диалоговия

прозорец се избира за коя колона да се направи извеждането,

посочва се, че е по колони, посочва се, че ще бъде в същия sheet,

чеква се пред summary statistics и confident level)

Column1

Mean 40.42667

Standard Error 0.463847

Median 41

Mode 43

Standard Deviation 5.680943

Sample Variance 32.27311

Kurtosis -0.6147

Skewness -0.05946

Range 28

Minimum 25

Maximum 53

Sum 6064

Count 150

m m

mm

np

hp2

22

m,

xm

m

em

xFHo 0

!: 0

Page 63: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

63

Зад. 3

Изчисляват се интервалите (=ROUND(5*LOG10(клетката с

броя),0)) , получава се ширината на интервала (=ROUND(клетката с

range/клетката с интервалите,0))

Интервали (бинове) - к = 11

Ширина на интервал d = 3

Зад. 4

Разгледайте представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение.

В направеното изследване количествени показатели има по

Въпрос 4, Въпрос 6 и Въпрос 7. За целите на нашето изследване, ще

проверяваме непараметрични хипотези за вида на разпределението

чрез Хи-квадрат (критерий на Пирсън). Използвани са данните от

количествения критерий по 6-ти въпрос:

Направени са n = 30 наблюдения на 1 количествен критерий на

непрекъснатата случайна величина X.

Имаме следните интервали: к= 4-1 = 3

Нека проверяваме следните хипотези:

H0= „X е разпределена по закона на Поасон“

с алтернативна хипотеза:

H1= „X не е разпределена по закона на Поасон“

Нека приемем ниво на значимост α =0,05, т.е. квантилът е

определен по следния начин:

Page 64: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

64

)(12 f , където f= m-r-1 и е степента на свобода на

разпределението, m е окончателен брой на честотите, в нашия

случаи – 4;r - е броят на параметрите на теоретичното

разпределение, които са определени с помощта на извадката, в

нашия случаи сме изследвали един параметър, т.е. f = 4-1-1 = 2

Според нивото на значимост α = 0,05 и степените на

свобода f = 2, от таблица за „Горни процентни точки на на Хи-

квадрат разпределението“, следва:

)(95.02 f = 5.9915

2 = 61.23528354 >= 5.9915 => Хипотезата се отхвърля.

Аналогични резултати се наблюдават и при другите

количествени показатели – тези от въпрос 4 и въпрос 7.

От тук следва да потвърдим с вероятност p = 95% , че

наблюдаваната непрекъсната случайна величина X не принадлежи

на Поасоновото разпределение.

Зад. 5

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача.

Page 65: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

65

III. СЪЗДАВАНЕ НА МОДЕЛИ НА БИЗНЕС ПРОЦЕСИ,

АНАЛИЗ И ПРОГНОЗИРАНЕ С RAPID MINER 6.0

1. ИНСТАЛИРАНЕ И РАБОТА С RAPID MINER 6.0

Цел на упражнението

Това упражнение запознава студентите с процеса на

инсталация на Rapid Miner 6.0. На база на вградените примери в

продукта студентите се запознават с основните изгледи и

възможности на продукта.

Очаквани компетентности

Да могат да инсталират Rapid Miner 6.0.

Да се познава йерархията на операторите.

Да могат да настройват параметри на операторите.

Да се преминава свободно между различните изгледи на данните.

Да могат да стартират анализ на процес, като импортват данни от

файл, създаден с Excel.

Да се настройват параметрите за визуализация на резултати.

Ключови твърдения

1. Същност на RapidMiner

RapidMiner е софтуерна платформа, разработена от немска

компания със същото име, която предоставя интегрирана среда за

машинно обучение, извличане на данни и текст, прогнозни и бизнес

анализи. Той се използва за бизнес и индустриални приложения, за

научни изследвания, образование, обучение, бързо създаване на

прототипи и разработка на приложения. Поддържа всички стъпки

на процеса на извличане на данни, визуализация на резултати,

валидиране и оптимизация. Ядрото и по-ранни версии на софтуера

RapidMiner са с отворен код на OSI-сертифицирани. Edition Starter е

достъпна за свободно изтегляне, а Personal Edition се предлага

срещу заплащане.

RapidMiner предлага анализ на процеси въз основа на

статистически данни, гъвкавост, отлична функционалност,

възможност за разширения. Използва данни от Oracle, IBMDB2, MS

SQL Server, My SQL, Excel, Access, SPSS.

Page 66: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

66

Чрез моделиране на процеси в продукта могат да се измерват

карактеристики на събитието на база на данни за по-ранни събития,

да се намери подобност между текущи данни и минали събития, да

се направят приближения и прогнози на база на търсене на и

събития с най-голяма подобност или да се направи оптимизация за

максимизиране на подобността. Моделиране на актуални процеси

може да се направи с класификационни методи, регресионни

методи, клъстеринг, задаване на тегла, асоциативни правила,

корелации и подобие.

Анализ на данните може да се направи по представителна

извадка за събитията или по зададени условия и даннови резултати

за тях. Например, при хвърляне на монета не е възможно на първата

стъпка да се предвиди влияние на фактори като материал, от който

е направена монетата, земно притегляне, височина, от която се

хвърля монетата, наличие на вятър и други и каква корелация има

между тях.

2.Основни термини, използвани при моделиране и анализ

За да могат да бъдат обработени данните, създадени от друго

приложение, те трябва да отговарят на изискванията към вида и

типа на данните, поставени от Rapid Miner. Повечето методи

очакват данните да са в таблици.

2.1.Attributes/ Target Attributes

Атрибутите описват факторите в сценария. Това са

характеристики, черти, фактори, индикатори, променливи, сигнали,

които описват процеси и ситуации. Създаването на прототип по

първоначално избрани атрибути може да бъде одобрено от

потребителя или да бъде отхвърлено. Ако се отхвърли, трябва да се

потърсят допълнителни атрибути, които да се включат в сценария

за да се постигне пълнота и точност на модела. Атрибутите имат

различни роли – едни от тях описват примерите, други описват

разликите между примерите (label ), трети нямат никаква специална

роля (regular attributes).

2.2.Атрибутът Label

Page 67: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

67

Label специален атрибут, който идентифицира всеки от

обектите във връзката. Той е един от Target Attributes. С него може

да се предсказват нови примери, които още на са характеризирани с

някаква конкретна стойност.

2.3.Concepts and examples

Когато всеки от обектите се представя в системата по един и

същ начин, трябва да се дефинират тип (type) и концепция (concept

“name”). Те трябва да бъдат с различни имена. Когато се задават

конкретни стойности за тази концепция, това е набор, екземпляр,

пример (example). Примерите могат да са положителни – ако target

attribute е от тип yes/no и в примера стойността е „yes”. В противен

случай са негативни.

2.4.Data( Example Set , Data Set)

Tова е набор от обектите на концепцията. Това са всички

примери с конкретни стойности.

2.5.Meta Data

Tова са характеристиките на концепцията. Това не са

екземпляри с конкретни стойности.

3.Типовете променливи, с които работи Rapid Miner

3.1. Text – за текстови данни.

3.2.Number – за цифрови стойности. Биват няколко

подразновидности:

o Nominal – ограничен брой стойности

o Numeric – числа

o Integer – цели числа

o Real – реални числа

3.3.Binominal – позволява само две стойности

3.4.Polinominal- позволява няколко стойности, повече от две

3.5.Data – за данни от тип „Дата”

o Data_time – зададена е дата и час

o Data – зададена е само дата

Page 68: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

68

o Time – зададен е само час

4.Създаване на модел

Първата стъпка при създаване на модел е дефиниране на

концепция с атрибути.

Втората стъпка е определяна на характеристиките на

концепцията и типовете променливи, подходящи за тях.

Третата стъпка е получаване на самите екземпляри на

концепцията, които ще бъдат обработвани. Тези данни могат да се

въведат от Oracle, IBMDB2, MS SQL Server, My SQL, Excel, Access,

SPSS, но в ръководството са разгледани примери единствено на

база Excel.

5.Инсталиране на Rapid Miner 6.0

Сайтът на компанията е: http://rapidminer.com/, от където

може да се изтегли актуална версия на продукта. Достъпни версии

на продукта има за Windows, Linux и Macintosh. За да бъде

възможно изтегляне на някоя от версиите, се прави регистрация с

валиден e-mail адрес, имена, организация и т.н. На посочения адрес

се получава линк за изтегляне на продукта. Предварително трябва

да се проверят системните изисквания на Rapid Miner и наличие на

java7 на съответната машина.

6.Стартиране на Rapid Miner 6.0

При стартиране на продукта се появява прозорец, представен

на фиг.III.1.1.

фиг.III.1.1. Начален екран на Rapid Miner 6.0

Page 69: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

69

Първата стъпка от работата с продукта е избор на работна

област (Repository), която може да бъде нова (New), да се работи

във вече създадена преди това (Open Recent , Open) или съгласно

изследването, което се прави, да се избере шаблон от предложден

списък (Open Template).

Изгледът на продукта при създаване на модел е представен

на фиг.III.1.2. Управлението е осъществено от следните

компоненти:

1. Падащи менюта, от които се настройва как да изглежда

интерфейса за потребителя, къде да се запишат

резултатите,управление на процесите, избор на

статистически средства и т.н.

2. Част с бутони за бърз избор на справки и настройки, от

които най-важни са за започване на нов модел на процес,

за отваряне на съществуващ, за съхраняване на модела, за

стартиране/спиране на изпълнение на модела, за

преминаване между изглед за моделиране и изглед за

визуализация на резултати.

3. Работни области.

4. Оператори, обединени според предназначението си в

йерархична структура, от която чрез изтегляне в

работното поле 5 се избират някои от тях.

5. Работно поле, където се визуализират блоковете на

операторите за основния процес (или конкретен

подпроцес) и връзките между тях. При избор на XML се

визуализира макрокода за моделирания процес.

6. Поле, в което се конфигурират параметрите за настройка

на конкретен оператор. Полетата с параметри са различни

в зависимост от оператора.

7. Поле за коментари.

8. Поле за контексна помощ.

9. Поле за визуализация на проблеми, възникнали при

изпълнение на симулацията на процеса.

10. Поле, съдържащо log файла с последователността от

действия, извършени с продукта.

Page 70: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

70

11. Входни данни за стартовия оператор на процеса. Не е

задължително да има връзка с тях, т.к. има оператори,

които позволяват въвеждане на данни от Excel, MS

Accesss и т.н.

12. Резултати, получени при изпълнение на процеса, които ще

бъдат визуализирани и анализирани.

фиг.III.1.2. Детайлен изглед в процес на работа

Изгледът на продукта при визуализация на резултати от

създадения модел е представен на фиг. III.1.3. Преминаването

между изглед с резултати и изглед на модела се осъществява от

бутоните за бърз избор, намиращи се вдясно в лентата с бутони.

При няколко изпълнения на процеса се получават отделни

резултати, като за всеки от тях се записва датата и часа на

изпълнението. Могат да бъдат изтрити от знака Х. При посочване

на конкретен резултат се визуализира за него Example Set - брой на

анализираните екземпляри, брой на атрибутите, имена и тип на

атрибутите, обхват, липсващи стойности и коментар за всеки от тях.

Избира се конкретен резултат и се преминава към Example Set,

за да се настроят параметрите за визуализация на резултатите. Мета

данните може да се проверят от Meta data view, както е показано на

Page 71: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

71

фиг.III.1.4. Конкретните екземпляри може да се проверят от Data

view, както е показано на фиг.III.1.5, а на фиг. III.1.6. са

представени графично резултатите от модела, чиито метаданни и

екземпляри са представени на предните две фигури.

Визуализацията може да бъде настройвана като се избере вида на

изображението от падащото меню на Plotter. Не всички

визуализации са подходящи за изследвания процес.

фиг.III.1.3. Екран със списък с резултати

фиг.III.1.4. Пример за визуализация на Мета данни

Page 72: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

72

Продуктът позволява няколко визуализации - за разсейване

(Scatter), стандартно отклонение( Deviation), трендове (Series), част

от цяло (Pie), сравнения (Bar), диаграма на Парето (Paretto),

плътност (Density), хистограми (Histogram), квартили (Quartile) и

т.н. Съгласно избраното графично представяне се дава възможност

да се избере кой атрибут да се визуализира и да се настроят

допълнителни параметри, необходими за точността на

визуализацията. Продуктът позволява полученото изображение да

се експортира (Export Image) в няколко формата - .swf, .pdf, .ps, .svg,

.emf, .gif, .raw, .ppm, .bmp, .jpg, .png и др.

фиг.III.1.5. Пример за визуализация на екземплярите

фиг.III.1.6. Пример за визуализация на Мета данни

Page 73: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

73

За процеси, за които стандартно заложените в продукта

визуализации не са подходящи, се предлага възможност за

създаване на собствено графично представяне на резултатите чрез

Advanced Charts. Настройките са показани на фиг.III.1.7.

фиг.III.1.7. Параметри за настройка на персонално графично

представяне на данните

Задачи

Зад. 1

Да се инсталира Rapid Miner. Да се добави приставка за

изследване на серии времеви редове. Това се прави от Help/

Update Rapid Miner и от предоставения списък с приставки се

избира Series Extension. Ако добавянето е преминало успешно,

от Help/About Installed Extentions може да се види тази

приставка. Премахването на ненужни приставки може да се

направи от Help/Menage Extensions, като след името на

приставката се посочи знака Х.

Page 74: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

74

Зад. 2

Да се стартира Rapid Miner. Да се създаде нова работна

област, наречена Lab1. От работните области да се избере

Samples/data/golf. Да се разгледат данните и метаданните в

примера. Да се визуализират. Да се проследи влиянието на

jitter върху процеса. Да се избере

Samples/processes/01_Learner/ Decision Tree. Да се изпълни

процеса. Да се разгледа графичното представяне на дървото

на решенията. Какви изводи могат да се направят?

Разгледайте и други примери.

Зад. 3

Разгледайте представения пример по-долу, който представлява

продължение на студентската разработка от предходното

упражнение.

Според резултатите от направената анкетата, следва да се

отбележи, че 56,67% от анкетираните не живеят в собствени

жилища и биха използвали методите на жилищния ипотечен

кредит, за да си закупят жилище, а само 16, 67% разполагат със

заделени пари за покупката на дом.

Повече от половината анкетирани са посочили, че биха

желали да използват специално разработен за тях погасителен

план или да имат възможност предсрочно да погасят своя кредит.

Като две трети са посочили, че сумата, която биха изтеглили е в

рамките до 60 000 лева, приблизително толкова са посочили, че

биха желали да живеят в имот от тип къща.

За да се изследва възможността за отпускане на подобен

ипотечен кредит, трябва да се вземат предвид някои фактори

като: минимална работна заплата, инфлационен процент за

страната, лихвен процент на погасяване на кредита, брутна

работна заплата на кредитополучателя. За получаване на тези

стойности за периода от 2000г. До 2014г. се използват данни,

побликувани на сайта на Националния статистически институт

(http://www.nsi.bg/), като т.к. там са дадени по месеци и по

постановления на Министерски съвет, са обработени, като са

Page 75: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

75

взети абсолютните стойности само към 31.12. за съответната

година, а не усреднени стойности. Данни за брутните заплати на

потенциалния кредитополучател са взети от фишове за работна

заплата на работещ в сферата на образованието, т.к. това са

държавни служители, за чиито заплати се счита, че са със

заплата, близка до средната за страната. Резултатите от

направеното проучване са представени със следната таблица:

Година МРЗ Инфлационен % Кредитен % Брутна заплата

12/31/2000 79 10.3 9.77 170

12/31/2001 100 7.4 13.53 198

12/31/2002 100 7.4 8.50 210

12/31/2003 110 5 10.19 210

12/31/2004 120 7.3 8.67 240

12/31/2005 150 8.4 5.94 240

12/31/2006 160 12.3 6.65 320

12/31/2007 180 2.8 9.24 350

12/31/2008 220 2.4 10.36 430

12/31/2009 240 4.2 9.31 615

12/31/2010 240 3 8.79 675

12/31/2011 260 2.4 8.08 675

12/31/2012 260 1.8 7.89 583

12/31/2013 310 0.9 6.58 903

12/31/2014 340 0.5 7.16 903

Съгласно представените данни ще бъде направен анализ на

условията, при които ще бъде отпуснат жилищен кредит (размер

на кредита, срок на погасяване, възможност и условия за

преференциални застраховки здраве и живот, възможност и

условия за предварително погасяване)с цел да се минимизира риска

от неизплащане на полуения кредит.

Зад. 4

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача и подготвите данни за последваща обработка и анализ.

Page 76: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

76

2. ГЕНЕРИРАНЕ НА ДАННИ ЗА ОБРАБОТКА В RAPID

MINER 6.0. КОРЕЛАЦИОННИ ЗАВИСИМОСТИ.

Цел на упражнението

Това упражнение акцентира върху ….

Очаквани компетентности

Да могат да инсталират Rapid Miner 6.0.

Да се познават …

Да могат……..

Ключови твърдения

….............

Задачи

Зад. 1

Да се стартира продукта, като се създаде нова работна

област с име lab2. Влиза се от Repository в нея. Избира се

ImportExcel Sheet и от браузера се селектира таблицата, в

която са данните *.xls и се избира Next. След визуализация на

съдържанието на таблицата се избира точния й sheet и се

посочва Next. Всеки ред трябва да се определи, т.е на 1-ия ред

се избира от падащия списък „Name”, след което отново се

избира Next. За всеки атрибут (колона) се определя – кой е

label, кой е ID, кои остават regular, след което с чекче пред

Ignore errors се избира Next. Специфицира се Repository и в

Name се задава име, след което се избира Finish. Изтеглят се

така получените данни в полето за процес. От операторите се

избира Modeling/Classification and Regression/Neural Net

Training/NeuralNet и се изтегля в полето за процеси. Свързва

се изхода на данните към входа на оператора, така, че да

изчезне знака „!”, след което се свързва изхода на оператора

към резултат и се избира RUN (►)и се потвърждава за

съхраняване и за резултатите. Излиза прозорец с резултати и в

„Improved Neural Net” се получава дърво на връзките -

Page 77: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

77

визуално, а ако радиобутона е на „TextView” сe наблюдава

описание с думи.

Зад. 2

Избира се от Data Generation/ Generate Sales Data.

Избира се от Modeling/correlation Matrix. Свързват се

операторите и се свързват да се извеждат и 3-те изхода.

Стартира се процеса. Анализира се получената корелационна

матрица.

Зад. 3

В Excel се създава модел с 4-5 атрибута, чиито

стойности са числа( около 15 реда). Задават им се стойности с

функцията NORMINV(RAND(),128,0.5), където 128 е центъра

на нормалното разпределение, σ=0.5 е разсейването около

центъра. Създава се модел с тези данни за входни по подобие

на зад.2. Извежда се корелационната матрица. Анализира се

дали има и кои са атрибутите, които могат да не бъдат

включени в модела. Да се направи изследване при по-голяма

σ ( т.е. класовете са по-трудно различими) и да се намери коя е

граничната й стойност, до която работи коректно модела.

Зад. 4

От Excel-ската таблица в зад.3 да се направи модел, но само

с: 3 записа/5 записа/10записа. Да се анализира броя на грешките при

различен брой записи. Какъв е оптималния брой записи за този

модел?

Зад. 5

Разгледайте представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение.

Page 78: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

78

В Rapid Miner се въвеждат данните от анкетата

вExcel. Избира се Modeling/correlation Matrix. Свързват се

операторите и се свързват да се извеждат и 3-те изхода,

както е показано по-долу:

Изпълнява се процесът и получените резултати за

корелационната матрица са следните:

Корелативните връзки на данните, получени с обработката

с Excel са представени в следващата таблица:

Ясно се забелязва, че използвайки различни средства за

анализ, се достига до еднакъв резултат (разликата в

стойностите се дължи на точността на закръгляне, с която

работят двата продукта).

Page 79: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

79

Според тях може да се отсъди, че съществува умерена

положителна корелация между:

Въпрос 2 („В кой район на Вашето населено място, бихте

желали да живеете?“) и Въпрос 3 („Какъв тип жилище бихте

предпочели да притежавате?“). Анкетираните отговорили, че

желаят да живеят във вилните зони, са посочили също така, че

биха искали да живеят в имот от тип „къща“. Тъй като

съществуват още три възможните отговора за тези, които не

желаят да живеят във вилните зони, може да се твърди, че

коефициента на корелация е логичен.

Въпрос 3 („Какъв тип жилище бихте предпочели да

притежавате?“) и Въпрос 4 (От каква жилищна площ се

нуждаете?). Открива се следната зависимост - тези които биха

желали да живеят в къща, са посочвали, че се нуждаят от

жилищна площ между 80 и 100 кв.м. Аналогично, може да се

твърди, че при наличието на други възможни отговори във въпрос

4 , коефициента на корелация е следствен.

Много ниската идеална корелация (0.00 до 0.30;-0.30 до 0.00)

на въпросите 1, 5 и 7 ги определя като некорелативен набор от

индикатори. Това означава, че тези индикатори не са зависещи или

определящи относно останалите въпроси в анкетното запитване.

Зад. 6

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача.

Page 80: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

80

3. СЪЗДАВАНЕ НА МОДЕЛ С ОБУЧАВАЩИ ДАННИ В

RAPID MINER 6.0 . ОЦЕНКА НА ТОЧНОСТТА НА

МОДЕЛА

Цел на упражнението

Това упражнение акцентира върху ….

Очаквани компетентности

Да могат да инсталират Rapid Miner 6.0.

Да се познават …

Да могат……..

Ключови твърдения

….............

Задачи

Зад.1

Целта е да се създаде модел въз основа на “обучаващи” данни.

Да се създаде в Excel таблица с 3 sheets, всеки от които е с 5

параметъра с имена p1, p2, p3, p4, p5. Полето „class” ще

определи принадлежността на данните в групи 1, 2, 3, 4, 5,

като към всяка група има 50 реда в основната таблица.

Случайните стойности да се попълват с функцията с

NORMINV(RAND(),128,0.5), където 128 е центъра на

нормалното разпределение, а σ=0.5 е дисперсията около

центъра. Втората таблица да откопира данните за всеки от

класовете, но само с по 40 записа. В третата таблица да се

поставят за всеки клас по 10 записа (оставащите от предната

таблица). Да се импортва таблица 2 (обучаващата модела) в

Rapid Miner, като атрибута class е label и типа на данните е

nominal. Да се постави в полето за процеси. От операторите да

се избере и постави в полето за процеси:

modeling/classification and regration/bayes modeling/ Naïve

Bayes. Да се свържат помежду им и към резултати. Да се

Page 81: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

81

стартира процеса и да се разгледа получения модел, мета

данните, плот-изображението с отделните значения и

стандартното отклонение от тях.

Зад.2

Целта е да се тества и оцени така създадения модел с каква

точност работи. Да се постави в работното поле таблицата от зад.1.

От операторите се избира cross validation чрез

Evaluation/Validation/X-validation. Това е съставен оператор и в него

в лявата част се поставя modeling/classification and regration/bayes

modeling/ Naïve Bayes , а в дясната – 2 оператора: Moddeling/Model

Application/ Apply model и performance/Performance and

Management/ Performance. Да се свърже изхода на Naïve Bayes към

mod, входовете на apply model към mod и tez, а изхода lab към входа

lab на performance, чиито изход per се свързва към ave. От символа

▲се преминава към обобщения вид на оператора и се свързва с

данните и изхода. Да се съхрани и изпълни модела. Да се анализира

получения performance vector, при който true е истинското значение,

а pred е като какво е разпознато. Да се види и като текст и от Table

view.

Зад.3

Да се вземе таблица 3 (тестовата извадка), в която класа е

id, а вече не е label, и да се свърже с изхода на Naïve Bayes

mod (модел), за да се приложи върху тези данни с оператора

Apply Model. Да се анализира резултата от Data View как е

разпознал модела данните.

Зад.4

Задачи 1,2,3 да се изпълнят аналогично с оператора

NeuralNet. Да се анализират резултатите при различни

значения на σ.

Page 82: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

82

Зад. 5

Разгледайте представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение.

В Rapid Miner се въвеждат данните, подготвени за

анализ на влиянието на факторите МРЗ, инфлация, лихвен

процент по кредита, брутна работна заплата на индивида,

представени в Excel. Целта е да се тества и оцени така

създадения модел с каква точност работи. От операторите

се избира Evaluation/Validation/X-validation. Това е съставен

оператор, който изглежда така:

Моделът изглежда така:

Изпълнява се моделът. Получават се резултатите за

следните Мета данни и екземпляри:

Page 83: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

83

Резултатите могат да бъдат представени и с

графики, както е показано по-долу.

Page 84: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

84

Изводът, който може да се направи, е че избраните

атрибути са независими и с достатъчно на брой екземпляри, за да

могат да обучат модел, въз основа на който да се направи анализ и

да се вземе решение за отпускане на жилищен кредит.

Зад. 6

Съгласно избраната от Вас тема продължете с Вашето

изследване, като следвате примера, представен в предходната

задача.

Page 85: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

85

4. ДЪРВО НА РЕШЕНИЯТА В RAPID MINER 6.0

Цел на упражнението

Това упражнение акцентира върху ….

Очаквани компетентности

Да могат да инсталират Rapid Miner 6.0.

Да се познават …

Да могат……..

Ключови твърдения

….............

Задачи

Зад.1

Да се вземат първоначални данни от

repositories/samples/data/golf. Да се свържат с оператора от

operators/modeling/classification and regration/tree indiction/ decision

tree. Да се изведе и анализира полученото дърво на решенията

спрямо постъпилите данни.

Зад.2.

Да се вземат първоначални данни от

repositories/samples/data/golf. Да се свържат с оператора от

operators/modeling/classification and regration/rule indiction/ tree to

rules. Да се постави вътре в този оператор

operators/modeling/classification and regration/tree indiction/ decision

tree. Да се изпълни моделът и да се изведат и анализират

получените правила. Да се сравнят с дървото на решенията от зад.1.

Зад.3

Дадена е следната информация:

„Най-сигурна предпоставка за задържане и намаляване на

равнището на цените е увеличаването на производителността на

труда, която се влияе от фактори като:

o техническа въоръженост на живия труд (автоматизация и

механизация, енерго и фондовъоръженост, равнище на

Page 86: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

86

техниката и технологията; колкото те са по- високи, толкова

е по-висока производителността на труда),

o степен на натовареност на производствените мощности (по-натоварени – по-ниска себестойност на единица продукция

– по-ниска цена)

o равнището на специализация, концентрация, коопериране и

комбиниране на производството и труда (водят до

намаляване на разходите за производство- намаляване на

себестойността на 1-ца продукция – намаляване на цената)

o естествените природно-климатични и географски условия

на производство( по-богати, по-качестени, по-близки до

пазара природни ресурси – по-малко разход- по-ниска

себестойност- по-ниска цена)

o квалификацията, опитът и уменията на работниците (по-

високи качества- по-сложен труд, но по-производителен – за

единица време се произвеждат повече изделия- стойността на

всяко от тях намалява – цената намалява)

o териториалното разпределение на производителните сили

(скъсяването на разстоянието между сферите на

производство и сферите на потребление води до икономия на

разход на труд и време и съкращава самия процес на

производство и реализация)”

На база посочената информация да се създаде своя таблица в

Excel с тези параметри, да се попълни с данни, отговарящи на

всякакви състояния , като очаквания резултат е в колоната с отговор

на въпроса «ще се намали ли цената (да/не)». Въз основа на тази

таблица да се получи дърво на решенията както в зад.1. Резултатът

се получава за параметъра, който е от тип label (за този пример това

е „ще се намали ли цената и при каква комбинация от тези

параметри”). Да се изпълни с вашата таблица и зад.2 и анализирайте

получените резултати.

Зад. 4

Да се разгледа представения пример по-долу, който

представлява продължение на студентската разработка от

предходното упражнение.

Page 87: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

87

Таблица, представяща дървото на решенията:

Дърво на решенията:

Модел на правилата за взимане на решения:

Page 88: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

88

Извод:

Според резултатите от анкетата, следва да се отбележи,

че 56,67% от анкетираните не живеят в собствени жилища, и

биха използвали методите на жилищния ипотечен кредит, за да си

закупят жилище, а само 16, 67% разполагат със заделени пари за

покупката на дом.

Повече от половината анкетирани са посочили, че биха

желали да използват специално разработен за тях погасителен

план или да имат възможност предсрочно да погасят своя кредит.

Като две трети са посочили, че сумата, която биха изтеглили е в

рамките до 60 000 лева, приблизително толкова са посочили, че

биха желали да живеят в имот от тип къща.

Следва да се отбележи, че ако приемем анкетираните за

представители на общественото мнение, то относително голяма

част от потенциалните потребители на жилищния ипотечен

кредит трудно синхронизират желанията с реалните

възможности, които би им предоставил този метод

Зад. 5

Съгласно избраната от Вас тема да се продължи с Вашето

изследване, като се следва примера, представен в предходната

задача.

Page 89: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

89

5. TIME SERIES В RAPID MINER 6.0

Цел на упражнението

Това упражнение цели да се идентифицират оптималните

процеси при анализа на time series, да се правят предсказания по

дадени данни, да се трансформират серии в структурен формат,

подходящ за създаване на модел, да се прилагат регресионни

методи като невронни мрежи, да се визуализират данните от

сериите и свързаните с тях предсказания.

Очаквани компетентности

Да могат да инсталират Rapid Miner 6.0.

Да се познават …

Да могат……..

Ключови твърдения

….............

Задачи

Зад.1

Предварителна подготовка.

Да се създаде таблица в excel със 100 реда и със следните

колони: flow number, date, open, high, low, close, volume, като в

първата се попълва пореден номер, втората съдържа дата в някой от

стандартните формати, останалите съдържат реални числа, като се

съблюдава high>low. Именовайте я TSData.xls .

Зад.2

От operators/import/data/read excel се изтегля оператора.

Отдясно се избира “open” и се селектира правилната екселска

таблица (TSData.xls). Изтегля се и series/data transformation/moving

average. Свързват се и се свързват към резултат. Избира се да има

ред със заглавия и за attribute name се избира close, window width е

5. Изпълнява се Run и се получава резултата. Избира се да се види в

Plot view резултата за close, като на plotter се избира series, на

останалите none, а на plot series - close. Да се избере и moving

average и да се анализира получения резултат. Същото да се

изпълни с window width =1 и window width = 20. Да се избере и

Page 90: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

90

moving average и да се анализира получения резултат. При

фиксирана дължина на серията как да се избере каква да бъде

оптималната стъпка?

Зад.3

Да се замени оператора series/data transformation/moving

average с series/data transformation /fit trend. Избира се чрез

посочване с ляв бутон на мишката се в него вдясно и се вмъква в

него modeling/classification and regression/neural net training/neural net

и се свързва. Настройват се Learning rate с 0.5, momentum с 0.4. Този

оператор изисква label атрибут в данните: от Data

transformation/name and role modification/set role се изтегля и се

свързва между тези 2 оператора, посочвайки линията за връзка

между тях. На name се посочва close, а на target role – label. За да

изчезне удивителната, трябва да се посочи атрибут (за този пример -

id). Изпълнява се Run и се получава резултата. Избира се да се види

в Plot view резултата, където се избират за визуализация close и

trend close. Да се анализира получения резултат.

Зад.4

Да се замени оператора series/data transformation /fit trend с

series/data transformation/ predict series, като в него отново се поставя

modeling/classification and regression/neural net training/neural net и се

свързва. Правят се същите настройки, а после window width е 10,

max traning set size е 5. Изпълнява се Run и се получава резултата.

Избира се да се види в Plot view резултата, където се избират close и

prediction close. Да се анализира получения резултат.

Зад.5

Създайте таблица в excel със 100 реда и със следните

колони: flow number, date, open, high, low, close, volume, като в

първата се попълва пореден номер, втората съдържа дата в някой от

стандартните формати, останалите съдържат реални числа, като се

съблюдава high>low. Именовайте я TSData.xls (Ако не – вземете от

Desktop файла GE.xls )

Зад.6

Page 91: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

91

От operators/import/data/read excel се изтегля оператора.

Отдясно се избира “open” и се селектира правилната екселска

таблица ( TSData.xls). Изтегля се и data transformation/ seies/name

and role modification/set role. Изтегля се и series/windowing/

windowing.На series representation се избира encode series by

examples. На horizon се задава за колко дни напред ще се извежда

предсказанието. Изберете 1. На window size се слага 5. Свързват се

и се свързват към резултат. Избира се да има ред със заглавия и за

attribute name се избира close, window width е 5. Изпълнява се Run и

се получава резултата. Получават се по 5 колони от всеки

параметър. Избира се да се види резултата.

Зад.7

Да се добави оператора series/evaluation/validation/sliding

window validation като последен. Като се настройват traning window

=5, step size=1, test widow=5, horizon=1. Избира се чрез посочване с

ляв бутон на мишката върху него и в левия прозорец се изтегля

оператора Neural Net, а в десния прозорец – apply model и се

свързват.Добавя се evaluation/performance/ forecasting в десния

прозорец и отново horizon=1.Да се изведат и tr , и ave. Изпълнява се

Run и се получава резултата(след около 20мин.). Избира се да се

види data и после performance vector. Да се анализира получения

резултат.

Page 92: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

92

ЛИТЕРАТУРА

1. http://www.znam.bg/com/action/showBook?bookID=1199&e

lementID=361886998&sectionID=6&dir=next

2. http://butleranalytics.com/rapidminer-6-review/

3. Markus Hofmann, Ralf Klinkenberg, “RapidMiner: Data

Mining Use Cases and Business Analytics Applications (Chapman &

Hall/CRC Data Mining and Knowledge Discovery Series),” CRC Press,

October 25, 2013.

4. http://rapidminer.com/

5. http://www.nsi.bg/

Page 93: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

93

СЪДЪРЖАНИЕ

I. събиране и систематизиране на информация. първоначална обработка . 3 1. Базови понятия, свързани с Изследването на бизнес процесите. ............. 3 2. Съставяне на въпросник. Достатъчност на данните. Извадки.

Достоверност на данните. ............................................................................... 23 II. Анализ на бизнес процеси с използване на вградените функции за

анализ на данни в Excel ................................................................................... 40 1. Извадки. Разпределения. Работа с пакета за статистически анализ на

данни в Excel .................................................................................................... 40 2. Корелативни връзки между данните. Ковариация. Регресия.

Дефиниране на некорелативен набор от индикатори. .................................. 48 3. Статистическа проверка на хипотезите. ................................................... 58 III. Създаване на модели на бизнес процеси, анализ и прогнозиране с Rapid

miner 6.0 ............................................................................................................ 65 1. Инсталиране и работа с Rapid miner 6.0 ..................................................... 65 2. Генериране на данни за обработка в Rapid miner 6.0. Корелационни

зависимости. ..................................................................................................... 76 3. Създаване на модел с обучаващи данни в Rapid miner 6.0 . Оценка на

точността на модела ......................................................................................... 80 4. Дърво на решенията в Rapid miner 6.0 ....................................................... 85 5. Time series в Rapid miner 6.0 ....................................................................... 89 Литература ........................................................................................................ 92

Page 94: СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И …3.4 Анализ на информацията – информацията да се разтълкува, да се напише

Венета Алексиева СБМС

94

В.Алексиева

СИСТЕМИ ЗА БИЗНЕС МОДЕЛИРАНЕ И СИМУЛАЦИЯ

Ръководство за лабораторни упражнения