متنبازسازی کلانداده

62

Upload: -

Post on 12-Apr-2017

343 views

Category:

Software


0 download

TRANSCRIPT

Page 1: متنبازسازی کلانداده
Page 2: متنبازسازی کلانداده

Open Sourcing Big Data

Hadi

Sotudeh

Page 3: متنبازسازی کلانداده

About Me

Hadi Sotudeh - Information Technology

[email protected] Ce.sharif.edu/~hsotudeh

Page 4: متنبازسازی کلانداده

About Us

Dr. Sharif

Big Data: From a Business & Managerial Perspective

Page 5: متنبازسازی کلانداده

Bigdata.blog.ir

Page 6: متنبازسازی کلانداده

About Us

Torob.ir Co-Founder : Ali Babei

Page 7: متنبازسازی کلانداده

About Us

B.S Project : (DRPC)Distributed Real Time Processing Crawler using Apache Storm

Dr. Goudarzi

Page 8: متنبازسازی کلانداده
Page 9: متنبازسازی کلانداده

Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

Dan Ariely

Page 10: متنبازسازی کلانداده

News

Page 11: متنبازسازی کلانداده

Big Data Definition

Is there any standard definition?

Page 12: متنبازسازی کلانداده

Big Data Definitions Gartner Mckinsey ….

Page 13: متنبازسازی کلانداده

Gartner Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.

Page 14: متنبازسازی کلانداده

Mckinsey datasets whose size is beyond the ability of

typical database software tools to capture,

store, manage, and analyze

Page 15: متنبازسازی کلانداده
Page 16: متنبازسازی کلانداده
Page 17: متنبازسازی کلانداده

• Sensors

• Transactions

• GPS

• Email

• Social Network

• Sound Files

• Video

• Image

• Telescope

• Log

• Tex

• ....

Data Sources

Page 18: متنبازسازی کلانداده

Tim Berners Lee

Open Data Movement

Page 19: متنبازسازی کلانداده

Open Data:

19

State/Org Website

UAE http://government.ae/web/guest/uae-data

UK http://data.gov.uk

US http://data.gov

World Bank http://data.worldbank.org/

India http://data.gov.in

Russia http://opengovdata.ru

EU Open-data.Europa.eu/en/data

• Google.com/trends/explore

• Google.com/finance

Page 20: متنبازسازی کلانداده

20

Page 21: متنبازسازی کلانداده
Page 22: متنبازسازی کلانداده
Page 23: متنبازسازی کلانداده

Close Data!

23

Page 24: متنبازسازی کلانداده

شبکه های اجتماعی

24

Page 25: متنبازسازی کلانداده

A Tweet

Page 26: متنبازسازی کلانداده
Page 27: متنبازسازی کلانداده
Page 28: متنبازسازی کلانداده
Page 29: متنبازسازی کلانداده
Page 30: متنبازسازی کلانداده
Page 31: متنبازسازی کلانداده

Edward Snowden

Page 32: متنبازسازی کلانداده
Page 33: متنبازسازی کلانداده

NSA

Page 34: متنبازسازی کلانداده

Log or Dark Data

34

Page 35: متنبازسازی کلانداده

35

Page 36: متنبازسازی کلانداده

Importance

Page 37: متنبازسازی کلانداده
Page 38: متنبازسازی کلانداده

Analytics is the discovery and communication ofmeaningful patterns in data

Analytics

Page 39: متنبازسازی کلانداده

Types of Analytics Cube Analytics Multi Dimensional Product Date Price

BI Predictive Analytics Statistics and Machine Learning Linear Regression Data Clustering Find Association

Page 40: متنبازسازی کلانداده

Dimensions of Analytics Variants

Real Time Ability to Analyze the data instantly

Batch Ability to provide insights after several

hours/days when a query is posted

Page 41: متنبازسازی کلانداده

TOOLS

Page 42: متنبازسازی کلانداده
Page 43: متنبازسازی کلانداده

Do It

Real Time

Page 44: متنبازسازی کلانداده
Page 45: متنبازسازی کلانداده

Problems

Scaling is painfulPoor fault-tolerance

Coding is tedious

Page 46: متنبازسازی کلانداده

What We Want

Guaranteed Data ProcessingHorizontal scalabilityFault-tolerance“just works”

Page 47: متنبازسازی کلانداده

What Is The Key?

Page 48: متنبازسازی کلانداده

Hadoop

Batch Oriented System

Page 49: متنبازسازی کلانداده
Page 50: متنبازسازی کلانداده
Page 51: متنبازسازی کلانداده

Storm

Guaranteed Data ProcessingHorizontal scalabilityFault-tolerance“just works”

Page 52: متنبازسازی کلانداده

Use cases

Page 53: متنبازسازی کلانداده
Page 54: متنبازسازی کلانداده

Streams

Page 55: متنبازسازی کلانداده

Spouts

Page 56: متنبازسازی کلانداده

Bolts

Page 57: متنبازسازی کلانداده

Topology

Page 58: متنبازسازی کلانداده

Word Count

Page 59: متنبازسازی کلانداده

Tuple Tree

Page 60: متنبازسازی کلانداده
Page 61: متنبازسازی کلانداده

Resources

Book Apache Storm website

Page 62: متنبازسازی کلانداده

Conclusion

• Data, Data, and Data

• Data Gathering

• Analytics

• Visualization

• Action

• Bottleneck is Creativity not Technology

• Discover Use Cases