mobile user and app analytics in china

20
Mobile User and App Analytics in China TEAM APACHE HADOOP, IMC INSTITUTE 30 JULY 2016

Upload: imc-institute

Post on 16-Apr-2017

684 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Mobile User and App Analytics in China

Mobile User and App Analytics in ChinaTEAM APACHE HADOOP, IMC INSTITUTE

30 JULY 2016

Page 2: Mobile User and App Analytics in China

IMC Institute: Apache Hadoop Team Logo

Logo Credit: Agile Thailand 2016

Page 3: Mobile User and App Analytics in China

ความเปนมาของโจทย: แนะน า Kaggle

Page 4: Mobile User and App Analytics in China

TalkingData คอบรษทอะไร?

"TalkingData เปนแพลตฟอรมของบคคลทสามขอมลมอถอทใหญทสดของประเทศจน ทางบรษทเขาใจวาทางเลอกในชวตประจ าวนและพฤตกรรมของผใชมอถอผลกดนใหพวกเราสรางคณคาตางๆได ปจจบนบรษท TalkingData ก าลงมองหาประโยชนจากฐานขอมลพฤตกรรมผใชมอถอจากกวา 70% ของ 500 ล า น โทรศ พท ม อ ถ อท ใ ช ง าน ในชวตประจ าวนในประเทศจนเพอชวยใหลกคาของตนเขาใจและมปฏสมพนธกบผใชของพวกเขา”

Page 5: Mobile User and App Analytics in China

TalkingData: ขอมลขนาดใหญทเขามาในแตละวน

TalkingData Website: https://www.talkingdata.com/

Page 6: Mobile User and App Analytics in China

โจทยปญหา

• พฤตกรรมการใชแอพพลเคชนของผใชมอถอ• แอพพลเคชนประเภทใดไดรบความนยมมากทสด• ผใชมอถอนยมใชแอพพลเคชนในชวงใดของวนและวนใดบางในแตละอาทตย • จ านวนผใชมอถอแบงตามเพศและอายกลมใดมากทสดทปรากฎในชดขอมล

• แบรนดโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• รนโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• ความสมพนธระหวางจ านวนแอพพลเคชนในแตละประเภทของแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดากลมผใชมอถอตามการเขาใชงานแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดาอตราการใชงานของผใชมอถอ

Page 7: Mobile User and App Analytics in China

จดประสงคของโปรเจค

• เรยนรการใช AWS & Microsoft Azure เพอสราง Instances การท างานแบบ Single Node & Cluster (Lecture: อ.ธนชาต)

• ทราบถงความส าคญของ Big Data และวธการรบมอขอมลขนาดใหญ• การใช Hadoop เพอเกบขอมลเขา HDFS รวมไปถงการดงขอมลโดยใชภาษา

SQL ผานเครองมอ Hive Impala และ SparkSQL• เรยนรการใช Mass Analytics Tools เพอการวเคราะหขอมล แปลงจากขอมล

เปน Knowledge/Discovery (Lecture: อ.โกเมธ) • ทดลองการใช Machine Learning for Business แกปญหาเชงธรกจ • สราง Web-based and Interactive Visualization ดวยภาษา Javascript

เพอสวยงามและสะดวกตอผใชบรการ (Lecture: อ.ชนวทย)

Page 8: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle”

ขอมล Gender_age ประกอบดวย 4 สดมภ 74,645 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน)

ทเปนเฉพาะของผใชแอพพลเคชน • Gender คอ เพศของผใชแอพพลเคชน• Age คอ อายของผใชแอพพลเคชน • Group คอ การจดกลมอายของผใชของแอพพลเคชน

ซงทาง TalkingData จดไวใหแลว

Page 9: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Phone Brand Device Model ประกอบดวย 3 สดมภ 187,245 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน

เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได

• Phone_brand คอ แบรนดของโทรศพทผใช (ในประเทศจนเทานน) เชน 三星 (Samsung) 美图 (meitu) และ 酷珀 (kupo) เปนตน

• Device_model คอ รนของโทรศพทผใช (ในประเทศจนเทานน) เชน 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2เปนตน

Page 10: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Events ประกอบดวย 5 สดมภ 3,252,950 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน • Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน

เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได

• Timestamp คอ วนและเวลาของการเขาใชงานแอพพลเคชน• Longitude คอ ลองจจดท TalkingData เกบขอมลไวจากการ

ใชแอพพลเคชนของผใชงาน • Latitude คอ ละตจดท TalkingData เกบขอมลไวจากการใช

แอพพลเคชนของผใชงาน

Page 11: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle”

ขอมล App Events ประกอบดวย 4 สดมภ 32,473,067 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน

สดมภนสามารถรวมกบ Events ได• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ• Is_installed คอ แอพพลเคชนไดรบการตดตงหรอไม (1 คอ

ใช 0 คอไมใช)• Is_active คอ แอพพลเคชนยงคง active อยหรอไมจากการ

เกบขอมลของ TalkingData ณ เวลานน (1 คอใช 0 คอไมใช)

Page 12: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล App Labels ประกอบดวย 2 สดมภ 459,943 แถว มค าอธบายตวแปรดงน• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ สดมภนสามารถรวมกบ

App Events ได• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน

ขอมล Label_category ประกอบดวย 2 สดมภ 930 แถว มค าอธบายตวแปรดงน• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน สดมภน

สามารถรวมกบ App Labels ได• Category คอ หมวดหมของแอพพลเคชน เชน game-Game themes,

game-Art Style, Internet Banking และ Romance เปนตน

Page 13: Mobile User and App Analytics in China
Page 14: Mobile User and App Analytics in China
Page 15: Mobile User and App Analytics in China
Page 16: Mobile User and App Analytics in China

Vs.

Page 17: Mobile User and App Analytics in China

การน าเสนอการวเคราะหขอมล•

Page 18: Mobile User and App Analytics in China

• เขาใจกระบวนการเกบขอมลของบรษทโทรคมนาคมมากขน อาจเปนประโยชนตอบรษทในประเทศไทยหากตองการวเคราะหลกคาในรปแบบทคลายกนกบโจทยน

• เขาใจพฤตกรรมของผใชงานแอพพลเคชนวา ตองการแอพพลเคชนประเภทใด ใชชวงเวลาใดของวนและชวงอาทตย จากการวเคราะหพบวา คนเขาใชมอถอในเวลา 11:00 am. และ 11:00 pm. มากทสดและคนเขาใชวนองคารมากทสด จากกราฟเสนของเวลาการใชตามอาทตย ขอมลดงกลาวเปนประโยชนตอนกพฒนาแอพพลเคชนและนกการตลาดทวโลกในการตอบสนอง Demand ของผใช

• แบรนดโทรศพทยอดนยม 3 อนดบแรกไดแก 小米, 三星, และ 华为 และโมเดลโทรศพท 3 อนดบแรกไดแก 红米note, MI 3, และ MI 2S• จากการวเคราะหแผนทของผใชงานแอพพลเคชนท าใหสามารถ Traceback สถานทการใชงานของผใชแอพพลเคชนในแตละกลมตามเพศและอาย

รวมไปถงแบรนดโทรศพทและรนโทรศพทมอถอ• การทดสอบโมเดล Classification พบวาปจจยทส าคญไดแกจ านวนการลงแอพพลเคชน จ านวนการใชแอพพลเคชน จ านวนเหตการณการเขาใช แบ

รนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ • การทดสอบโมเดล Regression พบวาปจจยส าคญไดแก อาย เพศ จ านวนเหตการณการเขาใช แบรนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ

Page 19: Mobile User and App Analytics in China
Page 20: Mobile User and App Analytics in China

Thank you! Time for Q & A!