mobile user and app analytics in china
TRANSCRIPT
Mobile User and App Analytics in ChinaTEAM APACHE HADOOP, IMC INSTITUTE
30 JULY 2016
IMC Institute: Apache Hadoop Team Logo
Logo Credit: Agile Thailand 2016
ความเปนมาของโจทย: แนะน า Kaggle
TalkingData คอบรษทอะไร?
"TalkingData เปนแพลตฟอรมของบคคลทสามขอมลมอถอทใหญทสดของประเทศจน ทางบรษทเขาใจวาทางเลอกในชวตประจ าวนและพฤตกรรมของผใชมอถอผลกดนใหพวกเราสรางคณคาตางๆได ปจจบนบรษท TalkingData ก าลงมองหาประโยชนจากฐานขอมลพฤตกรรมผใชมอถอจากกวา 70% ของ 500 ล า น โทรศ พท ม อ ถ อท ใ ช ง าน ในชวตประจ าวนในประเทศจนเพอชวยใหลกคาของตนเขาใจและมปฏสมพนธกบผใชของพวกเขา”
TalkingData: ขอมลขนาดใหญทเขามาในแตละวน
TalkingData Website: https://www.talkingdata.com/
โจทยปญหา
• พฤตกรรมการใชแอพพลเคชนของผใชมอถอ• แอพพลเคชนประเภทใดไดรบความนยมมากทสด• ผใชมอถอนยมใชแอพพลเคชนในชวงใดของวนและวนใดบางในแตละอาทตย • จ านวนผใชมอถอแบงตามเพศและอายกลมใดมากทสดทปรากฎในชดขอมล
• แบรนดโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• รนโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• ความสมพนธระหวางจ านวนแอพพลเคชนในแตละประเภทของแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดากลมผใชมอถอตามการเขาใชงานแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดาอตราการใชงานของผใชมอถอ
จดประสงคของโปรเจค
• เรยนรการใช AWS & Microsoft Azure เพอสราง Instances การท างานแบบ Single Node & Cluster (Lecture: อ.ธนชาต)
• ทราบถงความส าคญของ Big Data และวธการรบมอขอมลขนาดใหญ• การใช Hadoop เพอเกบขอมลเขา HDFS รวมไปถงการดงขอมลโดยใชภาษา
SQL ผานเครองมอ Hive Impala และ SparkSQL• เรยนรการใช Mass Analytics Tools เพอการวเคราะหขอมล แปลงจากขอมล
เปน Knowledge/Discovery (Lecture: อ.โกเมธ) • ทดลองการใช Machine Learning for Business แกปญหาเชงธรกจ • สราง Web-based and Interactive Visualization ดวยภาษา Javascript
เพอสวยงามและสะดวกตอผใชบรการ (Lecture: อ.ชนวทย)
ค าอธบายชดขอมล TalkingData on “Kaggle”
ขอมล Gender_age ประกอบดวย 4 สดมภ 74,645 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน)
ทเปนเฉพาะของผใชแอพพลเคชน • Gender คอ เพศของผใชแอพพลเคชน• Age คอ อายของผใชแอพพลเคชน • Group คอ การจดกลมอายของผใชของแอพพลเคชน
ซงทาง TalkingData จดไวใหแลว
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Phone Brand Device Model ประกอบดวย 3 สดมภ 187,245 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน
เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได
• Phone_brand คอ แบรนดของโทรศพทผใช (ในประเทศจนเทานน) เชน 三星 (Samsung) 美图 (meitu) และ 酷珀 (kupo) เปนตน
• Device_model คอ รนของโทรศพทผใช (ในประเทศจนเทานน) เชน 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2เปนตน
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Events ประกอบดวย 5 สดมภ 3,252,950 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน • Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน
เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได
• Timestamp คอ วนและเวลาของการเขาใชงานแอพพลเคชน• Longitude คอ ลองจจดท TalkingData เกบขอมลไวจากการ
ใชแอพพลเคชนของผใชงาน • Latitude คอ ละตจดท TalkingData เกบขอมลไวจากการใช
แอพพลเคชนของผใชงาน
ค าอธบายชดขอมล TalkingData on “Kaggle”
ขอมล App Events ประกอบดวย 4 สดมภ 32,473,067 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน
สดมภนสามารถรวมกบ Events ได• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ• Is_installed คอ แอพพลเคชนไดรบการตดตงหรอไม (1 คอ
ใช 0 คอไมใช)• Is_active คอ แอพพลเคชนยงคง active อยหรอไมจากการ
เกบขอมลของ TalkingData ณ เวลานน (1 คอใช 0 คอไมใช)
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล App Labels ประกอบดวย 2 สดมภ 459,943 แถว มค าอธบายตวแปรดงน• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ สดมภนสามารถรวมกบ
App Events ได• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน
ขอมล Label_category ประกอบดวย 2 สดมภ 930 แถว มค าอธบายตวแปรดงน• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน สดมภน
สามารถรวมกบ App Labels ได• Category คอ หมวดหมของแอพพลเคชน เชน game-Game themes,
game-Art Style, Internet Banking และ Romance เปนตน
Vs.
การน าเสนอการวเคราะหขอมล•
•
•
•
•
•
•
• เขาใจกระบวนการเกบขอมลของบรษทโทรคมนาคมมากขน อาจเปนประโยชนตอบรษทในประเทศไทยหากตองการวเคราะหลกคาในรปแบบทคลายกนกบโจทยน
• เขาใจพฤตกรรมของผใชงานแอพพลเคชนวา ตองการแอพพลเคชนประเภทใด ใชชวงเวลาใดของวนและชวงอาทตย จากการวเคราะหพบวา คนเขาใชมอถอในเวลา 11:00 am. และ 11:00 pm. มากทสดและคนเขาใชวนองคารมากทสด จากกราฟเสนของเวลาการใชตามอาทตย ขอมลดงกลาวเปนประโยชนตอนกพฒนาแอพพลเคชนและนกการตลาดทวโลกในการตอบสนอง Demand ของผใช
• แบรนดโทรศพทยอดนยม 3 อนดบแรกไดแก 小米, 三星, และ 华为 และโมเดลโทรศพท 3 อนดบแรกไดแก 红米note, MI 3, และ MI 2S• จากการวเคราะหแผนทของผใชงานแอพพลเคชนท าใหสามารถ Traceback สถานทการใชงานของผใชแอพพลเคชนในแตละกลมตามเพศและอาย
รวมไปถงแบรนดโทรศพทและรนโทรศพทมอถอ• การทดสอบโมเดล Classification พบวาปจจยทส าคญไดแกจ านวนการลงแอพพลเคชน จ านวนการใชแอพพลเคชน จ านวนเหตการณการเขาใช แบ
รนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ • การทดสอบโมเดล Regression พบวาปจจยส าคญไดแก อาย เพศ จ านวนเหตการณการเขาใช แบรนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ
Thank you! Time for Q & A!