SlideShare a Scribd company logo
Mobile User and App Analytics in China
TEAM APACHE HADOOP, IMC INSTITUTE
30 JULY 2016
IMC Institute: Apache Hadoop Team Logo
Logo Credit: Agile Thailand 2016
ความเป็นมาของโจทย์: แนะนา Kaggle
TalkingData คือบริษัทอะไร?
"TalkingData เป็นแพลตฟอร์มของบุคคลที่สามข้อมูลมือ
ถือที่ใหญ่ที่สุดของประเทศจีน ทางบริษัทเข้าใจว่าทางเลือกใน
ชีวิตประจาวันและพฤติกรรมของผู้ใช้มือถือผลักดันให้พวกเรา
สร้างคุณค่าต่างๆได้ ปัจจุบันบริษัท TalkingData กาลังมอง
หาประโยชน์จากฐานข้อมูลพฤติกรรมผู้ใช้มือถือจากกว่า
70% ของ 500 ล้านโทรศัพท์มือถือที่ใช้งานใน
ชีวิตประจาวันในประเทศจีนเพื่อช่วยให้ลูกค้าของตนเข้าใจ
และมีปฏิสัมพันธ์กับผู้ใช้ของพวกเขา”
TalkingData: ข้อมูลขนาดใหญ่ที่เข้ามาในแต่ละวัน
TalkingData Website: https://www.talkingdata.com/
โจทย์ปัญหา
• พฤติกรรมการใช้แอพพลิเคชั่นของผู้ใช้มือถือ
• แอพพลิเคชั่นประเภทใดได้รับความนิยมมากที่สุด
• ผู้ใช้มือถือนิยมใช้แอพพลิเคชั่นในช่วงใดของวันและวันใดบ้างในแต่ละอาทิตย์
• จานวนผู้ใช้มือถือแบ่งตามเพศและอายุกลุ่มใดมากที่สุดที่ปรากฎในชุดข้อมูล
• แบรนด์โทรศัพท์มือถือใดกาลังครองตลาดอยู่ในประเทศจีน
• รุ่นโทรศัพท์มือถือใดกาลังครองตลาดอยู่ในประเทศจีน
• ความสัมพันธ์ระหว่างจานวนแอพพลิเคชั่นในแต่ละประเภทของแอพพลิเคชั่น
• เราจะมีวิธีอย่างไรบ้างในการคาดเดากลุ่มผู้ใช้มือถือตามการเข้าใช้งานแอพพลิเคชั่น
• เราจะมีวิธีอย่างไรบ้างในการคาดเดาอัตราการใช้งานของผู้ใช้มือถือ
จุดประสงค์ของโปรเจ็ค
• เรียนรู้การใช้ AWS & Microsoft Azure เพื่อสร้าง Instances การทางานแบบ
Single Node & Cluster (Lecture: อ.ธนชาติ)
• ทราบถึงความสาคัญของ Big Data และวิธีการรับมือข้อมูลขนาดใหญ่
• การใช้ Hadoop เพื่อเก็บข้อมูลเข้า HDFS รวมไปถึงการดึงข้อมูลโดยใช้ภาษา
SQL ผ่านเครื่องมือ Hive Impala และ SparkSQL
• เรียนรู้การใช้ Mass Analytics Tools เพื่อการวิเคราะห์ข้อมูล แปลงจากข้อมูล
เป็น Knowledge/Discovery (Lecture: อ.โกเมธ)
• ทดลองการใช้ Machine Learning for Business แก้ปัญหาเชิงธุรกิจ
• สร้าง Web-based and Interactive Visualization ด้วยภาษา Javascript
เพื่อสวยงามและสะดวกต่อผู้ใช้บริการ (Lecture: อ.ชินวิทย์)
คาอธิบายชุดข้อมูล TalkingData on “Kaggle”
ข้อมูล Gender_age ประกอบด้วย 4 สดมภ์ 74,645
แถว มีคาอธิบายตัวแปรดังนี้
• Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้)
ที่เป็นเฉพาะของผู้ใช้แอพพลิเคชั่น
• Gender คือ เพศของผู้ใช้แอพพลิเคชั่น
• Age คือ อายุของผู้ใช้แอพพลิเคชั่น
• Group คือ การจัดกลุ่มอายุของผู้ใช้ของแอพพลิเคชั่น
ซึ่งทาง TalkingData จัดไว้ให้แล้ว
คาอธิบายชุดข้อมูล TalkingData on “Kaggle”
ข้อมูล Phone Brand Device Model ประกอบด้วย 3 สดมภ์
187,245 แถว มีคาอธิบายตัวแปรดังนี้
• Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้) ที่เป็น
เฉพาะของผู้ใช้แอพพลิเคชั่น สดมภ์นี้สามารถรวมกับ
Gender_age ได้
• Phone_brand คือ แบรนด์ของโทรศัพท์ผู้ใช้ (ในประเทศจีน
เท่านั้น) เช่น 三星 (Samsung) 美图 (meitu) และ 酷
珀 (kupo) เป็นต้น
• Device_model คือ รุ่นของโทรศัพท์ผู้ใช้ (ในประเทศจีนเท่านั้น)
เช่น 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2
เป็นต้น
คาอธิบายชุดข้อมูล TalkingData on “Kaggle”
ข้อมูล Events ประกอบด้วย 5 สดมภ์ 3,252,950 แถว มี
คาอธิบายตัวแปรดังนี้
• Event_id คือ รหัสการเกิดของเหตุการณ์การใช้แอพพลิเคชั่น
• Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้) ที่เป็น
เฉพาะของผู้ใช้แอพพลิเคชั่น สดมภ์นี้สามารถรวมกับ
Gender_age ได้
• Timestamp คือ วันและเวลาของการเข้าใช้งานแอพพลิเคชั่น
• Longitude คือ ลองจิจูดที่ TalkingData เก็บข้อมูลไว้จากการ
ใช้แอพพลิเคชั่นของผู้ใช้งาน
• Latitude คือ ละติจูดที่ TalkingData เก็บข้อมูลไว้จากการใช้
แอพพลิเคชั่นของผู้ใช้งาน
คาอธิบายชุดข้อมูล TalkingData on “Kaggle”
ข้อมูล App Events ประกอบด้วย 4 สดมภ์ 32,473,067 แถว
มีคาอธิบายตัวแปรดังนี้
• Event_id คือ รหัสการเกิดของเหตุการณ์การใช้แอพพลิเคชั่น
สดมภ์นี้สามารถรวมกับ Events ได้
• App_id คือ รหัสเฉพาะของแอพพลิเคชั่นนั้นๆ
• Is_installed คือ แอพพลิเคชั่นได้รับการติดตั้งหรือไม่ (1 คือ
ใช่ 0 คือไม่ใช่)
• Is_active คือ แอพพลิเคชั่นยังคง active อยู่หรือไม่จากการ
เก็บข้อมูลของ TalkingData ณ เวลานั้น (1 คือใช่ 0 คือไม่ใช่)
คาอธิบายชุดข้อมูล TalkingData on “Kaggle”
ข้อมูล App Labels ประกอบด้วย 2 สดมภ์ 459,943 แถว
มีคาอธิบายตัวแปรดังนี้
• App_id คือ รหัสเฉพาะของแอพพลิเคชั่นนั้นๆ สดมภ์นี้สามารถรวมกับ
App Events ได้
• Label_id คือ รหัสลาเบลเพื่อระบุประเภทของแอพพลิเคชั่น
ข้อมูล Label_category ประกอบด้วย 2 สดมภ์ 930 แถว
มีคาอธิบายตัวแปรดังนี้
• Label_id คือ รหัสลาเบลเพื่อระบุประเภทของแอพพลิเคชั่น สดมภ์นี้
สามารถรวมกับ App Labels ได้
• Category คือ หมวดหมู่ของแอพพลิเคชั่น เช่น game-Game themes,
game-Art Style, Internet Banking และ Romance เป็นต้น
Mobile User and App Analytics in China
Mobile User and App Analytics in China
Mobile User and App Analytics in China
Vs.
การนาเสนอการวิเคราะห์ข้อมูล
•
•
•
•
•
•
•
• เข้าใจกระบวนการเก็บข้อมูลของบริษัทโทรคมนาคมมากขึ้น อาจเป็นประโยชน์ต่อบริษัทในประเทศไทยหากต้องการวิเคราะห์ลูกค้าในรูปแบบที่
คล้ายกันกับโจทย์นี้
• เข้าใจพฤติกรรมของผู้ใช้งานแอพพลิเคชั่นว่า ต้องการแอพพลิเคชั่นประเภทใด ใช้ช่วงเวลาใดของวันและช่วงอาทิตย์ จากการวิเคราะห์พบว่า คนเข้าใช้
มือถือในเวลา 11:00 am. และ 11:00 pm. มากที่สุดและคนเข้าใช้วันอังคารมากที่สุด จากกราฟเส้นของเวลาการใช้ตามอาทิตย์ ข้อมูลดังกล่าวเป็น
ประโยชน์ต่อนักพัฒนาแอพพลิเคชั่นและนักการตลาดทั่วโลกในการตอบสนอง Demand ของผู้ใช้
• แบรนด์โทรศัพท์ยอดนิยม 3 อันดับแรกได้แก่ 小米, 三星, และ 华为 และโมเดลโทรศัพท์ 3 อันดับแรกได้แก่ 红米note, MI 3, และ MI 2S
• จากการวิเคราะห์แผนที่ของผู้ใช้งานแอพพลิเคชั่นทาให้สามารถ Traceback สถานที่การใช้งานของผู้ใช้แอพพลิเคชั่นในแต่ละกลุ่มตามเพศและอายุ
รวมไปถึงแบรนด์โทรศัพท์และรุ่นโทรศัพท์มือถือ
• การทดสอบโมเดล Classification พบว่าปัจจัยที่สาคัญได้แก่จานวนการลงแอพพลิเคชั่น จานวนการใช้แอพพลิเคชั่น จานวนเหตุการณ์การเข้าใช้ แบ
รนด์โทรศัพท์มือถือ และโมเดลโทรศัพท์มือถือ
• การทดสอบโมเดล Regression พบว่าปัจจัยสาคัญได้แก่ อายุ เพศ จานวนเหตุการณ์การเข้าใช้ แบรนด์โทรศัพท์มือถือ และโมเดลโทรศัพท์มือถือ
Mobile User and App Analytics in China
Thank you!
Time for Q & A!

More Related Content

What's hot (20)

PDF
Big Data
ThongChai YesMan
 
PDF
Big data
newmooxx
 
PDF
ข้อมูลขนาดใหญ่ Big data
maruay songtanin
 
PDF
Thailand software & software market survey 2016
IMC Institute
 
PDF
การประยุกต์ใช้ Cloud Computing สำหรับองค์กร
IMC Institute
 
PDF
แนวโน้มของเทคโนโลยี และ Cloud Computing
IMC Institute
 
PDF
Introduction to big data and analytic eakasit patcharawongsakda
BAINIDA
 
PDF
Slide งานแถลงข่าวของ IMC Institute และ Optimus (Thailand) เรื่อง IT Trends 2018
IMC Institute
 
PDF
Technology Trends ผลกระต่อธุรกิจการธนาคาร
IMC Institute
 
PDF
IT Trends eMagazine Vol 3. No.9
IMC Institute
 
PDF
เทคโนโลยี Cloud Computing
IMC Institute
 
PDF
Cloud Computing กับการใช้งานในองค์กรต่างๆ
Software Park Thailand
 
PDF
Cloud computing อรญา อำนาจเจริญพร
Kunming Oraya
 
PDF
Big data
Satra Eadtrong
 
PDF
Big data 101
Somkiat Puisungnoen
 
PDF
Internet of things_bc46021_n_21mar2019_by_dr.arnut
Asst.Prof.Dr.Arnut Ruttanatirakul
 
PDF
กลยุทธ์ 5 ด้านกับการทำ Digital Transformation
IMC Institute
 
PDF
นิตยสาร IT Trends ของ IMC Institute Vol. 3 No 8 ฉบับเดือนมกราคม - เมษายน 2018
IMC Institute
 
PDF
แนวโน้มของเทคโนโลยีสารสนเทศ ในอุตสาหกรรมการท่องเที่ยว
IMC Institute
 
Big data
newmooxx
 
ข้อมูลขนาดใหญ่ Big data
maruay songtanin
 
Thailand software & software market survey 2016
IMC Institute
 
การประยุกต์ใช้ Cloud Computing สำหรับองค์กร
IMC Institute
 
แนวโน้มของเทคโนโลยี และ Cloud Computing
IMC Institute
 
Introduction to big data and analytic eakasit patcharawongsakda
BAINIDA
 
Slide งานแถลงข่าวของ IMC Institute และ Optimus (Thailand) เรื่อง IT Trends 2018
IMC Institute
 
Technology Trends ผลกระต่อธุรกิจการธนาคาร
IMC Institute
 
IT Trends eMagazine Vol 3. No.9
IMC Institute
 
เทคโนโลยี Cloud Computing
IMC Institute
 
Cloud Computing กับการใช้งานในองค์กรต่างๆ
Software Park Thailand
 
Cloud computing อรญา อำนาจเจริญพร
Kunming Oraya
 
Big data
Satra Eadtrong
 
Big data 101
Somkiat Puisungnoen
 
Internet of things_bc46021_n_21mar2019_by_dr.arnut
Asst.Prof.Dr.Arnut Ruttanatirakul
 
กลยุทธ์ 5 ด้านกับการทำ Digital Transformation
IMC Institute
 
นิตยสาร IT Trends ของ IMC Institute Vol. 3 No 8 ฉบับเดือนมกราคม - เมษายน 2018
IMC Institute
 
แนวโน้มของเทคโนโลยีสารสนเทศ ในอุตสาหกรรมการท่องเที่ยว
IMC Institute
 

Viewers also liked (15)

PDF
New Data Transfer Tools for Hadoop: Sqoop 2
DataWorks Summit
 
PPT
ITSS Overview
IMC Institute
 
PDF
Thai Software & Software Market Survey 2015
IMC Institute
 
PDF
Introduction to Apache Sqoop
Avkash Chauhan
 
PPTX
Apache sqoop with an use case
Davin Abraham
 
PDF
Big Data Analytics using Mahout
IMC Institute
 
PDF
สมุดกิจกรรม Code for Kids
IMC Institute
 
PDF
Big data processing using Hadoop with Cloudera Quickstart
IMC Institute
 
PPTX
Advanced Sqoop
Yogesh Kulkarni
 
PDF
Apache Sqoop: A Data Transfer Tool for Hadoop
Cloudera, Inc.
 
PDF
Big data: Loading your data with flume and sqoop
Christophe Marchal
 
PDF
Install Apache Hadoop for Development/Production
IMC Institute
 
PDF
Machine Learning using Apache Spark MLlib
IMC Institute
 
PDF
Kanban boards step by step
Giulio Roggero
 
PPTX
Flume vs. kafka
Omid Vahdaty
 
New Data Transfer Tools for Hadoop: Sqoop 2
DataWorks Summit
 
ITSS Overview
IMC Institute
 
Thai Software & Software Market Survey 2015
IMC Institute
 
Introduction to Apache Sqoop
Avkash Chauhan
 
Apache sqoop with an use case
Davin Abraham
 
Big Data Analytics using Mahout
IMC Institute
 
สมุดกิจกรรม Code for Kids
IMC Institute
 
Big data processing using Hadoop with Cloudera Quickstart
IMC Institute
 
Advanced Sqoop
Yogesh Kulkarni
 
Apache Sqoop: A Data Transfer Tool for Hadoop
Cloudera, Inc.
 
Big data: Loading your data with flume and sqoop
Christophe Marchal
 
Install Apache Hadoop for Development/Production
IMC Institute
 
Machine Learning using Apache Spark MLlib
IMC Institute
 
Kanban boards step by step
Giulio Roggero
 
Flume vs. kafka
Omid Vahdaty
 
Ad

Similar to Mobile User and App Analytics in China (20)

ODT
Smart farm white paper chapter 4
Pisuth paiboonrat
 
PDF
เทคโนโลยีสารสนเทศ ที่ถูกนำมาใช้กับการจัดการความรู้
nongponthip10
 
PDF
02 บทที่ 2-เอกสารที่เกี่ยวข้อง
Chalita Vitamilkz
 
PDF
งานK7 (1)
thanyabright
 
PDF
งานK7 (1)
Supicha Niemsup
 
DOCX
ใบงานที่ 7 นะจ้ะ
KoNg KoNgpop
 
DOCX
บทที่ 2
Keh Keh Comsci
 
PDF
โครงงานใบงานที่ 7
Anny Na Sonsawan
 
PDF
การบริหารจัดการเทคโนโลยีสารสนเทศยุคใหม่ และผลกระทบกับองค์กร
Software Park Thailand
 
PDF
Thossaphol o oo_migration_success_rmutto5_16_may_2012 [compatibility mode]
Thossaphol Noratus
 
PDF
Smart Industry Vol.16/2011 "อุตสาหกรรมท่องเที่ยว น่านน้ำสีน้ำเงิน ของซอฟต์แวร...
Software Park Thailand
 
DOCX
โครงงานคอมโปรแกรม inSSIDer ( หน้าปกฯลฯ )
ยิ้ม' เเฉ่ง
 
PDF
08
thebam29
 
PDF
Augmented reality
Ferin Bell
 
PDF
ใบงานที่ 8 เรื่อง โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
Justice MengKing
 
PDF
ใบงาน8
Noot Ting Tong
 
PDF
ใบงานมราเเปด
Noot Ting Tong
 
PDF
ใบงานที่8
Prem Poramate
 
PDF
BigData และการนำมาใช้BigData และการนำมาใช้
SUMETRATPRACHUM1
 
PPTX
แนวโน้มของเทคโนโลยีสารสนเทศในอนาคต
JA Jaruwan
 
Smart farm white paper chapter 4
Pisuth paiboonrat
 
เทคโนโลยีสารสนเทศ ที่ถูกนำมาใช้กับการจัดการความรู้
nongponthip10
 
02 บทที่ 2-เอกสารที่เกี่ยวข้อง
Chalita Vitamilkz
 
งานK7 (1)
thanyabright
 
งานK7 (1)
Supicha Niemsup
 
ใบงานที่ 7 นะจ้ะ
KoNg KoNgpop
 
บทที่ 2
Keh Keh Comsci
 
โครงงานใบงานที่ 7
Anny Na Sonsawan
 
การบริหารจัดการเทคโนโลยีสารสนเทศยุคใหม่ และผลกระทบกับองค์กร
Software Park Thailand
 
Thossaphol o oo_migration_success_rmutto5_16_may_2012 [compatibility mode]
Thossaphol Noratus
 
Smart Industry Vol.16/2011 "อุตสาหกรรมท่องเที่ยว น่านน้ำสีน้ำเงิน ของซอฟต์แวร...
Software Park Thailand
 
โครงงานคอมโปรแกรม inSSIDer ( หน้าปกฯลฯ )
ยิ้ม' เเฉ่ง
 
Augmented reality
Ferin Bell
 
ใบงานที่ 8 เรื่อง โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
Justice MengKing
 
ใบงาน8
Noot Ting Tong
 
ใบงานมราเเปด
Noot Ting Tong
 
ใบงานที่8
Prem Poramate
 
BigData และการนำมาใช้BigData และการนำมาใช้
SUMETRATPRACHUM1
 
แนวโน้มของเทคโนโลยีสารสนเทศในอนาคต
JA Jaruwan
 
Ad

More from IMC Institute (20)

PDF
Digital trends Vol 4 No. 13 Sep-Dec 2019
IMC Institute
 
PDF
IT Trends eMagazine Vol 4. No.12
IMC Institute
 
PDF
เพราะเหตุใด Digitization ไม่ตอบโจทย์ Digital Transformation
IMC Institute
 
PDF
IT Trends 2019: Putting Digital Transformation to Work
IMC Institute
 
PDF
IT Trends eMagazine Vol 4. No.11
IMC Institute
 
PDF
แนวทางการทำ Digital transformation
IMC Institute
 
PDF
บทความ The New Silicon Valley
IMC Institute
 
PDF
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
IMC Institute
 
PDF
แนวทางการทำ Digital transformation
IMC Institute
 
PDF
บทความ Robotics แนวโน้มใหม่สู่บริการเฉพาะทาง
IMC Institute
 
PPTX
Developing Business Blockchain Applications on Hyperledger
IMC Institute
 
PDF
Digital transformation @thanachart.org
IMC Institute
 
PDF
Thailand 4.0 Reality or Hype
IMC Institute
 
PDF
IT Trends: Special Report (IMC Institute)
IMC Institute
 
PPTX
Anime recommendation (Big Data Certification#6)
IMC Institute
 
PPTX
Telecom Churn analysis (Big Data Certification#6)
IMC Institute
 
PPTX
Crime project (Big Data Certification Course #6)
IMC Institute
 
PDF
จัดเตรียมข้อมูลอย่างไรให้เหมาะกับ Machine Learning
IMC Institute
 
PDF
การ์ทเนอร์ คาดการณ์แนวโน้ม 10 Technology 2018
IMC Institute
 
PDF
Thailand IT Trends 2018
IMC Institute
 
Digital trends Vol 4 No. 13 Sep-Dec 2019
IMC Institute
 
IT Trends eMagazine Vol 4. No.12
IMC Institute
 
เพราะเหตุใด Digitization ไม่ตอบโจทย์ Digital Transformation
IMC Institute
 
IT Trends 2019: Putting Digital Transformation to Work
IMC Institute
 
IT Trends eMagazine Vol 4. No.11
IMC Institute
 
แนวทางการทำ Digital transformation
IMC Institute
 
บทความ The New Silicon Valley
IMC Institute
 
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
IMC Institute
 
แนวทางการทำ Digital transformation
IMC Institute
 
บทความ Robotics แนวโน้มใหม่สู่บริการเฉพาะทาง
IMC Institute
 
Developing Business Blockchain Applications on Hyperledger
IMC Institute
 
Digital transformation @thanachart.org
IMC Institute
 
Thailand 4.0 Reality or Hype
IMC Institute
 
IT Trends: Special Report (IMC Institute)
IMC Institute
 
Anime recommendation (Big Data Certification#6)
IMC Institute
 
Telecom Churn analysis (Big Data Certification#6)
IMC Institute
 
Crime project (Big Data Certification Course #6)
IMC Institute
 
จัดเตรียมข้อมูลอย่างไรให้เหมาะกับ Machine Learning
IMC Institute
 
การ์ทเนอร์ คาดการณ์แนวโน้ม 10 Technology 2018
IMC Institute
 
Thailand IT Trends 2018
IMC Institute
 

Mobile User and App Analytics in China

  • 1. Mobile User and App Analytics in China TEAM APACHE HADOOP, IMC INSTITUTE 30 JULY 2016
  • 2. IMC Institute: Apache Hadoop Team Logo Logo Credit: Agile Thailand 2016
  • 4. TalkingData คือบริษัทอะไร? "TalkingData เป็นแพลตฟอร์มของบุคคลที่สามข้อมูลมือ ถือที่ใหญ่ที่สุดของประเทศจีน ทางบริษัทเข้าใจว่าทางเลือกใน ชีวิตประจาวันและพฤติกรรมของผู้ใช้มือถือผลักดันให้พวกเรา สร้างคุณค่าต่างๆได้ ปัจจุบันบริษัท TalkingData กาลังมอง หาประโยชน์จากฐานข้อมูลพฤติกรรมผู้ใช้มือถือจากกว่า 70% ของ 500 ล้านโทรศัพท์มือถือที่ใช้งานใน ชีวิตประจาวันในประเทศจีนเพื่อช่วยให้ลูกค้าของตนเข้าใจ และมีปฏิสัมพันธ์กับผู้ใช้ของพวกเขา”
  • 6. โจทย์ปัญหา • พฤติกรรมการใช้แอพพลิเคชั่นของผู้ใช้มือถือ • แอพพลิเคชั่นประเภทใดได้รับความนิยมมากที่สุด • ผู้ใช้มือถือนิยมใช้แอพพลิเคชั่นในช่วงใดของวันและวันใดบ้างในแต่ละอาทิตย์ • จานวนผู้ใช้มือถือแบ่งตามเพศและอายุกลุ่มใดมากที่สุดที่ปรากฎในชุดข้อมูล • แบรนด์โทรศัพท์มือถือใดกาลังครองตลาดอยู่ในประเทศจีน • รุ่นโทรศัพท์มือถือใดกาลังครองตลาดอยู่ในประเทศจีน • ความสัมพันธ์ระหว่างจานวนแอพพลิเคชั่นในแต่ละประเภทของแอพพลิเคชั่น • เราจะมีวิธีอย่างไรบ้างในการคาดเดากลุ่มผู้ใช้มือถือตามการเข้าใช้งานแอพพลิเคชั่น • เราจะมีวิธีอย่างไรบ้างในการคาดเดาอัตราการใช้งานของผู้ใช้มือถือ
  • 7. จุดประสงค์ของโปรเจ็ค • เรียนรู้การใช้ AWS & Microsoft Azure เพื่อสร้าง Instances การทางานแบบ Single Node & Cluster (Lecture: อ.ธนชาติ) • ทราบถึงความสาคัญของ Big Data และวิธีการรับมือข้อมูลขนาดใหญ่ • การใช้ Hadoop เพื่อเก็บข้อมูลเข้า HDFS รวมไปถึงการดึงข้อมูลโดยใช้ภาษา SQL ผ่านเครื่องมือ Hive Impala และ SparkSQL • เรียนรู้การใช้ Mass Analytics Tools เพื่อการวิเคราะห์ข้อมูล แปลงจากข้อมูล เป็น Knowledge/Discovery (Lecture: อ.โกเมธ) • ทดลองการใช้ Machine Learning for Business แก้ปัญหาเชิงธุรกิจ • สร้าง Web-based and Interactive Visualization ด้วยภาษา Javascript เพื่อสวยงามและสะดวกต่อผู้ใช้บริการ (Lecture: อ.ชินวิทย์)
  • 8. คาอธิบายชุดข้อมูล TalkingData on “Kaggle” ข้อมูล Gender_age ประกอบด้วย 4 สดมภ์ 74,645 แถว มีคาอธิบายตัวแปรดังนี้ • Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้) ที่เป็นเฉพาะของผู้ใช้แอพพลิเคชั่น • Gender คือ เพศของผู้ใช้แอพพลิเคชั่น • Age คือ อายุของผู้ใช้แอพพลิเคชั่น • Group คือ การจัดกลุ่มอายุของผู้ใช้ของแอพพลิเคชั่น ซึ่งทาง TalkingData จัดไว้ให้แล้ว
  • 9. คาอธิบายชุดข้อมูล TalkingData on “Kaggle” ข้อมูล Phone Brand Device Model ประกอบด้วย 3 สดมภ์ 187,245 แถว มีคาอธิบายตัวแปรดังนี้ • Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้) ที่เป็น เฉพาะของผู้ใช้แอพพลิเคชั่น สดมภ์นี้สามารถรวมกับ Gender_age ได้ • Phone_brand คือ แบรนด์ของโทรศัพท์ผู้ใช้ (ในประเทศจีน เท่านั้น) เช่น 三星 (Samsung) 美图 (meitu) และ 酷 珀 (kupo) เป็นต้น • Device_model คือ รุ่นของโทรศัพท์ผู้ใช้ (ในประเทศจีนเท่านั้น) เช่น 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2 เป็นต้น
  • 10. คาอธิบายชุดข้อมูล TalkingData on “Kaggle” ข้อมูล Events ประกอบด้วย 5 สดมภ์ 3,252,950 แถว มี คาอธิบายตัวแปรดังนี้ • Event_id คือ รหัสการเกิดของเหตุการณ์การใช้แอพพลิเคชั่น • Device_id คือ หมายเลข (นิรนาม สาหรับข้อมูลชุดนี้) ที่เป็น เฉพาะของผู้ใช้แอพพลิเคชั่น สดมภ์นี้สามารถรวมกับ Gender_age ได้ • Timestamp คือ วันและเวลาของการเข้าใช้งานแอพพลิเคชั่น • Longitude คือ ลองจิจูดที่ TalkingData เก็บข้อมูลไว้จากการ ใช้แอพพลิเคชั่นของผู้ใช้งาน • Latitude คือ ละติจูดที่ TalkingData เก็บข้อมูลไว้จากการใช้ แอพพลิเคชั่นของผู้ใช้งาน
  • 11. คาอธิบายชุดข้อมูล TalkingData on “Kaggle” ข้อมูล App Events ประกอบด้วย 4 สดมภ์ 32,473,067 แถว มีคาอธิบายตัวแปรดังนี้ • Event_id คือ รหัสการเกิดของเหตุการณ์การใช้แอพพลิเคชั่น สดมภ์นี้สามารถรวมกับ Events ได้ • App_id คือ รหัสเฉพาะของแอพพลิเคชั่นนั้นๆ • Is_installed คือ แอพพลิเคชั่นได้รับการติดตั้งหรือไม่ (1 คือ ใช่ 0 คือไม่ใช่) • Is_active คือ แอพพลิเคชั่นยังคง active อยู่หรือไม่จากการ เก็บข้อมูลของ TalkingData ณ เวลานั้น (1 คือใช่ 0 คือไม่ใช่)
  • 12. คาอธิบายชุดข้อมูล TalkingData on “Kaggle” ข้อมูล App Labels ประกอบด้วย 2 สดมภ์ 459,943 แถว มีคาอธิบายตัวแปรดังนี้ • App_id คือ รหัสเฉพาะของแอพพลิเคชั่นนั้นๆ สดมภ์นี้สามารถรวมกับ App Events ได้ • Label_id คือ รหัสลาเบลเพื่อระบุประเภทของแอพพลิเคชั่น ข้อมูล Label_category ประกอบด้วย 2 สดมภ์ 930 แถว มีคาอธิบายตัวแปรดังนี้ • Label_id คือ รหัสลาเบลเพื่อระบุประเภทของแอพพลิเคชั่น สดมภ์นี้ สามารถรวมกับ App Labels ได้ • Category คือ หมวดหมู่ของแอพพลิเคชั่น เช่น game-Game themes, game-Art Style, Internet Banking และ Romance เป็นต้น
  • 16. Vs.
  • 18. • เข้าใจกระบวนการเก็บข้อมูลของบริษัทโทรคมนาคมมากขึ้น อาจเป็นประโยชน์ต่อบริษัทในประเทศไทยหากต้องการวิเคราะห์ลูกค้าในรูปแบบที่ คล้ายกันกับโจทย์นี้ • เข้าใจพฤติกรรมของผู้ใช้งานแอพพลิเคชั่นว่า ต้องการแอพพลิเคชั่นประเภทใด ใช้ช่วงเวลาใดของวันและช่วงอาทิตย์ จากการวิเคราะห์พบว่า คนเข้าใช้ มือถือในเวลา 11:00 am. และ 11:00 pm. มากที่สุดและคนเข้าใช้วันอังคารมากที่สุด จากกราฟเส้นของเวลาการใช้ตามอาทิตย์ ข้อมูลดังกล่าวเป็น ประโยชน์ต่อนักพัฒนาแอพพลิเคชั่นและนักการตลาดทั่วโลกในการตอบสนอง Demand ของผู้ใช้ • แบรนด์โทรศัพท์ยอดนิยม 3 อันดับแรกได้แก่ 小米, 三星, และ 华为 และโมเดลโทรศัพท์ 3 อันดับแรกได้แก่ 红米note, MI 3, และ MI 2S • จากการวิเคราะห์แผนที่ของผู้ใช้งานแอพพลิเคชั่นทาให้สามารถ Traceback สถานที่การใช้งานของผู้ใช้แอพพลิเคชั่นในแต่ละกลุ่มตามเพศและอายุ รวมไปถึงแบรนด์โทรศัพท์และรุ่นโทรศัพท์มือถือ • การทดสอบโมเดล Classification พบว่าปัจจัยที่สาคัญได้แก่จานวนการลงแอพพลิเคชั่น จานวนการใช้แอพพลิเคชั่น จานวนเหตุการณ์การเข้าใช้ แบ รนด์โทรศัพท์มือถือ และโมเดลโทรศัพท์มือถือ • การทดสอบโมเดล Regression พบว่าปัจจัยสาคัญได้แก่ อายุ เพศ จานวนเหตุการณ์การเข้าใช้ แบรนด์โทรศัพท์มือถือ และโมเดลโทรศัพท์มือถือ