Data scientist : case of twitter and facebook
Data Science
Science แปลว่า วิทยาศาสตร์
Scienctist แปลว่า นักวิทยาศาสตร์
Data scientist คือ ศาสตร์แห่งการเก็บและเปลี่ยนแปลงข้อมูลไปสู่ความรู้
Harvard Business Review ได้ตีพิมพ์ “Data Scientist: The Sexiest Job of the 21st Century” ตั้งแต่ปี 2012 และนั่นคือหลักฐานและประโยคที่ใช้อ้างอิงกันมากที่สุดว่า Data Science นั้นเป็นเทรนด์ของโลกที่ปฏิเสธไม่ได้ ซึ่งจริงๆ แล้วการวิเคระห์ข้อมูลนั้นมีมานานแล้วครับ เราคงเคยได้ยินศาสตร์ของ Business Analytics หรือ Business Intelligence ดีอยู่แล้ว เพียงแต่ในรอบหลายปีที่ผ่านมาปริมาณข้อมูลที่ไหลเวียนอยู่บนโลกใบนี้นั้นมันมีขนาดมหาศาลและเติบโตอย่างก้าวกระโดด [brandinside.asia]
Data Science นั้นเกิดประกอบขึ้นจาก 3 ศาสตร์หลักๆ ครับคือ Hacking Skill (สกิลเกี่ยวกับ Computer Programimg, Data Base, Big data Technologies), Statistic & Math และ Substantive Expertise (บางแห่งก็จะเรียกว่า Domain Knowledge) ที่จำเป็นต้องการประยุกต์ใช้


+ FB Page : BICommunities
MySQL
Analysis by SPSS
Report by PHP
Report by Flash
Report by JAVA
WEKA for Data Mining
Data Science : Chula Engineering & 5 Level

1/4 (Twitter & Facebook)

2/4

3/4

4/4

growthbee.com
Data science 101
คลิ๊ปแรก : seminar
ฟังวิทยากรจาก facebook กับ twitter มาพูดหัวข้อ "Data Science 101" โดย ผศ.ดร.โปรดปราน บุณยพุกกณะ เป็นผู้แนะนำวิทยากรทั้ง 2 ท่าน เมื่อ 16 ม.ค.2558 1) วิทยากร พี่ต้า - ดร.วิโรจน์ จิรพัฒนกุล (Facebook : slide) 2) วิทยากร พี่หมู - ดร.กฤษฎิ์ วงศ์ศุภสวัสดิ์ (Twitter : slide, Happy new year)

คลิ๊ปหนึ่ง : ในห้องเรียน
Clip - Big data กับการประชาสัมพันธ์ : พี่หมูแนะนำโปรแกรมที่ทำงานกับข้อมูลได้ยืดหยุ่น พี่หมู พูดถึง Data.gov, Tableau [48.20] (Tableau can help anyone see and understand their data. Connect to almost any database, drag and drop to create visualizations, and share with a click.) หากจะ generic เยอะ ๆ ตัวที่ใช้กัน คือ Tableau เสียตังหน่อย เปลี่ยนค่าได้เยอะ ทำได้เร็ว หรือ Open source ก็มี D3.JS เป็น Data-Driven Documents
DS 101 : พี่ต้า วิทยากร พี่ต้า - ดร.วิโรจน์ จิรพัฒนกุล (Facebook : slide)
1/4
6.40 - Data Scientist : The Sexiest Job of the 21st Century - Harvard Business Review
6.50 - What is data science? - นิยามขึ้นกับแต่ละธุรกิจ : data engineering หรือ data warehousing , data analyst
7.40 - 1. transforming data into "valuable insights"
7.50 - ex 1. meme คือข้อมูลที่แชร์ต่อ ๆ กัน ตัวอย่างคือ text บน facebook ที่ copy - change - paste
9.30 - ex 2. ทดลอง ad บน facebook
11.50 - ex 3. สำรวจ vote มี 2 version ส่งเสริมเลือกตั้ง ช่วยสังคม
13.10 - ex 4. data.gov มีข้อมูลที่เปิดเผยของภาครัฐ สำหรับ data scientist
14.00 - ex 5. ข้อมูลโทร 911 ใช้กำหนดตำแหน่งวางรถลาดตะเวน
15.00 - 2. transforming data into "data products"
15.10 - ex 1. people you may know : เครือข่ายของเพื่อนเรา เป็น network effect มี suggest friend
16.00 - เสนอเพื่อน เป็นการนำ data มาใช้แล้วได้ new product (เพื่อนสนิท มีเงื่อนไขมาก)
16.50 - ex 2. amazon เสนอหนัง หรือสินค้าที่เกี่ยวข้องจาก browsing history เพื่อให้ซื้อของเยอะที่สุด
17.30 - แนะนำสินค้า ยี่ห้ออื่น ที่อาจดีกว่าที่กำลังดูอยู่
18.00 - ex 3. credit card เก็บข้อมูลว่า รูดบัตร จากสถานที่ที่ไม่ปกติ ก็จะแจ้งเตือน
18.30 - ex 4. gmail มี function จัด mail ตามลักษณะ เช่น junk, social, promotion เช่น wongnai
19.30 - 3. transforming data into interesting stories
19.40 - ex 1. google ตรวจสอบว่า ไข้หวัด จะระบาดหรือไม่ ผ่าน keyword (Fue trends estimate)
20.30 - ระบบของ google สามารถ predict ได้ใน realtime ต่างกับระบบ CDC ปกติ อีกนาน
20.50 - ex 2. มาจากเมืองอะไร ปัจจุบันอยู่เมืองอะไร ทำให้ตรวจสอบการอพยพย้ายถิ่น
21.40 - ex 3. jawbone ทำการแสดงข้อมูลช่วง world cup ว่าทำให้คนนอนดึก ตืนสาย มากขึ้นอย่างไร
22.20 - ex 4. พ่อแม่ มาอยู่ในเฟสบุ๊ค ครอบครัวคุยอะไรกัน แล้วอายุเท่าไร เด็ก ๆ ไม่อยากคุยกับลูก
23.00 - เมื่ออายุ 13 ลูกชาย เริ่มคุยกับพ่อแม่น้อยลง ลูกสาวยังคุยอยู่ และพ่อแม่ต้องเป็นฝ่ายเริ่มก่อน 70%
24.00 - ส่วนแรกจบไปแล้ว ทำให้รู้แล้วว่าเราเอา data มาทำอะไร
24.10 - ส่วนที่สอง Elements of data science
24.30 - Hacking skills (coding), math & statistics knowledge, substantive expertise (domain knowledge)
25.30 - 1) coding - sql ดึงข้อมูลออกมา จัดค่า string ใหม่, check valid, ทำ prototype
26.30 - ใช้ Python หรือ R ในการ analyst ข้อมูล
27.00 - ต้องมี version control มี git ควบคุม เพื่อทำงานกับเพื่อนร่วมงาน
27.20 - 2) Statistics - How to lie with statistics , Darrell Huff
28.00 - ข้อมูลการอพยพ ใช้ได้ แต่ยังใช้ไม่ได้จริง เพราะต้องใช้ข้อมูลของ UN ประกอบ เพราะเป็นประชากรเฟสบุ๊ค ไม่ใช่ประชากรโลก
28.30 - Big data, Big pile of junk (?) - data wrangling ทะเลาะกับข้อมูลก่อน
28.40 - เปลี่ยน relation บ่อยเพียงใด แต่บางคนเปลี่ยนทุกวัน เรื่องมีแฟน
29.00 - เป็นคนที่ไหนก็ต้อง clean up บางคนตอบ ประเทศไทย, thailand, ไทย ที่ไม่เหมือนกัน
29.30 - HBR ที่ว่า DS เป็น Sexiest นั้นน่ะ มัน Tedious น่าเบื่อมาก เพราะต้องคอย clean up คอย match ก่อนทำ analyst
30.00 - ข้อมูล เมื่อวานยังไม่แต่งมีสามี 0 คน วันนี้แต่งมีสามี 1 คน อีก 1 เดือนมีสามีกี่คน ดู growth จะ make sense ไหม
2/4
00.30 - Correlation != Causation สัมพันธ์กัน อาจไม่เป็นเหตุเป็นผลกันก็ได้
00.45 - Plot graph เส้นทับกันเลย ระหว่าง Ice cream consumption กับ murders (สาเหตุหลักเพราะอากาศร้อน)
01.30 - พบใน paper ว่า พบว่า correlation จึงสรุปว่าเป็น เหตุเป็นผลกัน causation
(นึกถึง จำนวนควายที่ลดลง กับ จำนวนผลผลิตที่เพิ่มขึ้น)
01.40 - Causal inference คือ การอนุมานเชิงสาเหตุ เพื่อทดสอบความเป็นเหตุเป็นผล
01.45 - Randomized controlled experiments, a/b testing สมมติฐานว่า a กับ b ต่างอย่างมีนัยสำคัญหรือไม่
02.10 - 3) Machine learning
02.20 - Machine learning คือการสอน เป็นการให้ข้อมูล แล้วสร้างแบบจำลอง เพื่อเอาไปใช้กับข้อมูลใหญ่ต่อไป
02.50 - นึกถึงสอนเด็ก ว่าส้ม ใหญ่หน่อยสีเหลือง และมะนาว เล็กหน่อยสีเขียว เริ่มมีแบบจำลองในหัว
03.21 - Machine learning tasks : regression, classification, clustering, collaborative filtering, etc.
03.30 - regression คือ ใช้ predict ค่าว่าจะเป็นเท่าไร
03.40 - classification คือ ใช้ detection เช่น บอกได้ว่า ส้ม หรือ มะนาว จริง หรือโกง
03.50 - clustering คือ ใช้แยก section ว่าใครเป็นกลุ่มไหน พฤติกรรมต่างกันอย่างไร
04.10 - collaborative filtering คือ recommender system ตามตัวอย่างแนะนำเพื่อน facebook
04.30 - งานไม่ยาก เพราะ 1 อย่าง ก็ 1 บรรทัด ที่ยากคือ "การเตรียมข้อมูล"
04.40 - garbage in, garbage out จะ predict ได้ ต้องมีข้อมูลที่ดีก่อน เพื่อสร้างแบบจำลอง
04.50 - จะสอบให้เด็กแยกส้มกับมะนาว เอามะนาวไป แล้วบอกเด็กว่าส้ม เด็กก็จะงง
05.30 - avoid overfitting มีสมมติฐาน และแบบจำลอง ถ้าข้อมูลเข้าแล้วได้ผลไม่ตามคาด ก็ต้อง monitoring ตลอด
05.55 - ตัวอย่างปัญหา overfitting "When google got flu wrong" คือ ทำนายผลไข้หวัดระบาด ผิดพลาด
06.10 - เตรียม vaccine ตามผล predict ของ google แต่ไข้หวัดไม่ระบาดตามผลทำนาย อาจเปลี่ยน keyword
07.00 - Domain expertise : ต้องเข้าใจในธุรกิจ ในสินค้าของเรา (metric คือ การวัด การวัด การวัด)
07.20 - measure the right things เช่น feature ใหม่ ทำให้ time spend เพิ่มขึ้นรึเปล่า
07.30 - ตัวอย่างการวัดที่ผิดพลาด คือ ใส่ feature ที่พังเข้าไป คนโหลดไม่ขึ้น time spend ก็จะเยอะขึ้น - จะใช่ไหม
08.10 - microsoft ปรับ layout มีปุ่มขายให้ชัดเจน โดย ทำปุ่มให้ชัด และมีราคากำกับ ผลคือ คลิ๊กลด แต่ยอดขายอาจไม่ลด
09.00 - พบว่า layout ทำให้ยอดคลิ๊กลด แต่ object ของ project คือ ขาย ดังนั้น ต้องวัดว่า ยอดขาย ลดหรือไม่
09.15 - ซึ่ง convertion rate สูงกว่า แบบแรกที่คลิ๊กเฉย ๆ แต่แบบที่สอง คลิ๊กแล้ว มักจะซื้อ
09.20 - เป็นตัวอย่างว่า ต้องวัดผลในสิ่งที่ถูกต้อง
09.25 - Beyond model accuracy นอกจากความถูกต้องแล้ว ยังมี speed, simplicity, cost of obtaining data, ...
11.10 - How target figured out a teen girl was pregnant before her father did ทำนายว่าใครท้อง แล้วส่ง cat ขายสินค้า
11.50 - Target หาข้อมูลแบบนี้ยากไหม ไม่ยาก แต่เหมาะสมหรือไม่ อาจต้องพิจารณา
12.30 - Vistualization มี data set ไม่เหมือนกันด้วย graph แต่ไปหาสถิติ หาค่าเฉลี่ย หรือค่าความสัมพันธ์ ก็อาจไม่รู้ว่า ไม่เหมือนกันด้วย
13.30 - Exploratory data analysis ได้ข้อมูลมา ต้องนั่งดูข้อมูลก่อน
(summarize and visualize important characteristics of a data set)
14.20 - ข้อมูลนักเตะคนไหน popular ในประเทศไหนมากกว่ากัน
14.30 - ข้อมูล election การเลือกตั้ง ก็เป็นอีกผลงานหนึ่ง
DS 101 : พี่หมู วิทยากร พี่หมู - ดร.กฤษฎิ์ วงศ์ศุภสวัสดิ์
15.30 - Data visualization
16.00 - Infographic, Interactive graphic
16.20 - A picture is worth more than a thousand words - ใครสักคนได้กล่าวไว้
16.30 - การส่งของ ของ Fedex
16.40 - 1. Data -> Picture -> Visual display ดูแล้วเข้าใจ ง่ายกว่าอธิบายเป็นชั่วโมงให้เข้าใจภาพนั้น
16.52 - 2. What is it good for?
17.00 - ex. history of wikipedia "French invasion of Russia"
17.30 - ค้น "Carte figurative" พบแผนภาพแสดงขนาดกองทัพ แผนที่ เวลา อุณหภูมิ
18.20 - มี 6 มิติ ตำแหน่งเดินทัพ แผนที่ ปริมาณ ทิศทาง อุณหภูมิ เวลา
18.40 - ex. cholera epidemic การระบาดของอะหิวาที่ลอนดอน พบปัญหาโดย john snow โดย plot แผนที่ พบป้ำน้ำ
20.10 - ประโยชน์ 2 อย่างคือ Storytelling (Communicate known information) กับ Exploratory data analysis (Explore data to reveal insights)
20.30 - more powerful (Visualization = Visual display + Interaction)
20.50 - ภาพสถิติชื่อเด็ก ตั้งแต่อดีต ถึงปัจจุบัน ที่ Namevoyager http://www.babynamewizard.com/voyager (Lily, John, Robert)
21.50 - 3. How is it related to data science?
21.55 - goal of data science - turn data into 1) valuable insights 2) data product 3) interesting stories
22.10 - raw data -> data wrangling -> exploratory data analysis -> in-depth analysis -> report results -> output
22.15 - data wrangling ทะเลาะกับข้อมูลก่อน - join ตารางไม่เป็น หรือ เก็บมาผิดพลาดบ้าง
22.20 - output = 1) insights 2) product 3) stories
23.00 - 4. example projects
23.10 - 4.1 Ballon d'Or ประกาศผล ยอดนักฟุตบอลของโลก รางวัลลูกบอลทองคำ
23.20 - Candidate 3 คน - Cristiano Ronaldo, Lionel Messi, Neymar
23.40 - Fifa released voting data (PDF 17 pages)
23.50 - Rules : 3 voters / country (National team captain, National team coach, Journalist) และเลือกได้ 3 คน
24.50 - ใช้ Tableau สาธิตการนำเสนอข้อมูล
27.48 - 4.2 Public-facing vis & New year 2013
28.00 - interactive.twitter.com - https://twitter.github.io/interactive/newyear2014/
28.30 - ตำแหน่ง tweet บนแผนที่ ระบุว่าตรงไหน tweet เยอะ
29.10 - ดูความสูง 3D ที่ San francisco http://twitter.github.io/interactive/andes/
3/4
00.20 - สวัสดีปีใหม่กันอย่างไร - มีเยอะมาก
01.10 - Challenges - Too much data, want only relevant tweets - สวัสดีปีใหม่ , หวัดดีปีใหม่ , หวัดดีปีหม่าย
01.30 - run ไปทีก็ 5000 เครื่อง ตื่นเช้ามา ถึงได้ข้อมูล
01.40 - ต้องเขียน script สั่งงาน รอไป 5 ชั่วโมง แล้วพบว่า เขียนผิด ก็ต้อง run ใหม่
02.20 - ได้ข้อมูลมาส่วนหนึ่ง ก็โยนเข้า tableau แล้วได้ relationship อะไรบ้าง
02.30 - ก็ได้ได้ภาษา แตกต่างกันไปตาม timezone
02.50 - ชี้ไปที่ peak แต่ละอัน แล้วก็ต้อง highlight พบว่ามีภาษามากมายในแต่ละ timezone
04.10 - พบว่าใช้ภาษาไทย ที่ timezone +7 แต่พบว่า ญี่ปุ่นเกาหลีก็เยอะ
04.30 - ทฤษฎีแรก เราไปเที่ยงเยอะ อีกทฤษฎีไปเรียนกันเยอะ ชอบทฤษฏีสุดท้าย ติ่งเกาหลีสวัสดีปีใหม่โอปป้าของเค้า
05.50 - ทำ product ที่เค้าใช้ประโยชน์ - เก็บบันทึก log ว่าทำอะไร แล้วไปไหนต่อบ้าง
12.10 - สรุป Data visualization
1) What is it about? (Data -> Visual display + Interaction)
2) What is it good for? (Exploratory data analysis & Story telling)
3) How is it related to data science? (It is one of the skills often utilized in the process)
4) Example projects
D3.js เป็น JavaScript library สำหรับ Powerful Vistualization

ต.ย. Adjustable Link Strength

ต.ย. ใน bl.ocks.org
เว็บไซต์ที่เกี่ยวข้อง
+ D3 Gallery in github
+ D3 Gallery in mbostock
+ AdjustableLinkStrength:htm
+ AdjustableLinkStrength:php
+ AdjustableLinkStrength2:php
พี่หมู - ดร.กฤษฎิ์ วงศ์ศุภสวัสดิ์ บรรยายเรื่อง Big data กับการประชาสัมพันธ์ หรือ Data Scientist และในนาทีที่ 48.20 พูดถึง D3.js สำหรับ Web developer ใช้เพื่อนำเสนอข้อมูลได้หลายมุมมอง สรุปแล้ว D3.js คือ JavaScript library สำหรับจัดการนำเสนอเอกสารจากข้อมูล ช่วยให้ข้อมูลดูมีชีวิตโดยใช้ HTML, SVG, and CSS ซึ่ง D3 เน้นนำเสนอบน Web ผ่าน Browser แบบ Visualization โดยไม่ต้องพิมพ์รายงานเอง ตามแนวคิดแบบ data-driven approach
ต.ย. เขียนสามวงกลม d3_3circle.htm (ทำงานได้บน xampp)
<html><head><title>d3_3circle.htm</title></head>
<body><script src="https://d3js.org/d3.v5.min.js"></script>
<svg width="720" height="120" style="background-color:yellow">
  <circle cx="40" cy="60" r="10"></circle>
  <circle cx="80" cy="60" r="10"></circle>
  <circle cx="120" cy="60" r="10"></circle>
</svg>
<svg width="360" height="60"  style="background-color:gray">
  <circle cx="40" cy="30" r="5" style="fill:steelblue;"></circle>
  <circle cx="80" cy="30" r="5" style="fill:red;"></circle>
  <circle cx="120" cy="30" r="5"></circle>
</svg>
</body></html>
งานมอบหมาย Link from source to target บน D3JS
งานมอบหมาย - ให้นักศึกษาที่ลง BI
ไปหาข้อมูลมาทำเหมือง เรื่องสถานที่ท่องเที่ยว
ในจังหวัดสัก 3 - 4 จังหวัดที่ใกล้กัน
พร้อมระยะทาง และเชื่อมลิงค์
ไปยังจังหวัดข้างเคียง เอา data มาลง json
แล้วใช้ d3js นำเสนอเป็น visualization น่าจะดี
เป็นวิชาสุดท้ายก็ควรใช้ xampp เป็นเช่นกัน
ถ้าเลือกที่เที่ยวตามจำนวน ดาว ได้ก็เยี่ยมเลย

http://goo.gl/72BPC