วิชาสถิติคลาสสิคในกระแส Big Data… และสามล้อตกงาน

Data Scientist

กระแส Big Data ในปี 2020 ได้ยึดหัวหาดเรื่องความสำคัญต่อความรุ่งโรจน์หรือรุ่งริ่ง ระหว่างคนมีและใช้ Big Data เป็น… กับคนไม่มีหรือไม่รู้วิธีใช้ Big Data เพื่อนำพาตัวเองหรือองค์กรออกจากความล้าหลังที่รอวันถดถอยค่อนข้างแน่

เมื่อวันจันทร์ที่ผ่านมาผมแตะเรื่อง Data ในบทความบน Properea.com ด้วยการจบงานเขียนบทนั้นว่า… Data Is New Oil แล้วก็ได้ข้อความจาก Reder Fan/Properea Fan ท่านหนึ่งให้เปิดประเด็นเกี่ยวกับสถิติและ Big Data ทั้งจุดร่วมจุดต่างและประเด็นใช้งานเชิงประยุกต์ในวันที่ Big Data มีแนวโน้มที่จะเปลี่ยนนิยามของวิชาสถิติให้กว้างและลึกไปกว่าเดิม…

ผมลอกการบ้าน ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์… อาจารย์ประจำ หลักสูตรการวิเคราะห์ธุรกิจและวิทยาการข้อมูล สถาบันบัณฑิตพัฒนบริหารศาสตร์ หรือนิด้าที่เรารู้จักกันดีมาอ้างอิงน๊ะครับ… ผมวางลิงค์ต้นฉบับไว้ใต้อ้างอิงให้ทุกท่านเช่นเดิม

วิชาสถิติจัดว่าเป็นวิชาที่ใหม่มากเมื่อเทียบกับวิชาคณิตศาสตร์ หรือวิชาวิทยาศาสตร์ … วิชาสถิติมีอายุเก่าแก่เพียงสองร้อยกว่าปีเท่านั้น และมีรากฐานมาจากวิชารัฐศาสตร์ โดยพยายามเก็บข้อมูลเพื่อนำมาใช้ในการวางแผนนโยบาย และการตัดสินใจต่างๆ ของรัฐ… แม้แต่คำว่าสถิติในภาษาอังกฤษก็คือ Statistics ยังมีรากศัพท์เดียวกันกับคำว่า State ที่แปลว่ารัฐ

วิชาสถิติคือทฤษฎีความน่าจะเป็น หรือการอนุมานด้วยสถิติ ซึ่งสอดคล้องกับการเก็บข้อมูลจากการสำรวจตัวอย่าง หรือ Sample Survey และการเก็บข้อมูลจากการทดลอง หรือ Experiment อันเป็นการเก็บและบันทึกข้อมูลจากตัวอย่างไม่มากนัก แต่ต้องอ้างอิงกลับไปสู่ประชากรเป้าหมายได้

แต่แล้ววิทยาการคอมพิวเตอร์ก็มาถึงยุคของการบันทึกข้อมูลได้มากมายจากทุกสิ่งทุกอย่างที่ไหลผ่านคอมพิวเตอร์และเครือข่าย… รวมทั้งการมาถึงของยุค IoT หรือ Internet of Things ที่ทุกสิ่งทุกอย่างที่เชื่อมต่อกับเครือข่ายคอมพิวเตอร์ได้… ก็ผลิตข้อมูลมากมายได้ไม่หยุดย่อน… ทำให้ข้อมูลน้อยนิดที่นักวิจัยหรือนักสถิติยุคเก่า… ดูไม่น่าเชื่อถือเท่ากับการประมวลผล Big Data ที่ข้อมูลมากกว่ามาก ปนเปื้อนคลาดเคลื่อนไม่มากและผิดพลาดน้อยกว่า

ซึ่ง Big Data ในปัจจุบันต้องมีถึง 4 คุณลักษณะคือ

1. Volume ต้องมีขนาดข้อมูลใหญ่มหาศาลที่ต้องใช้เทคโนโลยีเฉพาะเข้ามาจัดการ
2. Velocity มีความเร็วและอัตราการไหลสูงและต่อเนื่อง
3. Variety มีข้อมูลหลากหลายชนิดข้อมูล และมีความซับซ้อนของการเชื่อมโยงของข้อมูลอย่างน่าอัศจรรย์
4. Veracity ซึ่งเป็นนิยามใหม่ของ Big Data ที่อ้างถึงคุณภาพของข้อมูลและคุณค่าที่ข้อมูลสะสมไว้อย่างเที่ยงตรง

ประเด็นก็คือ… ข้อมูลใหญ่ขึ้นเรื่อยๆ ทุกวินาที ทำให้การจัดการข้อมูลระดับสถิติทั่วไปอย่างที่เป็นมา… กลายเป็นความผิวเผินที่ใช้ประโยชน์ได้เพียง “แจ้งให้ทราบ” ในขณะที่มิติของข้อมูลส่วนใหญ่ยังรอการสังเคราะห์จากวิทยาการข้อมูลที่ล้ำเลิศกว่านั้น

วิทยาการข้อมูลหรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลขนาดใหญ่ และข้อมูลสมัยใหม่ที่แม้แต่เทคโนโลยีฐานข้อมูลความสัมพันธ์ หรือ Relational Database แบบตารางความสัมพันธ์ที่คุ้นเคย… ก็จัดเก็บและจัดการข้อมูลไม่ได้แล้ว

เนื่องจากข้อมูลสมัยใหม่ที่เป็น Big Data เป็นข้อมูลแบบไร้โครงสร้าง หรือ Unstructured Database ที่เปลี่ยนไปอย่างรวดเร็ว… ลองนึกถึงตารางเก็บข้อมูลชื่อกับนามสกุลที่ใช้สองช่องก็พอเป็นส่วนใหญ่… แต่แล้ววันหนึ่งก็มีคนใช้สองนามสกุลเกิดขึ้น… ประเด็นแบบนี้เพียงเรื่องเดียวก็อาจจะทำให้ต้องออกแบบระบบให้มีตารางเก็บชื่อนามสกุลมากกว่าสองช่องข้อมูล หรือไม่ก็ต้องบีบให้นามสกุลทั้งสองข้อมูลไปรวมเป็นข้อมูลเดียวแทน ที่ข้อมูลย่อมถือว่าไม่ถูกต้องแม่นยำไปแล้ว เมื่อต้องนำข้อมูลกลับมาประมวลผล

วิทยาการข้อมูล หรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลในมิติต่างๆ ที่มีวิวัฒนาการเช่นเดียวกับธรรมชาติแขนงอื่น ที่วิวัฒน์ไปเรื่อยๆ เป็นเงาตามความก้าวหน้าของวิทยาการล้ำโลกโดยเผ่าพันธุ์มนุษย์

จุดสำคัญจึงอยู่ที่… เมื่อ Big Data และ Data Sciences เข้ามา… สิ่งที่ตามมาคือบุคลากรจากสายวิทยาศาสตร์ข้อมูล กลายเป็นคนเข้ามาทำงานเดิมที่บุคลากรสายงานสถิติเคยทำอยู่

งานสัมมนาที่จัดขึ้นโดย Royal Statistical Society ซึ่งเป็นสมาคมวิชาชีพทางสถิติอันเก่าแก่และทรงเกียรติในสหรัฐอเมริกา ในหัวข้อ Data Science and Statistics: different worlds? ได้ให้ข้อสรุปว่า… แท้จริงแล้ว Data Science กับ Statistics หรือ สถิติ เป็นเหรียญเดียวกันแต่คนละด้าน เพราะวัตถุประสงค์ยังเหมือนกันคือการจัดการรวบรวมข้อมูล วิเคราะห์ข้อมูล สรุปผล เสนอแนะ และนำสารสนเทศที่ได้ไปใช้งาน

Data Science Venn Diagram

แต่ประเด็นก็ไม่ได้จบง่ายๆ ด้วยข้อสรุปว่าเป็นเหรียญเดียวกัน เพราะยังมีคนเห็นแย้งที่แม้แต่คนจากสายอาชีพนักสถิติบางส่วนยังบอกว่า… ไม่น่าจะใช่เหรียญเดียวกันแต่คนละด้านอย่างที่เข้าใจหรอก… มันเป็นเหรียญรุ่นใหม่ที่จะเอามาใช้แทนเหรียญแบบเดิมที่ไม่ตอบโจทย์แล้วหล่ะมากกว่า… ที่สำคัญกว่านั้น งานสถิติเป็นส่วนหนึ่งของ Data Sciences ที่ทักษะวิชาชีพทางสถิติ ถูกทักษะวิชาชีพด้านวิทยาศาสตร์ข้อมูลรวมเอาไว้หมดแล้ว

ที่จะบอกก็คือ วิทยาการสถิติ ไม่ได้หายไปไหนและยังสำคัญเทียบเท่าหรือยิ่งกว่าที่เคยเป็นมา… แต่คนทำสถิติเป็นหรือมีทักษะกับสถิติยุคคลาสสิค… คงเหมือนอาชีพคนถีบสามล้อที่แม้แต่คนขี่มอเตอร์ไซค์รับจ้างก็กลืนอาชีพเก่าแก่แบบนี้ไปได้แล้ว

ข่าวดีก็คือ… ถ้านักสถิติคลาสสิค Upgrade ตัวเองไปเป็น Data Scientists ได้ในวันที่ AI ยังเป็นเด็กน้อยอยู่อย่างในปัจจุบัน… ท่านน่าจะมีที่และทางให้ไปต่อได้อีกไกล…

อ่อ!!! รวมทั้ง “นักวิจัยรุ่นคลาสสิค” ด้วยน๊ะครับ!

อ้างอิง

Wikipedia.org
Statslife.org
Dr.Arnond Sakworawich

Share this post

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email
Add Reder's Line friends

เพิ่ม Reder เป็นเพื่อนทาง Line... เรามีเรื่องเล่าและแรงบันดาลใจส่งถึงท่านบน Timeline ทุกวัน และ รบกวนท่านผ่านข้อความ Chat เท่าที่จำเป็น

Related Post

LIDAR

LIDAR ดวงตาของรถไร้คนขับ #สุดสัปดาห์พาดูรถ

LIDAR หรือ Light Detection and Ranging เป็นเทคโนโลยีเซนเซอร์คล้ายเรดาห์ เพียงแต่ LIDAR ยิงแสงเลเซอร์ออกไปให้เซนเซอร์รับคลื่นสะท้อนกลับและสร้างภาพ 3 มิติความละเอียดสูงขึ้นมา… ซึ่งภาพที่ได้จะเป็นภาพที่คอมพิวเตอร์อ่านและเข้าใจ ซึ่งเป็นภาพคนละแบบกับที่ตามนุษย์มองเห็น… ที่สำคัญกว่านั้นคือ LIDAR สร้างภาพ Dynamic ร่วมกับการตรวจสอบตำแหน่งภาพบน GPS หรือ Global Positioning System เพื่อตรวจสอบการเคลื่อนที่ของวัตถุเคลื่อนที่ในภาพ ประมวลผลเปรียบเทียบกับตัวรถตลอดเวลา แบบไม่มีง่วง ไม่มีหลับในและไม่ต้องดื่มกาแฟแก้ง่วงด้วย

Risk Rules

เทคนิคการวิเคราะห์ธุรกิจแบบ Venture Capital #RederSMEs

ในทางปฏิบัติ… VC จะเอาเงินทุนของตัวเองไปลงหุ้นกับ Startup ที่เชื่อมั่นว่า “ใส่เงินทุนก้อนหนึ่งเข้าไปแล้วธุรกิจจะเติบโตคุ้มค่าเงินลงทุน” ซึ่ง VC แต่ละกองก็จะมีวิธีพิจารณาธุรกิจที่อยู่ในระยะ Starup หรือ ระยะริเริ่ม… ซึ่งผมคิดว่าสามารถเอามาปรับใช้กับ “วิธีพิจารณาเริ่มต้น หรือ เพิ่มเงินลงทุน หรือ ขยายกิจการของ SMEs” จากระยะเริ่มต้นได้เหมือนกัน…

Market Segmentation

Market Segmentation… หัวใจของกลยุทธ์การดำเนินธุรกิจที่แม่นยำ

การออกแบบธุรกิจในหนึ่ง Business Model ที่เราพูดถึงลูกค้าและตลาดกันนั้น เบื้องหลังจริงๆ ของการกำหนดตัวลูกค้าหลักกับตลาดหลัก จะเป็นการระบุ Market Segmentation หรือ สัดส่วนการตลาดที่ต้องการส่วนแบ่งจากการทำธุรกิจที่กำลังออกแบบอยู่

Food preservation

บันทึกย่อ… แนวทางแปรรูปผลผลิตทางการเกษตรไปเป็นสินค้า #SaturdaySME

SMEs สินค้าเกษตรแปรรูป… ถือเป็นวาระใหญ่เรื่องหนึ่ง ที่ทุกรัฐบาลเข้ามาบริหารประเทศ ต่างหาทางผลักดันกันมานาน ชัดเจนที่สุดก็คงเป็นกรณีการเกิดคำว่า OTOP ขึ้นในประเทศไทยสมัยนายกรัฐมนตรีชื่อ พันตำรวจโท ทักษิน ชินวัตร ที่มีดาวเด่นอย่าง อาจารย์สมคิด… ดร.สมคิด จาตุศรีพิทักษ์ ดูแลเรื่องเศรษฐกิจ โดยมีลูกศิษย์อย่าง ดร.สุวิทย์ เมษินทรีย์ ติดตามช่วยงานมาตั้งแต่คราวนั้น