วิชาสถิติคลาสสิคในกระแส Big Data… และสามล้อตกงาน

Data Scientist

กระแส Big Data ในปี 2020 ได้ยึดหัวหาดเรื่องความสำคัญต่อความรุ่งโรจน์หรือรุ่งริ่ง ระหว่างคนมีและใช้ Big Data เป็น… กับคนไม่มีหรือไม่รู้วิธีใช้ Big Data เพื่อนำพาตัวเองหรือองค์กรออกจากความล้าหลังที่รอวันถดถอยค่อนข้างแน่

เมื่อวันจันทร์ที่ผ่านมาผมแตะเรื่อง Data ในบทความบน Properea.com ด้วยการจบงานเขียนบทนั้นว่า… Data Is New Oil แล้วก็ได้ข้อความจาก Reder Fan/Properea Fan ท่านหนึ่งให้เปิดประเด็นเกี่ยวกับสถิติและ Big Data ทั้งจุดร่วมจุดต่างและประเด็นใช้งานเชิงประยุกต์ในวันที่ Big Data มีแนวโน้มที่จะเปลี่ยนนิยามของวิชาสถิติให้กว้างและลึกไปกว่าเดิม…

ผมลอกการบ้าน ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์… อาจารย์ประจำ หลักสูตรการวิเคราะห์ธุรกิจและวิทยาการข้อมูล สถาบันบัณฑิตพัฒนบริหารศาสตร์ หรือนิด้าที่เรารู้จักกันดีมาอ้างอิงน๊ะครับ… ผมวางลิงค์ต้นฉบับไว้ใต้อ้างอิงให้ทุกท่านเช่นเดิม

วิชาสถิติจัดว่าเป็นวิชาที่ใหม่มากเมื่อเทียบกับวิชาคณิตศาสตร์ หรือวิชาวิทยาศาสตร์ … วิชาสถิติมีอายุเก่าแก่เพียงสองร้อยกว่าปีเท่านั้น และมีรากฐานมาจากวิชารัฐศาสตร์ โดยพยายามเก็บข้อมูลเพื่อนำมาใช้ในการวางแผนนโยบาย และการตัดสินใจต่างๆ ของรัฐ… แม้แต่คำว่าสถิติในภาษาอังกฤษก็คือ Statistics ยังมีรากศัพท์เดียวกันกับคำว่า State ที่แปลว่ารัฐ

วิชาสถิติคือทฤษฎีความน่าจะเป็น หรือการอนุมานด้วยสถิติ ซึ่งสอดคล้องกับการเก็บข้อมูลจากการสำรวจตัวอย่าง หรือ Sample Survey และการเก็บข้อมูลจากการทดลอง หรือ Experiment อันเป็นการเก็บและบันทึกข้อมูลจากตัวอย่างไม่มากนัก แต่ต้องอ้างอิงกลับไปสู่ประชากรเป้าหมายได้

แต่แล้ววิทยาการคอมพิวเตอร์ก็มาถึงยุคของการบันทึกข้อมูลได้มากมายจากทุกสิ่งทุกอย่างที่ไหลผ่านคอมพิวเตอร์และเครือข่าย… รวมทั้งการมาถึงของยุค IoT หรือ Internet of Things ที่ทุกสิ่งทุกอย่างที่เชื่อมต่อกับเครือข่ายคอมพิวเตอร์ได้… ก็ผลิตข้อมูลมากมายได้ไม่หยุดย่อน… ทำให้ข้อมูลน้อยนิดที่นักวิจัยหรือนักสถิติยุคเก่า… ดูไม่น่าเชื่อถือเท่ากับการประมวลผล Big Data ที่ข้อมูลมากกว่ามาก ปนเปื้อนคลาดเคลื่อนไม่มากและผิดพลาดน้อยกว่า

ซึ่ง Big Data ในปัจจุบันต้องมีถึง 4 คุณลักษณะคือ

1. Volume ต้องมีขนาดข้อมูลใหญ่มหาศาลที่ต้องใช้เทคโนโลยีเฉพาะเข้ามาจัดการ
2. Velocity มีความเร็วและอัตราการไหลสูงและต่อเนื่อง
3. Variety มีข้อมูลหลากหลายชนิดข้อมูล และมีความซับซ้อนของการเชื่อมโยงของข้อมูลอย่างน่าอัศจรรย์
4. Veracity ซึ่งเป็นนิยามใหม่ของ Big Data ที่อ้างถึงคุณภาพของข้อมูลและคุณค่าที่ข้อมูลสะสมไว้อย่างเที่ยงตรง

ประเด็นก็คือ… ข้อมูลใหญ่ขึ้นเรื่อยๆ ทุกวินาที ทำให้การจัดการข้อมูลระดับสถิติทั่วไปอย่างที่เป็นมา… กลายเป็นความผิวเผินที่ใช้ประโยชน์ได้เพียง “แจ้งให้ทราบ” ในขณะที่มิติของข้อมูลส่วนใหญ่ยังรอการสังเคราะห์จากวิทยาการข้อมูลที่ล้ำเลิศกว่านั้น

วิทยาการข้อมูลหรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลขนาดใหญ่ และข้อมูลสมัยใหม่ที่แม้แต่เทคโนโลยีฐานข้อมูลความสัมพันธ์ หรือ Relational Database แบบตารางความสัมพันธ์ที่คุ้นเคย… ก็จัดเก็บและจัดการข้อมูลไม่ได้แล้ว

เนื่องจากข้อมูลสมัยใหม่ที่เป็น Big Data เป็นข้อมูลแบบไร้โครงสร้าง หรือ Unstructured Database ที่เปลี่ยนไปอย่างรวดเร็ว… ลองนึกถึงตารางเก็บข้อมูลชื่อกับนามสกุลที่ใช้สองช่องก็พอเป็นส่วนใหญ่… แต่แล้ววันหนึ่งก็มีคนใช้สองนามสกุลเกิดขึ้น… ประเด็นแบบนี้เพียงเรื่องเดียวก็อาจจะทำให้ต้องออกแบบระบบให้มีตารางเก็บชื่อนามสกุลมากกว่าสองช่องข้อมูล หรือไม่ก็ต้องบีบให้นามสกุลทั้งสองข้อมูลไปรวมเป็นข้อมูลเดียวแทน ที่ข้อมูลย่อมถือว่าไม่ถูกต้องแม่นยำไปแล้ว เมื่อต้องนำข้อมูลกลับมาประมวลผล

วิทยาการข้อมูล หรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลในมิติต่างๆ ที่มีวิวัฒนาการเช่นเดียวกับธรรมชาติแขนงอื่น ที่วิวัฒน์ไปเรื่อยๆ เป็นเงาตามความก้าวหน้าของวิทยาการล้ำโลกโดยเผ่าพันธุ์มนุษย์

จุดสำคัญจึงอยู่ที่… เมื่อ Big Data และ Data Sciences เข้ามา… สิ่งที่ตามมาคือบุคลากรจากสายวิทยาศาสตร์ข้อมูล กลายเป็นคนเข้ามาทำงานเดิมที่บุคลากรสายงานสถิติเคยทำอยู่

งานสัมมนาที่จัดขึ้นโดย Royal Statistical Society ซึ่งเป็นสมาคมวิชาชีพทางสถิติอันเก่าแก่และทรงเกียรติในสหรัฐอเมริกา ในหัวข้อ Data Science and Statistics: different worlds? ได้ให้ข้อสรุปว่า… แท้จริงแล้ว Data Science กับ Statistics หรือ สถิติ เป็นเหรียญเดียวกันแต่คนละด้าน เพราะวัตถุประสงค์ยังเหมือนกันคือการจัดการรวบรวมข้อมูล วิเคราะห์ข้อมูล สรุปผล เสนอแนะ และนำสารสนเทศที่ได้ไปใช้งาน

Data Science Venn Diagram

แต่ประเด็นก็ไม่ได้จบง่ายๆ ด้วยข้อสรุปว่าเป็นเหรียญเดียวกัน เพราะยังมีคนเห็นแย้งที่แม้แต่คนจากสายอาชีพนักสถิติบางส่วนยังบอกว่า… ไม่น่าจะใช่เหรียญเดียวกันแต่คนละด้านอย่างที่เข้าใจหรอก… มันเป็นเหรียญรุ่นใหม่ที่จะเอามาใช้แทนเหรียญแบบเดิมที่ไม่ตอบโจทย์แล้วหล่ะมากกว่า… ที่สำคัญกว่านั้น งานสถิติเป็นส่วนหนึ่งของ Data Sciences ที่ทักษะวิชาชีพทางสถิติ ถูกทักษะวิชาชีพด้านวิทยาศาสตร์ข้อมูลรวมเอาไว้หมดแล้ว

ที่จะบอกก็คือ วิทยาการสถิติ ไม่ได้หายไปไหนและยังสำคัญเทียบเท่าหรือยิ่งกว่าที่เคยเป็นมา… แต่คนทำสถิติเป็นหรือมีทักษะกับสถิติยุคคลาสสิค… คงเหมือนอาชีพคนถีบสามล้อที่แม้แต่คนขี่มอเตอร์ไซค์รับจ้างก็กลืนอาชีพเก่าแก่แบบนี้ไปได้แล้ว

ข่าวดีก็คือ… ถ้านักสถิติคลาสสิค Upgrade ตัวเองไปเป็น Data Scientists ได้ในวันที่ AI ยังเป็นเด็กน้อยอยู่อย่างในปัจจุบัน… ท่านน่าจะมีที่และทางให้ไปต่อได้อีกไกล…

อ่อ!!! รวมทั้ง “นักวิจัยรุ่นคลาสสิค” ด้วยน๊ะครับ!

อ้างอิง

Wikipedia.org
Statslife.org
Dr.Arnond Sakworawich

Share this post

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email
Add Reder's Line friends

เพิ่ม Reder เป็นเพื่อนทาง Line... เรามีเรื่องเล่าและแรงบันดาลใจส่งถึงท่านบน Timeline ทุกวัน และ รบกวนท่านผ่านข้อความ Chat เท่าที่จำเป็น

Recent Posts

Related Post

Leader Hand

Creative Leadership

การนำระดับ Creative Leadership ในปัจจุบัน ต้องการพฤติกรรมของผู้นำที่มีความสามารถในการสร้างและตระหนักต่อปัญหาต่างๆ ที่สามารถนำพากลุ่มหรือทีมและองค์กร ใช้ปัญหาเป็นหนทางสร้างสรรค์นวัตกรรม ภายใต้สถานการณ์ที่ซับซ้อนในเชิงโครงสร้างบนความอ่อนไหวที่สะท้อนผ่านการเปลี่ยนแปลง

Data Analytics

Data Analytics Maturity and Data Optimization Strategy… กลยุทธ์ก่อนกำหนดกลยุทธ์ #SaturdayStrategy

ข้อมูลนั้นหาไม่ยาก แต่การใช้ข้อมูลจำนวนมากพร้อมกันนั้นไม่ง่าย โดยเฉพาะการใช้ข้อมูลจำนวนมากจนถึงระดับ Big Data เพื่อให้เป็นประโยชน์สูงสุดต่อเป้าหมายใดๆ ในธุรกิจ… ซึ่งเป้าหมายสุดท้ายมักจะเป็นเรื่องดุลย์การแข่งขันและกำไรที่แตกต่างอย่างเห็นได้ชัด…

Ozone Depletion เมื่อชั้นโอโซนบางลง กลายเป็นหลุมและรูรั่ว #FridaysForFuture

โอโซน หรือ O3 เป็นก๊าซซึ่งประกอบด้วยธาตุออกซิเจนจำนวน 3 โมเลกุล มีอยู่เพียง 0.0008% ในบรรยากาศ แต่มีความสำคัญอย่างยิ่ง เนื่องจากเป็นเกาะป้องกันรังสีอุลตราไวโอเล็ต หรือ UV ซึ่งเป็นอันตรายต่อสิ่งมีชีวิตบนโลก 

support umbrella

Kindness Personality… บุคคลิกจากจิตใจอันงดงาม #SelfInsight

คนส่วนใหญ่เชื่อว่าตนเป็นคนจิตใจดี และ เชื่อว่ามีคนมากมายได้รับโอกาส หรือ แม้แต่ทรัพยากรบางอย่างจากความเป็นคนจิตใจดีงามของตน หรือ จากตน รวมถึงแรงกายแรงใจของตน… ซึ่งคนที่เชื่อว่าตนจิตใจดีส่วนหนึ่ง จะมีความคิดและพฤติกรรม “ตำหนิผู้อื่น” เรื่องจิตใจดีตอบคืนตนอยู่ด้วย