วิชาสถิติคลาสสิคในกระแส Big Data… และสามล้อตกงาน

Data Scientist

กระแส Big Data ในปี 2020 ได้ยึดหัวหาดเรื่องความสำคัญต่อความรุ่งโรจน์หรือรุ่งริ่ง ระหว่างคนมีและใช้ Big Data เป็น… กับคนไม่มีหรือไม่รู้วิธีใช้ Big Data เพื่อนำพาตัวเองหรือองค์กรออกจากความล้าหลังที่รอวันถดถอยค่อนข้างแน่

เมื่อวันจันทร์ที่ผ่านมาผมแตะเรื่อง Data ในบทความบน Properea.com ด้วยการจบงานเขียนบทนั้นว่า… Data Is New Oil แล้วก็ได้ข้อความจาก Reder Fan/Properea Fan ท่านหนึ่งให้เปิดประเด็นเกี่ยวกับสถิติและ Big Data ทั้งจุดร่วมจุดต่างและประเด็นใช้งานเชิงประยุกต์ในวันที่ Big Data มีแนวโน้มที่จะเปลี่ยนนิยามของวิชาสถิติให้กว้างและลึกไปกว่าเดิม…

ผมลอกการบ้าน ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์… อาจารย์ประจำ หลักสูตรการวิเคราะห์ธุรกิจและวิทยาการข้อมูล สถาบันบัณฑิตพัฒนบริหารศาสตร์ หรือนิด้าที่เรารู้จักกันดีมาอ้างอิงน๊ะครับ… ผมวางลิงค์ต้นฉบับไว้ใต้อ้างอิงให้ทุกท่านเช่นเดิม

วิชาสถิติจัดว่าเป็นวิชาที่ใหม่มากเมื่อเทียบกับวิชาคณิตศาสตร์ หรือวิชาวิทยาศาสตร์ … วิชาสถิติมีอายุเก่าแก่เพียงสองร้อยกว่าปีเท่านั้น และมีรากฐานมาจากวิชารัฐศาสตร์ โดยพยายามเก็บข้อมูลเพื่อนำมาใช้ในการวางแผนนโยบาย และการตัดสินใจต่างๆ ของรัฐ… แม้แต่คำว่าสถิติในภาษาอังกฤษก็คือ Statistics ยังมีรากศัพท์เดียวกันกับคำว่า State ที่แปลว่ารัฐ

วิชาสถิติคือทฤษฎีความน่าจะเป็น หรือการอนุมานด้วยสถิติ ซึ่งสอดคล้องกับการเก็บข้อมูลจากการสำรวจตัวอย่าง หรือ Sample Survey และการเก็บข้อมูลจากการทดลอง หรือ Experiment อันเป็นการเก็บและบันทึกข้อมูลจากตัวอย่างไม่มากนัก แต่ต้องอ้างอิงกลับไปสู่ประชากรเป้าหมายได้

แต่แล้ววิทยาการคอมพิวเตอร์ก็มาถึงยุคของการบันทึกข้อมูลได้มากมายจากทุกสิ่งทุกอย่างที่ไหลผ่านคอมพิวเตอร์และเครือข่าย… รวมทั้งการมาถึงของยุค IoT หรือ Internet of Things ที่ทุกสิ่งทุกอย่างที่เชื่อมต่อกับเครือข่ายคอมพิวเตอร์ได้… ก็ผลิตข้อมูลมากมายได้ไม่หยุดย่อน… ทำให้ข้อมูลน้อยนิดที่นักวิจัยหรือนักสถิติยุคเก่า… ดูไม่น่าเชื่อถือเท่ากับการประมวลผล Big Data ที่ข้อมูลมากกว่ามาก ปนเปื้อนคลาดเคลื่อนไม่มากและผิดพลาดน้อยกว่า

ซึ่ง Big Data ในปัจจุบันต้องมีถึง 4 คุณลักษณะคือ

1. Volume ต้องมีขนาดข้อมูลใหญ่มหาศาลที่ต้องใช้เทคโนโลยีเฉพาะเข้ามาจัดการ
2. Velocity มีความเร็วและอัตราการไหลสูงและต่อเนื่อง
3. Variety มีข้อมูลหลากหลายชนิดข้อมูล และมีความซับซ้อนของการเชื่อมโยงของข้อมูลอย่างน่าอัศจรรย์
4. Veracity ซึ่งเป็นนิยามใหม่ของ Big Data ที่อ้างถึงคุณภาพของข้อมูลและคุณค่าที่ข้อมูลสะสมไว้อย่างเที่ยงตรง

ประเด็นก็คือ… ข้อมูลใหญ่ขึ้นเรื่อยๆ ทุกวินาที ทำให้การจัดการข้อมูลระดับสถิติทั่วไปอย่างที่เป็นมา… กลายเป็นความผิวเผินที่ใช้ประโยชน์ได้เพียง “แจ้งให้ทราบ” ในขณะที่มิติของข้อมูลส่วนใหญ่ยังรอการสังเคราะห์จากวิทยาการข้อมูลที่ล้ำเลิศกว่านั้น

วิทยาการข้อมูลหรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลขนาดใหญ่ และข้อมูลสมัยใหม่ที่แม้แต่เทคโนโลยีฐานข้อมูลความสัมพันธ์ หรือ Relational Database แบบตารางความสัมพันธ์ที่คุ้นเคย… ก็จัดเก็บและจัดการข้อมูลไม่ได้แล้ว

เนื่องจากข้อมูลสมัยใหม่ที่เป็น Big Data เป็นข้อมูลแบบไร้โครงสร้าง หรือ Unstructured Database ที่เปลี่ยนไปอย่างรวดเร็ว… ลองนึกถึงตารางเก็บข้อมูลชื่อกับนามสกุลที่ใช้สองช่องก็พอเป็นส่วนใหญ่… แต่แล้ววันหนึ่งก็มีคนใช้สองนามสกุลเกิดขึ้น… ประเด็นแบบนี้เพียงเรื่องเดียวก็อาจจะทำให้ต้องออกแบบระบบให้มีตารางเก็บชื่อนามสกุลมากกว่าสองช่องข้อมูล หรือไม่ก็ต้องบีบให้นามสกุลทั้งสองข้อมูลไปรวมเป็นข้อมูลเดียวแทน ที่ข้อมูลย่อมถือว่าไม่ถูกต้องแม่นยำไปแล้ว เมื่อต้องนำข้อมูลกลับมาประมวลผล

วิทยาการข้อมูล หรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลในมิติต่างๆ ที่มีวิวัฒนาการเช่นเดียวกับธรรมชาติแขนงอื่น ที่วิวัฒน์ไปเรื่อยๆ เป็นเงาตามความก้าวหน้าของวิทยาการล้ำโลกโดยเผ่าพันธุ์มนุษย์

จุดสำคัญจึงอยู่ที่… เมื่อ Big Data และ Data Sciences เข้ามา… สิ่งที่ตามมาคือบุคลากรจากสายวิทยาศาสตร์ข้อมูล กลายเป็นคนเข้ามาทำงานเดิมที่บุคลากรสายงานสถิติเคยทำอยู่

งานสัมมนาที่จัดขึ้นโดย Royal Statistical Society ซึ่งเป็นสมาคมวิชาชีพทางสถิติอันเก่าแก่และทรงเกียรติในสหรัฐอเมริกา ในหัวข้อ Data Science and Statistics: different worlds? ได้ให้ข้อสรุปว่า… แท้จริงแล้ว Data Science กับ Statistics หรือ สถิติ เป็นเหรียญเดียวกันแต่คนละด้าน เพราะวัตถุประสงค์ยังเหมือนกันคือการจัดการรวบรวมข้อมูล วิเคราะห์ข้อมูล สรุปผล เสนอแนะ และนำสารสนเทศที่ได้ไปใช้งาน

Data Science Venn Diagram

แต่ประเด็นก็ไม่ได้จบง่ายๆ ด้วยข้อสรุปว่าเป็นเหรียญเดียวกัน เพราะยังมีคนเห็นแย้งที่แม้แต่คนจากสายอาชีพนักสถิติบางส่วนยังบอกว่า… ไม่น่าจะใช่เหรียญเดียวกันแต่คนละด้านอย่างที่เข้าใจหรอก… มันเป็นเหรียญรุ่นใหม่ที่จะเอามาใช้แทนเหรียญแบบเดิมที่ไม่ตอบโจทย์แล้วหล่ะมากกว่า… ที่สำคัญกว่านั้น งานสถิติเป็นส่วนหนึ่งของ Data Sciences ที่ทักษะวิชาชีพทางสถิติ ถูกทักษะวิชาชีพด้านวิทยาศาสตร์ข้อมูลรวมเอาไว้หมดแล้ว

ที่จะบอกก็คือ วิทยาการสถิติ ไม่ได้หายไปไหนและยังสำคัญเทียบเท่าหรือยิ่งกว่าที่เคยเป็นมา… แต่คนทำสถิติเป็นหรือมีทักษะกับสถิติยุคคลาสสิค… คงเหมือนอาชีพคนถีบสามล้อที่แม้แต่คนขี่มอเตอร์ไซค์รับจ้างก็กลืนอาชีพเก่าแก่แบบนี้ไปได้แล้ว

ข่าวดีก็คือ… ถ้านักสถิติคลาสสิค Upgrade ตัวเองไปเป็น Data Scientists ได้ในวันที่ AI ยังเป็นเด็กน้อยอยู่อย่างในปัจจุบัน… ท่านน่าจะมีที่และทางให้ไปต่อได้อีกไกล…

อ่อ!!! รวมทั้ง “นักวิจัยรุ่นคลาสสิค” ด้วยน๊ะครับ!

อ้างอิง

Wikipedia.org
Statslife.org
Dr.Arnond Sakworawich

Share this post

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email
Add Reder's Line friends

เพิ่ม Reder เป็นเพื่อนทาง Line... เรามีเรื่องเล่าและแรงบันดาลใจส่งให้ท่านทุกวันคี่

Related Post

The Ngozumpa Glacier in the Himalayas of Nepal.

Himalayas Glaciers Melting… เมื่อหิมะละลาย #FridaysForFuture

มีรายงานจากนักวิทยาศาสตร์ที่พูดถึงธารน้ำแข็งบนเทือกเขาหิมาลัยที่ลดน้อยลง หลายแหล่งกลายเป็นทะเลสาบน้ำแข็งที่สะสมน้ำไว้ใต้แผ่นน้ำแข็งมากขึ้น จนเข้าขั้นที่อาจจะกลายเป็นต้นเหตุของภัยพิบัติที่คาดไม่ถึงมากมาย โดยเฉพาะมวลน้ำมหาศาลดั่งเขื่อนแตก จากที่สูงเหนือระดับน้ำทะเลปานกลางหลายกิโลเมตร ซึ่งหากเกิดขึ้นวันใดก็คงกลายเป็นโศกนาฏกรรมไม่รู้ลืมอีกเหตุการณ์หนึ่งอย่างแน่นอน

Serious Self Talk

Positive Self Expectations… คาดหวังต่อตัวเองอย่างไรไม่ให้กดดัน #MetaSkills

คนเราพูดกับตัวเองตลอดเวลา แต่มักไม่ค่อยพูดดีๆ กับตัวเองเหมือนคุยกับเพื่อนที่ดีหรอก แถมยังเป็นนักวิจารณ์ปากร้ายใจแคบกับตัวเองอย่างไม่มีเหตุผล แค่จะมอบความรักให้ตัวเองง่ายๆ เหมือนที่มอบให้คนอื่นๆ ก็แทบไม่ได้หรือไม่สนใจจะทำด้วยซ้ำ… เมื่อคนแบบนั้นมาอยู่ในสถานการณ์ “ไม่มีอะไรเป็นไปตามที่คาดหวัง” สิ่งที่ตามมาก็คือความกดดันที่เกิดจากการวิจารณ์ตัวเองเละเทะ จนสภาพจิตใจที่ยำแย่ผิดหวังอยู่แล้ว… เข้าขั้นยับเยินสิ้นหวังก็มี

Digital Education

Digital Education ปฐมบท… Bloom’s Digital Taxonomy

ความยากของการศึกษายุคใหม่ ที่ครูและโรงเรียนจะสำคัญน้อยลงเรื่อยๆ จนไม่รู้จะ “หาเงิน” ยังไงกับโมเดลการศึกษายุคดิจิทัล… อย่างน้อย Bloom’s Digital Taxonomy ซึ่งกระแสแรงเข้มมาตั้งแต่ ปี 2010 เป็นต้นมา ซึ่งนักการศึกษาที่เห็นบริบทเห็นตรงกันว่า… การศึกษายุคดิจิทัลสมบูรณ์แบบ แทบไม่มีช่องว่างให้ครูอาจารย์หรือสถานศึกษาเข้าไปแทรกตรงไหนได้เลย โดยเฉพาะกับผู้เรียนที่มีทักษะการเรียนรู้ด้วยตนเองอยู่ในระดับสูง… จนมีชื่อเรียกครูอาจารย์ในบทบาทใหม่ว่า “Facilitator แทน Teacher”

Brain Tetris

Instructional Strategy Design For CBI…

Instructional Design Theories and Models ของ Charles Morgan Reigeluth ได้แบ่งองค์ประกอบของหน่วยการออกแบบกลยุทธ์การเรียนการสอนออกเป็น 3 ประเภทคือ Organizational Strategy หรือ วางกรอบและพัฒนากลยุทธ์… Delivery Strategy หรือถ่ายทอดกลยุทธ์ และ Management Strategy หรือ จัดการกลยุทธ์