Data Scientist

วิชาสถิติคลาสสิคในกระแส Big Data… และสามล้อตกงาน

กระแส Big Data ในปี 2020 ได้ยึดหัวหาดเรื่องความสำคัญต่อความรุ่งโรจน์หรือรุ่งริ่ง ระหว่างคนมีและใช้ Big Data เป็น… กับคนไม่มีหรือไม่รู้วิธีใช้ Big Data เพื่อนำพาตัวเองหรือองค์กรออกจากความล้าหลังที่รอวันถดถอยค่อนข้างแน่

เมื่อวันจันทร์ที่ผ่านมาผมแตะเรื่อง Data ในบทความบน Properea.com ด้วยการจบงานเขียนบทนั้นว่า… Data Is New Oil แล้วก็ได้ข้อความจาก Reder Fan/Properea Fan ท่านหนึ่งให้เปิดประเด็นเกี่ยวกับสถิติและ Big Data ทั้งจุดร่วมจุดต่างและประเด็นใช้งานเชิงประยุกต์ในวันที่ Big Data มีแนวโน้มที่จะเปลี่ยนนิยามของวิชาสถิติให้กว้างและลึกไปกว่าเดิม…

ผมลอกการบ้าน ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์… อาจารย์ประจำ หลักสูตรการวิเคราะห์ธุรกิจและวิทยาการข้อมูล สถาบันบัณฑิตพัฒนบริหารศาสตร์ หรือนิด้าที่เรารู้จักกันดีมาอ้างอิงน๊ะครับ… ผมวางลิงค์ต้นฉบับไว้ใต้อ้างอิงให้ทุกท่านเช่นเดิม

วิชาสถิติจัดว่าเป็นวิชาที่ใหม่มากเมื่อเทียบกับวิชาคณิตศาสตร์ หรือวิชาวิทยาศาสตร์ … วิชาสถิติมีอายุเก่าแก่เพียงสองร้อยกว่าปีเท่านั้น และมีรากฐานมาจากวิชารัฐศาสตร์ โดยพยายามเก็บข้อมูลเพื่อนำมาใช้ในการวางแผนนโยบาย และการตัดสินใจต่างๆ ของรัฐ… แม้แต่คำว่าสถิติในภาษาอังกฤษก็คือ Statistics ยังมีรากศัพท์เดียวกันกับคำว่า State ที่แปลว่ารัฐ

วิชาสถิติคือทฤษฎีความน่าจะเป็น หรือการอนุมานด้วยสถิติ ซึ่งสอดคล้องกับการเก็บข้อมูลจากการสำรวจตัวอย่าง หรือ Sample Survey และการเก็บข้อมูลจากการทดลอง หรือ Experiment อันเป็นการเก็บและบันทึกข้อมูลจากตัวอย่างไม่มากนัก แต่ต้องอ้างอิงกลับไปสู่ประชากรเป้าหมายได้

แต่แล้ววิทยาการคอมพิวเตอร์ก็มาถึงยุคของการบันทึกข้อมูลได้มากมายจากทุกสิ่งทุกอย่างที่ไหลผ่านคอมพิวเตอร์และเครือข่าย… รวมทั้งการมาถึงของยุค IoT หรือ Internet of Things ที่ทุกสิ่งทุกอย่างที่เชื่อมต่อกับเครือข่ายคอมพิวเตอร์ได้… ก็ผลิตข้อมูลมากมายได้ไม่หยุดย่อน… ทำให้ข้อมูลน้อยนิดที่นักวิจัยหรือนักสถิติยุคเก่า… ดูไม่น่าเชื่อถือเท่ากับการประมวลผล Big Data ที่ข้อมูลมากกว่ามาก ปนเปื้อนคลาดเคลื่อนไม่มากและผิดพลาดน้อยกว่า

ซึ่ง Big Data ในปัจจุบันต้องมีถึง 4 คุณลักษณะคือ

1. Volume ต้องมีขนาดข้อมูลใหญ่มหาศาลที่ต้องใช้เทคโนโลยีเฉพาะเข้ามาจัดการ
2. Velocity มีความเร็วและอัตราการไหลสูงและต่อเนื่อง
3. Variety มีข้อมูลหลากหลายชนิดข้อมูล และมีความซับซ้อนของการเชื่อมโยงของข้อมูลอย่างน่าอัศจรรย์
4. Veracity ซึ่งเป็นนิยามใหม่ของ Big Data ที่อ้างถึงคุณภาพของข้อมูลและคุณค่าที่ข้อมูลสะสมไว้อย่างเที่ยงตรง

ประเด็นก็คือ… ข้อมูลใหญ่ขึ้นเรื่อยๆ ทุกวินาที ทำให้การจัดการข้อมูลระดับสถิติทั่วไปอย่างที่เป็นมา… กลายเป็นความผิวเผินที่ใช้ประโยชน์ได้เพียง “แจ้งให้ทราบ” ในขณะที่มิติของข้อมูลส่วนใหญ่ยังรอการสังเคราะห์จากวิทยาการข้อมูลที่ล้ำเลิศกว่านั้น

วิทยาการข้อมูลหรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลขนาดใหญ่ และข้อมูลสมัยใหม่ที่แม้แต่เทคโนโลยีฐานข้อมูลความสัมพันธ์ หรือ Relational Database แบบตารางความสัมพันธ์ที่คุ้นเคย… ก็จัดเก็บและจัดการข้อมูลไม่ได้แล้ว

เนื่องจากข้อมูลสมัยใหม่ที่เป็น Big Data เป็นข้อมูลแบบไร้โครงสร้าง หรือ Unstructured Database ที่เปลี่ยนไปอย่างรวดเร็ว… ลองนึกถึงตารางเก็บข้อมูลชื่อกับนามสกุลที่ใช้สองช่องก็พอเป็นส่วนใหญ่… แต่แล้ววันหนึ่งก็มีคนใช้สองนามสกุลเกิดขึ้น… ประเด็นแบบนี้เพียงเรื่องเดียวก็อาจจะทำให้ต้องออกแบบระบบให้มีตารางเก็บชื่อนามสกุลมากกว่าสองช่องข้อมูล หรือไม่ก็ต้องบีบให้นามสกุลทั้งสองข้อมูลไปรวมเป็นข้อมูลเดียวแทน ที่ข้อมูลย่อมถือว่าไม่ถูกต้องแม่นยำไปแล้ว เมื่อต้องนำข้อมูลกลับมาประมวลผล

วิทยาการข้อมูล หรือ Data Sciences จึงเกิดขึ้นเพื่อจัดการข้อมูลในมิติต่างๆ ที่มีวิวัฒนาการเช่นเดียวกับธรรมชาติแขนงอื่น ที่วิวัฒน์ไปเรื่อยๆ เป็นเงาตามความก้าวหน้าของวิทยาการล้ำโลกโดยเผ่าพันธุ์มนุษย์

จุดสำคัญจึงอยู่ที่… เมื่อ Big Data และ Data Sciences เข้ามา… สิ่งที่ตามมาคือบุคลากรจากสายวิทยาศาสตร์ข้อมูล กลายเป็นคนเข้ามาทำงานเดิมที่บุคลากรสายงานสถิติเคยทำอยู่

งานสัมมนาที่จัดขึ้นโดย Royal Statistical Society ซึ่งเป็นสมาคมวิชาชีพทางสถิติอันเก่าแก่และทรงเกียรติในสหรัฐอเมริกา ในหัวข้อ Data Science and Statistics: different worlds? ได้ให้ข้อสรุปว่า… แท้จริงแล้ว Data Science กับ Statistics หรือ สถิติ เป็นเหรียญเดียวกันแต่คนละด้าน เพราะวัตถุประสงค์ยังเหมือนกันคือการจัดการรวบรวมข้อมูล วิเคราะห์ข้อมูล สรุปผล เสนอแนะ และนำสารสนเทศที่ได้ไปใช้งาน

Data Science Venn Diagram

แต่ประเด็นก็ไม่ได้จบง่ายๆ ด้วยข้อสรุปว่าเป็นเหรียญเดียวกัน เพราะยังมีคนเห็นแย้งที่แม้แต่คนจากสายอาชีพนักสถิติบางส่วนยังบอกว่า… ไม่น่าจะใช่เหรียญเดียวกันแต่คนละด้านอย่างที่เข้าใจหรอก… มันเป็นเหรียญรุ่นใหม่ที่จะเอามาใช้แทนเหรียญแบบเดิมที่ไม่ตอบโจทย์แล้วหล่ะมากกว่า… ที่สำคัญกว่านั้น งานสถิติเป็นส่วนหนึ่งของ Data Sciences ที่ทักษะวิชาชีพทางสถิติ ถูกทักษะวิชาชีพด้านวิทยาศาสตร์ข้อมูลรวมเอาไว้หมดแล้ว

ที่จะบอกก็คือ วิทยาการสถิติ ไม่ได้หายไปไหนและยังสำคัญเทียบเท่าหรือยิ่งกว่าที่เคยเป็นมา… แต่คนทำสถิติเป็นหรือมีทักษะกับสถิติยุคคลาสสิค… คงเหมือนอาชีพคนถีบสามล้อที่แม้แต่คนขี่มอเตอร์ไซค์รับจ้างก็กลืนอาชีพเก่าแก่แบบนี้ไปได้แล้ว

ข่าวดีก็คือ… ถ้านักสถิติคลาสสิค Upgrade ตัวเองไปเป็น Data Scientists ได้ในวันที่ AI ยังเป็นเด็กน้อยอยู่อย่างในปัจจุบัน… ท่านน่าจะมีที่และทางให้ไปต่อได้อีกไกล…

อ่อ!!! รวมทั้ง “นักวิจัยรุ่นคลาสสิค” ด้วยน๊ะครับ!

อ้างอิง

Wikipedia.org
Statslife.org
Dr.Arnond Sakworawich

Facebook
Twitter
LinkedIn
Pinterest
Tumblr

Leave a Reply

Your email address will not be published.

Recent Posts