Anantaya Pornwichianwong|2nd October 2022
Data Engineer กับ Data Scientist คืออะไร? และต่างกันอย่างไร? นี่อาจเป็นอีกคำถามที่หลายคนสงสัย Data Engineer และ Data Scientist เป็นอีกสองตำแหน่งในโลกของดาต้าที่เราได้ยินกันบ่อย ๆ และเป็นตำแหน่งที่กำลังเป็นที่ต้องการมากขึ้นเรื่อย ๆ
แต่หลาย ๆ คนอาจยังไม่เข้าใจความต่างระหว่างตำแหน่ง Data Engineer หรือวิศวกรข้อมูล และ Data Scientist หรือนักวิทยาศาสตร์ข้อมูล วันนี้เซอร์ทิสขออาสาพาทุกคนไปทำความรู้จักกับสองตำแหน่งยอดฮิตนี้ ว่าแต่ละตำแหน่งทำหน้าที่อะไร ใช้ความรู้ด้านไหน เหมาะกับคนแบบไหน และตัวอย่างงานจริง ๆ ของสองตำแหน่งนี้ว่ามีอะไรบ้าง
ใครกำลังจะเริ่มต้นทำงานในสายงานดาต้าและกำลังศึกษาตำแหน่งต่าง ๆ เพื่อหาเส้นทางที่ใช่ ลองอ่านบทความนี้ประกอบการตัดสินใจกันนะครับ
Data Engineer คือใคร?
หน้าที่ของ Data Engineer คือ การเป็นคนคอยพัฒนา ทดสอบ และดูแลระบบโครงสร้างของข้อมูลดิบทั้งหมด โดยจะเน้นโฟกัสไปที่ความรับผิดชอบในการพัฒนาและคอยดูแลตรวจสอบโครงสร้างพื้นฐานที่ช่วยให้เราสามารถดึงข้อมูลมาใช้ได้ง่าย ส่งต่อข้อมูลได้สะดวก และมีข้อมูลที่พร้อมนำไปใช้ต่อ
Data Engineer จะพัฒนาระบบจัดเก็บข้อมูลเช่น Database Data Lake หรือ Data Warehouse สร้างระบบส่งข้อมูลอย่าง Data Pipeline ที่เป็นเสมือนท่อส่งข้อมูลที่จะช่วยให้ข้อมูลถูกส่งจากต้นทางไปยังปลายทางได้อัตโนมัติตามขั้นตอน ระบบประมวลผลจัดการข้อมูลอื่น ๆ ในขั้นตอนต่าง ๆ เช่น การทำ Data Modelling หรือ ระบบ ETL กล่าวคือ Data Engineer มีหน้าที่คอยเตรียมโครงสร้างพื้นฐานที่จะอำนวยความสะดวกให้ตำแหน่งอื่น ๆ นำข้อมูลไปใช้งานต่อได้
นอกจากนี้ Data Engineer ต้องมีความรู้เรื่องเครื่องมือที่จะใช้จัดการกับข้อมูลต่าง ๆ ที่มีรูปแบบที่แตกต่างกัน จากช่องทางที่หลากหลาย มีความรู้เรื่องโครงสร้างพื้นฐานต่าง ๆ เช่น ระบบ Cloud เช่น AWS Azure และ GCP เพื่อเลือกใช้เครื่องมือในการสร้างระบบได้อย่างเหมาะสม และนำระบบเหล่านั้นไปติดตั้งและทำงานบนโครงสร้างที่แตกต่างกันได้อย่างมีประสิทธิภาพ
นอกจากงานในส่วนของการพัฒนาและติดตั้งแล้ว Data Engineer ยังมีหน้าที่คอยดูแลและรักษาระบบต่าง ๆ ให้ทำงานได้อย่างลื่นไหล รวมถึงมองหาช่องโหว่ หรือโอกาสในการพัฒนาระบบให้ทำงานได้ดีขึ้นอยู่เสมอ
Data Scientist คือใคร?
หน้าที่ของ Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล คือการนำข้อมูลจากโครงสร้างที่ Data Engineer พัฒนาไว้ให้แล้วไปวิเคราะห์และหาคำตอบทางธุรกิจให้ลูกค้าต่อนั่นเอง หลาย ๆ คนอาจสงสัยถึงความต่างระหว่างหน้าที่ของ Data Scientist กับ Data Analyst
(อ่านเพิ่มเติมเกี่ยวกับตำแหน่ง Data Analyst ในบทความ A Day in the Life of a Data Analyst: Data Analyst ทำอะไรกันบ้าง?)
แต่ความจริงแล้วทั้งสองตำแหน่งนี้แตกต่างกันไม่น้อยเลย
Data Analyst จะทำการวิเคราะห์ข้อมูลเฉพาะส่วน และตอบคำถามเชิงธุรกิจให้ลูกค้า จะลงลึกในเชิงธุรกิจมากกว่า ในขณะที่ Data Scientist เน้นสร้างเครื่องมือในการวิเคราะห์ให้ลูกค้า โดยจะเลือกใช้และพัฒนาโมเดลแมชชีนเลิร์นนิง และการวิเคราะห์เชิงสถิติในการทำงานกับข้อมูลมหาศาล เพื่อวิเคราะห์เชิงทำนายผล (Predictive Analytics) เช่น คาดการณ์ยอดขายล่วงหน้า รวมถึงทำการวิเคราะห์ในเชิงพัฒนา (Prescriptive Analytics) เช่น การเข้าไปพัฒนากระบวนการทำงาน โดยการใช้เครื่องมือเอไอและแมชชีนเลิร์นนิงเข้าไปช่วย เช่น การพัฒนาระบบการผลิตสินค้าให้มีต้นทุนต่ำลง หรือวางตารางผลิตสินค้าให้ใช้เวลาได้คุ้มค่ามากขึ้น เป็นต้น
และสิ่งที่ Data Scientist จะต้องส่งต่อให้ลูกค้า ก็คือการสร้างเครื่องมือหรือโมเดลที่สามารถวิเคราะห์ข้อมูลเหล่านี้ให้กับลูกค้าได้อัตโนมัติ
จึงสรุปได้ว่าทั้งสองตำแหน่งต่างกันตรงที่ Data Engineer เป็นคนวางโครงสร้างข้อมูลให้พร้อมใช้งาน ในขณะที่ Data Scientist เป็นคนคิดสูตรและสร้างเครื่องมือขึ้นมาวิเคราะห์ข้อมูลเหล่านั้นต่อนั่นเอง
เป็นคนแบบนี้ควรทำตำแหน่งไหน?
ถ้าคุณเป็นคนรักการเขียนโค้ด ชอบสร้าง และชอบวางระบบ และอยากเป็นคนที่คอยวางโครงสร้างพื้นฐาน และเรียนรู้เทคโนโลยีใหม่ ๆ มาพัฒนาโครงสร้างเหล่านั้นให้มีประสิทธิภาพมากขึ้น และถ้าคุณเป็นนักคิดที่คอยมองหาหนทางมาสร้างและพัฒนาสิ่งใหม่ ๆ เพื่อเป็นพื้นฐานที่ช่วยให้คนอื่นทำงานต่อได้อย่างมีประสิทธิภาพ หน้าที่ของ Data Engineer จะตอบโจทย์มาก
แต่ถ้าคุณเป็นคนที่มีความรู้และสนใจเรื่องสถิติ อัลกอริธึม และโมเดลแมชชีนเลิร์นนิง พร้อมทั้งเป็นคนขี้สงสัย ชอบตั้งคำถามและหาคำตอบ ตั้งสมมติฐานและพิสูจน์ด้วยข้อมูล รวมถึงมีความสุขกับการวิเคราะห์และคาดการณ์ข้อมูลต่าง ๆ เพื่อมองหาความเป็นไปได้ในอนาคต Data Scientist คือคำตอบ
ตัวอย่างงานของ Data Engineer และ Data Scientist
ลูกค้าบริษัท A ต้องการนำข้อมูลที่มีอยู่ในองค์กรมาใช้งาน แต่ยังไม่มีที่จัดเก็บหรือระบบส่งต่อข้อมูลที่มีประสิทธิภาพ
Data Engineer จะเป็นคนรับโจทย์นี้ไป โดยจะต้องเข้าไปศึกษาทำความเข้าใจรูปแบบและโครงสร้างข้อมูลของลูกค้า เพื่อเลือกใช้เครื่องมือและแพลตฟอร์มที่เหมาะสมในการสร้าง Data Warehouse เพื่อนำเข้าและจัดเก็บข้อมูลทั้งหมดในองค์กรให้เป็นระเบียบ และสร้าง Data Pipeline ส่งต่อข้อมูลจากฐานข้อมูลไปยังเซิร์ฟเวอร์แต่ละเครื่อง เพื่อส่งต่อไปให้ทีมต่าง ๆ นำข้อมูลไปใช้ประโยชน์ต่อได้ รวมถึงคอยดูแลให้ระบบทำงานได้อย่างไม่ติดขัด แก้ไขเมื่อเกิดความขัดข้อง เพื่อให้ข้อมูลในแต่ละวันถูกจัดเก็บ ส่งต่อ และประมวลผลได้ในรูปแบบที่ถูกต้องและราบรื่น
ลูกค้าบริษัท A ตอนนี้มีฐานข้อมูลที่พร้อมใช้งานแล้ว และต้องการให้เราพัฒนาระบบที่จะช่วยให้คาดการณ์ยอดขายล่วงหน้าได้ทุกเดือน
Data Sceintist จะเป็นคนรับโจทย์นี้ไป และเริ่มต้นด้วยการวิเคราะห์ข้อมูลของลูกค้าเพื่อมองหาเทรนด์และรูปแบบการเปลี่ยนแปลงของข้อมูลยอดขาย จากนั้นจึงนำผลการวิเคราะห์ที่ได้มาแปลงเป็นคุณลักษณะ (Feature) ที่จะใช้สร้างและสอนโมเดลแมชชีนเลิร์นนิง กล่าวคือ เป็นการสอนโมเดลว่าเมื่อเจอลักษณะแบบนี้ ผลลัพธ์มีแนวโน้มจะเป็นอย่างไร ควรคาดการณ์ยอดขายไปในทิศทางไหน แล้วจึงพัฒนาโมเดลให้เป็นเครื่องมือหรือแอปพลิเคชันที่พร้อมใช้งานและอัปเดตตามข้อมูลได้แบบอัตโนมัติ เพื่อส่งต่อให้ลูกค้าต่อไป
ที่เซอร์ทิสกำลังเปิดรับเพื่อนร่วมงานจำนวนมาก ทั้งสาย Data Engineer และ Data Scientist รวมถึงตำแหน่งด้านเอไอและดาต้าอื่น ๆ อีกมากมาย มาร่วมเติบโตไปพร้อมกับเรา ดูตำแหน่งที่เปิดรับสมัครได้ที่ https://www.careers.sertiscorp.com/jobs
Anantaya Pornwichianwong