Anantaya Pornwichianwong|11th September 2024
Data Scientist คืออาชีพสุดล้ำที่ทำหน้าที่พัฒนาโมเดลเอไอที่ขับเคลื่อนกิจกรรมต่าง ๆ ในชีวิตประจำวันของเรา ไม่ว่าจะเป็นการแนะนำเพลงที่เราน่าจะชอบฟัง สินค้าที่เรามีแนวโน้มจะซื้อ หรือโมเดลคาดการณ์ยอดขายของบริษัท
วันนี้เซอร์ทิสจึงอยากพาผู้อ่านทุกคนมารู้จักกับ เอิน Data Scientist คนเก่งของเรา ซึ่งเอินเป็นหนึ่งในคนสำคัญของเซอร์ทิส ที่คอยพัฒนาโมเดลต่าง ๆ ที่ตอบโจทย์ความต้องการของลูกค้า รวมถึงเป็นหนึ่งในทีมที่ทำการค้นคว้าวิจัยเพื่อพัฒนาแนวทางการพัฒนาโมเดลที่ล้ำสมัยอยู่ตลอดเวลา
มาดูกันว่าหน้าที่ในแต่ละวันของเอินมีอะไรบ้าง ใช้เครื่องมืออะไรในการทำงาน และอะไรคือตัวจุดประกายความชอบของเอินในอาชีพนี้
งานที่ Data Scientist ต้องทำในแต่ละวันมีอะไรบ้าง?
“สำหรับงานของ Data Scientist หลัก ๆ เราแบ่งเป็น 3 อย่าง ได้แก่ งานด้าน Pre-sales งาน Implementation และงาน Internal
ในส่วนของงาน Pre-sales ซึ่งเป็นขั้นตอนในช่วงที่เราต้องขายโปรเจกต์ให้ลูกค้า เราก็อาจจะต้องไปช่วยทีม Business Development และทำความเข้าใจความต้องการของลูกค้า คิดและออกแบบโซลูชันที่ตรงตามความต้องการของลูกค้า โดยอาจจะต้องทำ Research และ Literature Review เพื่อหาทางที่ตอบโจทย์ที่สุด
ในส่วนของงานด้าน Implementation ก็จะอยู่ในขั้นตอนที่เราเริ่มทำโปรเจกต์แล้ว รู้สโคปงานแล้ว ในช่วงนี้เราก็จะทำงานตามแผนที่วางไว้ ซึ่งก็อาจจะต้องมีการ Research ควบคู่ไปด้วยระหว่างทาง
ซึ่งในส่วนของงาน Implementation หน้าที่ของ Data Scientist ก็ต้องเริ่มจากการเตรียมข้อมูล การทำ Data Exploration ซึ่งเป็นขั้นตอนที่สำคัญมากเพราะจะทำให้เราเข้าใจใจภาพรวมของข้อมูลในมือ เพื่อเอาไปสร้างเป็นโมเดลต่อไปได้
ขั้นตอนต่อมาเราก็จะทำ Feature Engineering กล่าวคือ การที่เราจะสร้างโมเดลเพื่อที่จะทำหน้าที่อะไรสักอย่าง มันก็จะต้องมีการวิเคราะห์หาปัจจัยหรือคุณลักษณะที่จะมาช่วยวางกรอบแนวทางที่ที่ทำให้โมเดลสามารถทำหน้าที่ตามที่เราต้องการได้ ซึ่งสิ่งเหล่านี้เรียกว่า Feature
ในส่วนของงาน Internal ก็มีหลายอย่าง เช่น การค้นคว้าและวิจัยเชิงวิชาการ รวมไปถึงการพัฒนา Product ต่าง ๆ ขึ้นมาใช้กันภายใน”
ชีวิตการทำงานในแต่ละวันของ Data Scientist เป็นอย่างไรบ้าง?
8:00 AM - 9:00 AM: Morning Routine
เป็นช่วงของการทำกิจวัตรตอนเช้าและกินข้าวเช้า
9:00 AM - 10:30 AM: Coffee and Daily Tasks Planning
เริ่มต้นวันด้วยการชงกาแฟ และวางแผนงานเพื่อเตรียมเริ่มต้นทำงานในแต่ละวัน
10:30 AM - 11:00 AM: Project and Team Stand-Up Meeting
ในแต่ละวันก็จะมีประชุม Daily Catch up ที่แตกต่างกันไปในแต่ละวัน บางครั้งก็จะเป็น Project-Based หรือบางครั้งก็จะ Catch up กับคนในทีม แต่ถ้าเป็นวันที่ต้องเข้าออฟฟิศ ช่วงนี้ก็จะเป็นช่วงของ Stand up Meeting
11:00 AM - 7:30 PM: Pre-sales, Implementation, and Internal Tasks
หลังจากนั้นเราก็จะก็จะทำงานไปยาว ๆ ทำงานต่าง ๆ ทั้งในด้าน Pre-Sales Implementation และ Internal รวมถึงเข้าประชุมต่าง ๆ ทั้งประชุมภายใน และโปรเจกต์ลูกค้า
เครื่องมือที่ใช้ในการทำงานของ Data Scientist มีอะไรบ้าง?
Project Management ใช้การติดตามโปรเจกต์หรืองานต่าง ๆ เราก็จะใช้ Jira Board หรือเวลาเราทำ Research หรือ Literature Review เราก็จะใช้ Confluence ในการจดโน้ต บันทึกผลลัพธ์การวิเคราะห์ต่าง รวมถึงเวลาทำ Data Exploration ก็จะเอาข้อมูลไปเก็บไว้บน Confluence เพื่อให้แชร์ข้อมูลกับคนที่ทำงานร่วมกันได้
Quick Research and Experimentation ช่วงแรกในการทำ Implementation เราก็จะต้องทดลองคอนเซ็ปต์ต่าง ๆ ทดลองโมเดล และทำ Data Exploration แบบเร็ว ๆ ซึ่งขั้นตอนนี้เราก็จะใช้ Jupyter Notebook
Programming Languages ที่ใช้หลัก ๆ ก็จะเป็น Python และ SQL
Machine Learning Tools หลัก ๆ ที่ใช้ก็จะเป็นพวก PyTorch, TensorFlow และ Scikit-learn
Cloud Services ต่าง ๆ เช่น Vertex AI และ BigQuery ค่ะ
ชอบอะไรในความเป็น Data Scientist?
“ข้อแรกคือชอบที่ได้เรียนรู้อะไรใหม่ ๆ เพราะ Data Scientist เป็นอาชีพที่เปลี่ยนแปลงเร็ว เราอยู่ในแวดวงที่เทคโนโลยีต่าง ๆ พัฒนาอย่างรวดเร็ว เราก็เลยต้องเรียนรู้ใหม่ตลอดเวลา เพราะมันก็จะมีโมเดลใหม่ ๆ พัฒนามาตลอด อย่างโมเดล LLMs ก็มีเวอร์ชันใหม่เกือบทุกเดือน ซึ่งเราก็ต้องทำความเข้าใจว่ามันดีขึ้นยังไง เปลี่ยนแปลงยังไง หรือหลัง ๆ Generative AI มาแรงมาก Cloud Provider ต่าง ๆ ก็จะผลิตเครื่องมือใหม่ ๆ มาตลอดเวลา ที่เราก็ต้องตามให้ทัน ก็สนุกค่ะ
อีกอย่างหนึ่งที่รู้สึกชอบคือ เราได้เห็นว่าความรู้ที่เรามีมันสามารถถูกนำไปเปลี่ยนเป็นสิ่งที่มีคุณค่าต่อธุรกิจได้ เพราะปกติสายวิทยาศาสตร์อื่น ๆ ก็จะค่อนข้างไกลจากธุรกิจ นี่เป็นอีกอย่างที่เราชอบ”
มองว่าตัวเองในอีก 2 ปีข้างหน้าจะเป็นอย่างไร?
“ก็จะยังเป็น Data Scientist อยู่ แต่ก็อยากเก่งขึ้น แล้วก็อยากเรียนรู้ในด้านของ MLOps ให้มากขึ้น เพื่อให้เราสามารถจัดการ Data Science Lifecycle ทั้งหมดได้ด้วยตัวเอง”
Anantaya Pornwichianwong