AI Data Cycle: การจัดเก็บและจัดการข้อมูลสำหรับแอปพลิเคชั่น AI -

AI Data Cycle: เจาะลึกวิธีในการจัดเก็บและจัดการข้อมูลสำหรับแอปพลิเคชั่น AI ที่ต้องจัดการกับข้อมูลจำนวนมากที่มีประสิทธิภาพและประสิทธิผลสูงสุด

สัมภาษณ์พิเศษ คุณรุจาภา ชุติจาตุรนต์ ผู้จัดการอาวุโสฝ่ายขาย บริษัท เวสเทิร์น ดิจิตอล (ประเทศไทย)

การเพิ่มขึ้นของ AI จะเพิ่มความต้องการโซลูชันการจัดเก็บข้อมูลที่มีขนาดใหญ่ขึ้น รวดเร็วขึ้น และมีประสิทธิภาพมากขึ้นอย่างไร

AI เชิงสร้างสรรค์ได้รับการยอมรับอย่างกว้างขวางว่าเป็นเทคโนโลยีล้ำสมัยที่มีศักยภาพในการเปลี่ยนแปลงอุตสาหกรรมต่างๆ เมื่อ AI ถูกผนวกรวมเข้ากับแทบทุกภาคส่วน ทำให้เกิดแอปพลิเคชันใหม่ๆ และสร้างสรรค์ ความสำคัญของการจัดเก็บข้อมูลจึงเพิ่มมากขึ้น นั่นเป็นเพราะโมเดล AI บริโภคและสร้างข้อมูลจำนวนมากอย่างต่อเนื่อง โดยจะประมวลผลข้อความ รูปภาพ เสียง และวิดีโอที่มีอยู่ รวมถึงประเภทข้อมูลอื่นๆ ขณะเดียวกันก็สร้างข้อมูลใหม่เฉพาะตัว ทำซึ่งส่วนใหญ่จะถูกจัดเก็บไว้เนื่องจากมีประโยชน์ต่อบริบทและการฝึกอบรมโมเดล ผลก็คือ AI สร้างวงจรข้อมูล AI อย่างต่อเนื่อง โดยที่การสร้างข้อมูลเพิ่มมากขึ้นจะส่งผลให้พื้นที่จัดเก็บข้อมูลขยายตัวมากขึ้น และส่งผลให้มีการสร้างข้อมูลเพิ่มเติมต่อไป

วงจรข้อมูล AI (AI Data Cycle) คืออะไรและเหตุใดจึงมีความสำคัญ

ความสัมพันธ์ระหว่าง AI และที่เก็บข้อมูลนั้นเปลี่ยนแปลงตลอดเวลาและมีความสำคัญ ซึ่งเป็นสิ่งสำคัญที่ผู้ให้บริการคลาวด์ขนาดใหญ่ (Hyperscalers) ผู้ให้บริการศูนย์ข้อมูล (Data centre operators) และผู้บริโภค (Consumers) ต้องเข้าใจ เมื่อ AI ก้าวหน้าและพัฒนาไปมากขึ้น AI จะใช้และสร้างข้อมูลในขั้นตอนต่างๆ ของการพัฒนาและการดำเนินการ ซึ่งเรียกว่าวงจรข้อมูล AI แต่ละขั้นตอนใน 6 ขั้นตอนนี้มีความต้องการที่เก็บข้อมูลเฉพาะของตัวเอง เพื่อให้ทันกับการเติบโตอย่างรวดเร็วของ AI และความต้องการที่เพิ่มขึ้น ผู้ผลิตชิ้นส่วนสำหรับจัดเก็บข้อมูลจึงปรับกลยุทธ์ผลิตภัณฑ์ของตนเพื่อปรับปรุงประสิทธิภาพและลดต้นทุนรวมในการเป็นเจ้าของ (TCO) ซึ่งหมายถึงต้นทุนโดยรวมของการใช้งานและการบำรุงรักษาโซลูชันที่เก็บข้อมูล) ให้เหลือน้อยที่สุด

ขั้นตอนของวงจรข้อมูล AI 6 ขั้นตอนคืออะไร

ขั้นตอนแรกของวงจรข้อมูล AI เป็นขั้นตอนที่รวบรวมข้อมูลดิบจากแหล่งต่างๆ และจัดเก็บอย่างปลอดภัย คุณภาพและความหลากหลายของข้อมูลที่รวบรวมมามีความสำคัญเนื่องจากเป็นรากฐานของกระบวนการ AI ทั้งหมดที่ตามมา ขั้นตอนนี้เน้นที่การจัดเก็บข้อมูลปริมาณมากด้วยต้นทุนที่ต่ำที่สุด ซึ่งเป็นเหตุผลว่าทำไมจึงต้องอาศัยฮาร์ดดิสก์ไดรฟ์ระดับองค์กรที่มีความจุสูง (eHDD) ไดรฟ์เหล่านี้มีความจุในการจัดเก็บสูงสุดต่อหน่วยและต้นทุนต่อบิตที่ต่ำที่สุด

ในขั้นตอนที่สองของวงจรข้อมูล AI ข้อมูลดิบจะได้รับการประมวลผล ทำความสะอาด และแปลงเพื่อเตรียมข้อมูลสำหรับการป้อนเข้าสู่การฝึกอบรมโมเดล AI ในขั้นตอนนี้ เจ้าของศูนย์ข้อมูลกำลังปรับปรุงโครงสร้างพื้นฐานการจัดเก็บข้อมูลด้วยคลังข้อมูลที่รวดเร็วซึ่งได้รับการปรับให้เหมาะสมสำหรับการจัดเก็บและการเข้าถึงข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจำนวนมากอย่างรวดเร็ว เช่น ดาต้าเลคที่รวดเร็วมาใช้เพื่อรองรับการเตรียมและการนำข้อมูลเข้าระบบ จึงมีการใช้ระบบจัดเก็บข้อมูลแบบแฟลชทั้งหมดมากขึ้น ระบบเหล่านี้ประกอบด้วยไดรฟ์โซลิดสเตตระดับองค์กรความจุสูง (eSSD) โดยจะถูกเพิ่มเข้าไปเพื่อเสริมคลังข้อมูลที่ใช้ HDD ที่มีอยู่หรือใช้ภายในชั้นการจัดเก็บแบบแฟลชทั้งหมดในการตั้งค่าใหม่ทั้งหมดเพื่อปรับปรุงความเร็วและประสิทธิภาพในการจัดการชุดข้อมูลขนาดใหญ่

ในขั้นตอนที่สาม โมเดล AI จะได้รับการฝึกซ้ำโดยใช้ข้อมูลการฝึกเพื่อให้ทำนายได้แม่นยำยิ่งขึ้น การฝึกนี้เกิดขึ้นบนซูเปอร์คอมพิวเตอร์ประสิทธิภาพสูง ซึ่งประสิทธิภาพของกระบวนการขึ้นอยู่กับการเพิ่ม การใช้ GPU สูงสุด เพื่อรองรับสิ่งนี้ สิ่งสำคัญคือต้องมีที่เก็บข้อมูลแฟลชแบนด์วิดท์สูงมาก อยู่ใกล้กับเซิร์ฟเวอร์การฝึก ที่เก็บข้อมูลนี้จะต้องเร็วเพียงพอที่จะตามทันความเร็วในการประมวลผลของ GPU ดังนั้น จึงได้นำไดรฟ์โซลิดสเตต PCIe® Gen 5 ประสิทธิภาพสูง ซึ่งได้รับการปรับให้เหมาะสมสำหรับงานประมวลผลและออกแบบให้มีค่าความหน่วงต่ำ มาใช้เพื่อตอบสนองข้อกำหนดที่เข้มงวดของขั้นตอนนี้ เพื่อให้แน่ใจว่าการฝึกโมเดลจะราบรื่นและมีประสิทธิภาพ

ในขั้นตอนที่สี่จะเน้นที่การสร้างอินเทอร์เฟซที่เป็นมิตรกับผู้ใช้สำหรับโมเดล AI เช่น API แดชบอร์ด และเครื่องมือต่างๆ ที่ให้ผู้ใช้โต้ตอบกับ AI ได้โดยการรวมข้อมูลเฉพาะบริบทเข้ากับอินพุต โมเดล AI จะถูกรวมเข้ากับแอปพลิเคชันอินเทอร์เน็ตและไคลเอนต์ที่มีอยู่ เพื่อปรับปรุงระบบเหล่านี้โดยไม่ต้องที่ระบบปัจจุบัน การผสานรวมนี้ส่งผลให้มีความต้องการพื้นที่จัดเก็บที่เพิ่มมากขึ้น เนื่องจากทั้งระบบปัจจุบันและการประมวลผล AI ใหม่จะต้องอยู่ร่วมกัน เพื่อรองรับสิ่งนี้ ระบบจัดเก็บข้อมูลปัจจุบันจะได้รับการอัปเกรดด้วยไดรฟ์ฮาร์ดดิสก์ระดับองค์กร (eHDD) และไดรฟ์โซลิดสเตตระดับองค์กร (eSSD) เพิ่มเติมในศูนย์ข้อมูลเพื่อจัดการกับภาระงานที่เกี่ยวข้องกับ AI ในทำนองเดียวกัน จะต้องใช้ SSD ไคลเอนต์ที่มีประสิทธิภาพสูงขึ้นและมีขนาดใหญ่ขึ้น (cSSD) ในพีซีและแล็ปท็อป ตลอดจนอุปกรณ์แฟลชฝังตัวที่มีความจุสูงขึ้นสำหรับโทรศัพท์มือถือ ระบบ IoT และแอปพลิเคชันยานยนต์ เพื่อให้แน่ใจว่าอุปกรณ์เหล่านี้สามารถรองรับคุณสมบัติและแอปพลิเคชันที่ได้รับการปรับปรุงด้วย AI

ในขั้นตอนที่ห้าจะมีการปรับใช้โมเดล AI ที่ได้รับการฝึกอบรมแบบเรียลไทม์ ซึ่งเป็นขั้นตอนที่โมเดล AI จะวิเคราะห์ข้อมูลใหม่และให้การคาดการณ์แบบเรียลไทม์หรือสร้างเนื้อหาใหม่ ประสิทธิภาพของกลไกการอนุมานซึ่งใช้โมเดลที่ได้รับการฝึกอบรมกับข้อมูลใหม่นั้นมีความสำคัญอย่างยิ่งในการรับรองการตอบสนองของ AI ที่ทันเวลาและแม่นยำ เพื่อรองรับสิ่งนี้ องค์กรอาจปรับใช้ไดรฟ์โซลิดสเตตระดับองค์กรที่มีความจุสูง (eSSD) เพื่อสตรีมข้อมูลบริบทหรือโมเดลไปยังเซิร์ฟเวอร์อนุมาน ทั้งนี้ ขึ้นอยู่กับขนาดของการดำเนินการหรือเวลาตอบสนองที่ต้องการ eSSD สำหรับการประมวลผลประสิทธิภาพสูงยังใช้สำหรับการแคชเพื่อให้แน่ใจว่าสามารถเข้าถึงข้อมูลได้อย่างรวดเร็ว ในขั้นตอนนี้ยังรวมถึงการใช้ SSD ไคลเอนต์ที่มีความจุสูง (cSSD) และโมดูลแฟลชฝังตัวขนาดใหญ่กว่าในอุปกรณ์เอดจ์ที่รองรับ AI ซึ่งช่วยให้สามารถประมวลผลแบบเรียลไทม์ในอุปกรณ์ต่างๆ เช่น ระบบ IoT โทรศัพท์มือถือ และอุปกรณ์ที่เชื่อมต่ออื่นๆ

ในขั้นตอนสุดท้ายของวงจรข้อมูล AI จะมีการสร้างเนื้อหาใหม่ขึ้นโดยอิงจากข้อมูลเชิงลึกที่สร้างขึ้นโดยโมเดล AI ข้อมูลที่สร้างขึ้นใหม่นี้มักมีค่าหรือมีส่วนร่วม จึงถูกเก็บไว้เพื่อใช้ในอนาคต แม้ว่าขั้นตอนนี้จะปิดวงจรของวงจรข้อมูล AI ก็ตาม แต่ข้อมูลดังกล่าวยังถูกป้อนกลับไปยังวงจรด้วย โดยขับเคลื่อนการปรับปรุงและนวัตกรรมอย่างต่อเนื่องด้วยการปรับปรุงข้อมูลที่มีอยู่สำหรับการฝึกอบรมหรือการวิเคราะห์ในอนาคต เนื้อหาที่สร้างขึ้นโดย AI จะถูกเก็บไว้ใน eHDD ขององค์กรที่มีความจุสำหรับการจัดเก็บถาวรในระยะยาวในศูนย์ข้อมูล นอกจากนี้ SSD ไคลเอนต์ที่มีความจุสูง (cSSD) และอุปกรณ์แฟลชฝังตัวในอุปกรณ์เอจที่รองรับ AI จะจัดเก็บข้อมูลใหม่นี้ไว้ในเครื่อง ทำให้มั่นใจได้ว่าข้อมูลดังกล่าวจะสามารถใช้งานได้สำหรับกระบวนการที่กำลังดำเนินอยู่หรือแอปพลิเคชัน AI ในอนาคต วงจรป้อนกลับอย่างต่อเนื่องนี้จะเพิ่มมูลค่าและประสิทธิภาพของข้อมูลเมื่อเวลาผ่านไป

ภาพรวมของการสร้างข้อมูลคาดว่าจะเปลี่ยนแปลงไปอย่างไรในอนาคต

วงจรการสร้างและการใช้ข้อมูลที่กำลังดำเนินไปอย่างรวดเร็วทำให้มีความต้องการเทคโนโลยีการจัดเก็บข้อมูลแบบปรับขนาดได้ที่มีความจุสูงและขับเคลื่อนด้วยประสิทธิภาพมากขึ้น เทคโนโลยีเหล่านี้มีความจำเป็นสำหรับการจัดการชุดข้อมูล AI ขนาดใหญ่และการจัดการข้อมูลที่ซับซ้อนอย่างมีประสิทธิภาพ ซึ่งเป็นแรงผลักดันให้เกิดนวัตกรรมใหม่ๆ ต่อไปในวงการนี้ การจัดเก็บข้อมูลและการเข้าถึงข้อมูลจะมีบทบาทสำคัญในการกำหนดความเร็ว ประสิทธิภาพ และความแม่นยำของโมเดล AI ส่งผลให้มีความต้องการโซลูชันการจัดเก็บข้อมูลที่มีประสิทธิภาพเพิ่มมากขึ้น ดังนั้น เราคาดว่าผู้ให้บริการส่วนประกอบของอุปกรณ์การจัดเก็บข้อมูลจะปรับแต่งผลิตภัณฑ์ของตนให้ตรงตามความต้องการเฉพาะของแต่ละขั้นตอนของวงจรข้อมูล AI มากขึ้น เพื่อให้แน่ใจว่าโซลูชันการจัดเก็บข้อมูลสอดคล้องกับข้อกำหนดของการรวบรวมข้อมูล การประมวลผล การฝึกโมเดล การอนุมาน และข้อเสนอแนะ

click here for English

www.westerndigital.com

บริษัท ซินเน็ค (ประเทศไทย) จำกัด (มหาชน)
33 ถนนสุคนธสวัสดิ์ แขวงลาดพร้าว
เขตลาดพร้าว กรุงเทพฯ 10230
Tel : +66(0) 2553-8888
https://www.synnex.co.th/th/