Data science

การแก้ไขหนึ่งในความท้าทายที่ใหญ่ที่สุดของ ML และ AI: การวิเคราะห์ข้อมูลเชิงสำรวจ

ในขณะที่องค์กรต่างๆ ลงทุนในปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง (ML) พวกเขาก็ต้องพบกับความขัดแย้งอย่างหลีกเลี่ยงไม่ได้ ระบบอัตโนมัติที่โมเดล ML นำเสนออาจเป็นข้อได้เปรียบที่สำคัญสำหรับธุรกิจจำนวนมาก ในทางทฤษฎี ระบบอัตโนมัติควรช่วยลดต้นทุนค่าแรง แต่ด้วยรูปแบบเพิ่มเติมแต่ละรุ่น ทำให้เกิดภาระค่าใช้จ่ายในการบำรุงรักษาหลายองค์กรประเมินต่ำไป แม้ว่าจะมีการให้ความสำคัญอย่างมากกับการสร้างแบบจำลอง นักวิทยาศาสตร์ด้านข้อมูลจะต้องสำรวจและวิเคราะห์ข้อมูลพื้นฐานอย่างต่อเนื่องสำหรับรูปแบบการขยับ ปัญหาด้านคุณภาพของข้อมูล และการเปลี่ยนแปลงที่ไม่คาดฝันในธุรกิจ ซึ่งจะทำให้ประสิทธิภาพการทำงานของไปป์ไลน์ที่ซับซ้อนที่สุดลดลง และในการวิเคราะห์ข้อมูลเชิงสำรวจนี้ สิ่งต่างๆ มักจะผิดพลาด งานมักจะทำด้วยตนเองและต้องทำบ่อยๆ เพื่อตรวจจับการเปลี่ยนแปลงที่อาจเกิดขึ้นในข้อมูล ซึ่งใช้เวลานานและลำบาก องค์กรดูถูกดูแคลนว่าต้องใช้ความพยายามมากเพียงใดในการวิเคราะห์ข้อมูลเชิงสำรวจ และด้วยเหตุนี้จึงมักไม่สำเร็จ ในที่สุด การริเริ่ม AI และ ML ส่วนใหญ่ล้มเหลวเนื่องจากผู้มีส่วนได้ส่วนเสียไม่จับและแก้ไขปัญหาข้อมูล แบบสำรวจหนึ่งระบุอัตราความล้มเหลวที่ 87% ปัญหาการวิเคราะห์ข้อมูลเชิงสำรวจ นักวิทยาศาสตร์ที่รอบคอบต้องซักถามข้อมูลด้วยรายการคำถามทางสถิติเพื่อพิจารณาว่าข้อมูลใดเหมาะสมต่อการใช้งานในโครงการ AI และ ML มีจุดข้อมูลเพียงพอหรือไม่ ข้อมูลดีและใช้งานได้จริงกี่จุด? มีค่าที่หายไปหรือค่าที่ไม่ถูกต้องหรือไม่? มีความผิดปกติหรือไม่? และซ้ำแล้วซ้ำเล่า คำถามแต่ละข้อที่แตกแขนงออกไปเป็นคำถามมากมายที่จำเป็นต้องได้รับคำตอบเพื่อกันไว้ก่อน หากไม่ใช่ทุกกรณีที่อาจทำให้โครงการตกรางได้ (IceHawk33/Shutterstock) ที่แย่ที่สุด กระบวนการนี้ไม่ใช่กิจกรรมที่ทำเสร็จแล้ว! กระบวนการทางธุรกิจที่สร้างข้อมูลนั้นเป็นแบบไดนามิกโดยเนื้อแท้ ด้วยเหตุนี้จึงต้องใช้เวลาในการทบทวนไปป์ไลน์ข้อมูลเป็นจำนวนมากเพื่อให้แน่ใจว่าการป้อนข้อมูลลงในโมเดล ML มีความสอดคล้องกัน Airbnb พบว่าเกือบ 70% ของเวลาที่นักวิทยาศาสตร์ข้อมูลใช้ในการพัฒนาแบบจำลอง ML นั้นได้รับการจัดสรรไปยังการวิเคราะห์เชิงสำรวจที่สำคัญและละเอียดถี่ถ้วนแต่ใช้เวลานาน คลื่นทะเลของค่าใช้จ่ายที่ไม่ได้รับการตรวจสอบนี้สามารถกลบผลประโยชน์ของระบบอัตโนมัติที่เรามุ่งมั่นที่จะบรรลุกับโครงการของเราได้อย่างง่ายดาย การทดสอบข้อมูลแบบทั่วไปสามารถช่วยได้ แต่ความครอบคลุมของการทดสอบตามปกติจะไม่ตรวจจับการเปลี่ยนแปลงที่สำคัญในข้อมูลที่เกี่ยวข้องกับธุรกิจของคุณอย่างใกล้ชิด ตัวอย่างเช่น การทดสอบจะไม่ให้ความกระจ่างเกี่ยวกับ หากคุณไม่ทราบว่าปัญหาอาจเกิดขึ้น จะไม่สามารถสร้างการทดสอบเพื่อตรวจจับปัญหานั้นได้ ตามคำกล่าวของมวยว่า “การชกที่คุณมองไม่เห็น ทำให้คุณหมดแรง” การให้นักวิทยาศาสตร์ด้านข้อมูลมากขึ้นในปัญหามักไม่ค่อยเป็นคำตอบสำหรับบริษัทส่วนใหญ่ มันไม่คุ้มทุนนัก และนักวิทยาศาสตร์ด้านข้อมูล และคนอื่นๆ สำหรับเรื่องนั้น ไม่ชอบงานประเภทนี้ มีเพียงไม่กี่คนที่กลายเป็นนักวิทยาศาสตร์ด้านข้อมูลเพื่อดำเนินการล้างข้อมูลซ้ำๆ ยิ่งไปกว่านั้น การยึดมั่นในหลักการพื้นฐานในโลกของข้อมูลขนาดใหญ่แบบไดนามิกนั้นไม่สามารถปรับขนาดได้และอาจนำไปสู่ความเหนื่อยหน่ายได้ ตามรายงานของสายล่อฟ้าจาก Google “ทุกคนต้องการทำแบบจำลอง ไม่ใช่งานข้อมูล” เข้าสู่การตรวจสอบข้อมูลและการตรวจจับความผิดปกติ John Tukey ซึ่งเป็นหนึ่งในนักสถิติทางคณิตศาสตร์ที่ยิ่งใหญ่ที่สุดที่เคยมีมา ได้เขียนเกี่ยวกับการสอนและการฝึกปฏิบัติเกี่ยวกับการวิเคราะห์ข้อมูลอย่างกว้างขวาง และบทเรียนของเขานำมาใช้ในปัจจุบันในยุคข้อมูลขนาดใหญ่ บริษัทต่างๆ จะได้รับประโยชน์จากการยอมรับว่า “ฉันไม่รู้ว่าข้อมูลมีอะไรบ้าง และฉันจะพยายามเรียนรู้จากข้อมูลดังกล่าว” การทำความเข้าใจข้อมูลเป็นกุญแจสู่ความสำเร็จของ AI และ ML ไม่ใช่อัลกอริธึมมากมาย อันที่จริง ธุรกิจอาจล้มเหลวได้อย่างง่ายดายเมื่อบังคับให้ข้อมูลของตนพอดีกับไปป์ไลน์ AI และ ML มากกว่าวิธีอื่น แต่ถ้างานที่จำเป็นในการทำความเข้าใจข้อมูลใช้เวลานานเกินไปและมีค่าใช้จ่ายสูง นักวิทยาศาสตร์ด้านข้อมูลสามารถทำอะไรได้บ้าง โซลูชันหนึ่งคือการผสมผสานระหว่างการตรวจสอบข้อมูลอัตโนมัติและการตรวจจับสิ่งผิดปกติ การตรวจสอบข้อมูลจะรวบรวมสถิติต่างๆ จากตารางและคอลัมน์ซ้ำๆ เพื่อสร้างอนุกรมเวลาสำหรับสิ่งต่างๆ เช่น ความสด จำนวนแถว และปัญหาอื่นๆ ที่อาจส่งผลต่อตัวข้อมูล การตรวจจับความผิดปกติในอนุกรมเวลาที่เป็นผลลัพธ์จะระบุเหตุการณ์ที่น่าสงสัย ช่วยในการค้นหาความเสื่อมโทรมหรือการเปลี่ยนแปลงที่น่าประหลาดใจในข้อมูลที่ให้บริการกระบวนการ AI และ ML ของคุณ ซึ่งจะช่วยป้องกันการตัดสินใจจากข้อมูลที่ไม่ถูกต้อง ด้วยระบบอัตโนมัติเพื่อทำหน้าที่ตรวจสอบข้อมูลที่สำคัญแต่น่าเบื่อ แทนที่จะต้องสำรวจข้อมูลอย่างต่อเนื่อง นักวิทยาศาสตร์จึงมีภาพที่ชัดเจนของข้อมูลและไม่ว่าจะทำงานตามที่คาดไว้ตลอดเวลาหรือไม่ เมื่อเกิดปัญหาขึ้น นักวิทยาศาสตร์จะต้องตรวจสอบและค้นหาว่าเกิดอะไรขึ้นจริง แต่พวกเขามีเวลามากขึ้นในการทำงานแบบจำลอง ตอนนี้พวกเขาสามารถมุ่งเน้นไปที่ปัญหาทางธุรกิจที่แท้จริงมากกว่าปัญหาข้อมูล AI และ ML ต้องการความเข้าใจอย่างลึกซึ้งเกี่ยวกับข้อมูล ความสำเร็จของการริเริ่ม AI และ ML ของคุณมักขึ้นอยู่กับข้อมูลมากกว่าอัลกอริทึม ดังคำกล่าวที่ว่า “ขยะเข้า ขยะออก” แต่มีเพียงไม่กี่องค์กรที่พิจารณาว่าข้อมูลนี้ใช้เวลานานเพียงใดและจะต้องดำเนินการบ่อยเพียงใด ด้วยเหตุนี้ โครงการ AI และ ML จึงหยุดชะงัก การตรวจสอบข้อมูลแบบไดนามิกและการตรวจจับความผิดปกติสามารถขจัดงานวิเคราะห์ข้อมูลเชิงสำรวจนี้ออกไปได้มาก ช่วยให้นักวิทยาศาสตร์ข้อมูลเข้าใจข้อมูลได้ดีขึ้น และทำให้ใช้เวลากับแบบจำลองได้มากขึ้น เกี่ยวกับผู้เขียน: Henry Li เป็นนักวิทยาศาสตร์ข้อมูลที่ทำงานเกี่ยวกับการพัฒนาโซลูชันการตรวจจับและคาดการณ์ความผิดปกติสำหรับโครงสร้างพื้นฐานอัจฉริยะและปัญหาข้อมูลในมิติสูง ปัจจุบัน Henry เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสที่ Bigeye ก่อนหน้านี้เขาเป็นนักวิทยาศาสตร์ข้อมูลที่ Uber ซึ่งเขาเป็นนักวิทยาศาสตร์ข้อมูลที่เน้นระบบการตัดสินใจที่ชาญฉลาด รายการที่เกี่ยวข้อง: ส่องสว่างปัญหา GIGO ของข้อมูลจมน้ำตายใน Data Lake? นักวิเคราะห์ของ Gartner เสนอตัวช่วยชีวิต ทำไมนักวิทยาศาสตร์ข้อมูลและวิศวกร ML จึงไม่ควรกังวลเกี่ยวกับการเติบโตของ AutoML

  • บ้าน
  • ธุรกิจ
  • วิทยาศาสตร์ข้อมูล
  • การตลาดดิจิทัล

  • ตลาดการค้า
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button