ศาสตร์ข้อมูลของการเล่นแร่แปรธาตุดิจิทัล

ศาสตร์ข้อมูลของการเล่นแร่แปรธาตุดิจิทัล

ในธรรมชาติ อนุภาคจะรวมตัวกันเป็นโครงสร้างผลึกที่มีคุณสมบัติบางอย่างตามธรรมชาติ มนุษย์ได้เรียนรู้วิธีใช้ประโยชน์จากพฤติกรรมนี้เพื่อสร้างวัสดุที่เป็นประโยชน์ในห้องแล็บ แต่เราถูกจำกัดด้วยลักษณะทางกายภาพของการทดลอง กลุ่มนักวิจัยที่มหาวิทยาลัยมิชิแกนภายใต้การนำของ “นักเล่นแร่แปรธาตุดิจิทัล” ชารอน ซี. กลอตเซอร์ กำลังใช้วิทยาศาสตร์ข้อมูลและทรัพยากรการคำนวณที่มีประสิทธิภาพสูงเพื่อทำนายว่าอนุภาคนาโนใดจะได้รับการประกอบตัวเอง ซึ่งจะช่วยเร่งการสร้างวัสดุใหม่ . Glotzer หนึ่งในนักวิจัยชั้นนำของโลกในด้านการประกอบอนุภาคนาโนด้วยตนเอง เป็นหัวหน้ากลุ่ม Glotzer กลุ่ม 30 หรือมากกว่านั้น นักวิจัยที่มหาวิทยาลัย ภาควิชาวิศวกรรมเคมีของมิชิแกนและสถาบัน Biointerfaces ในระหว่างการประชุม ACM SIGKDD 2021 เมื่อสัปดาห์ที่แล้ว กลอตเซอร์อธิบายว่าทีมของเธอใช้ซอฟต์แวร์วิทยาศาสตร์ข้อมูล ฮาร์ดแวร์ HPC และความเฉลียวฉลาดของมนุษย์ในการสร้างงานอย่างไร คริสตัลมีอยู่ทั่วไปในธรรมชาติ น้ำแข็งและเกลือแกงเป็นตัวอย่างของโครงสร้างผลึกที่เกิดขึ้นเองตามธรรมชาติเมื่อนำเสนอองค์ประกอบที่เหมาะสมในสภาวะที่เหมาะสม แต่ธรรมชาติมีคริสตัลที่ซับซ้อนกว่ามากซ่อนตัวจากการมองเห็น ในระดับจุลภาค โครงสร้างคริสตัลจะประกอบตัวเองจากองค์ประกอบต่างๆ ให้กลายเป็นหน่วยการทำซ้ำที่ซับซ้อนอย่างยิ่งซึ่งมีอะตอมหลายหมื่นอะตอม จำนวนชุดค่าผสมที่เป็นไปได้นั้นมากเกินกว่าจะเข้าใจได้ แต่นี่เป็นสาขาที่กลอตเซอร์และเพื่อนร่วมงานของเธอได้อุทิศตนเพื่อความเข้าใจ “เรากำลังหมกมุ่นอยู่กับความเข้าใจว่าความซับซ้อนดังกล่าวเกิดขึ้นได้อย่างไร? ระบบคิดอย่างไรในการจัดระเบียบตัวเองเป็นโครงสร้างคริสตัลต่างๆ เหตุใดจึงชอบโครงสร้างผลึกหนึ่งมากกว่าโครงสร้างอื่น และมันไปถึงที่นั่นได้อย่างไร? มันทำได้อย่างไร” กลอตเซอร์ถามระหว่างเซสชั่นของเธอที่ KDD2021 ซึ่งจัดขึ้นแทบเนื่องมาจากการระบาดของโควิด-19 “เรารู้ว่ากลศาสตร์ควอนตัมอธิบายได้มากมายเกี่ยวกับพันธะ อุณหพลศาสตร์มีความสำคัญในการกำหนดระยะเสถียร และโครงสร้างผลึกใดๆ ที่คุณได้รับต้องเป็นไปตามกฎของอุณหพลศาสตร์เชิงสถิติ” กลอตเซอร์กล่าวต่อ “แต่สิ่งที่เราไม่มีทฤษฎีก็คือการทำความเข้าใจปัจจัยทางจุลทรรศน์ที่นำไปสู่ความไม่เป็นระเบียบ” (เอื้อเฟื้อภาพ Glotzer Group) Glotzer และเพื่อนร่วมงานของเธอโจมตีปัญหาอย่างมีเหตุมีผล โดยใช้วิทยาศาสตร์ข้อมูลและทรัพยากร HPC เป้าหมายคือการขยายความเข้าใจของเราเกี่ยวกับเส้นทางการประกอบซึ่งอนุภาคนาโนจะประกอบขึ้นเอง นั่นคือสร้างโครงสร้างผลึกที่เสถียรด้วยตัวของมันเองโดยอาศัยกำลังใจจากมนุษย์น้อยที่สุด ในที่สุด การสร้างวัสดุใหม่ที่มีประโยชน์ต่อมนุษย์ในกรณีการใช้งานต่างๆ “มันเป็นพื้นที่การออกแบบที่ไม่มีที่สิ้นสุดอย่างแท้จริง” Glotzer ผู้ถูกขนานนามว่า “นักเล่นแร่แปรธาตุดิจิทัล” ใน 2017 บทความในนิตยสาร Quanta “การจำลองด้วยคอมพิวเตอร์เป็นเครื่องมือที่สมบูรณ์แบบในการสำรวจพื้นที่การออกแบบ เพราะเราสามารถทำได้เร็วกว่าการทดลอง และเราสามารถรักษาบางสิ่งให้คงที่และเปลี่ยนแปลงสิ่งอื่น ๆ ในลักษณะที่การทดลองอาจไม่สามารถทำได้” ทีมงานของ Glotzer ไม่ได้มุ่งเน้นที่โครงสร้างที่เป็นโลหะ แต่เน้นที่ “สสารที่อ่อนนุ่ม” มากกว่า เช่น โปรตีน ดีเอ็นเอ ไวรัสแคปซิด และอนุภาคแกมมา ประเด็นสำคัญประการหนึ่งของการวิจัยคือการรู้ว่าโมเลกุลอินทรีย์ใดจะทำหน้าที่เป็นสารยึดเหนี่ยวหรือแกนด์ที่เชื่อมต่อหน่วยการสร้างเข้าด้วยกัน DNA เป็นตัวอย่างหนึ่งของลิแกนด์ นักวิจัยทำงานย้อนกลับจากที่ที่พวกเขาต้องการ “เราต้องการเริ่มต้นจาก 'นี่คือคุณสมบัติของพฤติกรรมที่เราต้องการให้สื่อของเรามี' ตามนั้น นี่คือโครงสร้างของคริสตัลที่เราต้องการ” กลอตเซอร์กล่าว “ตามนั้น เราควรสร้างอนุภาคนาโนชนิดใด และควรใช้องค์ประกอบใดในการยึดเหนี่ยว เพื่อที่ว่าเมื่อเราโยนอนุภาคเหล่านี้ลงในถังน้ำ พวกมันจะรวมตัวกันเป็นโครงสร้างที่เราต้องการอย่างแท้จริง” นักชีวเคมีในปัจจุบันมีการควบคุมกระบวนการผลิตอนุภาคนาโนเป็นอย่างมาก ตาม Glotzer เป็นไปได้ในทุกวันนี้ “เพื่อสร้างรูปร่างอนุภาคนาโนชนิดใดก็ได้จากวัสดุหลายประเภทที่มีความสม่ำเสมอมากเพื่อให้อนุภาคทั้งหมดมีขนาดใกล้เคียงกันและมีรูปร่างเหมือนกัน” นำเสนอด้วยพื้นที่ขนาดใหญ่และน่าสนใจซึ่งเต็มไปด้วยบล็อคและกาว เป็นหน้าที่ของกลอตเซอร์ที่จะค้นหาว่าสิ่งเหล่านี้จะรวมตัวกันได้อย่างไร และมารวมกันในลักษณะที่ได้เปรียบที่สุด (ภาพโดยได้รับความอนุเคราะห์จาก Glotzer Group) “ถ้าฉันให้โครงสร้างผลึกแก่คุณแล้วบอกว่า บอกฉันทีว่าฉันควรใช้รูปทรงอนุภาคนาโนแบบใด คุณคงลำบากใจที่จะพูดว่ารูปร่างนั้นควรเป็นอย่างไร” เธอกล่าว “ถ้าคุณมีอนุภาครูปทรงต่างๆ มากมาย สมมติว่าพวกมันสามารถประกอบตัวเองเป็นโครงสร้างได้ เช่นเดียวกับโครงสร้างคลาเทรตนั้น อันไหนดีที่สุด? อันไหนสร้างคริสตัลที่ดีที่สุดให้ผลผลิตสูงสุดและคุณภาพสูงสุด? นี่เป็นคำถามที่เราใช้การจำลองด้วยคอมพิวเตอร์เพื่อพยายามตอบ” มีสองแนวทางพื้นฐานที่ Glotzer ใช้ วิธีหนึ่งคือการสร้างแบบจำลองที่ใช้ไดนามิกของโมเลกุลเพื่อทำนายแรงที่อนุภาคต่างๆ จะมีต่อกัน และโครงสร้างผลลัพธ์ที่อาจเกิดขึ้นจากแรงดังกล่าว อีกรูปแบบหนึ่งคือการจำลองแบบมอนติคาร์โล โดยระบบจะเลียนแบบการเคลื่อนที่แบบบราวเนียนของอนุภาคนาโนในของเหลว “เมื่อเราศึกษาระบบ เราไม่รู้ว่ามันจะทำอะไร” เธอกล่าว “เมื่อเราเริ่มต้นด้วยรูปทรง เราไม่รู้ว่าพวกมันจะทำอะไร หรือแม้แต่จะสร้างอะไรขึ้นมาด้วยซ้ำ เราไม่รู้ว่าพวกมันจะประกอบตัวเองหรือไม่ ที่ความเข้มข้นหรือความดันหรืออุณหภูมิใดที่พวกมันจะรวมตัวกันเป็นโครงสร้างผลึกนั้น เราไม่รู้เรื่องนั้นเลย ดังนั้นเราจึงต้องทำการจำลองหลายๆ อย่างเพื่อหวังว่าเราจะเริ่มเห็นสิ่งที่ประกอบขึ้นเอง” Glotzer Group ได้พัฒนาโค้ดของตัวเองที่เรียกว่า HOOMD-blue เพื่อเรียกใช้การจำลอง เธอบอกว่าทีมของเธอได้ทำการจำลองหลายแสนครั้ง 50,000 อนุภาค รูปร่าง เนื่องจากมีความไม่แน่นอนมากมายเกี่ยวกับสิ่งที่จะเกิดขึ้น หากมี โครงสร้างใดเกิดขึ้น ทีมของเธอจำเป็นต้องเข้าถึงพลังการประมวลผลจำนวนมากเพื่อให้คุ้มค่า ซึ่งรวมถึงซัมมิท ซูเปอร์คอมพิวเตอร์ 1993 -petaflops ที่ติดตั้งที่ห้องปฏิบัติการแห่งชาติโอ๊คริดจ์ Glotzer Group แบ่งปันเครื่องมือที่พัฒนาขึ้นเพื่อศึกษาการประกอบตัวเองของอนุภาคนาโน (Image courtesy Glotzer Group) “เราไม่รู้ว่าเซลล์หน่วยมีขนาดเท่าใด และเราไม่ต้องการมีอิทธิพลต่อสิ่งที่จะเกิดขึ้นเพราะเรามี พล็อตอนุภาคเล็กเกินไป ดังนั้นเราจึงต้องมีระบบที่ใหญ่มาก” เธอกล่าว “ทั้งหมดนี้หมายความว่าเราสร้างข้อมูลจำนวนมากในแต่ละวัน เทราไบต์และเทราไบต์ของข้อมูล ดังนั้นเราจึงต้องการวิธีการจัดระเบียบข้อมูลนั้นเพื่อให้เราสามารถทำวิทยาศาสตร์กับมันได้” หนึ่งในเครื่องมือที่ทีมของ Glotzer ใช้คือ signac ซึ่งเป็นเฟรมเวิร์กที่ไม่เชื่อเรื่องพระเจ้าในแอปพลิเคชันที่มีน้ำหนักเบาซึ่งเขียนด้วย Python ซึ่งช่วยให้ผู้ใช้จัดการและปรับขนาดเวิร์กโฟลว์ตามไฟล์ Glotzer กล่าวว่า signac เป็นกาวที่เชื่อมต่อส่วนประกอบต่างๆ ในเวิร์กโฟลว์ HPC ของทีมของเธอเข้าด้วยกัน และมีความสำคัญอย่างยิ่งต่อการตรวจสอบให้แน่ใจว่าข้อมูลที่สร้างขึ้นนั้นโปร่งใส ทำซ้ำได้ ผู้อื่นใช้งานได้ และขยายได้ “สิ่งที่ signac เหมาะคือการจัดการข้อมูลที่ต่างกันตามไฟล์บนระบบไฟล์ในเครื่อง เพื่อค้นหาข้อมูล และเข้าถึงข้อมูลนั้น” เธอกล่าว “คุณสามารถทำได้ภายใน Python หรือบนบรรทัดคำสั่ง พัฒนาเวิร์กโฟลว์การคำนวณที่ปรับขนาดได้และทำซ้ำได้ รวมถึงเวิร์กโฟลว์ที่ซับซ้อนมาก” การเลือกรูปแบบที่เกี่ยวข้องจากข้อมูลที่สร้างขึ้นโดยการจำลองก็มีความสำคัญเช่นกัน และสำหรับสิ่งนี้ ทีมของ Glotzer ใช้อัลกอริธึมการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลเพื่อสร้างตัวอธิบาย “แนวคิดคือการพัฒนาความเข้าใจด้วยกล้องจุลทรรศน์เกี่ยวกับเส้นทางการประกอบโดยใช้การเรียนรู้ของเครื่อง” เธอกล่าว “ดังนั้นเราจึงเริ่มต้นด้วยอนุภาค และเราจำเป็นต้องมีตัวอธิบายบางตัวที่บอกเราว่าสภาพแวดล้อมของอนุภาคในท้องถิ่นคืออะไร เพื่อที่เราจะได้แยกแยะโครงสร้างผลึกหนึ่งจากอีกโครงสร้างหนึ่ง และการเพาะเลี้ยงผลึกจากของเหลว หรือบางส่วนของรูปแบบโครงสร้าง ส่วนอื่น ๆ ของโครงสร้างผลึก” ชารอน ซี. กลอตเซอร์ ศาสตราจารย์แห่งมหาวิทยาลัยมิชิแกน รับปริญญาดุษฎีบัณฑิต ในทางทฤษฎีฟิสิกส์ของสสารควบแน่นอ่อนจากมหาวิทยาลัยบอสตัน 1993 ความท้าทายใหญ่อย่างหนึ่งที่เกิดขึ้นที่นี่คือมิติข้อมูลสูง กลุ่มของ Glotzer ใช้อัลกอริธึมที่เรียกว่า Uniform Manifold Approximation and Projection (UMAP) เพื่อลดมิติข้อมูลในขณะที่รักษารูปร่างดั้งเดิมไว้ในพื้นที่มิติที่ลดลง นอกจากนี้ยังให้ประสิทธิภาพที่ดีกับ GPU โดยใช้ไลบรารี RAPIC ของ Nvidia สำหรับ CUDA เธอกล่าว ด้วยพารามิเตอร์ลำดับทอพอโลยีอย่างต่อเนื่องจาก UMAP ขณะนี้กลุ่มของ Glotzer มีข้อมูลเชิงลึกว่าอนุภาคนาโนจะประกอบตัวเองได้อย่างไร ผลลัพธ์ที่เป็นรหัสสีจากการวิเคราะห์นั้นยังให้ข้อมูลเชิงลึกเกี่ยวกับธรรมชาติของการบรรจุอนุภาคนาโนด้วย “เราสามารถปฏิบัติตามเส้นทางเหล่านี้จากของเหลวไปสู่ผลึกและรู้ว่าสภาพแวดล้อมของอนุภาคทุกแห่งเปลี่ยนแปลงไปตามเส้นทางนี้อย่างไร” เธอกล่าว เมื่อกลอตเซอร์รวบรวมการฝัง UMAP ต่างๆ รูปภาพก็เริ่มปรากฏขึ้น “เราสามารถเห็นโครงสร้างทั้งหมดของท่อร่วมด้วยโครงสร้างผลึกต่างๆ ที่สามารถก่อตัวขึ้นจากระบบต่างๆ ที่เรากำลังดูอยู่ ตั้งแต่เริ่มต้นเป็นของเหลวและสิ้นสุดเหมือนคริสตัล” เธอกล่าว “ข้อมูลนี้ช่วยให้เราสามารถออกแบบเส้นทางการประกอบใหม่ได้” สำหรับข้อมูลเพิ่มเติมเกี่ยวกับงานของ Glotzer คุณสามารถเยี่ยมชมหน้าเว็บของทีมของเธอได้ที่ glotzerlab.engin.umich.edu/home รายการที่เกี่ยวข้อง: Data Science คืออะไร? ผู้ชนะรางวัลทัวริงแบ่งปันมุมมองของเขา ซอฟต์แวร์ Clemson เพิ่มประสิทธิภาพการถ่ายโอนข้อมูลขนาดใหญ่ AI เกณฑ์เพื่อติดตามปฏิกิริยาทางเคมีที่ซับซ้อนในผู้คน

  • บ้าน
  • ธุรกิจ
  • วิทยาศาสตร์ข้อมูล
  • การตลาดดิจิทัล

  • ตลาดการค้า
  • Leave a comment

    Your email address will not be published. Required fields are marked *