Data science

มองอนาคตของสถาปัตยกรรมข้อมูลแบบเปิด

Hadoop อาจเลือนหายไปในฐานะแพลตฟอร์มข้อมูล แต่ได้วางรากฐานสำหรับสถาปัตยกรรมข้อมูลแบบเปิดที่ยังคงเติบโตและพัฒนามาจนถึงทุกวันนี้ ซึ่งส่วนใหญ่อยู่ในระบบคลาวด์ เราได้ดูอนาคตของสถาปัตยกรรมข้อมูลแบบเปิดนี้ในระหว่างการประชุม Subsurface เมื่อเร็ว ๆ นี้ ซึ่งมีผู้สร้างเทคโนโลยีที่มีแนวโน้มมากมายสำหรับ data lake และ data lakehouses งานที่น่าตื่นเต้นมากมายในสถาปัตยกรรมข้อมูลในปัจจุบันกำลังเกิดขึ้นในคลาวด์ ด้วยความพร้อมใช้งานของพื้นที่จัดเก็บแบบอ็อบเจ็กต์ที่ไม่มีที่สิ้นสุด (เช่น S3) และการประมวลผลแบบออนดีมานด์ที่ไร้ขีดจำกัด (ต้องขอบคุณ Docker และ Kubernetes) ข้อจำกัดทางกายภาพของการรวบรวม จัดเก็บ และประมวลผลข้อมูลจำนวนมหาศาลได้หายไปอย่างมาก (มัน ยังได้แนะนำข้อกังวลด้านต้นทุนใหม่ แต่นั่นเป็นอีกหัวข้อหนึ่งสำหรับวันอื่น) เมื่อปัญหาหนึ่งได้รับการแก้ไข ปัญหาใหม่มักจะเข้ามาดู ในกรณีนี้ เนื่องจากการจัดเก็บและการประมวลผลได้รับการ “แก้ไข” ตอนนี้โฟกัสจึงกลายเป็นวิธีที่ดีที่สุดในการทำให้ผู้ใช้กลุ่มใหญ่ที่สุดสามารถเข้าถึงและใช้ข้อมูลนี้ได้ในลักษณะที่ส่งผลกระทบมากที่สุด ด้วยเหตุผลหลายประการ นี่ไม่ใช่ปัญหาที่แก้ไขได้ โดยเฉพาะอย่างยิ่งเมื่อพูดถึงสภาพแวดล้อม Big Data ที่กำลังขยายตัว ความพยายามที่จะใช้เทคโนโลยีและเทคนิคการจัดการข้อมูลแบบเดิมของ pigeonhole ในกระบวนทัศน์ข้อมูลบนคลาวด์แบบใหม่นี้ประสบความสำเร็จหลายอย่าง กล่าวโดยสรุป ในยุคข้อมูลคลาวด์ยุคใหม่ ความคิดดำเนินไป เราต้องการเครื่องมือและเทคโนโลยีใหม่ๆ เพื่อใช้ประโยชน์จากมัน นี่คือสิ่งที่นักเทคโนโลยีรุ่นใหม่ที่สนับสนุนเครื่องมือข้อมูลแบบเปิดเพื่อทำงานในสถาปัตยกรรมข้อมูลแบบเปิดหวังว่าจะทำ นอกจากนี้ยังเป็นสิ่งที่ Dremio ผู้ให้บริการวิเคราะห์ระบบคลาวด์มุ่งเน้นด้วยการประชุม Subsurface Live ซึ่งจัดขึ้นในช่วงปลายเดือนกรกฎาคม ในแผง Subsurface เกี่ยวกับอนาคตของสถาปัตยกรรมข้อมูลแบบเปิด นักวิเคราะห์ของ Gartner Sanjeev Mohan ได้พูดคุยเกี่ยวกับอนาคตกับคนสี่คนที่กำลังสร้างเทคโนโลยีเหล่านี้ รวมถึง Wes McKinney ผู้สร้าง Pandas ซึ่งเป็นผู้ร่วมสร้าง Apache Arrow; Ryan Blue ผู้สร้างรูปแบบตาราง Iceberg; Julien Le Dem ผู้ร่วมสร้าง Parquet; และ Ryan Murray ผู้ร่วมสร้าง Nessie “มันน่าตื่นเต้นมากที่ได้เห็นการเดินทางที่เราเริ่มต้นในโอเพ่นซอร์สเมื่อหลายสิบปีก่อนดูเหมือนจะมารวมกัน” Mohan กล่าว “ในที่สุด ดูเหมือนว่าเราจะอยู่ในที่ซึ่งในสถาปัตยกรรมข้อมูลแบบเปิด ตอนนี้เรามีชุดของโครงการโอเพนซอร์สที่เติมเต็มซึ่งกันและกัน และพวกเขาช่วยเราสร้างโซลูชันแบบ end-to-end” ยกตัวอย่าง Apache Iceberg เทคโนโลยีนี้พัฒนาขึ้นโดยวิศวกรของ Netflix และ Apple เพื่อจัดการกับความท้าทายด้านประสิทธิภาพและการใช้งานของการใช้ตาราง Apache Hive แม้ว่า Hive เป็นเพียงหนึ่งในเครื่องมือวิเคราะห์ SQL จำนวนหนึ่ง แต่ Hive metastore ยังคงดำเนินต่อไปในฐานะที่เชื่อมต่อข้อมูลที่จัดเก็บไว้ใน HDFS และ S3 ด้วยเอ็นจิ้น SQL ที่ทันสมัย ​​เช่น Dremio, Presto และ Spark น่าเสียดายที่ Hive metastore ทำงานได้ไม่ดีในสภาพแวดล้อมข้อมูลขนาดใหญ่แบบไดนามิก การเปลี่ยนแปลงข้อมูลจะต้องได้รับการประสานกัน ซึ่งอาจเป็นกระบวนการที่ซับซ้อนและมีโอกาสเกิดข้อผิดพลาดได้ง่าย เมื่อทำไม่ถูกต้อง ข้อมูลอาจเสียหายได้ แทนที่ตาราง Hive Iceberg ให้การสนับสนุนธุรกรรมอะตอมมิกซึ่งให้การรับประกันความถูกต้องแก่ผู้ใช้ แต่นั่นยังไม่พอ ดังที่เราได้เรียนรู้ เมื่อปัญหาหนึ่งได้รับการแก้ไข อีกปัญหาหนึ่งก็มักจะปรากฏขึ้น ในกรณีของ Project Nessie จำเป็นต้องมีการควบคุมเวอร์ชันสำหรับข้อมูลที่จัดเก็บในรูปแบบตาราง เช่น Iceberg “เมื่อเราเริ่มคิดเกี่ยวกับ Project Nessie เราเริ่มคิดถึงความก้าวหน้าของแพลตฟอร์ม data Lake ในอดีต หรือ 15 ปี” Murray วิศวกร Dremio กล่าว “เราเคยเห็นคน …สร้างสิ่งที่เป็นนามธรรมขึ้นมา ไม่ว่าจะเป็นนามธรรมเพื่อช่วยเราคำนวณ หรือนามธรรมสำหรับสิ่งต่างๆ เช่น ตารางและไฟล์ข้อมูล และเนื้อหาประเภทนั้น เราเริ่มคิดว่า สิ่งที่เป็นนามธรรมต่อไปคืออะไร? อะไรคือสิ่งที่สมเหตุสมผลที่สุด?” สำหรับ Murray สิ่งที่เป็นนามธรรมต่อไปที่จำเป็นต้องมีคือแค็ตตาล็อกที่อยู่ด้านบนของรูปแบบตารางเพื่อส่งเสริมปฏิสัมพันธ์ที่ดีขึ้นกับส่วนประกอบดาวน์สตรีม “เช่นเดียวกับที่ Ryan Blue รู้สึกว่า Aache Hive ไม่เหมาะกับรูปแบบตาราง – ด้วยจุดล้มเหลวเพียงจุดเดียว การเรียก API จำนวนมากไปยัง metastore นั้น แม้แต่ปลายทาง Thrift ก็ทำให้การปรับขนาดเป็นเรื่องยากมาก มันยากมากที่จะใช้งานอย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในทางคลาวด์เนทีฟ” เมอร์เรย์กล่าว “ดังนั้นเราจึงมองหาบางสิ่งที่จะเป็นคลาวด์เนทีฟและจะทำงานกับรูปแบบตารางที่ทันสมัย ​​และเราสามารถเริ่มคิดที่จะขยายไปยังสิ่งที่ยอดเยี่ยมอื่นๆ ทั้งหมดที่แผงของฉันกำลังสร้าง” ในฐานะที่เป็นรูปแบบ Big Data ที่ได้รับความนิยมมากที่สุดรูปแบบหนึ่ง Parquet เป็นอีกเทคโนโลยีหนึ่งที่แต่เดิมพัฒนาขึ้นสำหรับ Hadoop แต่ยังคงเห็นการนำไปใช้ในวงกว้างอย่างต่อเนื่อง หลังจากที่การนำ Hadoop ไปปรับใช้ได้สิ้นสุดลง ต้องขอบคุณความสามารถในการใช้ในร้านวัตถุบนคลาวด์ รูปแบบคอลัมน์ช่วยให้ผู้ใช้สามารถขับเคลื่อนผ่านการสืบค้นข้อมูลเชิงวิเคราะห์ที่มีความต้องการสูง, a la Teradata ในขณะที่การบีบอัดและการสนับสนุนดั้งเดิมสำหรับระบบไฟล์แบบกระจายทำให้สามารถทำงานในคลัสเตอร์บิ๊กดาต้าสมัยใหม่ได้ Le Dem ได้ร่วมพัฒนา Parquet ในขณะที่ทำงานที่ Twitter ซึ่งทำการวิเคราะห์ข้อมูลส่วนใหญ่บน Hadoop หรือ Vertica Hadoop สามารถปรับขนาดสำหรับชุดข้อมูลขนาดใหญ่ แต่ขาดประสิทธิภาพสำหรับการสืบค้นที่มีความต้องการสูง Vertica ตรงกันข้าม มันสามารถจัดการการสืบค้นข้อมูลเฉพาะกิจด้วยประสิทธิภาพที่ดี แต่ไม่สามารถจัดการข้อมูลขนาดใหญ่ได้ “เราอยู่ระหว่างสองทางเลือกเสมอ” เลอ เดม กล่าว “และฉันคิดว่าบางส่วนทำให้ Hadoop เป็นเหมือนโกดังมากขึ้น เริ่มจากล่างขึ้นบน เริ่มด้วยการนำเสนอแนวเสา และทำให้มีประสิทธิภาพมากขึ้น ตามรอยของฐานข้อมูลแนวคอลัมน์เหล่านั้น” แม้ว่า Parquet จะได้รับการยอมรับอย่างกว้างขวาง แต่ก็ยังมีข้อจำกัดพื้นฐานในสิ่งที่สามารถทำได้ “ปาร์เก้เป็นเพียงรูปแบบไฟล์” เลอ เดม กล่าว “มันทำให้สิ่งต่าง ๆ มีประสิทธิภาพมากขึ้นสำหรับเอ็นจิ้นการสืบค้น แต่ไม่ได้เกี่ยวข้องกับสิ่งใด เช่น คุณจะสร้างตารางได้อย่างไร คุณจะทำสิ่งเหล่านั้นได้อย่างไร ดังนั้นเราจึงต้องการเลเยอร์ที่ด้านบน เป็นเรื่องดีที่ได้เห็นสิ่งนี้เกิดขึ้นในชุมชน” สิ่งนี้นำเราไปสู่ ​​Apache Arrow ซึ่งพัฒนาโดย McKinney และ Le Dem มีส่วนเกี่ยวข้องในการพัฒนาด้วย การสนับสนุนของ Arrow ต่อสถาปัตยกรรมข้อมูลแบบเปิดคือให้รูปแบบไฟล์ที่รวดเร็วมากสำหรับการแบ่งปันข้อมูลระหว่างระบบและเครื่องมือสืบค้นข้อมูลจำนวนมาก ความแตกต่างนั้นเป็นคุณลักษณะของสถาปัตยกรรมข้อมูลแบบเปิด Le Dem กล่าว “หนึ่งในปัจจัยขับเคลื่อนสำหรับสถาปัตยกรรมการจัดเก็บข้อมูลแบบเปิดนี้คือผู้คนไม่ได้ใช้เครื่องมือเพียงเครื่องมือเดียว” Le Dem กล่าว “พวกเขา [use] อย่าง Spark พวกเขาใช้สิ่งต่าง ๆ เช่น Pandas พวกเขาใช้โกดังหรือสิ่งของประเภท SQL-on-Hadoop เช่น Dremio และ Presto แต่ยังรวมถึงคลังสินค้าที่เป็นกรรมสิทธิ์อื่นๆ ดังนั้นจึงมีการกระจายตัวจำนวนมาก แต่ก็ยังต้องการใช้เครื่องมือและการเรียนรู้ของเครื่องทั้งหมดกับข้อมูลเดียวกัน ดังนั้นการมีชั้นการจัดเก็บทั่วไป [Arrow] จึงเหมาะสมอย่างยิ่งที่จะสร้างมาตรฐานนี้ เพื่อให้คุณสามารถสร้างและแปลงข้อมูลจากแหล่งต่างๆ ได้” ความต้องการ Arrow เกิดขึ้นท่ามกลางวัฏจักรของ Hadoop “ประมาณหกปีที่แล้ว เราตระหนักดีว่า…ชุมชนได้พัฒนา Parquet เป็นมาตรฐานเปิดสำหรับการจัดเก็บข้อมูลและคลังข้อมูลสำหรับ data lake และสำหรับระบบนิเวศ Hadoop” McKinney กล่าว “แต่เราเห็นความแตกต่างของแอพพลิเคชั่นและภาษาโปรแกรมเพิ่มขึ้นเรื่อยๆ ซึ่งคุณต้องชอบแอพพลิเคชั่นที่เป็นคอขวดมากขึ้นในการย้ายข้อมูลจำนวนมากระหว่างภาษาโปรแกรม ระหว่างกระบวนการของแอพพลิเคชั่น และผ่านตัวกลางที่มีราคาแพงกว่า เช่น Parquet เพื่อย้าย ข้อมูลระหว่างสองขั้นตอนที่แตกต่างกันในไปป์ไลน์แอปพลิเคชันนั้นมีราคาแพงมาก” เขากล่าวต่อ McKinney ซึ่งเพิ่งพับ Ursa Computing ให้เป็นสตาร์ทอัพใหม่ของเขา Voltron Data วันนี้กำลังทำงานกับ Arrow Flight ซึ่งเป็นเฟรมเวิร์กสำหรับการขนส่งข้อมูลที่รวดเร็วซึ่งอยู่ด้านบนของ gPRC ซึ่งเป็นเทคโนโลยีการเรียกโพรซีเดอร์ระยะไกล (PRC) ที่ทำงานเป็นบัฟเฟอร์โปรโตคอลสำหรับการกระจาย แอปพลิเคชัน ส่วนขยายหนึ่งสำหรับ Arrow Flight สามารถแทนที่ JDBC และ ODBC ได้ในที่สุด ทำให้สามารถแปลงข้อมูลได้อย่างรวดเร็วทั่วทั้งกระดาน McKinney กล่าว ในอนาคต เนื่องจากเทคโนโลยีอย่าง Arrow, Iceberg, Nessie และ Parquet ถูกสร้างขึ้นในระบบนิเวศของข้อมูล มันจะช่วยให้เกิดการผลิตรุ่นใหม่ในหมู่นักพัฒนาและวิศวกรที่ได้รับมอบหมายให้สร้างแอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูล Murray กล่าว “วิศวกรข้อมูลจำนวนมากที่ฉันโต้ตอบด้วยกำลังคิดว่าไฟล์ Parquet ของฉันใหญ่แค่ไหนและอยู่ในไดเร็กทอรีใด พาร์ติชั่นจึงใช้ประโยชน์ได้ และฉันจะแน่ใจได้อย่างไรว่าไฟล์ปาร์เก้ถูกต้อง ” เขาพูดว่า. “และฉันคิดว่าเราพร้อมที่จะหยุดพูดถึงเรื่องนั้นแล้ว เพื่อให้วิศวกรสามารถเริ่มเขียน SQL และแอปพลิเคชันนอกเหนือจากสิ่งเหล่านี้ได้” เสรีภาพในการเลือกคือจุดเด่นของสถาปัตยกรรม open data lake โทเมอร์ ชีราน CTO ของ Dremio กล่าวในระหว่างการปราศรัยสำคัญของ Surface “คุณสามารถเลือกเครื่องยนต์ที่ดีที่สุดสำหรับปริมาณงานที่กำหนด” Shiran กล่าว “ไม่เพียงเท่านั้น แต่ในอนาคต เมื่อมีการสร้างเอ็นจิ้นใหม่ คุณสามารถเลือกเอ็นจิ้นเหล่านั้นได้เช่นกัน มันกลายเป็นเรื่องง่ายมากที่จะหมุนเอ็นจิ้นใหม่ ชี้ไปที่ข้อมูลของคุณ ไฟล์ Parquet แบบโอเพ่นซอร์สของคุณ หรือตาราง Iceberg แบบโอเพ่นซอร์สของคุณ และเริ่มการสืบค้นและแก้ไขข้อมูลนั้น” ทะเลสาบข้อมูลแบบเปิดและบ้านริมทะเลสาบกำลังได้รับความสนใจในตลาด และด้วยเทคโนโลยีเช่นนี้ จะกลายเป็นสถาปัตยกรรมที่โดดเด่นในอนาคต นายบิลลี่ บอสเวิร์ธ ซีอีโอของเดรมิโอคาดการณ์ “เมื่อคุณมีการเปลี่ยนแปลงทางสถาปัตยกรรมอย่างที่เราเห็นในปัจจุบัน จากโครงสร้างฐานข้อมูลเชิงสัมพันธ์แบบคลาสสิกไปเป็นสถาปัตยกรรม open data lake การเปลี่ยนแปลงประเภทนี้มักจะคงอยู่นานหลายทศวรรษ” บอสเวิร์ธกล่าวระหว่างเซสชัน Subsurface “วิศวกรและสถาปนิกของเรากำลังสร้างอนาคตนั้นให้กับพวกเราทุกคน ซึ่งเป็นอนาคตที่เข้าถึงสิ่งต่าง ๆ ได้ง่ายขึ้นโดยที่ข้อมูลเข้ามาเร็วขึ้นในช่วงเวลาที่ข้อมูลนั้นมีค่าเพิ่มขึ้นอย่างรวดเร็ว และทำในลักษณะที่ช่วยให้ผู้คนมีตัวเลือกสายพันธุ์ที่ดีที่สุดในประเภทของบริการที่พวกเขาต้องการใช้กับข้อมูลนั้น” รายการที่เกี่ยวข้อง: Apache Iceberg: ศูนย์กลางของระบบนิเวศบริการข้อมูลเกิดใหม่? ลูกค้าต้องการแพลตฟอร์มข้อมูลแบบเปิดหรือไม่? การชั่งน้ำหนักโอเพ่นซอร์สที่คุ้มค่าสำหรับอนาคตของบิ๊กดาต้า

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button