Data science

Tabular พยายามสร้าง Cloud Data Lakes ใหม่ในอิมเมจของ Iceberg

ผู้สร้างรูปแบบตาราง Apache Iceberg ได้เปิดตัวบริษัทใหม่ในช่วงซัมเมอร์นี้ชื่อ Tabular ซึ่งมีเป้าหมายที่จะสร้างวิธีที่บริษัทต่างๆ จัดเก็บข้อมูลไว้ในระบบคลาวด์ หากบริษัทมีแนวทางของตัวเอง ข้อมูลเล็กๆ น้อยๆ ของวิธีการจัดเก็บข้อมูลใน Data Lake ตลอดจนการบำรุงรักษาและเพิ่มประสิทธิภาพของข้อมูลนั้นจะเป็นไปโดยอัตโนมัติ ซึ่งจะทำให้วิศวกรข้อมูลและนักวิเคราะห์ข้อมูลต้องรับภาระจำนวนมาก Iceberg เป็นรูปแบบข้อมูลแบบเปิดซึ่งเดิมได้รับการออกแบบที่ Netflix และ Apple เพื่อลดข้อจำกัดในการใช้ตาราง Apache Hive เพื่อจัดเก็บและค้นหาชุดข้อมูลขนาดใหญ่โดยใช้เอ็นจิ้นหลายตัว เดิม Hive ถูกสร้างขึ้นเพื่อเป็นที่เก็บ SQL แบบกระจายสำหรับ Hadoop แต่ในหลายกรณี บริษัทต่างๆ ยังคงใช้ Hive เป็น metastore แม้ว่าพวกเขาจะหยุดใช้เป็นคลังข้อมูลแล้วก็ตาม เป้าหมายอันดับหนึ่งของ Iceberg คือการรับรองความถูกต้องของข้อมูล เนื่องจาก Hive ไม่มีการรับประกันดังกล่าว ซึ่งทำให้เกิดความหายนะเมื่อบริการและเอ็นจิ้นต่างๆ เข้าถึงและแก้ไขตาราง Hive แต่ Iceberg ยังนำประโยชน์อื่นๆ มาใช้ด้วย เช่น การจัดการกับปัญหาไฟล์ขนาดเล็ก ลดความซับซ้อนของการบำรุงรักษาข้อมูลอย่างต่อเนื่อง ปรับการเข้าถึงข้อมูลให้เหมาะสม และโดยทั่วไปจะช่วยลดภาระงานของวิศวกรข้อมูลที่ทำงานมากเกินไป เป้าหมายของ Tabular คือการสร้างบริการจัดการข้อมูลเต็มรูปแบบบน Iceberg Ryan Blue ผู้ร่วมก่อตั้ง Iceberg และผู้ร่วมก่อตั้งและซีอีโอของ Tabular กล่าว “สิ่งที่เราคิดคือการจัดการระดับแพลตฟอร์มข้อมูลที่เรามอบให้กับ Netflix แต่สำหรับทุกคน” บลูกล่าว “บริษัทใดๆ ควรจะสามารถมาและจัดเตรียมบางสิ่งที่จัดการข้อมูลของพวกเขาในรูปแบบภูเขาน้ำแข็ง ในถังของพวกเขา และใช้ได้กับทุกเครื่องมือ” ในฐานะวิศวกรอาวุโสของ Netflix Blue ได้สร้าง Iceberg ร่วมกับ Dan Weeks ซึ่งเป็นผู้จัดการด้านวิศวกรรมของ Big Data Compute ที่ยักษ์ใหญ่ด้านภาพยนตร์สตรีมมิ่ง ตาราง Iceberg เข้าถึงได้ด้วยเครื่องมือและบริการคำนวณที่หลากหลาย รวมถึง Presto, Trino, Spark และ Flink การเปิดใช้งานการเปิดกว้างของกลไกคำนวณนั้นเป็นเป้าหมายของ Tabular Blue กล่าว (สิทธิพงษ์/Shutterstock) “เราคิดว่า Tabular จะเป็นทุกอย่างที่ต่ำกว่าระดับเครื่องยนต์ – metastore, การจัดการพื้นที่เก็บข้อมูล, บริการที่รักษาข้อมูลของคุณ – ส่วนประกอบโครงสร้างพื้นฐานทั้งหมดที่สร้างและบำรุงรักษาและใช้งานยาก ” เขาบอกดาตานามิ “โดยพื้นฐานแล้ว แพลตฟอร์มข้อมูลของ Netflix ที่ไม่มีชั้นประมวลผล แต่เป็นบริการที่มีการจัดการที่โฮสต์” Iceberg Metastore ทีมงาน Tabular กำลังทำงานเกี่ยวกับต้นแบบแรก และ Blue ไม่ได้คาดหวังว่าบริการจะพร้อมให้ใช้งานได้จนกว่าจะถึงเวลา 10 โดยจะนำเสนอเป็นบริการโฮสต์ที่ AWS ก่อน ตามด้วยความพร้อมใช้งานบนแพลตฟอร์มคลาวด์อื่นๆ เขากล่าว บริษัท ซึ่งเสร็จสิ้นการระดมทุน Series A จาก Andreessen Horowitz ในเดือนกรกฎาคมกำลังจ้างงานอยู่ รูปแบบตาราง Iceberg เป็นจุดเริ่มต้นที่ดีในการสร้างคลังข้อมูลบนคลาวด์เพื่อเก็บข้อมูลในรูปแบบ Parquet, ORC และ Avro มันให้ความสม่ำเสมอที่จำเป็นมากเพื่อให้แน่ใจว่าข้อมูลจะไม่หลุดมือ แต่ยังต้องการให้วิศวกรข้อมูลทำงานอย่างจริงจังและใช้งาน และนั่นคือองค์ประกอบที่ Tabular หวังว่าจะกำจัดด้วยบริการใหม่ “ฉันคิดว่าเราเป็นครึ่งล่างของฐานข้อมูล กลไกการจัดเก็บข้อมูลนั้นจำเป็นต้องติดตามว่าตารางใดมีอยู่ ที่ใด…คือทุกอย่างเกี่ยวกับตารางนั้น” บลูกล่าว “เราต้องการติดตามข้อมูล ติดตามว่าคุณใช้ข้อมูลอย่างไร และปรับข้อมูลนั้นให้เหมาะสมเพื่อใช้กับเครื่องมือเหล่านี้จำนวนเท่าใดก็ได้… ไม่ว่าคุณจะใช้ Trino ที่คุณสร้างขึ้นเองและกำลังทำงานอยู่ Kubernetes . เราต้องการเป็นเลเยอร์พื้นฐานที่ทุกอย่างพูดถึง [with] เพื่อโต้ตอบกับข้อมูลของคุณ” ก่อนที่จะนำ Iceberg มาใช้ Netflix พึ่งพาวิศวกรข้อมูลเพื่อสร้างและดูแลตารางสำหรับผู้ใช้ดาวน์สตรีม นั่นทำให้พวกเขาต้องตัดสินใจเป็นจำนวนมากเกี่ยวกับตารางที่ส่งผลต่อการใช้งาน ประสิทธิภาพ และค่าใช้จ่ายสำหรับ Netflix กล่าว Blue ซึ่งออกจากยักษ์ใหญ่ด้านเทคโนโลยีเมื่อต้นปีนี้เพื่อพบ Tabular ควบคู่ไปกับ Weeks และ Jason Reid อดีตผู้อำนวยการฝ่ายข้อมูลของ Netflix วิทยาศาสตร์และวิศวกรรมศาสตร์ “เรามีวิศวกรข้อมูลและเราคาดหวังให้พวกเขาเข้าใจตารางที่พวกเขาทำงานด้วย” บลูกล่าว “เรากำลังเปิดเผยความรับผิดชอบอย่างมากต่อวิศวกรข้อมูลที่นั่นเพื่อทำความเข้าใจในแง่มุมเหล่านั้นทั้งหมด การแบ่งตารางเป็นอย่างไร ผู้บริโภคปลายทางของฉันจะเลือกอะไร และแม้กระทั่งคอลัมน์อะไร [sort] ที่จะทำให้ข้อมูลของฉันเล็กลง คอลัมน์คาร์ดินัลลิตี้สูงคืออะไร สิ่งเหล่านี้ควรเป็นสิ่งที่เราจะได้รับจากสภาพแวดล้อม [Tabular]” DBA In a Box Blue กำลังนำบทเรียนที่เขาได้เรียนรู้จากแนวทางการจัดการตารางของ Netflix มาใช้ และกำลังพยายามทำให้ฟังก์ชันต่างๆ ที่วิศวกรข้อมูลทำกับ Netflix ด้วยบริการแบบตารางเป็นไปโดยอัตโนมัติ ในทางหนึ่ง มันเหมือนกับผู้ดูแลระบบฐานข้อมูลอัตโนมัติ (DBA) Ryan Blue เป็น CEO และผู้ร่วมก่อตั้ง Tabular “สิ่งหนึ่งที่ Iceberg ทำคือเรากำลังสร้างการกำหนดค่าตารางสิ่งต่างๆ มากขึ้นเรื่อยๆ” Blue กล่าว “ดังนั้นการเรียงลำดับ ฉันต้องการจัดกลุ่มข้อมูลของฉันอย่างไร? ฉันต้องการไฟล์ขนาดใด สิ่งเหล่านี้ คุณประกาศโดยพื้นฐานแล้วในภูเขาน้ำแข็งว่า นี่คือสภาวะในอุดมคติของฉัน ทุกอย่างเรียงตามนี้ ทุกอย่างอยู่ในรูปแบบนี้โดยใช้การตั้งค่าเหล่านี้ นั่นทำให้เรามีเป้าหมายที่จะยิงให้ได้” ตัวอย่างเช่น สมมติว่าลูกค้าเพิ่งเขียน 10,000 ไฟล์ที่มีขนาด 5KB ต่อตาราง “นั่นจะเป็นผลงานที่แย่มาก” บลูกล่าว “เราสามารถใช้การเรียงลำดับของคุณและจัดกลุ่มข้อมูลของคุณได้อย่างถูกต้อง เขียนใหม่ในเบื้องหลังอย่างรวดเร็ว และทำให้การดำเนินงานของคุณมีประสิทธิภาพมากขึ้นโดยที่คุณไม่ต้องมีวิศวกรข้อมูลราคาแพงที่เข้าใจวิธีการทำให้มันเกิดขึ้นตั้งแต่แรก” ถ้าตารางไม่มีลำดับการจัดเรียงที่ชัดเจน บริการแบบตารางจะสามารถสรุปลำดับการจัดเรียงตามคีย์หลักของตารางและรูปแบบการแบ่งพาร์ติชันได้ Blue กล่าว “เรายังดูได้ว่าผู้คนกำลังทำอะไรในการเลือกจากตารางนี้” เขากล่าว “และถ้าเรารู้ เราก็สามารถเข้าใจได้ โอ้ คอลัมน์เหล่านี้เป็นคอลัมน์ที่ผู้คนมักจะเลือก และเราสามารถกรอกข้อมูลนั้นได้” ในที่สุด Tabular ก็สามารถนำ AI มาจัดการกับปัญหาได้ ตัวอย่างเช่น ที่ Netflix Blue ได้ช่วยติดตั้งระบบแนะนำที่จะค้นหาการตั้งค่าที่เหมาะสมที่สุดสำหรับตารางที่กำหนดโดยการเขียนใหม่ 10 หรือครั้งและดูว่าการตั้งค่าใดใช้ได้ผล ดีที่สุด. ในที่สุดบริษัทก็สามารถสร้างระบบแบบนั้นได้ แต่ก่อนอื่น บริษัทให้ความสำคัญกับการสร้างและใช้งานบริการหลัก “สิ่งที่เราต้องการคือโซลูชันที่ใช้งานง่าย ใช้งานง่าย และใช้งานได้จริงซึ่งใช้งานได้ดีกับตาราง Iceberg” Blue กล่าว “และหากคุณเป็นลูกค้าใหม่ ผู้ที่ย้ายไปยังระบบคลาวด์ หรือผู้ที่มี Hive อยู่แล้ว ก็สามารถเริ่มใช้บริการของเราได้อย่างง่ายดายมาก” Open Data Lakes ตามที่ Martin Casado ของ Andressen Horowitz กล่าวถึงนั้น Tabular กำลังสร้าง “แพลตฟอร์มข้อมูลบนคลาวด์ที่เป็นอิสระ” “มันจะแทนที่ data lakes ดิบด้วยบริการที่ซ่อนความซับซ้อนพื้นฐานส่วนใหญ่และทำให้งานการจัดการข้อมูลทั่วไปเป็นไปโดยอัตโนมัติ” Casado เขียนในโพสต์บล็อกล่าสุดใน a000z เว็บไซต์. “Tabular มีคุณสมบัติมากมายที่ทำให้คลังข้อมูลใช้งานง่าย — ธุรกรรมปรมาณู, วิวัฒนาการสคีมา, การเดินทางข้ามเวลา, การแบ่งพาร์ติชั่น และอื่นๆ — กับระบบประมวลผลข้อมูลบนคลาวด์ที่ต้องการรองรับ ซึ่งรวมถึงคลังข้อมูล ในแง่นี้ มันใช้รูปแบบสถาปัตยกรรม 'เลคเฮาส์' ที่กำลังได้รับความนิยมเพิ่มขึ้น แต่ใช้ชุดมาตรฐานที่เปิดกว้างเพื่อให้ระบบทั้งหมดสามารถสร้างบนพื้นฐานร่วมกันและแบ่งปันข้อมูลในรูปแบบร่วมกันได้” ครั้งแรกที่ได้รับความนิยมใน Hadoop ปัจจุบัน Data Lake เติบโตขึ้นอย่างรวดเร็วในระบบคลาวด์ โดยจะใช้งานบน S3 และระบบจัดเก็บข้อมูลอ็อบเจ็กต์อื่นๆ การผสมผสานระหว่างพื้นที่จัดเก็บราคาถูกและการแยกการประมวลผลและการจัดเก็บข้อมูล หมายความว่าบริษัทต่างๆ สามารถปรับขนาด data lake ของตนได้ดีในช่วงเพทาไบต์ แต่มีความซับซ้อนที่ซ่อนอยู่ในทะเลสาบซึ่งบังคับให้ลูกค้ากลายเป็นผู้เชี่ยวชาญใน “ข้อจำกัดที่แปลกประหลาด” Tabular กล่าว ความนิยมของ Snowflake และ Databricks แสดงให้เห็นว่ามีตลาดสำหรับบริการที่ทำให้การจัดการ Data Lake ง่ายขึ้น ด้วย Tabular Blue หวังที่จะสะท้อนบริการประเภทเหล่านั้นในขณะที่ให้อิสระแก่ลูกค้าในการเสียบเอนจิ้นใด ๆ ลงในที่จัดเก็บข้อมูลขนาดใหญ่ “สโนว์เฟลกได้สร้างฐานข้อมูลครึ่งล่างที่ค่อนข้างดี” บลูกล่าว “Databricks ได้สร้างครึ่งล่างของฐานข้อมูลด้วยรูปแบบเดลต้าเลคของพวกเขา” ทั้ง Databricks และ Snowflake จะให้บริการบำรุงรักษาข้อมูลของลูกค้า เช่น การบีบอัดข้อมูลเพื่อลดต้นทุนการจัดเก็บข้อมูล อย่างไรก็ตาม บริการทั้งสองนี้มีจุดมุ่งหมายเพื่อให้คุณอยู่ในระบบนิเวศที่เกี่ยวข้อง Blue กล่าว “สิ่งที่เราต้องการคือการไม่เชื่อเรื่องพระเจ้ากับเอ็นจิ้นการสืบค้น” เขากล่าว “เราต้องการทั้ง Databricks และ Snowflake และ Starburst และใครก็ตามที่ทำงานร่วมกับเราและสามารถเข้าถึงข้อมูลนั้นได้แบบเนทีฟและด้วยประสิทธิภาพที่ยอดเยี่ยมจริงๆ…เราคิดว่าผู้คนต้องการความยืดหยุ่นอย่างมากในเอ็นจิ้นการสืบค้น และไม่จำเป็นต้องย้ายข้อมูล ” รายการที่เกี่ยวข้อง: มองอนาคตของสถาปัตยกรรมข้อมูลแบบเปิด ลูกค้าต้องการแพลตฟอร์มข้อมูลแบบเปิดหรือไม่ Apache Iceberg: ศูนย์กลางของระบบนิเวศบริการข้อมูลเกิดใหม่?

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button