Data science

การวิเคราะห์ผู้บริโภคโดยใช้ NLP และ AI ใน HPC Cloud

ลูกค้าและผู้ซื้อได้รับประโยชน์อย่างมากจากความก้าวหน้าในการเชื่อมต่ออินเทอร์เน็ตในช่วงไม่กี่ปีที่ผ่านมา บริษัทอีคอมเมิร์ซที่เติบโตอย่างรวดเร็วได้ให้ข้อมูลขนาดใหญ่ที่เกิดขึ้นจริงอันเป็นผลมาจากการพัฒนาเหล่านี้ ความนิยมมหาศาลของข้อมูลขนาดใหญ่บนโซเชียลมีเดียทำให้ผู้ซื้อสามารถแสดงความคิดเห็นและความคิดเห็นในหัวข้อต่างๆ เช่น ภาวะเศรษฐกิจ หรือแสดงความไม่พอใจกับผลิตภัณฑ์หรือบริการเฉพาะ หรือเพื่อแสดงความยินดีกับพวกเขา การซื้อ ความคิดเห็นของผู้บริโภคจำนวนมากและการประเมินผลิตภัณฑ์ให้ข้อมูลที่เป็นประโยชน์มากมาย และเมื่อเร็ว ๆ นี้ได้กลายเป็นแหล่งข้อมูลที่สำคัญสำหรับทั้งผู้บริโภคและธุรกิจ ผู้บริโภคมักแสวงหาข้อมูลที่มีคุณภาพจากบทวิจารณ์ออนไลน์ก่อนที่จะซื้อผลิตภัณฑ์ และธุรกิจจำนวนมากใช้บทวิจารณ์ออนไลน์เป็นข้อมูลสำคัญสำหรับผลิตภัณฑ์ การตลาด และการจัดการลูกค้าสัมพันธ์ ดังนั้น การทำความเข้าใจจิตวิทยาเบื้องหลังพฤติกรรมผู้บริโภคออนไลน์จึงเป็นกุญแจสำคัญในการแข่งขันในตลาดปัจจุบัน ซึ่งมีการแข่งขันและโลกาภิวัตน์เพิ่มขึ้นเรื่อยๆ การวิเคราะห์ความคิดเห็นและการวิเคราะห์ข้อความเป็นการประยุกต์ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ ซึ่งมีจุดมุ่งหมายเพื่อรวบรวมและดึงอารมณ์และความรู้สึกออกจากบทวิจารณ์หลายประเภท ข้อมูลขนาดใหญ่เหล่านี้ซึ่งมีการเติบโตแบบทวีคูณส่วนใหญ่จะมีอยู่ในรูปแบบที่ไม่มีโครงสร้าง ทำให้เป็นไปไม่ได้สำหรับการตีความด้วยความพยายามของมนุษย์ ด้วยเหตุนี้ การใช้แมชชีนเลิร์นนิงในการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งเน้นที่การรวบรวมข้อเท็จจริงและความคิดเห็นจากข้อมูลจำนวนมหาศาลที่มีอยู่บนอินเทอร์เน็ตจึงเป็นสิ่งสำคัญ บทความนี้อิงจากกรณีศึกษาของ UberCloud ที่ครอบคลุมมากขึ้น นำเสนอแอปพลิเคชันของ NLP – โมเดลการเรียนรู้ของเครื่องเพื่อคาดการณ์ความรู้สึกตามการประเมินรีวิวผลิตภัณฑ์ของผู้บริโภคที่ดึงมาจากโซเชียลมีเดียและเว็บไซต์อีคอมเมิร์ซ กระบวนการ NLP ประกอบด้วยหลายขั้นตอน: การประมวลผลข้อมูลล่วงหน้าและการแยกคุณลักษณะ โดยข้อความของคุณจะถูกแปลงเป็นรูปแบบคาดการณ์และวิเคราะห์ได้สำหรับงานของคุณ นอกจากนี้ยังสามารถช่วยให้คุณแยกคุณลักษณะต่างๆ เพื่อทำความเข้าใจการกระจายของข้อความบทวิจารณ์ การทำให้เป็นโทเค็น ตัวพิมพ์เล็ก การลบคำหยุด การเว้นวรรค การแทรก และการติดแท็กคำพูดเป็นบางส่วนของขั้นตอนที่เกี่ยวข้องกับการประมวลผลข้อมูลล่วงหน้าและการดึงข้อมูลคุณลักษณะ การวิเคราะห์ความคิดเห็นจะดำเนินการในแต่ละรีวิว โดยจัดหมวดหมู่เป็นยอดเยี่ยมหรือแย่ จากนั้นจึงสร้างความรู้สึกขึ้น คะแนนความเชื่อมั่นเป็นหน้าที่ของความเป็นขั้วและความเป็นส่วนตัว พารามิเตอร์ทั้งสองถูกดึงมาจากข้อความตรวจสอบโดยใช้อัลกอริทึม NLP เพื่อให้เข้าใจความรู้สึกโดยรวม เครื่องหมายของคะแนนขั้วมักใช้เพื่ออนุมานว่าความรู้สึกโดยรวมเป็นบวก เป็นกลาง หรือเชิงลบ ขั้วเป็นทุ่นในช่วง โดยที่ 1 หมายถึงข้อความเชิงบวก และ -1 หมายถึงข้อความเชิงลบ ประโยคอัตนัยมักอ้างถึงความคิดเห็น อารมณ์ หรือการตัดสินส่วนตัว ในขณะที่ประโยควัตถุประสงค์หมายถึงข้อมูลที่เป็นข้อเท็จจริง แบบจำลองหัวข้อใช้เพื่อค้นหาธีมที่น่าสนใจจากชุดข้อมูลการทบทวน สิ่งเหล่านี้คือแง่มุม และอาจมีคำหลายคำสำหรับแง่มุมเดียวกัน ช่วยให้เสิร์ชเอ็นจิ้นสามารถมุ่งเน้นไปที่หัวข้อที่สำคัญที่สุดในเอกสาร อัลกอริทึม Latent Dirichlet Allocation (LDA) ซึ่งเป็นการเรียนรู้แบบไม่มีผู้ดูแลซึ่งถือว่าเอกสารเป็นคำศัพท์ ใช้ในการวิเคราะห์หัวข้อและสร้างความน่าจะเป็นของหัวข้อในเอกสารตามคำศัพท์ จากขั้นตอนทั้งหมดของกระบวนการ NLP โดยรวม การสร้างแบบจำลองหัวข้อ (อัลกอริธึม LDA) เป็นส่วนที่มีการประมวลผลมากที่สุดของกระบวนการ และในขณะที่ขั้นตอนอื่นๆ (การล้างข้อมูลและวิศวกรรมคุณลักษณะ การสร้างภาพข้อมูล การวิเคราะห์ความรู้สึก และการวิเคราะห์เชิงคาดการณ์ ) เกือบจะเป็นอิสระจากจำนวนบทวิจารณ์ ความพยายามในการสร้างแบบจำลองหัวข้อเพิ่มขึ้นอย่างทวีคูณด้วยจำนวนบทวิจารณ์ที่เพิ่มขึ้น ดังนั้นเราจึงมองหาอัลกอริธึม LDA เวอร์ชันคู่ขนานที่สามารถทำงานได้อย่างมีประสิทธิภาพบนระบบ HPC ในองค์กรหรือใน HPC Cloud (เช่น AWS, Azure, Google GCP ดูด้านล่าง) การพัฒนาอัลกอริธึมหรือการสร้างแบบจำลองการคาดการณ์ที่สามารถคาดการณ์และจัดประเภทคำสั่งตรวจสอบข้อมูลป้อนเข้าโดยใช้เทคนิคการเรียนรู้ของเครื่องที่ใช้ประโยชน์จากวิธีการทางสถิติในการคำนวณคะแนนความพึงพอใจ พวกเขาปรับแต่งกฎของตนเองโดยการฝึกอบรมซ้ำตามข้อมูลการฝึกอบรมที่ได้รับ ความแม่นยำและการตรวจสอบของแบบจำลองกลายเป็นเกณฑ์สำคัญสำหรับการเลือกอัลกอริธึม แบบจำลองการทำนายสามารถพัฒนาได้โดยใช้วิธีการเรียนรู้ทั้งแบบมีผู้ดูแลและแบบไม่มีผู้ดูแล งานวิจัยชิ้นนี้กล่าวถึงความท้าทายพื้นฐานของพฤติกรรมของลูกค้าโดยใช้อัลกอริธึมการเรียนรู้ของเครื่องขั้นสูงที่ทำให้เป็นประชาธิปไตยและเปิดใช้งานการเข้าถึงข้อมูลเชิงลึกที่สำคัญสำหรับเฉพาะกลุ่มของคุณแบบเรียลไทม์ เป็นแหล่งข้อมูลที่มีประโยชน์สำหรับการประเมินข้อมูลทางอารมณ์ในแพลตฟอร์มโซเชียลและช่องทางอีคอมเมิร์ซ เนื่องจากไม่เพียงอาศัยคำหลักเฉพาะโดเมนเท่านั้น แต่ยังต้องอาศัยความรู้สามัญสำนึกที่ช่วยให้สามารถคาดการณ์ข้อมูลความรู้ความเข้าใจและอารมณ์ที่เชื่อมโยงกับข้อความภาษาธรรมชาติได้ การเปรียบเทียบประสิทธิภาพบนเวิร์กสเตชันและ HPC Cloud NLP – อัลกอริธึมการเรียนรู้ของเครื่องสำหรับอีคอมเมิร์ซเป็นเทคนิคที่ต้องใช้การประมวลผลสูง โดยเฉพาะอัลกอริธึม LDA ดังที่ได้กล่าวมาแล้วข้างต้น ดังนั้น เพื่อให้การศึกษาสมบูรณ์ เราจึงได้ทำการวิเคราะห์ประสิทธิภาพก่อนโดยใช้เครื่องเดสก์ท็อปประสิทธิภาพสูงที่มี CPU Cores และ 32 แรม GB การวิเคราะห์ประสิทธิภาพดำเนินการเพื่อศึกษาข้อกำหนดของระบบการคำนวณสำหรับการรันข้อมูลการตรวจสอบสูงสุด ล้านข้อมูลพร้อมผลลัพธ์การเปรียบเทียบต่อไปนี้: ความพยายามในการสร้างแบบจำลองหัวข้อเพิ่มขึ้นแบบทวีคูณ เนื่องจาก ไปยังอัลกอริทึมของ LDA เพื่อเอาชนะข้อเสียดังกล่าว เราพบวิธีการสร้างแบบจำลองหัวข้อ LDA แบบขนาน เช่น ตามสถาปัตยกรรม MapReduce โดยใช้โมเดลการเขียนโปรแกรมแบบกระจาย นั่นคือ การนำโมเดลหัวข้อ LDA ไปใช้งานแบบขนานโดยใช้แพลตฟอร์มการคำนวณแบบขนาน Hadoop ผลลัพธ์แสดงให้เห็นว่า เมื่อต้องจัดการกับบทวิจารณ์จำนวนมาก วิธีการแบบคู่ขนานนี้สามารถเร่งความเร็วแบบเกือบเชิงเส้น ซึ่งเหมาะสำหรับทรัพยากร HPC และ HPC ในสถานที่ในระบบคลาวด์ สภาพแวดล้อม HPC มีแพลตฟอร์ม Anaconda ที่ใช้ Python ซึ่งช่วยในการวิเคราะห์ข้อมูลและการสร้างแบบจำลองการคาดการณ์ ดังที่เราได้แสดงให้เห็น การจัดการกับข้อมูลปริมาณมากดังกล่าวถือเป็นความท้าทายที่แท้จริงสำหรับโครงการ NLP นี้ และต้องการพลังประมวลผลจำนวนมาก ดังนั้นเราจึงพบว่าการจัดการและการเร่งความเร็วในการประมวลผลข้อมูลจำนวนมหาศาลนั้นเป็นไปได้อย่างดีเยี่ยมโดยการปรับขนาดอัลกอริทึมบนคลาวด์ HPC การทดลองเพิ่มเติมที่ดำเนินการในสภาพแวดล้อมระบบคลาวด์ของ HPC จะแสดงให้เห็นถึงความสามารถในการตั้งค่าและเรียกใช้การวิเคราะห์ข้อมูลขนาดใหญ่จากระยะไกล ตลอดจนสร้างแบบจำลอง AI ในระบบคลาวด์ ถัดไป ข้อกำหนดการตั้งค่าโมเดลการเรียนรู้ด้วยเครื่อง AI จะได้รับการติดตั้งไว้ล่วงหน้าในคอนเทนเนอร์แอปพลิเคชัน HPC บนแพลตฟอร์มการจำลองทางวิศวกรรม UberCloud ทำให้ผู้ใช้สามารถเข้าถึงและเรียกใช้เวิร์กโฟลว์ NLP ได้โดยไม่ต้องติดตั้งการตั้งค่าใดๆ ล่วงหน้า รับทราบ: ผู้เขียนขอขอบคุณ Praveen Bhat ที่ปรึกษาด้านเทคโนโลยี HPC/Python สำหรับการสนับสนุนระหว่างการใช้งานและการเปรียบเทียบแอปพลิเคชัน NLP เกี่ยวกับผู้แต่ง: Veena Mokal เป็นผู้เชี่ยวชาญด้าน Data Science ที่มี MBA ใน Business Analytics จาก Institute of Management Technology ในอินเดีย Wolfgang Gentzsch เป็นผู้ร่วมก่อตั้งและประธาน UberCloud ซึ่งพัฒนาแพลตฟอร์มการจำลองทางวิศวกรรมที่ปรับแต่งและอัตโนมัติสำหรับการจำลองทางวิศวกรรมหลายฟิสิกส์ที่ซับซ้อน การเรียนรู้ AI/Machine ฝาแฝดดิจิทัล การวิเคราะห์ข้อมูล การดูแลสุขภาพส่วนบุคคล และการประมวลผลภาษาธรรมชาติ รายการที่เกี่ยวข้อง: โปรเจ็กต์ Uber-Cloud เสนอแนะภาพยนตร์ข้อมูลจำนวนมหาศาลด้วยการกรองการทำงานร่วมกันแบบจุดประกายเพื่อตรวจจับสัญญาณผู้บริโภคในเศรษฐกิจ 90%

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button