Data science

การศึกษาพบว่าแม้แต่ระบบรู้จำคำพูดที่ดีที่สุดก็ยังมีความลำเอียง

บทความนี้ แต่เดิมปรากฏบน VentureBeat และทำซ้ำโดยได้รับอนุญาต แม้แต่อัลกอริธึมการรู้จำคำพูดอัตโนมัติ (ASR) ที่ล้ำสมัยก็ยังต้องดิ้นรนเพื่อจดจำสำเนียงของผู้คนจากบางภูมิภาคของโลก นั่นเป็นการค้นพบอันดับต้นๆ ของการศึกษาใหม่ที่ตีพิมพ์โดยนักวิจัยจากมหาวิทยาลัยอัมสเตอร์ดัม สถาบันมะเร็งเนเธอร์แลนด์ และมหาวิทยาลัยเทคโนโลยีเดลฟต์ ซึ่งพบว่าระบบ ASR สำหรับภาษาดัตช์นั้นรู้จักผู้พูดของกลุ่มอายุ เพศ และประเทศต้นทางดีกว่าที่อื่น การรู้จำเสียงมาไกลตั้งแต่เครื่อง Shoebox ของ IBM และตุ๊กตา Julie ของ Worlds of Wonder แม้ว่า AI จะก้าวหน้าไปก็ตาม แต่ระบบการจดจำเสียงในปัจจุบันก็ยังมีความไม่สมบูรณ์มากที่สุด และถูกเลือกปฏิบัติอย่างเลวร้ายที่สุด ในการศึกษาที่จัดทำโดย Washington Post ลำโพงอัจฉริยะยอดนิยมที่ทำโดย Google และ Amazon มีโอกาสเข้าใจสำเนียงที่ไม่ใช่ชาวอเมริกันน้อยกว่า 30% ผู้ใช้โดยกำเนิด ไม่นานมานี้ โปรเจ็กต์ Voice Erasure ของ Algorithmic Justice League พบว่าระบบการรู้จำเสียงพูดจาก Apple, Amazon, Google, IBM และ Microsoft รวมกันได้อัตราข้อผิดพลาดของคำ 35% สำหรับเสียงแอฟริกันอเมริกัน กับ % สำหรับเสียงสีขาว ผู้เขียนร่วมของงานวิจัยล่าสุดนี้มีวัตถุประสงค์เพื่อตรวจสอบว่าระบบ ASR สำหรับชาวดัตช์รู้จักคำพูดจากผู้พูดกลุ่มต่างๆ ได้ดีเพียงใด ในการทดลองหลายครั้ง พวกเขาสังเกตว่าระบบ ASR สามารถแข่งขันกับความหลากหลายในการพูดตามมิติเพศ อายุ และสำเนียงได้หรือไม่ นักวิจัยเริ่มด้วยการให้ระบบ ASR นำเข้าข้อมูลตัวอย่างจาก CGN ซึ่งเป็นคลังข้อมูลที่มีคำอธิบายประกอบซึ่งใช้ในการฝึกแบบจำลองภาษา AI ให้รู้จักภาษาดัตช์ CGN มีบันทึกที่พูดโดยบุคคลที่มีอายุตั้งแต่ ถึง 20 อายุจากเนเธอร์แลนด์และภูมิภาคแฟลนเดอร์สของเบลเยียม ครอบคลุมรูปแบบการพูด รวมทั้งข่าวการออกอากาศและการสนทนาทางโทรศัพท์ CGN มีการพูดมาก 678 ชั่วโมงที่พูดโดยผู้หญิง 1 คน 30 และ 1 คน 678 ผู้ชาย แต่เพื่อให้ระบบแข็งแกร่งยิ่งขึ้น ผู้เขียนร่วมจึงใช้เทคนิคการเสริมข้อมูลเพื่อเพิ่มชั่วโมงรวมของข้อมูลการฝึกอบรม “เก้าเท่า” เมื่อนักวิจัยใช้ระบบ ASR ที่ได้รับการฝึกอบรมผ่านชุดทดสอบที่ได้มาจาก CGN พวกเขาพบว่าระบบจดจำคำพูดของผู้หญิงได้อย่างน่าเชื่อถือมากกว่าคำพูดของผู้ชายโดยไม่คำนึงถึงรูปแบบการพูด นอกจากนี้ ระบบยังพยายามจดจำคำพูดของผู้สูงอายุเมื่อเทียบกับน้อง อาจเป็นเพราะกลุ่มเดิมพูดไม่ชัด และมีเวลาตรวจจับคำพูดจากเจ้าของภาษาได้ง่ายขึ้นเมื่อเทียบกับผู้ที่ไม่ใช่เจ้าของภาษา อันที่จริง คำพูดของเจ้าของภาษาที่แย่ที่สุด – ของเด็กดัตช์ – มีอัตราข้อผิดพลาดของคำประมาณ 20% ดีกว่าคำพูดที่ไม่ใช่ที่ดีที่สุด กลุ่มอายุพื้นเมือง โดยทั่วไป ผลการวิจัยชี้ว่าคำพูดของวัยรุ่นตีความได้แม่นยำที่สุดโดยระบบ รองลงมาคือผู้ที่มีอายุมากกว่า 65 และคำพูดของเด็ก ซึ่งจัดขึ้นแม้สำหรับผู้ที่ไม่ได้เป็นเจ้าของภาษาซึ่งมีความเชี่ยวชาญด้านคำศัพท์และไวยากรณ์ภาษาดัตช์เป็นอย่างดี ในขณะที่นักวิจัยชี้ให้เห็นถึงขอบเขตที่เป็นไปไม่ได้ที่จะขจัดความเอนเอียงที่เล็ดลอดเข้าไปในชุดข้อมูล วิธีแก้ปัญหาหนึ่งคือการบรรเทาอคตินี้ในระดับอัลกอริธึม “ กำหนดกรอบปัญหา พัฒนาองค์ประกอบของทีมและขั้นตอนการดำเนินการจากจุดที่คาดการณ์ไว้ ระบุในเชิงรุก และพัฒนากลยุทธ์การบรรเทาปัญหาอคติทางอารมณ์ [to address bias in ASR systems]” นักวิจัยเขียนไว้ในเอกสารที่มีรายละเอียดเกี่ยวกับงานของพวกเขา “กลยุทธ์การลดอคติโดยตรงเกี่ยวข้องกับการกระจายและมุ่งเป้าไปที่การแสดงที่สมดุลในชุดข้อมูล กลยุทธ์การลดอคติทางอ้อมเกี่ยวข้องกับองค์ประกอบของทีมที่หลากหลาย: ความหลากหลายในด้านอายุ ภูมิภาค เพศ และอื่นๆ ให้เลนส์เพิ่มเติมในการระบุอคติที่อาจเกิดขึ้นในการออกแบบ พวกเขาสามารถช่วยให้มั่นใจได้ถึงสภาพแวดล้อมการพัฒนาที่ครอบคลุมมากขึ้นสำหรับ ASR”

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button