AI สัญชาติไทย “Gowajee” ฟัง-แปลงข้อความคล่องเหมือนเจ้าของภาษา นวัตกรรมเพื่อคนไทยโดยอาจารย์จุฬาฯ


อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง แม่นยำเป็นธรรมชาติราวเจ้าของภาษา เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า จ่อประยุกต์ใช้กับงานอีกหลายรูปแบบ

‘OK, Google’

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการแทนการสัมผัสแป้นพิมพ์อักษร แต่เคยรู้สึกไหมว่า AI voice เหล่านั้นดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI ที่พัฒนามาจากบริษัทต่างชาติซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ

AI voice

จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีม ได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%

อาจารย์ ดร.เอกพล ช่วงสุวนิช
อาจารย์ ดร.เอกพล ช่วงสุวนิช ภาควิชาวิศวกรรมคอมพิวเตอร์

สำหรับที่มาของชื่อ Gowajee (โก-วาจี) อ.เอกพล เล่าว่า มาจากคำว่า Go รวมกับคำว่า วาจี หรือ วจี โดยคำนี้ถูกออกแบบมาสำหรับเป็นคำพูดเพื่อเริ่มคำสั่งคล้าย ๆ กับ OK, Google หรือ Hey Siri ซึ่งคำว่าโกวาจีนั้นถูกออกแบบมาให้ไม่ซ้ำกับคำที่พูดกันโดยทั่วไปในภาษาไทย

AI ภาษาไทยด้วยฐานข้อมูลเสียงของคนไทย

จากความตั้งใจสร้าง AI แปลงเสียงและข้อความสัญชาติไทย อาจารย์เอกพลและทีมงานได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน

“เราเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการ มีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ” อ.เอกพล กล่าว

ฐานข้อมูลเสียงภาษาไทยจำนวนมากดังกล่าวช่วยให้ทีม Gowajee พัฒนานวัตกรรม AI ภาษาไทยที่มีความแม่นยำในภาษา และสามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่

1. Automated Speech Recognition (ASR)

เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ

“ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราอ่านได้เลยโดยไม่ต้องไปถอดความเอง” อ.เอกพล แนะ

2. Text-to-Speech (TTS)

เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่เสียงอ่านที่พัฒนาขึ้นโดยโมเดลของ Gowajee จะมีความเป็นธรรมชาติมากกว่า เนื่องจากมีฐานข้อมูลภาษาไทยจำนวนมากกว่านั่นเอง

3. Automatic Speaker Verification (ASV)

เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

Gowajee ตอบโจทย์ระบบคอลเซ็นเตอร์

นับตั้งแต่ที่เริ่มพัฒนา Gowajee ก็มีหน่วยงานต่างๆ ทั้งมหาวิทยาลัย ภาครัฐ และเอกชน นำเทคโนโลยีนี้ไปใช้แล้ว โดยเฉพาะในงานการให้บริการคอลเซ็นเตอร์ ทั้งถอดเสียงเป็นข้อความ และถอดข้อความเป็นเสียง ซึ่งอาจารย์เอกพล กล่าวว่า Gowajee มีข้อผิดพลาดในการถอดความภาษาไทยประมาณ 9% เท่านั้น ในขณะที่ AI ถอดความอื่นๆ มีความผิดพลาดอยู่ที่ประมาณ 15%

Gowajee ตอบโจทย์ระบบคอลเซ็นเตอร์

“ที่ผ่านมา ลูกค้าส่วนมากมีความพึงพอใจในความถูกต้องของ Gowajee ที่ดีกว่าของเดิมที่เคยใช้ และในแง่ราคา ก็จับต้องได้มากกว่า ในส่วนของข้อผิดพลาด เรามั่นใจว่าต่อไป เมื่อระบบมีข้อมูลเพิ่มมากขึ้นเรื่อยๆ ความผิดพลาดที่มีอยู่ในปัจจุบันจะลดลงเรื่อยๆ”

ค้นความหมายในเสียง Gowajee ช่วยคัดกรองผู้ป่วยซึมเศร้า

จากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ ทีม Gowajee ได้เข้าไปมีส่วนช่วยพัฒนาระบบของ แอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของจุฬาฯ

“DMIND เป็นโจทย์ที่ท้าทายเพราะนอกจากจะต้องถอดความแล้ว ยังต้องใช้ โมเดลจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์หาความหมายของกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี เราอาจไม่จำเป็นต้องถอดความให้ถูกต้องทุกคำ แต่จับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา”

Gowajee ประยุกต์ช่วยงานอะไรได้อีกบ้าง

อ.เอกพล เผยต่อไปว่า Gowajee และเทคโนโลยี AI ถอดความภาษายังสามารถประยุกต์ใช้ในพื้นที่ชีวิตและการทำงานได้หลากหลาย อาทิ

  • เป็นผู้ช่วยทันตแพทย์ในการจดบันทึกข้อมูลคนไข้ ระหว่างที่ทันตแพทย์กำลังใช้เครื่องมือทำฟันให้คนไข้ ก็พูดบอกสิ่งที่ต้องการบันทึกให้ Gowajee แปลงเป็นข้อความ
  • ช่วยตรวจหาความเสี่ยงของผู้ป่วยที่อาจมีภาวะ stroke เมื่อเริ่มพูดไม่ชัด
  • ช่วยเป็น Coach ตั้งคำถามให้ผู้ใช้งานตอบและวิเคราะห์เป้าหมายในการใช้ชีวิตจากการบันทึกการสัมภาษณ์ทางวีดิโอ เป็นส่วนที่ใช้ในการแนะแนวนักศึกษาหรือสำหรับองค์กรที่กำลังรับคนเข้าทำงาน
  • ช่วยแปลงเสียงและขยายเสียงพูดให้ผู้สูงอายุสามารถได้ยินเสียงได้ชัดเจนยิ่งขึ้น

นอกจากนี้ หลายคนอาจคิดถึงการประยุกต์ใช้ Gowajee กับการเรียนและการประชุม ในการแปลงข้อมูลเสียงเป็นข้อความ เป็นต้น

ข้อมูลปลอดภัย มั่นใจ Gowajee

“ความปลอดภัยของข้อมูล” คือจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ อ.เอกพล กล่าวให้ความมั่นใจว่า “โดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ซึ่งข้อมูลของผู้ใช้ โดยเฉพาะธนาคารที่ต้องการความปลอดภัยของข้อมูล ก็จะไม่หลุดออกไปภายนอกแน่นอน”

ทุกวันนี้ AI เก่งขึ้นเรื่อยๆ มีความสามารถด้านการใช้ภาษาได้ใกล้เคียงกับมนุษย์มากขึ้นไปทุกที การเติบโตอย่างก้าวกระโดดของ AI เช่นนี้อาจทำให้หลายคนเริ่มหวั่นใจว่าตำแหน่งงานจะถูกแทนที่ด้วยเทคโนโลยี แต่สำหรับนักประดิษญ์ AI ถอดความภาษาไทย อ.เอกพล มองว่า AI เป็นตัวช่วยให้ชีวิตของเราง่ายขึ้นทั้งในปัจจุบันและอนาคต

“AI ไม่ได้ disrupt เราขนาดนั้น ตัวเราเองต่างหากที่ disrupt ตัวเองมากกว่า สังคมสูงวัย ปัญหาประชากรวัยแรงงานขาดแคลน เหล่านี้ต่างหากกำลังบีบเราให้ต้องสร้างเทคโนโลยีเพื่อทุ่นแรงและทดแทนงานบางอย่างที่อนาคตเราอาจจะหาคนมาทำไม่ได้” อ.เอกพล กล่าวก่อนทิ้งท้ายว่า “ผมไม่ได้คาดหวังว่างานของผมจะช่วยเหลือผู้สูงอายุในปัจจุบัน แต่ผมมองว่าในอนาคต ตัวผมเองจะกลายเป็นผู้สูงอายุ ผมคงจะได้ใช้งานเทคโนโลยีเหล่านี้”

สำหรับผู้สนใจเทคโนโลยี AI ถอดความภาษาไทย Gowajee สามารถดูรายละเอียดเพิ่มเติม หรือทดลองใช้ได้ที่ https://www.gowajee.ai/


เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวของคุณได้เอง โดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

Allow All
Manage Consent Preferences
  • คุกกี้ที่จำเป็น
    Always Active

    คุกกี้มีความจำเป็นสำหรับการทำงานของเว็บไซต์ เพื่อให้คุณสามารถใช้ได้อย่างเป็นปกติ และเข้าชมเว็บไซต์ คุณไม่สามารถปิดการทำงานของคุกกี้นี้ในระบบเว็บไซต์ของเราได้

  • คุกกี้เพื่อการวิเคราะห์

    คุกกี้ประเภทนี้จะทำการเก็บข้อมูลการใช้งานเว็บไซต์ของคุณ เพื่อเป็นประโยชน์ในการวัดผล ปรับปรุง และพัฒนาประสบการณ์ที่ดีในการใช้งานเว็บไซต์ ถ้าหากท่านไม่ยินยอมให้เราใช้คุกกี้นี้ เราจะไม่สามารถวัดผล ปรังปรุงและพัฒนาเว็บไซต์ได้

Save