Highlights

AI สัญชาติไทย “Gowajee” ฟัง-แปลงข้อความคล่องเหมือนเจ้าของภาษา นวัตกรรมเพื่อคนไทยโดยอาจารย์จุฬาฯ

Gowajee-Thai-AI-Voice

อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง แม่นยำเป็นธรรมชาติราวเจ้าของภาษา เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า จ่อประยุกต์ใช้กับงานอีกหลายรูปแบบ


‘OK, Google’

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการแทนการสัมผัสแป้นพิมพ์อักษร แต่เคยรู้สึกไหมว่า AI voice เหล่านั้นดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI ที่พัฒนามาจากบริษัทต่างชาติซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ

AI Voice

จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีม ได้พัฒนา AI สัญชาติไทยแท้ Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%

Dr. Ekapol Chuangsuwanich
อาจารย์ ดร.เอกพล ช่วงสุวนิช

สำหรับที่มาของชื่อ Gowajee (โก-วาจี) อ.เอกพล เล่าว่า มาจากคำว่า Go รวมกับคำว่า วาจี หรือ วจี โดยคำนี้ถูกออกแบบมาสำหรับเป็นคำพูดเพื่อเริ่มคำสั่งคล้าย ๆ กับ OK, Google หรือ Hey Siri ซึ่งคำว่าโกวาจีนั้นถูกออกแบบมาให้ไม่ซ้ำกับคำที่พูดกันโดยทั่วไปในภาษาไทย

ความท้าทายของการทำ AI ภาษาไทย

จากปัญหา ที่กล่าวมาข้างต้นว่า AI ของบริษัทต่างชาติ มักจะฟังภาษาไทยไม่ค่อยออก ซึ่งสาเหตุหลักๆ ก็มาจากโครงสร้างของภาษาไทยที่ไม่เหมือนกับภาษาอังกฤษ ไม่ว่าจะเป็นการออกเสียงที่บางคำอาจจะไม่ตรงกัน วรรณยุกต์ ความสูงต่ำของโทนเสียง ที่เมื่อฟังไม่ชัดก็อาจจะเพี่ยนความหมายไปได้ หรือแม้กระทั้งคำที่ออกเสียงเหมือนกันอาจจะเขียนหรือมีความหมายที่ต่างกันออกไป โครงสร้างของภาษาที่ดูซับซ้อนกว่าภาษาอังกฤษนี้ อาจจะเป็นอุปสรรคในการพัฒนาเทคโนโลยีการถอดความเป็นตัวอักษร หรือแปลงตัวอักษรให้เป็นคำพูดออกมาได้ ดังนั้นคำตอบของปัญหานี้ อ.เอกพล จึงได้แก้ไขด้วยการ “เก็บฐานข้อมูลที่เป็นภาษาไทยให้ได้มากที่สุด”

AI ภาษาไทยด้วยฐานข้อมูลเสียงของคนไทย

จากความตั้งใจสร้าง AI แปลงเสียงและข้อความสัญชาติไทย อาจารย์เอกพลและทีมงานได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน

“เราเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการ มีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ” อ.เอกพล กล่าว

ฐานข้อมูลเสียงภาษาไทยจำนวนมากดังกล่าวช่วยให้ทีม Gowajee พัฒนานวัตกรรม AI ภาษาไทยที่มีความแม่นยำในภาษา และสามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่

Automated Speech Recognition (ASR)

เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ

“ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราอ่านได้เลยโดยไม่ต้องไปถอดความเอง” อ.เอกพล แนะ

Text-to-Speech (TTS)

เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่เสียงอ่านที่พัฒนาขึ้นโดยโมเดลของ Gowajee จะมีความเป็นธรรมชาติมากกว่า เนื่องจากมีฐานข้อมูลภาษาไทยจำนวนมากกว่านั่นเอง

Automatic Speaker Verification (ASV)

เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

Gowajee ตอบโจทย์ระบบคอลเซ็นเตอร์

นับตั้งแต่ที่เริ่มพัฒนา Gowajee ก็มีหน่วยงานต่างๆ ทั้งมหาวิทยาลัย ภาครัฐ และเอกชน นำเทคโนโลยีนี้ไปใช้แล้ว โดยเฉพาะในงานการให้บริการคอลเซ็นเตอร์ ทั้งถอดเสียงเป็นข้อความ และถอดข้อความเป็นเสียง ซึ่งอาจารย์เอกพล กล่าวว่า Gowajee มีข้อผิดพลาดในการถอดความภาษาไทยประมาณ 9% เท่านั้น ในขณะที่ AI ถอดความอื่นๆ มีความผิดพลาดอยู่ที่ประมาณ 15%

AI Call Center

“ที่ผ่านมา ลูกค้าส่วนมากมีความพึงพอใจในความถูกต้องของ Gowajee ที่ดีกว่าของเดิมที่เคยใช้ และในแง่ราคา ก็จับต้องได้มากกว่า ในส่วนของข้อผิดพลาด เรามั่นใจว่าต่อไป เมื่อระบบมีข้อมูลเพิ่มมากขึ้นเรื่อยๆ ความผิดพลาดที่มีอยู่ในปัจจุบันจะลดลงเรื่อยๆ”

ค้นความหมายในเสียง Gowajee ช่วยคัดกรองผู้ป่วยซึมเศร้า

จากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ ทีม Gowajee ได้เข้าไปมีส่วนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของจุฬาฯ

DMIND application for screening patients with depression

“DMIND เป็นโจทย์ที่ท้าทายเพราะนอกจากจะต้องถอดความแล้ว ยังต้องใช้โมเดลจำแนกอารมณ์จากเสียงพูดเพื่อนำไปวิเคราะห์หาความหมายของกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี เราอาจไม่จำเป็นต้องถอดความให้ถูกต้องทุกคำ แต่จับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา”

Gowajee ประยุกต์ช่วยงานอะไรได้อีกบ้าง

อ.เอกพล เผยต่อไปว่า Gowajee และเทคโนโลยี AI ถอดความภาษายังสามารถประยุกต์ใช้ในพื้นที่ชีวิตและการทำงานได้หลากหลาย อาทิ  

  • เป็นผู้ช่วยทันตแพทย์ในการจดบันทึกข้อมูลคนไข้ ระหว่างที่ทันตแพทย์กำลังใช้เครื่องมือทำฟันให้คนไข้ ก็พูดบอกสิ่งที่ต้องการบันทึกให้ Gowajee แปลงเป็นข้อความ
  • ช่วยตรวจหาความเสี่ยงของผู้ป่วยที่อาจมีภาวะ stroke เมื่อเริ่มพูดไม่ชัด
  • ช่วยเป็น Coach ตั้งคำถามให้ผู้ใช้งานตอบและวิเคราะห์เป้าหมายในการใช้ชีวิตจากการบันทึกการสัมภาษณ์ทางวีดิโอ เป็นส่วนที่ใช้ในการแนะแนวนักศึกษาหรือสำหรับองค์กรที่กำลังรับคนเข้าทำงาน
  • ช่วยแปลงเสียงและขยายเสียงพูดให้ผู้สูงอายุสามารถได้ยินเสียงได้ชัดเจนยิ่งขึ้น

นอกจากนี้ หลายคนอาจคิดถึงการประยุกต์ใช้ Gowajee กับการเรียนและการประชุม ในการแปลงข้อมูลเสียงเป็นข้อความ เป็นต้น

ข้อมูลปลอดภัย มั่นใจ Gowajee

“ความปลอดภัยของข้อมูล” คือจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ อ.เอกพล กล่าวให้ความมั่นใจว่า “โดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ซึ่งข้อมูลของผู้ใช้ โดยเฉพาะธนาคารที่ต้องการความปลอดภัยของข้อมูล ก็จะไม่หลุดออกไปภายนอกแน่นอน”

ทุกวันนี้ AI เก่งขึ้นเรื่อยๆ มีความสามารถด้านการใช้ภาษาได้ใกล้เคียงกับมนุษย์มากขึ้นไปทุกที การเติบโตอย่างก้าวกระโดดของ AI เช่นนี้อาจทำให้หลายคนเริ่มหวั่นใจว่าตำแหน่งงานจะถูกแทนที่ด้วยเทคโนโลยี แต่สำหรับนักประดิษญ์ AI ถอดความภาษาไทย อ.เอกพล มองว่า AI เป็นตัวช่วยให้ชีวิตของเราง่ายขึ้นทั้งในปัจจุบันและอนาคต

“AI ไม่ได้ disrupt เราขนาดนั้น ตัวเราเองต่างหากที่ disrupt ตัวเองมากกว่า สังคมสูงวัย ปัญหาประชากรวัยแรงงานขาดแคลน เหล่านี้ต่างหากกำลังบีบเราให้ต้องสร้างเทคโนโลยีเพื่อทุ่นแรงและทดแทนงานบางอย่างที่อนาคตเราอาจจะหาคนมาทำไม่ได้” อ.เอกพล กล่าวก่อนทิ้งท้ายว่า “ผมไม่ได้คาดหวังว่างานของผมจะช่วยเหลือผู้สูงอายุในปัจจุบัน แต่ผมมองว่าในอนาคต ตัวผมเองจะกลายเป็นผู้สูงอายุ ผมคงจะได้ใช้งานเทคโนโลยีเหล่านี้”

AI for elderly

ดังนั้น เทคโนโลยี AI ถอดความภาษาไทย ไม่ว่าจะเป็นการแปลงเสียงเป็นข้อความหรือข้อความเป็นเสียง ที่ อ.เอกพล ได้ทุ่มเทพัฒนาขึ้นมาอย่างต่อเนื่องนี้ ไม่ใช่เทคโนโลยีที่น่ากลัวหรือจะเข้ามาแทนที่แรงงานของมนุษย์ แต่จะเป็นเทคโนโลยีที่เข้ามาเพื่อช่วยอำนวยความสะดวกให้กับคนหลายคน เพียงแค่การแปลงเสียงเป็นข้อความและข้อความเป็นเสียง ก็สามารถนำไปประยุกต์ใช้ประโยชน์ได้หลากหลายแล้ว ในอนาคตข้างหน้าที่สังคมของเราจะกลายเป็นสังคมสูงวัย ก็คงจะได้นำเทคโนโลยีเหล่านี้มาใช้ และสามารถมีคุณภาพชีวิตที่ดีขึ้นได้มากเลยทีเดียว

สำหรับผู้สนใจเทคโนโลยี AI ถอดความภาษาไทย Gowajee สามารถดูรายละเอียดเพิ่มเติม หรือทดลองใช้ได้ที่ https://www.gowajee.ai/

จุฬาฯ มีลักษณะของความเป็นพี่น้อง ความอบอุ่น เป็นสังคมที่อยากอนุรักษ์ไว้

ศาสตราจารย์ เภสัชกรหญิง ดร.พรอนงค์ อร่ามวิทย์ คณะเภสัชศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

เว็บไซต์นี้ใช้คุกกี้ เพื่อมอบประสบการณ์การใช้งานที่ดีให้กับท่าน และเพื่อพัฒนาคุณภาพการให้บริการเว็บไซต์ที่ตรงต่อความต้องการของท่านมากยิ่งขึ้น ท่านสามารถทราบรายละเอียดเกี่ยวกับคุกกี้ได้ที่ นโยบายการคุ้มครองข้อมูลส่วนบุคคล และท่านสามารถจัดการความเป็นส่วนตัวของคุณได้เองโดยคลิกที่ ตั้งค่า

ตั้งค่าความเป็นส่วนตัว

ท่านสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

อนุญาตทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่จำเป็น
    เปิดใช้งานตลอด

    ประเภทของคุกกี้ที่มีความจำเป็นสำหรับการทำงานของเว็บไซต์ เพื่อให้ท่านสามารถใช้เว็บไซต์ได้อย่างเป็นปกติ ท่านไม่สามารถปิดการทำงานของคุกกี้นี้ในระบบเว็บไซต์ของเราได้

  • คุกกี้เพื่อการวิเคราะห์

    คุกกี้ประเภทนี้จะทำการเก็บข้อมูลพฤติกรรมการใช้งานเว็บไซต์ของท่าน โดยมีจุดประสงค์คือนำข้อมูลมาวิเคราะห์เพื่อปรับปรุงและพัฒนาเว็บไซต์ให้มีคุณภาพ และสร้างประสบการณ์ที่ดีกับผู้ใช้งาน เพื่อให้เกิดประโยชน์สูงสุด หากท่านไม่ยินยอมให้เราใช้คุกกี้นี้ เราอาจไม่สามารถวัดผลเพื่อการปรับปรุงและพัฒนาเว็บไซต์ให้ดีขึ้นได้
    รายละเอียดคุกกี้

บันทึกการตั้งค่า