МОНГОЛ УЛСЫН ИХ СУРГУУЛЬ

Бидний тухай


Багш ажилтан

 /  Бидний тухай  /  Багш ажилтан /  Дэлгэрэнгүй мэдээлэл

Дэлгэрэнгүй мэдээлэл


Судалгааны чиглэл:
Мэдээллийг профессор, багш, ажилтан МУИС-ийн мэдээллийн санд бүртгүүлснээр танд харуулж байна. Мэдээлэл дутуу, буруу тохиолдолд бид хариуцлага хүлээхгүй.
Зохиогч(ид): О.Билгүүн, Ч.Алтангэрэл
"Flickr30k-MN: Англи-Монгол зургийн тайлбарын өгөгдөл, орчуулгын үнэлгээ", Монголын Мэдээллийн Технологи эрдэм шинжилгээний хурал, 2025-5-23, vol. 2025, pp. 1-3

Хураангуй

Энэхүү судалгааны ажлаар зургийг Монгол хэлээр ойлгох, хайх, тайлбарлах машин сургалтын загвар хөгжүүлэхэд шаардлагатай өгөгдөл бэлтгэхээр зорьсон. Бид Flickr30k хэмээх 31 мянган зурагтай, зураг тус бүр 5 англи тайлбартай өгөгдлийг 1. машин орчуулга буюу Google Translate, 2. мультимодал LLM (хэлний том загвар) болох Gemini 2.0 Flash-н тусламжтай монгол хэл рүү автоматаар орчуулсан. Орчуулгын чанарыг үнэлэх зорилгоор хүмүүсийн дунд веб аппликейшнд суурилсан судалгаа явуулж, оролцогчдоос орчуулгын аль хувилбар нь тухайн зургийг илүү оновчтой тайлбарласан байгааг нь сонгохыг хүссэн. Судалгаанд оролцогчдын нийт саналын 63.6% нь хоёрдугаар хувилбар болох LLM ашигласан орчуулгыг илүүд үзсэн бол 36.4% нь машин орчуулгын системээр орчуулсан тайлбарыг сонгосон. Энэхүү үр дүнгээс зургийн тайлбарыг монгол хэл рүү орчуулахад мультимодал LLM нь хүнд илүү ойлгомжтой, чанартай үүсгэж байгааг харж болохоор байна. Flickr30k өгөгдлийн зураг болон англи тайлбараас бидний автомат орчуулгын аргаар үүсгэсэн монгол тайлбар нь цаашдын монгол хэл дээрх зураг, бичвэрийн судалгаа, зураг ойлгох, хайлт хийх хиймэл оюун, машин сургалтын загвар хөгжүүлэхэд чухал ач холбогдолтой нөөц болно гэж үзэж байна.

Зохиогч(ид): О.Билгүүн, Ч.Алтангэрэл
"Grapheme-to-Phoneme Conversion for Cyrillic Mongolian Using a Speech Corpus", International Congress of Electrical and Computer Engineering, Түрк, 2024-11-27, vol. 3, pp. 1-14

Хураангуй

In this research work, we created a phoneme-aligned speech corpus for Cyrillic Mongolian script and analyzed cases of different pronunciations for the same written text, aiming to identify sounds pronounced but not written. The speech corpus consists of 25,791 sentences designed for text-to-speech conversion, containing 60.28 hours of studio recordings from a single speaker, along with corresponding transcripts. Utilizing the phoneme alignments generated through this research, we developed a transformer-based grapheme-to-phoneme converter. This model was trained on the phoneme corpus, leveraging the rich phonetic information extracted from the aligned speech data. We then conducted a baseline evaluation of the grapheme-to-phoneme converter to assess its performance and accuracy. This comprehensive approach, combining corpus creation, phoneme alignment analysis, and machine learning model development, provides valuable insights into pronunciation variations and advances the field of text-to-speech technology. The results of this study contribute to a better understanding of the relationship between written text and spoken language, while also establishing a foundation for future improvements in grapheme-to-phoneme conversion techniques for Cyrillic Mongolian script.





Сул хараатай иргэдэд
зориулсан хувилбар
Энгийн хувилбар