Бидний тухай
Багш ажилтан
Энэхүү судалгааны ажлаар зургийг Монгол хэлээр ойлгох, хайх, тайлбарлах машин сургалтын загвар хөгжүүлэхэд шаардлагатай өгөгдөл бэлтгэхээр зорьсон. Бид Flickr30k хэмээх 31 мянган зурагтай, зураг тус бүр 5 англи тайлбартай өгөгдлийг 1. машин орчуулга буюу Google Translate, 2. мультимодал LLM (хэлний том загвар) болох Gemini 2.0 Flash-н тусламжтай монгол хэл рүү автоматаар орчуулсан. Орчуулгын чанарыг үнэлэх зорилгоор хүмүүсийн дунд веб аппликейшнд суурилсан судалгаа явуулж, оролцогчдоос орчуулгын аль хувилбар нь тухайн зургийг илүү оновчтой тайлбарласан байгааг нь сонгохыг хүссэн. Судалгаанд оролцогчдын нийт саналын 63.6% нь хоёрдугаар хувилбар болох LLM ашигласан орчуулгыг илүүд үзсэн бол 36.4% нь машин орчуулгын системээр орчуулсан тайлбарыг сонгосон. Энэхүү үр дүнгээс зургийн тайлбарыг монгол хэл рүү орчуулахад мультимодал LLM нь хүнд илүү ойлгомжтой, чанартай үүсгэж байгааг харж болохоор байна. Flickr30k өгөгдлийн зураг болон англи тайлбараас бидний автомат орчуулгын аргаар үүсгэсэн монгол тайлбар нь цаашдын монгол хэл дээрх зураг, бичвэрийн судалгаа, зураг ойлгох, хайлт хийх хиймэл оюун, машин сургалтын загвар хөгжүүлэхэд чухал ач холбогдолтой нөөц болно гэж үзэж байна.
In this research work, we created a phoneme-aligned speech corpus for Cyrillic Mongolian script and analyzed cases of different pronunciations for the same written text, aiming to identify sounds pronounced but not written. The speech corpus consists of 25,791 sentences designed for text-to-speech conversion, containing 60.28 hours of studio recordings from a single speaker, along with corresponding transcripts. Utilizing the phoneme alignments generated through this research, we developed a transformer-based grapheme-to-phoneme converter. This model was trained on the phoneme corpus, leveraging the rich phonetic information extracted from the aligned speech data. We then conducted a baseline evaluation of the grapheme-to-phoneme converter to assess its performance and accuracy. This comprehensive approach, combining corpus creation, phoneme alignment analysis, and machine learning model development, provides valuable insights into pronunciation variations and advances the field of text-to-speech technology. The results of this study contribute to a better understanding of the relationship between written text and spoken language, while also establishing a foundation for future improvements in grapheme-to-phoneme conversion techniques for Cyrillic Mongolian script.