МОНГОЛ УЛСЫН ИХ СУРГУУЛЬ

Бидний тухай


Багш ажилтан

 /  Бидний тухай  /  Багш ажилтан /  Дэлгэрэнгүй мэдээлэл

Дэлгэрэнгүй мэдээлэл


Судалгааны чиглэл:
Мэдээллийг профессор, багш, ажилтан МУИС-ийн мэдээллийн санд бүртгүүлснээр танд харуулж байна. Мэдээлэл дутуу, буруу тохиолдолд бид хариуцлага хүлээхгүй.
Зохиогч(ид): Л.Сэргэлэн, О.Билгүүн, Ч.Алтангэрэл
"Веб камераар, нүүрний цэгүүдэд суурилан харааны чиглэл таамаглах машин сургалтын загвар сургалт, тохируулга хийх нь", Монголын Мэдээллийн Технологи эрдэм шинжилгээний хурал, 2026-5-22, vol. 2026, pp. 1

Хураангуй

Энэхүү судалгааны ажлаар ердийн веб камерын тусламжтайгаар хүний харааны чиглэлийг (gaze) тодорхойлох машин сургалтын загвар хөгжүүлэхийг зорьсон. MediaPipe FaceMesh гүн сургалтын загварыг ашиглаж нүүрний гол цэгүүдийг (facial landmarks) илрүүлж, тэдгээрийг загвар сургах шинж чанар болгон ашигласан. Өгөгдөл цуглуулах зорилгоор веб аппликейшн хөгжүүлж, 96 оролцогчоос нийт 4,416 түүвэр өгөгдөл цуглуулсан. Судалгаанд Ridge Regression, Random Forest, Extreme Gradient Boosting болон PyTorch MLP загваруудыг сургаж, тэдгээрийг хооронд нь харьцуулж үнэлэв. Загваруудын үнэлгээнд Mean Absolute Error (MAE) ашигласан бөгөөд 10-fold cross validation туршилтын өгөгдөл дээр хамгийн сайн загвар нь 141.3 пиксель алдаатай байсан. Загварын таамаглалыг сайжруулахын тулд 16 цэгийн тохируулгын (calibration) процесс болон аффин хувиргалтыг хэрэгжүүлсэн. Энэхүү судалгааны ажил нь хүний зан төлөв, анхаарал төвлөрлийн судалгаанд ашиглагдах боломжтой бөгөөд бага өртөгтэй "eye-tracking" шийдэл хэрэгжүүлэх боломжийг судаллаа.

Зохиогч(ид): П.Батгэлэр, О.Билгүүн
"Personal AI Assistant for Cross-Service Information Retrieval and Automation", Монголын Мэдээллийн Технологи эрдэм шинжилгээний хурал, 2026-5-22, vol. 1, pp. 1

Хураангуй

This research presents the development of a personal AI assistant operating on a Speech-to-Speech (S2S) framework, specifically optimized for the Mongolian language. The system bridges the gap between natural language intent and digital execution by integrating a fine-tuned Mongolian speech recognition model, achieving a significantly reduced Word Error Rate (WER) for localized acoustic contexts. A core innovation of this assistant is its ability to centralize and orchestrate fragmented services—including Google Calendar, Gmail, and various web-based news sources—into a single, unified execution environment. By utilizing n8n workflows for cross-service integration and Docker containerization for stable deployment, the system transforms complex, multi-step digital tasks into simple voice commands. The results demonstrate that by minimizing phonetic errors and unifying separate APIs, the assistant provides a seamless, hands-free interface that enhances productivity through intelligent automation.

Зохиогч(ид): О.Билгүүн, Ч.Алтангэрэл
"Flickr30k-MN: Англи-Монгол зургийн тайлбарын өгөгдөл, орчуулгын үнэлгээ", Монголын Мэдээллийн Технологи эрдэм шинжилгээний хурал, 2025-5-23, vol. 2025, pp. 1-3

Хураангуй

Энэхүү судалгааны ажлаар зургийг Монгол хэлээр ойлгох, хайх, тайлбарлах машин сургалтын загвар хөгжүүлэхэд шаардлагатай өгөгдөл бэлтгэхээр зорьсон. Бид Flickr30k хэмээх 31 мянган зурагтай, зураг тус бүр 5 англи тайлбартай өгөгдлийг 1. машин орчуулга буюу Google Translate, 2. мультимодал LLM (хэлний том загвар) болох Gemini 2.0 Flash-н тусламжтай монгол хэл рүү автоматаар орчуулсан. Орчуулгын чанарыг үнэлэх зорилгоор хүмүүсийн дунд веб аппликейшнд суурилсан судалгаа явуулж, оролцогчдоос орчуулгын аль хувилбар нь тухайн зургийг илүү оновчтой тайлбарласан байгааг нь сонгохыг хүссэн. Судалгаанд оролцогчдын нийт саналын 63.6% нь хоёрдугаар хувилбар болох LLM ашигласан орчуулгыг илүүд үзсэн бол 36.4% нь машин орчуулгын системээр орчуулсан тайлбарыг сонгосон. Энэхүү үр дүнгээс зургийн тайлбарыг монгол хэл рүү орчуулахад мультимодал LLM нь хүнд илүү ойлгомжтой, чанартай үүсгэж байгааг харж болохоор байна. Flickr30k өгөгдлийн зураг болон англи тайлбараас бидний автомат орчуулгын аргаар үүсгэсэн монгол тайлбар нь цаашдын монгол хэл дээрх зураг, бичвэрийн судалгаа, зураг ойлгох, хайлт хийх хиймэл оюун, машин сургалтын загвар хөгжүүлэхэд чухал ач холбогдолтой нөөц болно гэж үзэж байна.

Зохиогч(ид): О.Билгүүн, Ч.Алтангэрэл
"Grapheme-to-Phoneme Conversion for Cyrillic Mongolian Using a Speech Corpus", International Congress of Electrical and Computer Engineering, Түрк, 2024-11-27, vol. 3, pp. 1-14

Хураангуй

In this research work, we created a phoneme-aligned speech corpus for Cyrillic Mongolian script and analyzed cases of different pronunciations for the same written text, aiming to identify sounds pronounced but not written. The speech corpus consists of 25,791 sentences designed for text-to-speech conversion, containing 60.28 hours of studio recordings from a single speaker, along with corresponding transcripts. Utilizing the phoneme alignments generated through this research, we developed a transformer-based grapheme-to-phoneme converter. This model was trained on the phoneme corpus, leveraging the rich phonetic information extracted from the aligned speech data. We then conducted a baseline evaluation of the grapheme-to-phoneme converter to assess its performance and accuracy. This comprehensive approach, combining corpus creation, phoneme alignment analysis, and machine learning model development, provides valuable insights into pronunciation variations and advances the field of text-to-speech technology. The results of this study contribute to a better understanding of the relationship between written text and spoken language, while also establishing a foundation for future improvements in grapheme-to-phoneme conversion techniques for Cyrillic Mongolian script.





Сул хараатай иргэдэд
зориулсан хувилбар
Энгийн хувилбар