Бидний тухай
Багш ажилтан
Энэхүү судалгааны ажлаар ярианы хөмрөг дэх ижил бичлэгтэй ялгаатай дуудлагын тохиолдлууд, гийгүүлэгчээр төгссөн үгийн ард эгшиг хэлэгдэж байгаа эсэх, балархай эгшгүүд гээгдсэн ч дуудагдаж байгаа эсэх зэргийг бичвэрийг дуудлагатай зэрэгцүүлэн кирилл бичвэр, түүнд харгалзах дуудлагын тохиолдлуудыг ялган шинжлэхийг зорилоо. Судалгаанд ашигласан хөмрөг нь бичвэрийг ярианд хөрвүүлэх зорилгоор үүсгэсэн 25 мянган өгүүлбэртэй, 60.28 цагийн студийн бичлэг, түүнд харгалзах бичвэр бүхий сан юм. Keywords—бичвэрээс дуудлагад хөрвүүлэх, яриа боловсруулалт, авиа зэрэгцүүлэлт
Бичвэрийг ярианд хөрвүүлэх технологи нь олон төрөл байдаг бөгөөд сүүлийн үед өгөгдөлд суурилсан, машин сургалтын загварт аргууд давамгайлан хөгжиж байна. Энэхүү технолгогид хэрэг болох үндсэн өгөгдөл нь бичвэр болон түүнд харгалзах ярианы бичлэг бүхий сан байдаг. Монгол хэлний хувьд ч хэд хэдэн бүтээгдэхүүн гарч хэрэглээнд ороод байна. Одоогоор эдгээрийн ихэнх нь бичвэрийн боловсруулалтаа үсэг буюу тэмдэгтэд суурилсан арга хэрэглэж байгаа бөгөөд үүнийг авианд суурилсан аргад шилжүүлэх шаардлагатай. Учир нь нэг кирилл бичвэр нь олон янзын дуудлагад харгалзах боломжтой буюу олон дуудлагатай нэг үгийн зөв хувилбарыг ялгаж тэмдэглэх шаардлагатай байна. Жишээлбэл “ангийн” гэдэг бичвэр нь “ан+Ын”болон “анги+Ын” гэсэн өөр өөр дуудлагатай үг байх боломжтой. Энэхүү илтгэлд эдгээр асуудлыг хөндөж одоо байгаа хэрэглүүрүүд дээрх асуудал, мөн хэрхэн сайжруулах, түүнд хэрэглэгдэх кирилл бичвэрийг дуудлагад хөрвүүлэх асуудалд хэрэгтэй хэлний нөөц (үгзүйн задлуур, дуудлагын толь гэх мэт) үүсгэх шаардлагатай тухай баримт, өгөгдөлд тулгуурласан жишээгээр тайлбарлана. Түлхүүр үг: Бичвэрийг ярианд хөрвүүлэх, хэлний нөөц, яриа боловсруулалт, үгзүйн задлуур, дуудлагын толь
Бичиг баримтыг өөрийн гараараа үйлдэх нь тухайн бичвэр, бичиг баримтыг давхар баталгаажуулж байгаа нэг хэлбэрт тооцогдоно. Бичгийн хэвийн шинжилгээг шүүн таслах ажиллагааны явцад бичиг баримтын үнэн зөвийг тогтооход өргөнөөр ашигладаг бөгөөд энэ шинжилгээг хийх үйл ажиллагаа ур чадвар, хүч хөдөлмөр, цаг хугацаа шаарддагаараа онцлог юм. Одоогоор монгол улсад гар бичвэрийн цахим сан байхгүй бөгөөд бид жишээ болгон гар бичвэрт кодын бүртгэлийн аргаар шинжилгээ хийж байна. Үүний үр дүнд гар бичвэрээс онцлог цэгүүдэд тулгуурлан patch үүсгэн, тэдгээрийг аймаглан шинжилж үзэхэд бүлэгт онцлог шинж тогтвортой хадгалагдаж байх бөгөөд цаашид бичгийн хэвийн адилтгалд ашиглах боломжтой гэж үзэж байна.
Монгол хэлний түвшин тогтоох шалтгалт, түүний үндсэн аргачлал, жишиг сорил болон цахим хэрэгсэл боловсруулсан тухай уг илтгэлд өгүүлсэн болно.
Smartphones enable understanding human behavior with activity recognition to support people’s daily lives. Prior studies focused on using inertial sensors to detect simple activities (sitting, walking, running, etc.) and were mostly conducted in homogeneous populations within a country. However, people are more sedentary in the post-pandemic world with the prevalence of remote/hybrid work/study settings, making detecting simple activities less meaningful for context-aware applications. Hence, the understanding of (i) how multimodal smartphone sensors and machine learning models could be used to detect complex daily activities that can better inform about people’s daily lives, and (ii) how models generalize to unseen countries, is limited. We analyzed in-the-wild smartphone data and ∼ 216K self-reports from 637 college students in five countries (Italy, Mongolia, UK, Denmark, Paraguay). Then, we defined a 12-class complex daily activity recognition task and evaluated the performance with different approaches. We found that even though the generic multi-country approach provided an AUROC of 0.70, the country-specific approach performed better with AUROC scores in [0.79-0.89]. We believe that research along the lines of diversity awareness is fundamental for advancing human behavior understanding through smartphones and machine learning, for more real-world utility across countries.
Mood inference with mobile sensing data has been studied in ubicomp literature over the last decade. This inference enables context-aware and personalized user experiences in general mobile apps and valuable feedback and interventions in mobile health apps. However, even though model generalization issues have been highlighted in many studies, the focus has always been on improving the accuracies of models using different sensing modalities and machine learning techniques, with datasets collected in homogeneous populations. In contrast, less attention has been given to studying the performance of mood inference models to assess whether models generalize to new countries. In this study, we collected a mobile sensing dataset with 329K self-reports from 678 participants in eight countries (China, Denmark, India, Italy, Mexico, Mongolia, Paraguay, UK) to assess the effect of geographical diversity on mood inference models. We define and evaluate country-specific (trained and tested within a country), continent-specific (trained and tested within a continent), country-agnostic (tested on a country not seen on training data), and multi-country (trained and tested with multiple countries) approaches trained on sensor data for two mood inference tasks with population-level (non-personalized) and hybrid (partially personalized) models. We show that partially personalized country-specific models perform the best yielding area under the receiver operating characteristic curve (AUROC) scores of the range 0.78--0.98 for two-class (negative vs. positive valence) and 0.76--0.94 for three-class (negative vs. neutral vs. positive valence) inference. Further, with the country-agnostic approach, we show that models do not perform well compared to country-specific settings, even when models are partially personalized. We also show that continent-specific models outperform multi-country models in the case of Europe. Overall, we uncover generalization issues of mood inference models to new countries and how the geographical similarity of countries might impact mood inference.
Энэхүү судалгааны ажлын хүрээнд бид машин сургалтын аргад суурилан бүтээсэн монгол хэл боловсруулалтын хэрэглүүрүүд болон нээлттэй эхийн программуудыг ашиглан сурах бичгийн нэг ангийн (монгол хэлний 5 дугаар анги) өгөгдлийг боловсруулж, үеийн давтамж, үгийн сангийн давтамж болон үгийн аймгийн хэрэглээ, хэлзүйн хувилал, өгүүлбэрийн бүтэц, хэв шинжийн давтамж зэрэг цогц тоон шинжилгээ хийж, үр дүнг танилцуулахыг зорьсон болно. Сурах бичгийн өгөгдлийн шинжилгээ нь түүний агуулга, стандарт, сургалтын хөтөлбөрийн удирдамж боловсруулах болон анги дэвших бүрд агуулга, үгийн сан, хэл найруулгын талаас ямар ахиц дэвшил гарч байгааг тогтоох зэрэгт чухал ач холбогдолтой юм.
Бид тус өгүүлэлдээ Монгол Улсын ЕБС-ийн I-V ангийн Монгол хэлний сурах бичгийг хэрэглэгдэхүүн болгон үгийн сангаар цахим сан үүсгэсэн бөгөөд уг сандаа тулгуурлан уран зохиолын нэр томьёог бүртгэн, бүтэц, давтамжийг харьцуулан, тогтвортой хэрэглээг тодорхойлсон судалгааны үр дүнгээ танилцуулахыг зорьсон болно.
Энэхүү судалгааны ажил нь франц хэл суралцаж буй төрөл бүрийн түвшинтэй монгол суралцагчдын ярианаас франц хэлний дуудлагыг оновчтой үнэлж болох авиаг сонгон тодорхойлох зорилготой. Судалгааны хүрээнд төрөлх хэлтэн 4, ахисан дунд шат 3, дунд шат 3, анхан дунд 4, анхан шатны 2 оюутан, нийт 16 яригчийг тус тус хамрууллаа. Оролцогчдоор шуугиангүй орчинд франц өгүүлбэр бичүүлж ярианаас нь эгшгийн бүрдүүлбэр гол давтамж буюу формантыг ялган авч тэдний хэлний түвшинтэй харьцуулсан шинжилгээ хийлээ. Үр дүнд нь франц хэлний [ɛ], [i], [u] авиа нь яригчийн хэлний түвшинг тодорхойлоход тохиромжгүй харин хамгийн тохиромжтой эгшиг авиа бол [ø], [a], [ɔ] авиа гэж дүгнэв.
Since Mongolian learners of French make mistakes in the pronunciation of several vowels. That's why we conducted this research. This work covers analysis of the phoneme [y] of the French language. A total of four native speakers and seven learners of French different levels formed a spoken database. The speech database was analyzed using Praat software to produce [y] phonetic forms. As a result, for students studying French, the phoneme [y] is pronounced from the back of the oral cavity. When pronouncing the phoneme [y], the tip of the tongue presses against the lower incisors, and the two sides are raised, the lips are filled, and the mouth is slightly open.
Монгол үгийн утгазүйн сүлжээ (MonWordNet)-г үүсгэх зорилго бүхий судалгааны ажлын үр дүн
Тус өгүүлэлд Монгол Улсын ЕБС-ийн I ангийн Монгол хэлний сурах бичиг дэх нийт үгийн сангаар цахим сан үүсгэсэн бөгөөд уг сандаа тулгуурлан Японы Васеда Их Сургуулийн Шинжлэх ухаан, инженерчлэлийн факультетын профессор Лоренс Антонийн AntConc болон МУИС-ийн (Ч.Алтангэрэл, Ж.Пүрэв) Кирилл монгол бичвэрийн дуудлагын хөрвүүлгийн программыг тус тус ашиглан үг, үгийн үсэг, үеийн тоог бүртгэн, давтамжийг гаргасан байна. Улмаар үгийн аймаг, үгийн хувиллаар ангилан ялгаж, давтамжаар нь хэрэглээг тодорхойлохыг зорив.
Бид тус өгүүлэлдээ Монгол Улсын ЕБС-ийн I-V ангийн монгол хэлний сурах бичгийг хэрэглэгдэхүүн болгон нийт үгийн сангаар цахим сан үүсгэсэн бөгөөд уг санд тулгуурлан Япны Антони Лауренсийн AntConc хэрэгсэл болон МУИС-ийн Хэрэглээний Шинжлэх Ухаан, Инженерчлэлийн Сургуулийн (Ч.Алтангэрэл, Ж.Пүрэв) “Кирилл монгол бичвэрийн дуудлагын хөрвүүлгийн программ”-ыг ашиглан уран зохиолын нэр томьёог бүртгэн, давтамжийг тооцоолохын зэрэгцээ сурах бичиг тус бүрд нь болон хооронд нь харьцуулж, тогтвортой хэрэглээг тодорхойлохыг зорьсон болно.
Abstract-This paper is about discussing some problems between Cyrillic Mongolian and traditional Mongolian and brief history of mongolian scripts. It uses the translation functions of president.mn and trans.mglip.com and discusses the errors and how to improve them. Keywords—Cyrillic Mongolian, traditional Mongolian, web
Хураангуй—Блокчейн технологи үүсэн бий болсон цагаас мэдээллийг аюулгүй хадгалах, төвлөрсөн бусаар дамжуулах, найдвартай боловсруулалт зэрэг давуу талаас үүдэн санхүүгийн салбарт хэрэглэгдэж ирсэн. Богинохон хөгжлийн явцад тус технологи улам боловсронгуй болсоор бусад салбаруудад ч өргөн хэрэглэгдэж эхэлж байна. Төрийн цахим үйлчилгээнд тус технологийг ашигласнаар төрийн үйл ажиллагааны ил тод, хялбар, хүртээмжтэй байдал нэмэгдэж, техникийн, хүний, санхүүгийн хэмнэлт бий болгох боломжтой. Иймд манай улсын цахим засаглалд блокчейн технологийг зайлшгүй ашиглах шаардлагaтайг олон улсын туршлагаар харуулж байна. Түлхүүр үг—блокчейн, төрийн цахим үйлчилгээ, цахим засаглал.
Яригч танилт нь дуу хоолойноос нь тухайн хүнийг тодорхойлдог бөгөөд хэрэглэгчийг ялгаж танихад аюулгүй байдлын боловсруулалтад голлон хэрэглэгддэг. Энэхүү судалгааны ажлаар Монгол хэлний төрөл бүрийн ярианы корпус дээр яригч танилтын орчин үеийн арга технологиудыг туршин харьцуулсан үр дүнг танилцуулна. Эдгээр ярианы корпус нь утасны яриа, вэбээр бичсэн яриа, студийн бичлэгийн гэх мэт төрлүүд байна.
This paper presents the Mongolian Wordnet (MOW), and a general methodology of how to construct it from various sources e.g. lexical resources and expert translations. As of today, the MOW contains 23,665 synsets, 26,875 words, 2,979 glosses, and 213 examples. The manual evaluation of the resource1 estimated its quality at 96.4%.
Өгүүллээр монгол хэлний "ижил үг" буюу бичлэг ижил ч утга нь өөр үгс өгүүлбэрт аль утгаараа орсныг графт суурилсан статистик аргаар тодорхойлохыг оролдлоо. Бид 1.6 сая орчим үгтэй гар тэмдэглэгээт хөмрөгөөс 440 мянга орчим оройтой утгын граф байгуулсан ба уг графаас туршилтын хөмрөгт орсон ижил үгсийн утгыг хайхад 55.4 хувь зөв тодорхойлсон. Энэ нь олон улсын жишигтэй харьцуулахуйц үр дүн юм.
Ярианы технологид үгийн дуудлагыг бичвэрээс нь гаргаж өгдөг дуудлагын хөрвүүлэг нь чухал үүрэгтэй. Энэ өгүүлэлд дүрэмд суурилсан аргад тулгуурлан хөгжүүлсэн бичвэрээс дуудлагад хөрвүүлэх хэрэгслийн алгоритм, хэрэгжүүлэлт болон туршилтын үр дүнг танилцуулав. Энэхүү ажлаар хийж буй бичвэрийг дуудлагад хөрвүүлэх хэрэгсэл нь ижил бичлэгтэй боловч өөр дуудлагатай үгс (омограф)- ийн дуудлагыг ялгах боломжтой ба мөн өвөрмөц буюу дүрмийн бус үгс, гадаад үгсийн дуудлагыг дуудлагын толь бичгээс авах боломжтойгоороо өмнөх ижил төстэй ажлуудаас ялгаатай, шинэлэг юм. Монгол хэлэнд өргөн хэрэглэгддэг үгсээс омограф үгсийг тоолох туршилт хийж нийт 75 мянган үгсээс 92 омограф үг олсон.
Өгүүллээр монгол хэлний "ижил үг" буюу бичлэг ижил ч утга нь өөр үгс өгүүлбэрт аль утгаараа орсныг графт суурилсан статистик аргаар тодорхойлохыг оролдлоо. Бид 1.6 сая орчим үгтэй гар тэмдэглэгээт хөмрөгөөс 440 мянга орчим оройтой утгын граф байгуулсан ба уг графаас туршилтын хөмрөгт орсон ижил үгсийн утгыг хайхад 55.4 хувь зөв тодорхойлсон. Энэ нь олон улсын жишигтэй харьцуулахуйц үр дүн юм.
Тус өгүүллээр бид Twitter нийгмийн сүлжээнд монгол хэлээр бичигдсэн жиргээний сэтгэгдлийг (эерэг, сөрөг, саармаг г.м.) тодорхойлох гүн сургалтын LSTM загвар байгуулахыг зорилоо. Урьдчилан сургасан 300 хэмжээст Word Embedding матрицыг загварынхаа анхны жингээр өгч LSTM давхарга бүхий гүн сургалтын загвар тодорхойллоо. Уг загвараар 2509 өгөгдөлд сургаж, үр дүнг үнэлэхэд F1 оноо 66.9 болсон. Энэ нь олон улсын жишигтэй харьцуулахуйц үр дүн юм.
This paper presents a pioneering work on building a Named Entity Recognition (NER) system for the Mongolian language. While state-of-the-art NER methods have produced results close to human performance for well-studied languages, the approaches that work in, typically fare much worse when applied directly to languages such as Mongolian, with an agglutinative morphology and a subject-object -verb word order. Our work explores a fittest feature set from a wide range of features. As well as we tried to apply various existing machine learning methods and find optimal ensemble of classifiers based on genetic algorithm. The classifiers used different feature representations. The resulting system constitutes the first-ever usable software package for Mongolian NER, while our experimental evaluation will also serve as a much- needed basis of comparison for further research.
This paper describes the development of finite state morphological transducer for Mongolian and presents some issues in Mongolian morphology, linguistic issues encountered and how they were dealt with. The work done here includes all the morphophonological rules needed for all Mongolian nominal and verb. Nominal morphotactic is implemented completely and verbal morphotactic covers one level continuation lexica. An evaluation is done via analysis on two separate corpora, which shows high-level and medium-level coverage respectively. It is more elaborate and accurate than previous implementations of its kinds.