Бидний тухай
Багш ажилтан
Монголуртындууньнүүдэлчинмонголчуудын соёл иргэншлээс үүсэлтэй, олон мянган жилийн түүхтэй уламжлалт дуулах урлагийн өвөрмөц хэлбэр бөгөөд хүний дуу хоолойн уян хатан байдал, акустик боломжийг дээд түвшинд илэрхийлдгээрээ онцлог юм. Энэхүү судалгаанд уртын дууны дуулах хэв маягийг акустик параметрүүдийн түвшинд тоон байдлаар тодорхойлох зорилго тавьсан. Судалгаанд дууны үндсэн давтамж (F0), давтамжийн муруй, чичирхийллийн шинж (vibrato), болон Log-Melспектрограмзэрэгпараметрүүдийгашиглан шинжилгээ хийсэн. Туршилтад Ж. Дорждавгын дуулсан “Өвгөн шувуу”, “Эртний сайхан” дуунуудыг ашиглаж, аудио өгөгдлийг 30 секундын сегментүү- дэд хуваан шинжилсэн. Статистик шинжилгээгээр F0, vibrato rate, vibrato extent параметрүүдийн дун- даж, стандарт хазайлт, 95%-ийн итгэлцлийн интервал, мөн хоёр сорьцын t-шалгалтыг ашиглан ялгааг үнэлсэн. Үр дүнгээс харахад уртын дуу нь өргөн давтамжийн муж, тогтвортой боловч динамик хэл- бэлзэл, удаан чичирхийлэлтэйгээр тодорхойлогдож байгааг тогтоосон. Энэхүү судалгаа нь уртын дууны акустик “гарын үсэг”-ийг тодорхойлох боломжийг харуулж байгаа бөгөөд цаашид дуу таних, ангилах, машин сургалтын (SVM, Random Forest, CNN) загваруудад ашиглах суурь болно. Гэвч өгөгдлийн хэмжээ хязгаарлагдмал тул цаашид олон дуучин, олон дуу дээр туршилт хийх шаардлагатай.
Энэхүүсудалгааныажлынзорилгонь зэрэгцээ (параллель) өгөгдөл шаардахгүй, авианы постериограмм (PPG)-д суурилсан дуу хоолой хувиргалтын системийг Монгол хэлэнд анх удаа хэ- рэгжүүлэх явдал юм. Уламжлалт дуу хоолой хувиргалтын аргууд — GMM, DNN, DBLSTM зэ- рэг нь хоёр яригчийн нэг агуулгыг уншсан зэрэгцээ бичлэг шаарддаг тул бичлэгийн зардал өндөр, Монгол хэлэнд тохиолдуулах нь хүндрэлтэй байв. Энэ асуудлыг шийдэхийн тулд бид яригчаас үл ха- маарах яриа таних (SI-ASR) системийн гаралт болох PPG-г завсрын дүрслэл болгон ашиглав. Санал болгож буй систем нь гурван үе шатаас бүрдэнэ: (1)wav2vec2.0-дсуурилсанSI-ASRсистемээраудио- гоос PPG гаргах, (2) DBLSTM нейрон сүлжээгээр PPG-г зорилтот яригчийн мел-кепстрал коэффици- ент (MCEP) рүү хөрвүүлэх, (3) WORLD вокодерээр эцсийн аудио синтезлэх. Сургалтад 267 яригч бүхий Monnum өгөгдлийн сангаас 2,462 бичлэг ашигласан. Туршилтын үр дүнд мел-кепстрийн гажилт (MCD) 7.43 дБ, үндсэн давтамжийн (F0) корреляци 0.611, дуутай/дуугүй (V/UV) авианы ангилах нарийвчлал 87.3% үзүүлэлтэд хүрсэн. Суурь DBLSTM аргатай харьцуулахад MCD 8.1%-иар буурч, F0 корреляци 6.4%-иар нэмэгдсэн нь дуу чанарын мэдэгдэхүйц сайжралтыг нотолж байна. Монгол хэлэнд PPG-д суурилсан дуу хоолой хувиргалтыг анх удаа хэрэгжүүлсэн бөгөөд нийтэд хүртээмжтэй 36 фонемийн vocabulary болон MFA лексиконыг бүтээн гаргасан нь цаашдын Монгол VC/TTS судалгааны суурь бо- лохоор байна.
Технологийн салбарын хурдацтай хөгжлөөс үүдэлтэй кибер халдлагын төрөл, тоо, хэмжээ болон төвөгтэй байдал (complexity) нэмэгдэж байгаатай холбоотойгоор сүлжээний халдлага илрүүлэх системийн хэрэгцээ, ач холбогдол улам бүр өсөж байна. Сигнатурт суурилсан халдлага илрүүлэх систем шинэ төрлийн “zero day” халдлагыг илрүүлэх боломж улам бүр хязгаарлагдмал болсон тул машин
Voice conversion is a technique used to convert or change the voice of a human being in real-time to make it sound like someone else is speaking. ISPs and advertising companies extensively utilize human voice transformation algorithms. Nevertheless, most implementations are based on off-the-shelf platforms or open-source frameworks, constraining the ability to transform speech into the desired voice. This work employs the principle of speaker conversion through phonetic posteriorgrams (PPGs), which are extracted from a speech recognition system (SI-ASR) based on the Wav2Vec2.0 (XLS-R) model. A Deep Bidirectional Long-Term Memory (DBLSTM) recurrent neural network is then utilized to model the relationship between the PPGs and the acoustic features of the target speech. Accordingly, the same speaker-independent ASR system is used to derive PPGs from any source speech, which are passed to the trained DBLSTM model to generate the transformed speech. We show that our approach performs equally well than other VC using pitch shifting algorithm in speech quality.
Харилцаа холбооны зургаа дахь үе (6G) нь зөвхөн техник үзүүлэлтүүдээр хязгаарлагдахгүй, хүний ойлголт, сэтгэлгээнд ойрхон, ухаалаг харилцааны шинэ парадигмыг шаарддаг. Энэхүү шинэ хандлага нь мэдээллийг утгын түвшинд дамжуулж, системүүдийн хооронд илүү гүнзгий ойлголцол бий болгох боломжийг олгодог. Харин уламжлалт яриа таних (Automatic Speech Recognition, ASR) системүүд нь зөвхөн дууны сигналыг бичвэр болгон хөрвүүлдэг тул утга агуулгыг бүрэн тусгаж чаддаггүй, мөн өгөгдлийн дамжуулалт нь илүүдэл мэдээлэл агуулдаг.Энэхүү судалгааны зорилго нь семантик холбооны зарчмыг яриа таних системд нэвтрүүлэх боломжийг онолын болон практикийн түвшинд судлахад оршиж байна. Судалгааны хүрээнд яриан таних загварт суурилсан ASR систем болон утга ялгах семантик encoder-ийг хослуулсан архитектурыг боловсруулж, монгол хэл дээрх туршилтын өгөгдлөөр үнэлгээ хийсэн. Мөн семантик шахалт болон нөхөлт хийх аргачлалуудыг тооцож, уламжлалт ASR системтэй харьцуулсан үр дүнг танилцуулна. Судалгааны үр дүнд өгөгдлийн дамжуулалтын багтаамжийг бууруулах, ярианы утгыг илүү нарийвчлалтай ойлгох, хүний зорилго, контекстэд үндэслэн хариу үйлдэл үзүүлэх ухаалаг яриа таних системийг хөгжүүлэх боломжийг тодорхойлох юм. Ийм систем нь 6G-ийн ухаалаг хэрэглээнд (ухаалаг гэр, тээвэр, эрүүл мэнд гэх мэт) өргөн хэрэглэгдэх үндэс суурь болж чадна.
The traditions, customs, and practices of Mongolian urtyn songs have been passed down for centuries and continue to this day. Through the poems, melodies, and legends of urtyn songs, we can gain insight into the mentality of the Mongolian people, their traditional customs, and also observe the historical context of different periods in Mongolian history, which underscores the valuable nature of these songs. As a major representation of Mongolian oral literature, urtyn songs have incorporated the life, history, and culture of the Mongolian people into their poetic forms. The urtyn songs were originally composed by individuals, set to music, and then spread among the people, becoming an oral tradition. A clear example of how songs composed in this manner spread across regions as far as the reach of the Mongolian horse is the "Magnai uttun" song. This song, which spread throughout the eastern regions and became known as the Dariganga uttun song, was studied to explore whether it had been passed down from the Ould clan in connection with the origin and development of the Dariganga clan and to analyze the characteristics of its melody. While the study of uttun songs has been conducted at an appropriate level with respect to intonation and rhyme, this time, we compared two different regional renditions of the same song using modern research (technological) methods.
Spiking Neural Networks are a type of artificial neural network that mimics the way biological neural networks in the brain process information. Spiking neural networks form the foundation of the brain’s efficient information processing. While we don’t fully understand how these networks calculate, recent optimization techniques allow us to create increasingly complex functional spiking neural networks in a simulated environment. These methods promise to develop more efficient computing hardware and explore new possibilities in understanding brain circuit function. It is essential to have objective methods to compare their performance to speed up the development of such techniques. However, there are currently no widely accepted means of comparing the computational performance of spiking neural networks. We have introduced a new spike-based classification dataset that can be widely used to evaluate software performance and neuromorphic hardware implementations of spiking neural networks to address this issue. To achieve this, we have created a general procedure for converting audio signals into spiking neural network activity, drawing inspiration from neurophysiology. We created the Monnum digit dataset specifically for this study. Within the range of this research, We implemented a digit recognition system from 1 to 10 spoken in the Mongolian language for the Spike neural network. The last is data for training and testing, which was prepared in HDF5 format extension and then trained in the SNN network.
Манай улсын ууган их сургууль МОНГОЛ УЛСЫН ИХ СУРГУУЛЬ байгуулагдсаны 80 жилийн ой энэ жил тохиож байна. МУИС нь анхдагчийн хувьд үндэсний дээд боловсролтой судлаач эрдэмтэд, багш, эмч нар, техникийн дээд боловсролтой төрөл бүрийн инженер бэлтгэх өргөн хүрээтэй тогтолцоог бий болгон өөрөөсөө олон их, дээд сургууль салбарлуулан төрүүлсэн билээ. Энэхүү үйл ажиллагааны хүрээнд харилцаа холбооны үндэсний дээд боловсролтой мэргэжилтэн бэлтгэх ажлыг 55 жилийн өмнө эхлүүлэн 1967 онд МУИС-ийн физикийн ангиас радио-физик мэргэжлээр анхны 7 оюутан төгсгөсөн. Тус төгсөгчид нь Холбооны яаманд хуваарилагдаж, улс орныхоо бүтээн байгуулалтад гар бие оролцон ажилласан юм. Цаашид хөтөлбөрөө улам өргөжүүлэн МУИС нь радио, радио-физик, радио-электроникийн чиглэлээр инженер бэлтгэж байв. Улмаар техник технологийн хөгжлийн хурдцыг даган электроникийн мэргэжилтэн дагнан бэлтгэх онцгой шаардлага гарсныг үндэслэн 1990 онд МУИС-ийн электроникийн ангийг нээн 1994 онд анхны төгсөлтийг хийжээ. Өнөөдөр сургалтын хөтөлбөрүүд нь улам өргөжсөөр МУИС нь компьютерын сүлжээ, сүлжээний технологи, сэргээгдэх эрчим хүчний инженер мэргэжлээр мэргэжилтэн бэлтгэсээр байна.
Радио хугарлын илтгэгч нь радио долгионы тархалт болон радио системийн төлөвлөлтөд чухал параметр болдог. Энэ судалгааны ажлаар газрын гадаргуу орчмын радио хугарлын илтгэгчийн улирлын явцын загварыг Улаанбаатар хотын хувьд Гауссын функцийг ашиглан гаргасан. Бид радио хугарлын илтгэгчийн улирлын явцын загварыг сонгоход үндсэн хоёр шаардлага тавьсан. Нэгдүгээрт, загвар нь улирлын явцын ерөнхий шинж төрхтэй таарах ёстой. Хоёрдугаарт, загвар нь цөөн параметртэй байх ёстой. Ингэснээр загвар энгийн бөгөөд тооцоолол хялбар болно. Энэ үндсэн шаардлагуудаас гадна статистик хэмжүүрийг тохирох загвар сонгохдоо ашигласан. Үр дүнд нь есөн параметртэй Гауссын функцийг сонгож загварчилсан. Ингэж загварчилснаар тухайн жилийн аль ч өдрийн радио хугарлын илтгэгчийн утгыг таамаглах боломжтой болсон.
Энэхүү судалгааны ажлаар бид ярианы дохионы фрэйм хоорондын Евклидийн зайг фурье спектр болон LPC спектрүүдийн хувьд харьцуулах ажлыг хийсэн. Энэхүү зайнууд нь нэг авианы дотор болон өөр өөр авианууд хооронд ямар байхыг тооцоолон харьцуулсан. Ингэж харьцуулахад зэргэлдээ фрэйм хоорондын LPC спектрийн зай нь үг болон эрэмбээс бараг хамаарахгүйгээр фурье спектрийн зайнаас 2.4 дахин бага харин өөр өөр авиа хоорондын LPC болон фурье спектрийн зайнууд нь ойролцоо гарсан. Энэ нь LPC спектрийн давуу талыг харуулж байна.
Энэхүү судалгааны ажлаар бид ярианы дохионы фрэйм хоорондын Евклидийн зайг фурье спектр болон LPC спектрүүдийн хувьд харьцуулах ажлыг хийсэн. Энэхүү зайнууд нь нэг авианы дотор болон өөр өөр авианууд хооронд ямар байхыг тооцоолон харьцуулсан. Ингэж харьцуулахад зэргэлдээ фрэйм хоорондын LPC спектрийн зай нь үг болон эрэмбээс бараг хамаарахгүйгээр фурье спектрийн зайнаас 2.4 дахин бага харин өөр өөр авиа хоорондын LPC болон фурье спектрийн зайнууд нь ойролцоо гарсан. Энэ нь LPC спектрийн давуу талыг харуулж байна.
An audio identication system is used for commercial and research urposes. Most of such systems uses an audio ngerprints. The audio ngerprint is a set of features that uniquely identies an audio and there are many algorithms that extract ngerprints from audio. We chose an algorithm which is based on anchor points and target zones like music recognition system named Shazam. In this paper, we proposed and implemented some algorithm's modications based on currently revealed audio ngerprinting system.