Бидний тухай
Багш ажилтан
Хиймэл оюун ухаан хурдацтайгаар хөгжиж түүнийг дагаад хүмүүс, тэр дундаа дэлхийн олон хүн ам хэрэглэдэг Англи гэх мэт түгээмэл шиглагддаг хэлээр хүн машинтай харьцах боломж хангалттай түвшинд хөгжөөд байгаа бол Монгол хэлний хувьд бусад хэлтэй харьцуулахад энэ нь хязгаарлагдмал байна. Тиймээс бид энэхүү ажлын хүрээнд монгол хэлний төхөөрөмжтэй харилцах эхний шат болох Монгол хэлээр ярьсан яриаг илтгэгчээс хамааралгүй текстэд хөрвүүлэх, түүнийг өөр нэгэн зорилтот хоолойд хувиргах ажлыг Whisper болон MMS моделийн тусламжтай хийсэн. Энэхүү судалгааны ажлын үр дүнд суурилаад Монгол хэлээр ярьж буй яриаг текстэнд хөрвүүлэх программ, цаашлаад Монгол хэлдээр ажиллах боломжтой харилцан ярианы системийг хөгжүүлэх боломжтой.
Энэхүү судалгааны ажлаар бид тоо таних системийн хэрэгжүүлэлтийг хиймэл оюун ухаан ашиглан хийж гүйцэтгэсэн. Уг систем нь 1-ээс 10 хүртэлх тоог таних систем ба эхний шатанд цуглуулсан датаг 8kHz-ийн давтамжтайгаар түүвэрлэлт хийж ’MFCC’-ийн тусламжтайгаар дохионы дав- тамжийн коэффициентуудыг авч хадгалж авсан. Дараа нь бэлтгэсэн дата файлуудыг машин сургалтын аргыг ашиглан модельдоо таниулж өгсөн. ’SVM’, ’KNN’ моделиудыг ашиглан сургаж харьцуулалтыг хийсэн.
Spiking Neural Networks are a type of artificial neural network that mimics the way biological neural networks in the brain process information. Spiking neural networks form the foundation of the brain’s efficient information processing. While we don’t fully understand how these networks calculate, recent optimization techniques allow us to create increasingly complex functional spiking neural networks in a simulated environment. These methods promise to develop more efficient computing hardware and explore new possibilities in understanding brain circuit function. It is essential to have objective methods to compare their performance to speed up the development of such techniques. However, there are currently no widely accepted means of comparing the computational performance of spiking neural networks. We have introduced a new spike-based classification dataset that can be widely used to evaluate software performance and neuromorphic hardware implementations of spiking neural networks to address this issue. To achieve this, we have created a general procedure for converting audio signals into spiking neural network activity, drawing inspiration from neurophysiology. We created the Monnum digit dataset specifically for this study. Within the range of this research, We implemented a digit recognition system from 1 to 10 spoken in the Mongolian language for the Spike neural network. The last is data for training and testing, which was prepared in HDF5 format extension and then trained in the SNN network.
Дуу хоолойг хувиргах гэдэг нь бодит цаг хугацааны хувьд хүний яриаг өөр хүн ярьж байгаа юм шиг дуу хоолойг нь хувиргах буюу өөрчлөхөд ашигладаг техник юм. Хүний дуу хоолой хувиргалтын алгоритмыг ISP болон зар сурталчилгааны компаниуд түгээмэл хэрэглэдэг. Гэхдээ ихэвчлэн дуу хоолой хувиргалтын алгоритмын хэрэгжүүлэлтийг бэлэн платформ буюу нээлттэй-эх код ашиглан хийдэг бөгөөд энэ нь дохиог өөрсдийнхөө хүссэн дуу хоолойруу хөрвүүлэх гэх мэт боломжуудыг хязгаарладаг. Иймээс бид энэхүү судалгааны ажлаар Питч шилжүүлэлтийн алгоритмыг МАТЛАБ програм болон C++ хэл дээр хэрэгжүүлсэн. Эхлээд хүний ярианы дохиог тодорхой хэмжээтэй фрейм болгон хуваасан бөгөөд нэг фрейм нь дохионы питч буюу үндсэн давтамж юм. Фрейм болгон хуваахын тулд бид тухайн хүний ярианы дохионоос питч илрүүлэх процессийг хийнэ. Өөрөөр хэлбэл тухайн хүний ярианы давтамжийн хүрээг олно. Хэрэгжүүлэлтийг монгол хүний дуу хоолой ашиглан хийсэн бөгөөд питч үнэлэх, питч тэмдэглэх, Pitch Synchronous Over Lap Add алгоритм гэсэн гурван алхмын дагуу хийсэн. Бидний энэхүү систем нь дурын хүний дуу хоолойн дохиог далайц болон хугацааны хувьд өөрчлөх замаар хувиргаж хувиргасан дуу хоолойг гаргадаг. Мөн энэхүү алгоритмын тусламжтайгаар хүний ярианы дохиог хувиргасан хэдий ч дууны чанарыг сайжруулах шаардлага гарсан учраас далайцын утгуудыг сэргээх алгоритмыг мөн хэрэгжүүлсэн.