SPEECH TO TEXT BAHASA SASAK MENGGUNAKAN EXTRAKSI FITUR MEL-FREQUENCY CEPSTRAL COEFFICIENTS DAN KLASIFIKASI CONVOLUTIONAL NEURAL NETWORKS

Belmiro Razak, Setiawan (2022) SPEECH TO TEXT BAHASA SASAK MENGGUNAKAN EXTRAKSI FITUR MEL-FREQUENCY CEPSTRAL COEFFICIENTS DAN KLASIFIKASI CONVOLUTIONAL NEURAL NETWORKS. S1 thesis, Universitas Mataram.

[img] Text
SKRIPSI TUGAS AKHIR BELMIRO RAZAK SETIAWAN (F1D016016).pdf
Restricted to Repository staff only

Download (2MB)

Abstract

Teknologi kecerdasan buatan memungkinkan sinyal digital dapat diolah oleh komputer. Saat ini speech to text yang tersedia hanya dalam versi bahasa Indonesia dan Inggris. Speech to text merupakan sistem yang mengerjakan perintah dari input suara manusia dan kemudian diterjemahkan menjadi kata. Pengembangan speech to text bahasa daerah diperlukan dikarenakan dapat menjadi jembatan antara budaya dan kemajuan teknologi. Dari 5 literatur penelitian yang ditemukan metode mel-frequency cepstral coefficients (MFCC) dan convolutional neural networks (CNN) merupakan perpaduan metode analisis sinyal suara yang umum digunakan dan mendapatkan akurasi antara 70.00% sampai dengan 99.00%. Penelitian ini menggunakan akan metode CNN dan MFCC pada bidang speech to text untuk mengenali bahasa sasak dan merubahnya menjadi teks. Hasil penelitian ini adalah sebuah sistem konversi real time dari suara menjadi teks bahasa Sasak. Analisis yang dilakukan meliputi penentuan jumlah data training terbaik, pengujian data training pada jumlah suara berdasarkan akurasi, kepekaan algoritma terhadap kata yang memiliki awalan yang serupa menggunakan metode MFCC sebagai fitur ekstraksi dan CNN sebagai penggolong terhadap dataset suara. Penelitian ini bertujuan untuk mendapatkan akurasi dari dataset yang digunakan dan kepekaan algoritma terhadap kalimat-kalimat yang memiliki kemiripan. Pada penelitian ini mendapatkan 2 hasil. Hasil yang pertama adalah hasil pelatihan dengan hasil akurasi dari pelatihan CNN adalah 90% dan loss 0.5%. Hasil yang kedua adalah hasil percobaan dengan menggunakan 3 sampel suara untuk setiap kata pada dateset dengan hasil 43 kata yang benar semua, 6 kata yang benar 2, 1 kata yang benar 1 dan tidak ada kata yang salah semua. Sehingga memiliki persentase keberhasilan 86%.

Item Type: Thesis (S1)
Keywords (Kata Kunci): Suara, Bahasa Sasak, Speech to text, MFCC, CNN,
Subjects: T Technology > T Technology (General)
Divisions: Fakultas Teknik
Depositing User: Meike Megawati
Date Deposited: 17 Nov 2022 00:23
Last Modified: 17 Nov 2022 00:23
URI: http://eprints.unram.ac.id/id/eprint/33202

Actions (login required)

View Item View Item