PERBAIKAN EJAAN KATA DALAM BAHASA INDONESIA MENGGUNAKAN ALGORITMA DAMERAU-LEVENSHTEIN DISTANCE DAN N-GRAM

Diah, Anggreni Ratna Sari Kokong (2022) PERBAIKAN EJAAN KATA DALAM BAHASA INDONESIA MENGGUNAKAN ALGORITMA DAMERAU-LEVENSHTEIN DISTANCE DAN N-GRAM. S1 thesis, Universitas Mataram.

[img] Text
01. LAPORAN - PERBAIKAN EJAAN KATA DALAM BAHASA INDONESIA ME.pdf
Restricted to Repository staff only

Download (2MB)

Abstract

Kesalahan penulisan atau ejaan adalah hal yang perlu dipertimbangkan karena kesalahan dapat mempengaruhi perhitungan yang dilakukan oleh beberapa topik pada Natural Language Processing yang bergantung pada validitas data masukan. Beberapa studi telah dilakukan untuk memperbaiki kesalahan penulisan yang terjadi, salah satunya penelitian oleh Arina Indana Fahma dkk, menggunakan metode n-gram dan Levenshtein distance menghasilkan nilai koreksi precision terbaik sebesar 0.97 untuk tipe insertion dan nilai terbaik untuk recall sebesar 1 untuk jenis substitution. Dengan akurasi tinggi, penelitian ini mengusulkan untuk menggunakan algoritma pengembangan Levenshtein, yaitu Damerau-Levenshtein, dan metode n-gram. Damerau-Levenshtein memiliki operasi yang sama seperti insertion, deletion, substitution tetapi dengan penambahan operasi transpotition antara dua karakter. Damerau-Levenshtein tidak hanya membedakan 4 operasi edit, tapi juga menyatakan bahwa operasi pada algoritma yang dikembangkan, dapat sesuai sekitar 80% dari semua kesalahan penulisan manusia. Jenis n-gram yang digunakan adalah bigram (n = 2) dan trigram (n = 3) untuk menghasilkan akurasi yang lebih baik. Hasil pengujian yang diperoleh dalam penelitian ini untuk akurasi deteksi precision dan recall berkisar dari 80% -100%. Sementara pemeriksaan akurasi menggunakan persamaan yang diusulkan oleh Dahlmier dan Ng, di antara nilai akurasi rata-rata dari precision dan recall untuk ketiga skenario, skenario C dengan peringkat 10 teratas memiliki nilai akurasi tertinggi yaitu 97,5%.

Item Type: Thesis (S1)
Keywords (Kata Kunci): Kata Kunci : kesalahan ejaan, deteksi, koreksi, damerau-levenshtein distance, n-gram.
Subjects: T Technology > T Technology (General)
Divisions: Fakultas Teknik
Depositing User: Rini Trisnawati
Date Deposited: 07 Feb 2022 01:00
Last Modified: 07 Feb 2022 01:00
URI: http://eprints.unram.ac.id/id/eprint/27633

Actions (login required)

View Item View Item