Jurnal : Perbandingan Ekstraksi Ciri Full, Blocks, dan Row Mean Spectrogram Image Dalam Mengidentifikasi Pembicara

Abstrak

Pada sebuah sistem recognition, pemilihan metode ekstraksi ciri dan ukuran fitur yang digunakan mempengaruhi tingkat keakuratan identifikasi. Berkaitan dengan hal itu, dalam penelitian ini akan dijabarkan perbandingan tiga metode ekstraksi ciri CBIR yaitu row mean image, full image, dan blocks image. Ketiga metode tersebut digunakan untuk mengidentifikasi pembicara dengan menitikberatkan pada ukuran selection feature vector yang digunakan. Data suara diperoleh dari rekaman suara menggunakan handphone. Rekaman suara berasal dari 10 orang narasumber dengan rincian 5 pria dan 5 wanita. Setiap narasumber mengucapkan lima buah kalimat yaitu Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, dan Dengan Siapa serta diulangi delapan kali tiap kalimat. Karena menerapkan metode CBIR maka rekaman suara yang berbentuk sinyal dikonversi menjadi image spectrogram menggunakan STFT. Kemudian spectrogram diimplementasikan ke kekre transform lalu diekstrasi cirinya. Penggunaan kekre transform bertujuan untuk menyeleksi dan mengambil kemungkinan-kemungkinan fitur yang optimal serta juga meringankan proses komputasi. Menggunakan data reference 250 image spectrogram dan data testing 150 image spectrogram memberikan hasil bahwa metode ekstraksi ciri full image memperoleh persentase identifikasi lebih tinggi yaitu 93,3% dengan ukuran fitur 32x32.

Kata kunci— Identifikasi pembicara, Spektrogram, Transformasi kekre, Full image, Blocks Image, Row mean image

Pendahuluan

Pada sistem identifikasi pembicara atau speaker identification, proses ekstraksi ciri memainkan peranan penting dalam menghasilkan tingkat keakuratan yang baik. Terdapat banyak metode ekstraksi ciri untuk identifikasi pembicara telah diperkenalkan oleh para peneliti. Salah satunya adalah metode ekstraksi ciri berbasis content atau biasa dikenal CBIR (Content Based Image Retrieval). CBIR (Content Based Image Retrieval) merupakan metode ekstraksi ciri yang menggunakan content yang terdapat pada image sebagai fitur. Content yang digunakan dapat berupa warna, tekstur, shape, atau informasi-informasi lain yang mendukung namun content yang sering digunakan oleh para peneliti adalah warna, tekstur, dan shape. Penerapan tehnik CBIR ke permasalahan identifikasi pembicara terlebih dahulu dilakukan proses konversi sinyal suara menjadi image dengan menggunakan short time fourier transform atau STFT. Gambar yang dihasilkan oleh STFT berupa spectrogram yang merupakan penampakan spektrum-spektrum frekuensi yang diplot terhadap waktu dan amplitudo. Spectrogram yang digunakan dalam identifikasi pembicara memiliki keuntungan dapat menganalisa suara seseorang sekalipun orang tersebut mencoba untuk menghilangkan karakter asli dari suaranya [1]. Penggunaan content warna sangat memungkinkan jika diterapkan pada spectrogram. Namun penggunaannya terkadang mempengaruhi proses komputasi dan ukuran fitur apalagi jika gambarnya dalam bentuk RGB maka diperlukannya proses setiap plane. Pendekatan CBIR ke dalam transform domain dapat menjadi sebuah solusi pengganti content berdasarkan warna [2]. Penggunaan metode transform bermakna adanya proses transformasi sebelum proses ekstraksi ciri dilakukan.

Untuk lebih lengkapnya silahkan klik link donwload dibawah ini :