作者
H Husni, Yudha Dwi Putra Negara, M Syarief
发表日期
2015
期刊
Jurnal Simantec
卷号
4
期号
3
简介
Informasi yang tersedia pada halaman-halaman web trunojoyo. ac. id semakin besar, belum tertata dengan baik, belum terstruktur atau terkategori mengikuti kaidah tertentu dan tersebar pada banyak sub-domain. Sejauh ini, tidak ada gerbangatau portal web yang menyediakan akses ke berbagai situs webyang dihosting oleh data center PTIK Universitas Trunojoyo. Salah satu masalah yang telah diselesaikan adalah pengelompokan informasi atau berita web tersebut secara otomatis menggunakan algoritma clustering K-Means. Search engine RISE yang telah berjalan menghimpun semua halaman web yang ditulis dalam bahasa Indonesia di bawah domain trunojoyo. ac. id menggunakan teknik crawling. Halaman-halaman tersebut kemudian dipre-processing menggunakan teknik standar dalam text minig (informationm retrieval). Proses utamanya adalah penerapan teknik k-menas sehingga terbentuk kelompok berita otonom. Pengujian yang telah dilakukan menunjukkan bahwa teknik clustering yang diterapkan mampu bekerja dengan baik dan memberikan akurasi yang memuaskan. Ada sekitar 300 halaman web yang dilibatkan dalam proses clustering dimana diperoleh ukuran rata-rata F-Measure sebesar 0.6129192 dan Purity bernilai 0.67294195. Faktor yang cukup berpengaruh dalam clustering dan klasifikasi teks bahasa Indonesia adalah fase pre-processing, terutama pada pendekatan stemming. Perbaikan terhadap teknik stemming diyakini akan meningkatkan akurasi pengelompokan dokumen.
引用总数
20162017201820192020202120222023413232