Makalah
Sistem Temu Kembali Informasi
Tokenisasi, Stopword Removal, dan Stemming
Oleh :
Sigit Purnomo 14.01.53.0061
Ali Imron 14.01.53.0066
Dosen Pengampu :
Dr.Drs.
Eri Zuliarso, M.Kom
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
SEMARANG
2017
KATA PENGANTAR
Dengan menyebut nama Allah SWT yang Maha Pengasih lagi Maha Panyayang, Kami panjatkan puja dan puji syukur atas kehadirat-Nya, yang telah melimpahkan rahmat, hidayah, dan inayah-Nya kepada kami, sehingga kami dapat menyelesaikan makalah ilmiah tentang Tokenisasi, Stopword Removal, dan Stemming.
Harapan kami semoga makalah ini dapat menambah pengetahuan dan pengalaman bagi para pembaca, Untuk ke depannya dapat memperbaiki bentuk maupun menambah isi makalah agar menjadi lebih baik lagi. Atas dukungan moral dan materil yang diberikan dalam penyusunan makalah ini, maka penulis mengucapkan banyak terima kasih kepada :
- Dr.Drs. Eri Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi.
- Serta semua pihak yang turut serta memberikan semangat dan motivasi.
Semarang, September 2017
Penulis
ABSTRAK
Sistem Temu Kembali Informasi (Information retrieval) adalah ilmu yang digunakan untuk mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan mencari metadata yang menggambarkan suatu dokumen. Sistem Temu Kembali Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang sesuai dengan kebutuhan pengguna. Salah satu cara meningkatkan kemampuan sistem temu kembali informasi untuk meningkatkan jumlah dokumen jurnal yang diberikan kepada user adalah dengan menggunakan Tokenizing, Stopword Removal, dan Stemming. Dengan penerapan ini diharapkan adanya hasil temuan data yang lebih banyak, namun tetap relevan terhadap kata kunci yang dimasukkan.
Kata Kunci : Information retrieval, Tokenizing, Stopword Removal, dan Stemming.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pencarian informasi berupa text dalam dunia Internet sangat besar frekuensinya. Karena hampir semua informasi di dalam dunia internetdidominasi oleh data berbemtuk textatau data berupa dokomen. Oleh sebab itu maka metode-metode untuk menemukankembali text tersebut terus ditingkatkan, inilah latar belakang penelitian sebuah metode dalam menemukan kembali informasi atau Information Retrieval (IR).
IR adalah pencarian informasi dalam satu atau lebih dokumen, mencari dokumen-dokumen, atau mencari informasi dari database. Proses IR dimulai saat pengguna memasukan sebuah query ke sistem. Query adalah pernyataan dari informasi yang dibutuhkan oleh pengguna. Kemudian dilakukan proses IR untuk mendapatkan informasi yang diinginkan dari query yang diberikan. IR adalah salah satu solusi dalam mempermudah menemukan kembali informasi ataupun pemrosesan informasi yang pada umumnya dokumen dan data yang berbasis text.
Penerapan IR ini diharapkan dapat menghasilkan pencarian dokumen dengan lebih relevan dan akurat sesuai kategorinya. Serta untuk menghemat waktu dan mempercepat kinerja pencarian dokumen yang akan dicari sesuai dengan kata kunci yang telah dimasukkan.
1.2 Rumusan Masalah
1. Apa yang dimaksud dengan Tokenisasi, Stopword Removal, dan Stemming?
2. Jenis-Jenis Sistem Temu Kembali Informasi?
BAB II
LANDASAN TEORI
2.1 Information Retrieval
Information
Retrieval (IR) atau sering disebut “temu kembali informasi”
adalah bagaimana menemukan suatu dokumen dari dokumen-dokumen tidak terstruktur
yang memberikan informasi yang dibutuhkan dari koleksi dokumen yang sangat
besar yang tersimpan dalam komputer (Manning et.al, 2008). Tujuan dari system IR adalah untuk memenuhi
kebutuhan informasi user dengan me-retrieve
semua dokumen yang mungkin relevan, pada waktu yang sama me-retrive sesedikit mungkin dokumen yang
tidak relevan.
Model information retrieval adalah model yang digunakan untuk melakukan pencocokan
antara term (kata) dari query dengan term-term dalam koleksi dokumen, model
yang terdapat dalam information retrieval
terbagi dalam 3 model besar yaitu (Pardede, et.al, 2013) :
a) Set-theoretic
models, model merepresentasikan dokumen sebagai himpunan kata atau frase.
Contoh model ini ialah Standard Boolean
Model dan Extended Boolean Model.
b) Algebratic
model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh
model ini ialah Vector Space Model
(VSM), Latent Semantic Indexing (LSI) dan Generalized Vector
Space
Model (GVSM).
c) Probabilistic
model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model
ini ialah penerapan Teorema Bayes
dalam Probabilistic Model. Information retrieval system
menggunakan metode vector space
model sebagai suatu system memiliki
beberapa proses yang membangun system
secara keseluruhan. Proses information
retrieval system terdiri dari
tokenizing, stopword (filtering),
stemming, indexing (inverted index) dan term
similarity (Amin, 2012).
Adapun tahap-tahap yang terjadi pada proses indexing, yaitu :
1. Tokenizing dokumen, yaitu proses mengubah dokumen
menjadi kumpulan term dengan cara menghapus
semua karakter tanda baca
yang terdapat pada token. Hingga pada akhirnya yang diperoleh hanya kumpulan
kata-kata dari suatu teks/dokumen.
2. Stopword removal dokumen, yaitu kata-kata yang sering
muncul dalam
dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan tema
tertentu. Pada
bahasa Indonesia, stopword disebut juga sebagai kata
yang
tidak penting, misalnya “di”, “oleh”,
“pada”,
“sebuah”, “karena” dan lain sebagainya.
3.
Stemming dokumen, yaitu
tahap penghilangan imbuhan sehingga didapatkan kata dasar dari
term-term dokumen inputan.
4.
Term Weighting, yaitu proses
pembobotan pada setiap term (kata) yang ada didalam dokumen.
2.2 Text Preprocessing
Text
Preprocessing adalah mempersiapkan
teks menjadi data yang akan
mengalami proses pengolahan
pada tahapan berikutnya. Tujuan dilakukan pre-processing adalah memilih setiap kata dari dokumen dan merubahnya menjadi
kata dasar
yang memiliki
arti sempit dan
proses teks mining akan memberikan hasil yang lebih memuaskan.
2.2.1 Filtering (Stopword)
Tahap filtering adalah proses pembuangan term yang tidak memiliki arti
atau tidak relevan. Term yang diperoleh pada tahap tokenisasi dicek
dalam suatu daftar stopword, jika term masuk dalam daftar stopword maka
term tidak akan diproses lebih lanjut, tapi jika term tidak termasuk
dalam daftar stopword maka term akan diproses lebih lanjut. Contoh
stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.
2.2.2 Tokenisasi
Pada tahap ini proses yang dilakukanya itu pemotongan string kalimat kalimat hasil filtering.
Gambar 2.1 Hasil Tokenisasi
2.2.3 Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root
word) dengan menggunakan aturan-aturan tertentu.
Sebagai contoh,
kata
bersama, kebersamaan,
menyamai, akan distem
ke
root wordnya
yaitu
“sama”.
Gambar 2.2 Hasil Stemming
2.3 Jenis-Jenis Sistem Temu Kembali Informasi
Menurut Chowdhury (1999) Sistem temu-kembali informasi pada dasarnya dibagi menjadi 2 jenis : Sistem temu-kembali informasi yang sifatnya lokal dan Sistem temu-kembali informasi yang sifatnya global.
Sistem temu kembali informasi dibagi menjadi dua kategori besar, yaitu:
- Sistem temu-kembali informasi in house, yaitu Sistem temu-kembali informasi dibangun oleh perpustakaan atau pusat informasi tertentu untuk melayani terutama para pemakai dalam organisasi tersebut. Salah satu bentuk sistem temu kembali informasi in house adalah OPAC (Online Public Access Catalogue).
- Sistem temu kembali informasi online, yaitu Sistem temu kembali informasi didesain untuk memberikan akses ke remote database kepada berbagai user. Sistem online ini menghubungkan para pemakai pada berbagai tempat melalui jaringan komunikasi elektronik. Bentuk yang paling populer dari sistem temu kembali informasi online adalah CD-ROM dan internet.
BAB III
SIMPULAN
Sistem Temu Kembali Informasi atau bisa disebut juga Information
Retrieval digunakan untuk menemukan kembali informasi-informasi yang
relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara
otomatis. Selain itu Information retrieval juga bisa didefinisikan
sebagai ilmu pencarian informasi pada dokumen, bisa berupa pencarian
untuk dokumen itu sendiri, untuk menjelaskan dokumen, atau mencari di
dalam database yang terdapat pada network seperti internet atau World
Wide Web, untuk teks, suara, gambar, atau data.
DAFTAR PUSTAKA
Amin, Fatkhul. 2012. Sistem Temu Kembali Informasi dengan Metode Vector Space Model. Fakultas
Teknologi Informasi, Universitas Stikubank, Semarang.
Yanis, Evri. Tinjauan Implementasi Information Retrieval Untuk Pencarian Dokumen Menggunakan
Vector Space Model. Jurusan Teknik Informatika, Universitas Muhammadiyah, Riau, Pekanbaru.
http://sistemtemukembali.blogspot.co.id/
0 comments:
Post a Comment