Friday 22 September 2017

Makalah Sistem Temu Kembali Informasi

0 comments

Makalah
Sistem Temu Kembali Informasi
Tokenisasi, Stopword Removal, dan Stemming






Oleh :

Sigit Purnomo             14.01.53.0061
Ali Imron                    14.01.53.0066


Dosen Pengampu :
Dr.Drs. Eri Zuliarso, M.Kom



FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
SEMARANG
2017





KATA PENGANTAR
          Dengan menyebut nama Allah SWT yang Maha Pengasih lagi Maha Panyayang, Kami panjatkan puja dan puji syukur atas kehadirat-Nya, yang telah melimpahkan rahmat, hidayah, dan inayah-Nya kepada kami, sehingga kami dapat menyelesaikan makalah ilmiah tentang Tokenisasi, Stopword Removal, dan Stemming.
         Harapan kami semoga makalah ini dapat menambah pengetahuan dan pengalaman bagi para pembaca, Untuk ke depannya dapat memperbaiki bentuk maupun menambah isi makalah agar menjadi lebih baik lagi. Atas dukungan moral dan materil yang diberikan dalam penyusunan makalah ini, maka penulis mengucapkan banyak terima kasih kepada :
  1. Dr.Drs. Eri Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi.
  2. Serta semua pihak yang turut serta memberikan semangat dan motivasi.
       Penulis menyadari bahwa makalah ini belumlah sempurna. Oleh karena itu, saran dan kritik yang membangun dari rekan-rekan sangat dibutuhkan untuk penyempurnaan makalah ini.
Semarang,   September 2017
Penulis                  
 


ABSTRAK

         Sistem Temu Kembali Informasi (Information retrieval) adalah ilmu yang digunakan untuk mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan mencari metadata yang menggambarkan suatu dokumen. Sistem Temu Kembali Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang sesuai dengan kebutuhan pengguna. Salah satu cara meningkatkan kemampuan sistem temu kembali informasi untuk meningkatkan jumlah dokumen jurnal yang diberikan kepada user adalah dengan menggunakan Tokenizing, Stopword Removal, dan Stemming. Dengan penerapan ini diharapkan adanya hasil temuan data yang lebih banyak, namun tetap relevan terhadap kata kunci yang dimasukkan.

Kata Kunci : Information retrieval, Tokenizing, Stopword Removal, dan Stemming.






BAB I
PENDAHULUAN


1.1       Latar Belakang

            Pencarian  informasi berupa text dalam dunia  Internet sangat besar  frekuensinya. Karena hampir semua informasi di dalam dunia internetdidominasi oleh data berbemtuk textatau data berupa dokomen. Oleh sebab itu maka metode-metode  untuk menemukankembali  text tersebut  terus  ditingkatkan,  inilah  latar belakang  penelitian  sebuah  metode  dalam  menemukan  kembali  informasi  atau  Information Retrieval (IR).
            IR  adalah  pencarian  informasi dalam satu atau  lebih  dokumen,  mencari  dokumen-dokumen, atau mencari informasi dari database. Proses IR dimulai saat pengguna  memasukan  sebuah  query ke sistem. Query adalah pernyataan  dari informasi  yang  dibutuhkan  oleh  pengguna. Kemudian dilakukan  proses IR  untuk mendapatkan  informasi  yang  diinginkan dari query yang diberikan. IR adalah salah satu solusi dalam  mempermudah  menemukan  kembali informasi ataupun pemrosesan informasi yang pada umumnya dokumen dan data yang berbasis text.


           Penerapan IR ini diharapkan dapat menghasilkan pencarian dokumen dengan lebih relevan dan akurat sesuai kategorinya. Serta untuk menghemat waktu dan mempercepat kinerja pencarian dokumen yang akan dicari sesuai dengan kata kunci yang telah dimasukkan.




1.2       Rumusan Masalah
            
            1. Apa yang dimaksud  dengan  Tokenisasi, Stopword Removal, dan Stemming?
            2. Jenis-Jenis Sistem Temu Kembali Informasi?






BAB II
LANDASAN TEORI 


2.1       Information Retrieval

Information Retrieval (IR) atau sering disebut “temu kembali informasi” adalah bagaimana menemukan suatu dokumen dari dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari koleksi dokumen yang sangat besar yang tersimpan dalam komputer (Manning et.al, 2008). Tujuan dari system IR adalah untuk memenuhi kebutuhan informasi user dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrive sesedikit mungkin dokumen yang tidak relevan.
Model information retrieval adalah model yang digunakan untuk melakukan pencocokan antara term (kata) dari query dengan term-term dalam koleksi dokumen, model yang terdapat dalam information retrieval terbagi dalam 3 model besar yaitu (Pardede, et.al, 2013) :   
a) Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah Standard Boolean Model dan Extended Boolean Model.
b) Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah Vector Space Model (VSM),  Latent Semantic Indexing (LSI) dan Generalized Vector
Space Model (GVSM).
c) Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan Teorema Bayes dalam Probabilistic Model. Information retrieval system  menggunakan metode vector space model sebagai suatu system memiliki beberapa proses yang membangun system secara keseluruhan. Proses information retrieval system terdiri  dari tokenizing, stopword (filtering), stemming, indexing (inverted index) dan term similarity (Amin, 2012).


Adapun tahap-tahap yang terjadi pada proses indexing, yaitu :


1. Tokenizing dokumen, yaitu proses mengubah dokumen menjadi kumpulan  term  dengan  cara  menghapus  semua  karakter  tanda  baca yang terdapat pada token. Hingga pada akhirnya yang diperoleh hanya kumpulan kata-kata dari suatu teks/dokumen.
2. Stopword removal dokumen, yaitu kata-kata yang sering muncul dalam dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitadengan tema tertentu. Pada bahasa Indonesia, stopword disebut juga sebagai  kata  yang  tidak  penting,  misalnya  di,  oleh,  pada”, sebuah, karena” dan lain sebagainya.
3. Stemming dokumen, yaitu   tahap penghilangan   imbuhan   sehingga didapatkan kata dasar dari term-term dokumen inputan. 
4. Term Weighting, yaitu proses pembobotan pada setiap term (kata) yang ada didalam dokumen.


 2.2       Text Preprocessing
             Text Preprocessing adalah mempersiapkan teks menjadi data yanakan mengalami proses pengolahan pada tahapan berikutnya. Tujuan dilakuka pre-processing adalah memilih setiap kata dari dokumen  dan  merubahnya  menjadi  kata dasar  yang memiliki  arti  sempit  dan proses teks mining akan memberikan hasil yang lebih memuaskan.

2.2.1    Filtering (Stopword)
            Tahap filtering adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan. Term yang diperoleh pada tahap tokenisasi dicek dalam suatu daftar stopword, jika term masuk dalam daftar stopword maka term tidak akan diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword maka term akan diproses lebih lanjut. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.

2.2.2   Tokenisasi
           Pada tahap ini proses yang dilakukanya itu pemotongan string kalimat kalimat hasil filtering.

 
 Gambar 2.1 Hasil Tokenisasi

2.2.3   Stemming
       Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata  bersama,  kebersamaan,  menyamai,  akan  distem  ke  root wordnya  yaitu sama”.

 
Gambar 2.2  Hasil Stemming


2.3       Jenis-Jenis Sistem Temu Kembali Informasi 
           Menurut Chowdhury (1999) Sistem temu-kembali informasi pada dasarnya dibagi menjadi 2 jenis : Sistem temu-kembali informasi yang sifatnya lokal dan Sistem temu-kembali informasi yang sifatnya global.
Sistem temu kembali informasi dibagi menjadi dua kategori besar, yaitu:

  1. Sistem temu-kembali informasi in house, yaitu Sistem temu-kembali informasi dibangun   oleh perpustakaan atau pusat informasi tertentu untuk melayani terutama para pemakai dalam organisasi tersebut. Salah satu bentuk sistem temu kembali informasi in house adalah OPAC (Online Public Access Catalogue).
  2. Sistem temu kembali informasi online, yaitu Sistem temu kembali informasi didesain untuk memberikan akses ke remote database kepada berbagai user. Sistem online ini menghubungkan para pemakai pada berbagai tempat melalui jaringan komunikasi elektronik. Bentuk yang paling populer dari sistem temu kembali informasi online adalah CD-ROM dan internet. 
 
 BAB III
SIMPULAN
 
        Sistem Temu Kembali Informasi atau bisa disebut juga Information Retrieval digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Selain itu Information retrieval juga bisa didefinisikan sebagai ilmu pencarian informasi pada dokumen, bisa berupa pencarian untuk dokumen itu sendiri, untuk menjelaskan dokumen, atau mencari di dalam database yang terdapat pada network seperti internet atau World Wide Web, untuk teks, suara, gambar, atau data.




DAFTAR PUSTAKA

Amin, Fatkhul. 2012. Sistem Temu Kembali Informasi dengan  Metode Vector Space Model. Fakultas 
             Teknologi Informasi, Universitas Stikubank, Semarang.
Yanis, Evri. Tinjauan Implementasi Information Retrieval  Untuk Pencarian Dokumen Menggunakan  
             Vector Space Model. Jurusan Teknik Informatika, Universitas Muhammadiyah, Riau, Pekanbaru.
http://sistemtemukembali.blogspot.co.id/

 
 
 
Read full post »
 

Copyright © oblostreet Blogger Theme by VeeThemes.com | Powered by Blogger