TEXT OPERATION

Download Report

Transcript TEXT OPERATION

Muhammad Yusuf Teknik Multimedia dan Jaringan Universitas Trunojoyo Madura

    Knowledge Discovery adalah teknik yang digunakan untuk mengaplikasikan hasil dari data mining dan memberikan pengertian terhadap hasil tersebut.

Beberapa tekniknya antara lain : Ontology construction Clustering Text categorization Subtechniques: - information extraction, text analysis

 An ontology adalah suatu konsep hierarki yang terstruktur menggambarkan domain yang spesifik dari pengetahuan, yang dapat digunakan subsumption lainnya.

untuk hierarchy, membuat hubungan basis pengetahuan. Ontology berisi konsep, a yang berubah-ubah diantara konsep, dan aksioma.

Hal ini berarti berisi batasan dan fungsi

 Clustering adalah metode analisa data, yang sering dimasukkan sebagai salah satu metode untuk

Data Mining

, yang tujuannya adalah mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain

The Information Extraction (IE) task: dari masing masing teks dalam sekumpulan teks natural language yang mengekstraksi informasi tentang predefined Classes dari entitas dan hubungan serta tempat dari informasi ini ke dalam template atau database record.

Text categorization yaitu proses pengelompokan Dokumen yang bisa berupa konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar kelas, yaitu Setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut single label text categorization . Text categorization bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen.

Text analytics menggambarkan tentang kumpulan linguistik, statistikal , dan teknik untuk machine learning yang memodelkan dan menyusun konten informasi dari sumber tekstual business intelligence , exploratory data analysis , research , atau investigasi.

  Ada 2 yaitu : General Document Preprocessing Query Preprocessing

1. Lexical analysis/Tokenization (memilah kalimat per kata) 2. Parts-of-speech tagging (menemukan bagian-bagian kalimat) 3. Stopwords (menghapus kata yang tidak perlu) 4. Stemming/lemmatization (menghapus variasi kata untuk mendapatkan kata dasar) 5. Index terms.

6. Thesaurus (daftar kesamaan kata)

1. Phrasing (menggabungkan kata yang memiliki arti khusus) 2. Anti-phrasing (menghilangkan kata-kata yang dapat mengganggu proses pencarian)

    1. Lexical Analysis / Tokenization Memilah Kata perkata berdasar : Angka Tanda penghubung Tanda baca Othographic variation

 Saya sedang kuliah di Universitas Trunojoyo Madura.

 Pemotongan Pertama Saya // Sedang // kuliah // di // Universitas //Trunojoyo // Madura //

 Menemukan bagian-bagian kalimat Saya (s) sedang(ket) kuliah(kk) di(ks) Universitas Trunojoyo Madura (o).

•  • • • Pemakaian POS Menghapus perbedaan yang tidak relevan Menghapus Ambiguities Membantu Steamming Membantu Mencari Kata Benda

 menghapus kata sambung   Alasan pemakaian stopword Hampir 80% kata dalam suatu dokumen tidak bisa digunakan dalam IR Mengurangi jumlah index (40%)

      Kata Ganti (kami, kita, mereka, itu) Kata Bilangan (beberapa, banyak, sedikit) Kata Keterangan (sangat, hanya, lebih) Kata Tugas (bagi, dari, dengan, pada) Kata Penghubung (sesudah, selesai,sebelum) dll

 menghapus variasi kata untuk mendapatkan kata dasar  Contoh Diperdengarkannya = Di per dengar kan nya Memperlakukan = mem per laku kan

    Succesor Variety N-gram Stemmers Affiks Removal Stemmers - Longest Match - Simple Removal Table Look up

 Memetakan kata kedalam satu kata yang diterima  Contoh - Better => good - Best => good - Writes => write - Written => write

  All Word Not all words used as index terms - Nouns carry most of the semantics; - Noun group - combination of 2 or 3 nouns (computer science); (Collocations; to be analyzed later)

   Control vocabulary untuk indexing dan searching Membuat list kata-kata yang penting Mengumpulkan kata lain yang berhubungan dengan kata dalam daftar kata penting

 Beberapa kata kunci diinterpretasikan sebagai kalimat agar menaikkan keakuratan  • • • • Contoh Information Retrieval => 1.000.000 doc “Information Retrieval” => 6.300 doc New york art museum ”New york” +art +museum +”Art Museum”

 Menghapus kata yang tidak relevan dari sebuah kata kunci  • • Contoh Where can I find the economist The economist

   • Where do I find the New York Phrasing ◦ Where do I find the “New York” Anti Phrasing “New York”