Metode Text Summarization
1. Ranked Positional Weight
Lokasi tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita. Ranked Positional Weight adalah metode yang diusulkan oleh Helgeson dan Birnie sebagai pendekatan untuk memecahkan permasalahan pada keseimbangan lini dan menemukan solusi dengan cepat. Konsep dari metode ini adalah menentukan jumlah stasiun kerja minimal dan melakukan pembagian task ke dalam stasiun kerja dengan cara memberikan bobot posisi kepada setiap task sehingga semua task telah ditempatkan kepada sebuah stasiun kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang dibutuhkan untuk melakukan task ke-i ditambah dengan waktu untuk mengeksekusi semua task yang akan dijalankan setelah task ke-i tersebut. Urutan langkah-langkah pada metode Ranked Positional Weight adalah sebagai berikut:
1. Lakukan penghitungan bobot posisi untuk setiap task. Bobot posisi setiap task dihitung dari bobot suatu task ditambah dengan bobot task-tasksetelahnya.
2. Lakukan pengurutan task-task berdasarkan bobot posisi, yaitu dari bobot posisi besar ke bobot posisi kecil.
3. Tempatkan task dengan bobot terbesar ke sebuah stasiun kerja sepanjang tidak melanggar precedence constraint dan waktu stasiun kerja tidak melebihi waktu siklus.
4. Lakukan langkah 3 hingga semua task telah ditempatkan kepada suatu stasiun kerja.
2. Cue phrase indicator criteria
Pada beberapa genre teks, kata dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) ‘goodness score’ biasanya dibangun manual.
3. Word and phrase frequency criteria
Secara umum feature yang digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah cukup banyak dilakukan. Metode seleksi beragam mulai dengan pendekatan statistik sampai pendekatan natural language processing (NLP).
Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya “kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk melakukan seleksi. sebagai persamaan berikut:
dengan qi adalah variansi jika frekuensi minimal kata/frasa muncul dalam analisis adalah I (i=0,1,2,...).
Luhn memakai distribusi kata Zipf’s law untuk mengembangkan kriteria ekstraksi: jika sebuah teks mengandung beberapa kata yang biasanya jarang muncul, maka kalimatkalimat yang mengandung kata-kata tersebut mungkin penting.
4. Query and title overlap criteria
Metoda sederhana tapi berguna adalah dengan memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada judul, heading, atau query.
5. Cohesive or lexical connectedness criteria
Kohesi leksikal, yaitu efek kohesif yang dicapai melalui pemilihan kosakata. Kedua, berdasarkan asal hubungannya, kohesi diklasifikasi lebih jauh berdasarkan tiga hal, yaitu.
1. Keterkaitan bentuk yang meliputi substitusi, elipsis, dan kolokasi leksikal;
2. Keterkaitan referensi yang meliputi referensi dan reiterasi leksikal;
3. Hubungan semantik yang diperantai oleh konjungsi.
Menurut Untung Yuwono dalam bukunya yang berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan sendirinya, tetapi diciptakan secara formal oleh alat bahasa yang disebut pemarkah kohesi, misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang diulang. Pemarkah kohesi yang digunakan secara tepat menghasilkan kohesi leksikal dan kohesi gramatikal. Kohesi leksikal adalah hubungan semantis antarunsur pembentuk wacana dengan memanfaatkan unsur leksikal atau kata yang dapat diwujudkan dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan kata-kata pada kalimat berikutnya untuk memberikan penekanan bahwa kata-kata tersebut merupakan fokus pembicaraan. Reiterasi dapat berupa repetisi, sinonimi, hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan antarkata yang berada pada lingkungan atau bidang yang sama. Contohnya, [petani] di Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap terendam banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan dalam kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi, substitusi, elipsis, dan konjungsi.
Kata-kata dapat dihubungkan dengan berbagai cara, meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri. Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan kata-katanya; semakin terkoneksi diasumsikan semakin penting.
6. Discourse structure criteria
Pembuatan struktur discourse teks dan memberi skor kalimat berdasarkan wacana sentralitas.
7. Peringkasan Teks Otomatis Berbasis Graf
Metode berbasis graf tergolong baru dalam peringkasan teks otomatis. Metode ini memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan menambahkan edges pada graf berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex, kemudian menentukan tingkat pentingnya setiap vertex berdasarkan struktur graf keseluruhan.
Konsep perankingan halaman web dengan pagerank yang telah dijelaskan akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan PageRank untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi penyusun ringkasan ekstraktif.
Pada perankingan graf tekstual, teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge/link dalam grafmenunjukkan keterhubungan yang bermakna antar vertex/node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa.
Pemilihan jenis unit teks untuk dijadikan vertex bergantung pada tujuan aplikasi yang akan dicapai. Misalnya untuk ekstraksikeyphrase biasanya frasa atau kata-kata menjadivertex, sedangkan untuk ringkasan ekstraktif biasanya kalimat ataupun paragraf dipilih sebagai vertex.
Edge yang menghubungkan vertex juga disesuaikan dengan kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk menyatakan hubungan suatu vertex denganvertex lain, atau dengan kata lain, antara kalimat/paragraf satu dengan kalimat/paragraf lain. Jenis similarity yang diterapkan juga beragam dan dapat didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan dibangun, di antaranya cosine similarity dan simple word overlap.
8. Term Frequency-Inverse Document Frequency
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata ( term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya klaimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2005). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen ( IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen ( Grossman, 1998) . Nilai IDF sebuah term dihitung menggunakan persamaan di bawah:
Menghitung bobot (W) masing-masing dokumen dengan persamaan di bawah:
Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis.
Ada berbagai jenis ringkasan tergantung pada tujuan program summarization untuk membuat ringkasan teks, misalnya generic summaries atau query relevant summaries. Sistem summarization dapat membuat kedua ringkasan teks query yang relevan dan generik mesin yang dihasilkan ringkasan tergantung pada apa kebutuhan pengguna. Summarization dokumen multimedia, misalnya gambar atau film bisa juga memungkinkan.
Beberapa sistem akan menghasilkan ringkasan didasarkan pada dokumen sumber tunggal, sementara yang lain dapat menggunakan dokumen beberapa sumber (misalnya, sekelompok berita pada topik yang sama). Terdapat sepotong teks, seperti artikel jurnal, dan terdapat hasilk daftar kata kunci atau Frase unik yang menangkap topik utama yang dibahas dalam teks. Sebaliknya, sistem keyphrase abstraktif akan menginternalisasi konten dan menghasilkan Frase unik yang mungkin lebih deskriptif dan lebih seperti apa yang manusia akan menghasilkan, seperti “kelalaian politik” atau “perlindungan yang memadai dari banjir”. Perhatikan bahwa istilah-istilah ini tidak muncul dalam teks dan memerlukan pemahaman yang mendalam, yang membuatnya sulit bagi komputer untuk menghasilkan Frase unik tersebut. Pertandingan antara Frase unik yang diusulkan dan Frase unik yang dikenal dapat diperiksa setelah berasal atau menerapkan beberapa normalisasi teks lain.
Unsupervised keyphrase extraction: TextRank
Sementara supervised methods memiliki beberapa kelebihan, seperti mampu menghasilkan aturan ditafsirkan untuk apa fitur ciri keyphrase, namun juga memerlukan sejumlah besar pelatihan data. Alih-alih mencoba untuk mempelajari fitur eksplisit yang menjadi ciri Frase unik, algoritma TextRank memanfaatkan struktur teks itu sendiri untuk menentukan Frase unik yang muncul “pusat” untuk teks dalam cara yang sama bahwa PageRank memilih halaman Web yang penting. Setelah grafik dibangun, digunakan untuk membentuk matriks stokastik, dikombinasikan dengan faktor redaman (seperti dalam “model surfer acak”), dan peringkat atas simpul diperoleh dengan mencari yang sesuai eigenvektor ke eigenvalue 1 (yaitu, distribusi stasioner dari random walk pada grafik).
Unsupervised approaches: TextRank and LexRank
Unsupervised approach untuk summarization juga memiliki model yang sama ekstraksi unsupervised keyphrase dan mendapatkan masalah sekitar pelatihan data. Kedua metode tersebut dikembangkan oleh kelompok-kelompok yang berbeda pada saat yang sama, dan LexRank hanya terfokus pada summarization, tapi hanya bisa dengan mudah digunakan untuk ekstraksi keyphrase atau tugas NLP peringkat lainnya.
Perbedaan TextRank and LexRank
Perlu dicatat bahwa TextRank yang diterapkan untuk summarization persis seperti yang dijelaskan di sini, sementara LexRank digunakan sebagai bagian dari sistem yang lebih besar summarization yang menggabungkan skor LexRank (probabilitas stasioner) dengan fitur-fitur lain seperti posisi kalimat dan panjang menggunakan kombinasi linear dengan baik bobot yang ditentukan pengguna atau secara otomatis disetel. Dalam hal ini, beberapa dokumen pelatihan mungkin diperlukan, meskipun hasil TextRank menunjukkan fitur tambahan yang tidak mutlak diperlukan.
Perbedaan penting lainnya adalah TextRank yang digunakan untuk summarization dokumen tunggal, sementara LexRank telah diterapkan untuk multi-dokumen summarization. Namun, ketika meringkas beberapa dokumen, ada risiko yang lebih besar dari memilih kalimat duplikat atau sangat berlebihan untuk menempatkan dalam ringkasan yang sama. Untuk mengatasi masalah ini, LexRank menerapkan langkah pengolahan pasca heuristik yang membangun ringkasan dengan menambahkan kalimat dalam urutan peringkat, tetapi membuang setiap kalimat yang terlalu mirip dengan yang sudah ditempatkan dalam ringkasan.
CONTOH:
Sistem Ikhtisar Dokumen untuk Bahasa Indonesia (SIDoBI) merupakan perangkat lunak berbasis web pertama di Indonesia untuk membuat ikhtisar/ringkasan secara otomatis (automatic summarization) dokumen berbahasa Indonesia. Aplikasi ini dikembangkan oleh BPPT di dalam bahasa PHP dengan memanfaatkan Free/Open Source Software (FOSS).
Abstrak
SIDoBI bekerja dengan mengambil sumber informasi suatu dokumen, mengekstrak isinya dan kemudian menampilkan ringkasan/ikhtisarnya dalam bentuk besaran relatif persentasi ikhtisar maupun jumlah kalimat ikhtisar yang diinginkan sesuai dengan keperluan pengguna.
Perangkat lunak utama yang digunakan dalam pengembangan SIDoBI adalah MEAD, tool untuk membuat ikhtisar secara otomatis. MEAD yang berbahasa Perl dan berjalan di sistem operasi, terhubung ke aplikasi SIDoBI di server web menggunakan antarmuka MeadPHP yang dikembangkan untuk SIDoBI.
Pengembangan SIDoBI dapat dibagi menjadi tiga. Pertama adalah pengembangan kamus IDF (inverse document frequency) bahasa Indonesia yang diperlukan oleh MEAD untuk membuat ikhtisar. Dilanjutkan dengan pengembangan antarmuka MeadPHP, yang bertugas menghubungkan MEAD di sistem operasi dengan aplikasi SIDoBI di server web. Dan terakhir adalah pengembangan aplikasi SIDoBI, yang bertugas menerima masukan dokumen bahasa Indonesia melalui web, menyampaikannya kepada MEAD di sistem operasi, menerima hasil ikhtisar, dan menampilkannya kembali di web.
SIDoBI berbasis FOSS sehingga dapat dimodifikasi dan disesuaikan dengan kebutuhan pengguna. Saat ini SIDoBI dapat berjalan di atas sembarang server web yang mendukung bahasa PHP dengan sistem operasi yang mendukung bahasa Perl, termasuk IGN 2007.
Kata kunci: SIDoBI, MEAD, FOSS, IGOS Nusantara, pembuat ikhtisar otomatis, bahasa Indonesia, berbasis web, PHP, Perl
Fitur
Fungsi SIDoBI dalam sistem pembuatan ikhtisar otomatis adalah sebagai antarmuka web antara pengguna akhir dengan mesin pembuat ikhtisar MEAD. Fungsi ini dapat dikelompokkan menjadi dua bagian. Yang pertama adalah aplikasi berbasis web (SIDoBI) yang berhubungan langsung dengan pengguna akhir melalui web. Yang kedua adalah antarmuka (MeadPHP) yang bertugas menghubungkan MEAD di sistem operasi dengan aplikasi SIDoBI di server web.
Fitur-fitur dari SIDoBI diantaranya adalah:
- Dapat membuat ikhtisar dokumen berbahasa Indonesia.
- Dapat menerima masukan melalui
- Dapat menerima masukan berupa file yang di-upload, sehingga memungkinkan pembuatan ikhtisar dokumen panjang di dalam file yang telah ada.
- Mendukung tipe file Teks (txt), Adobe PDF (pdf), MS Word (doc) dan Open Office (odt, ods, odp, sxw)
- Dapat menerima masukan berupa URL dari sebuah situs, kemudian SIDoBI akan membuat ikhtisar isi situs tersebut, dan mengekstrak URL tautan yang ada untuk dijadikan sebagai masukan berikutnya kepada SIDoBI lagi.
- Dapat diatur panjang ikhtisar yang diinginkan baik secara mutlak jumlah kalimat/kata, maupun secara relatif dengan persentasi.
- Memiliki struktur program yang modular, sehingga memungkinkan pengembangan lebih jauh dengan mudah.
Kegunaan utama SIDoBI sesuai dengan fungsinya yaitu membuat ikhtisar dari dokumen berbahasa Indonesia secara otomatis. SIDoBI akan sangat bermanfaat bagi pengguna komputer yang sibuk dan tidak memiliki waktu untuk membaca dokumen yang panjang dan membosankan. Metode copy-paste untuk meringkas dokumen pendek dengan cepat dan mudah, metode upload file untuk meringkas dokumen panjang di dalam file, dan metode URL untuk meringkas isi situs secara berkesinambungan.
Mekanisme
Fenomena kelebihan informasi yang menjadi ciri khas masyarakat modern dewasa ini, menjadikan sistem ikhtisar otomatis yang baik dan mudah digunakan menjadi sesuatu yang vital. Sebagaimana yang digambarkan di gambar di atas, sistem ikhtisar otomatis akan meringkas tumpukan dokumen yang demikian banyak, menjadi sebuah ikhtisar yang singkat tetapi berisi bagian-bagian terpenting dari dokumen aslinya.
MEAD: Sistem Ikhtisar
SIDoBI: Antarmuka Web
Sebagaimana ditunjukkan pada gambar di atas, pengembangan program SIDoBI didasarkan pada metodologi sebagai berikut:
- Pembuatan kamus IDF bahasa Indonesia
Kamus IDF bahasa Indonesia diperlukan oleh MEAD untuk mengetahui nilai IDF setiap kata yang digunakan untuk menghitung tingkat kepentingan setiap kalimat. Selanjutnya setiap kalimat akan diperingkatkan berdasarkan tingkat kepentingannya, dan akhirnya ikhtisar disusun menggunakan kalimat-kalimat yang paling penting sampai terpenuhi panjang yang diminta oleh pengguna.
- Pembuatan antarmuka MeadPHP
Mesin pembuat ikhtisar MEAD adalah program Perl yang berjalan di sistem operasi. Supaya aplikasi SIDoBI yang berbasis web dapat menggunakannya, diperlukan antarmuka yang menghubungkan keduanya. Dan MeadPHP dikembangkan khusus untuk tujuan ini, tetapi dengan membuatnya generik tanpa membatasinya hanya untuk SIDoBI saja. Artinya MeadPHP dapat juga digunakan oleh sembarang aplikasi PHP lain yang ingin menggunakan program MEAD.
- Pembuatan aplikasi SIDoBI
Karena pengguna memerlukan akses yang mudah untuk menggunakan sistem pembuat ikhtisar otomatis, maka SIDoBI dibuat sebagai aplikasi berbasis web dengan bahasa PHP. Dengan antarmuka MeadPHP yang dikembangkan secara terpisah, aplikasi SIDoBI dapat dikonsentrasikan penuh untuk memenuhi keperluan kemudahan pengguna akhir. Dengan struktur program yang modular, SIDoBI dapat dikembangkan lebih jauh dengan mudah untuk menambah fitur-fitur lain yang diperlukan.
powered by MEAD 3.11 and these converters
Comments
Post a Comment