Lydia Syamnel Botan: ALGORITMA UNTUK EKSTRAKSI TABEL HTML DI WEB

Penulis : Detty Purnamasari, I Wayan Simri Wicaksana, Syamsi Ruhama

Penerbit : Stikom Bali

Tahun Terbit: 2012

Latar Belakang

Data di web dapat tersedia dalam format data terstruktur, semi struktur dan tidak terstruktur . Salah satu bentuk data terstruktur yang kerap disajikan pada halaman web adalah dalam bentuk tabel berbasis HTML. Pada keperluan bisnis kerap kali perlu untuk mengambil data dari berbagai sumber untuk digabungkan atau diproses lebih lanjut.

Permasalahan yang timbul adalah bagaimana mengambil data dari tabel tersebut secara otomatis untuk kemudian dapat dilakukan proses lebih lanjut, seperti mengambil bagian yang dianggap penting, dan menggabungkan tabel dari halaman web yang lain.

Untuk membantu dari masalah tersebut, pada penelitian ini akan mengembangkan algoritma untuk melakukan ekstraksi dari tiga bentuk tabel, yaitu : tabel bentuk standar, tabel bentuk penggabungan baris (join row), dan tabel bentuk penggabungan cell/kolom (join coloum) dan mengambil ilustrasi dari tabel yang dikembangkan.

Perumusan Masalah

Bagaimana cara mengambil data dari tabel secara otomatis agar dapat diproses lebih lanjut?
Bagaimana cara mengembangkan algoritma untuk ekstrasi tabel HTML yang ada di web?

Tujuan

Mengembangkan algoritma untuk melakukan ekstraksi dari 3 bentuk tabel.
Aplikasi yang dikembangkan akan bermanfaat untuk otomatisasi pengambilan data terstruktur dari Internet secara langsung.

Metode

Dalam penelitian ini akan dilakukan Rancangan Algoritma Ekstraksi Tabel dengan cara digunakan 3 bentuk tabel yang digunakan untuk pengembangan algoritma di penelitian ini dan algoritma yang sudah dikembangkan dapat bisa di ujikan untuk berbagai konfigurasi tabel lainnya.

Inti Pembahasan

Digunakan tiga bentuk tabel yang digunakan untuk pengembangan algoritma di penelitian ini yaitu:

Tabel 1. Bentuk 1 (Standar)

Tabel 1 merupakan tabel standar dengan susunan baris dan kolom membentuk irisan satu per satu menjadi cell.

Tabel 2. Tabel Bentuk 2 (Join Row)

Tabel 2 adalah tabel yang sudah dilakukan join antara baris. Pada contoh diatas dilakukan join terhadap baris yang ke-2 dan ke-3 pada kolom 3.

Tabel 3. Tabel Bentuk 3(Join Column )

Pada tabel 3 dilakukan join cell/kolom, contoh tabel diatas dilakukan join antara kolom 3 dan kolom 4 pada baris 3.

Melihat dari karakter tabel dan tree model yang dibangun dari tiga tabel, diasumsikan row ke- 1 adalah berisi property dari tabel yang bersangkutan, dimana cell setiap kolom di row ke-1 merupakan detail property yang bersangkutan. Sedangkan cell pada row yang berikutnya merupakan data yang bersesuaian dengan judul property pada kolom di atasnya.

Algoritma Ekstraksi Tabel Dasar

Input

Tabel HTML;

Proses

1. Baca tag <table> .......... tag </table>;

2. Hitung tag <tr>....</tr> di tag <table> ... </table>,

jumlah <tr>....</tr> = R; #jumlah baris dalam tabel

3. Hitung tag <td> ... </td> di tag <tr> ... </tr> yang

pertama, jumlah <td> ... </td> = C; #jumlah kolom

dalam baris

4. {Tag <td> ... </td>}<tr> ... </tr>1 = {nama property};

5. Tag <tr> ... </tr>m...R;

6. Tag <td> ... </td>m,n..C

7. Jika colspan (cs) > 1 maka C = C – (cs -1) ;

8. Jika colspan (cs) > 1 maka cellm,n = cellm,n U

...U cellm,n+cs-1;

9. Jika rowspan (rs) > 1 maka R = R – (rs-1) ;

10. Jika rowspan (rs) > 1 maka cellm,n = cellm,n U

...U cellm+rs-1,n;

Output Data

{Properties} = {cell1,1..C};

Record = Individu = {cellm,1..C};

Tabel Ilustrasi Join Row & Join Kolom

Berikut ini adalah HTML dari tabel ilustrasi join row dan kolom dengan langkah-langkah algoritma ekstraksi tabel yang sudah dikembangkan.

Kesimpulan

Penelitian ini dikembangkan algoritma untuk melakukan ekstraksi pada tiga bentuk tabel, yaitu tabel bentuk standar, tabel bentuk penggabungan baris (join row) dan tabel bentuk penggabungan cell/ kolom (join column). Selanjutnya, dari algoritma yang dikembangkan ini dapat diujikan untuk berbagai bentuk konfigurasi tabel lainnya, seperti tabel dalam tabel. Aplikasi yang dikembangkan akan bermanfaat untuk otomatisasi pengambilan data terstruktur dari Internet secara langsung.

Daftar Pustaka

[1] Craven, Timothy, C., 2003, HTML Tags as Extraction Cues for Web Page Description Construction, Informing Science Journal, Vol 6.

[2] Gatterbauer. Wolfgang, Bohunsky. Paul, Herzog. Marcus, Krupl. Bernhard, Pollak. Bernhard, 2007, Towards Domain- Independent Information Extraction from Web Tables, Proceedings of the 16th International Conference on World Wide Web, Canada, pp.71-80

[3] Gruser. Jean-Robert, Raschid. Louiqa, Vidal. Maria Esther, Bright. Laura, 1998, Wrapper Generation for Web Accessible Data Sources,

New York, Cooperative Information Systems, 1998. Proceedings. 3rd IFCIS International Conference page 14-23

[4] Gultom, R.A.G, Fitri Sari, R, Budiarjo, B. 2011. Proposing the new Algorithm and Technique Development for Integrating Web Table Extraction and Building a Mashup. Journal of Computer Science 7 (2) : 129-142, ISSN 1549-3636

[5] Lerman, K, Knoblock, C, Minton, S., 2001. Automatic Data Extraction from Lists an Tables in Web Sources. In Proceedings of

Automatic Text Extraction and Mining workshop (ATEM-01), IJCAI-01

[6] Lin, J, Wong, J, Nichols, J, Cyper, A. 2009. End-User Programming of Mashups with Vegemite. Proceedings of the 13th international conference on Intelligent user interfaces pp. 97-106

[7] Web page table extractor,

http://wpte.neuralsci.com/, 19 Oktober 2011

Lydia Syamnel Botan

Mengenai Saya

Sabtu, 03 November 2012

ALGORITMA UNTUK EKSTRAKSI TABEL HTML DI WEB

1 komentar: