Penerbit : Stikom Bali
Tahun Terbit: 2012
Latar Belakang
Data di web dapat tersedia
dalam format data terstruktur, semi struktur dan tidak terstruktur . Salah satu
bentuk data terstruktur yang kerap disajikan pada halaman web adalah dalam bentuk
tabel berbasis HTML. Pada keperluan bisnis kerap kali perlu untuk mengambil
data dari berbagai sumber untuk digabungkan atau diproses lebih lanjut.
Permasalahan yang timbul adalah bagaimana mengambil data
dari tabel tersebut secara otomatis untuk kemudian dapat dilakukan proses lebih
lanjut, seperti mengambil bagian yang dianggap penting, dan menggabungkan tabel
dari halaman web yang lain.
Untuk membantu dari
masalah tersebut, pada penelitian ini akan mengembangkan algoritma untuk
melakukan ekstraksi dari tiga bentuk tabel, yaitu : tabel bentuk standar, tabel
bentuk penggabungan baris (join row), dan tabel bentuk penggabungan cell/kolom
(join coloum) dan mengambil ilustrasi dari tabel yang dikembangkan.
Perumusan
Masalah
- Bagaimana cara mengambil data dari tabel secara otomatis agar dapat diproses lebih lanjut?
- Bagaimana cara mengembangkan algoritma untuk ekstrasi tabel HTML yang ada di web?
Tujuan
- Mengembangkan algoritma untuk melakukan ekstraksi dari 3 bentuk tabel.
- Aplikasi yang dikembangkan akan bermanfaat untuk otomatisasi pengambilan data terstruktur dari Internet secara langsung.
Metode
Dalam penelitian ini akan
dilakukan Rancangan Algoritma Ekstraksi Tabel dengan cara digunakan 3 bentuk
tabel yang digunakan untuk pengembangan algoritma di penelitian ini dan
algoritma yang sudah dikembangkan dapat bisa di ujikan untuk berbagai
konfigurasi tabel lainnya.
Inti Pembahasan
Digunakan tiga bentuk
tabel yang digunakan untuk pengembangan algoritma di penelitian ini yaitu:
Tabel 1.
Bentuk 1 (Standar)
Tabel 1 merupakan tabel
standar dengan susunan baris dan kolom membentuk irisan satu per satu menjadi cell.
Tabel 2.
Tabel Bentuk 2 (Join Row)
Tabel 2 adalah tabel yang
sudah dilakukan join antara baris. Pada contoh diatas dilakukan join terhadap
baris yang ke-2 dan ke-3 pada kolom 3.
Tabel 3.
Tabel Bentuk 3(Join Column )
Pada tabel 3 dilakukan
join cell/kolom, contoh tabel diatas dilakukan join antara kolom 3 dan kolom 4
pada baris 3.
Melihat dari karakter
tabel dan tree model yang dibangun dari tiga tabel, diasumsikan row ke- 1
adalah berisi property dari tabel yang bersangkutan, dimana cell setiap
kolom di row ke-1 merupakan detail property yang bersangkutan. Sedangkan cell
pada row yang berikutnya merupakan data yang bersesuaian dengan judul property
pada kolom di atasnya.
Algoritma
Ekstraksi Tabel Dasar
Input
Tabel
HTML;
Proses
1. Baca
tag <table> .......... tag </table>;
2. Hitung
tag <tr>....</tr> di tag <table> ... </table>,
jumlah
<tr>....</tr> = R; #jumlah baris dalam tabel
3. Hitung
tag <td> ... </td> di tag <tr> ... </tr> yang
pertama,
jumlah <td> ... </td> = C; #jumlah kolom
dalam
baris
4. {Tag
<td> ... </td>}<tr> ... </tr>1 = {nama property};
5. Tag
<tr> ... </tr>m...R;
6. Tag
<td> ... </td>m,n..C
7. Jika
colspan (cs) > 1 maka C = C – (cs -1) ;
8. Jika
colspan (cs) > 1 maka cellm,n = cellm,n U
...U
cellm,n+cs-1;
9. Jika
rowspan (rs) > 1 maka R = R – (rs-1) ;
10. Jika
rowspan (rs) > 1 maka cellm,n = cellm,n U
...U
cellm+rs-1,n;
Output
Data
{Properties}
= {cell1,1..C};
Record =
Individu = {cellm,1..C};
Tabel
Ilustrasi Join Row & Join Kolom
Berikut ini adalah HTML dari tabel ilustrasi join row dan kolom dengan langkah-langkah algoritma ekstraksi tabel yang sudah dikembangkan.
Kesimpulan
Penelitian ini
dikembangkan algoritma untuk melakukan ekstraksi pada tiga bentuk tabel, yaitu tabel
bentuk standar, tabel bentuk penggabungan baris (join row) dan tabel bentuk
penggabungan cell/ kolom (join column). Selanjutnya, dari algoritma yang dikembangkan
ini dapat diujikan untuk berbagai bentuk konfigurasi tabel lainnya, seperti
tabel dalam tabel. Aplikasi yang dikembangkan akan bermanfaat untuk
otomatisasi pengambilan data terstruktur dari Internet secara langsung.
Daftar Pustaka
[1]
Craven, Timothy, C., 2003, HTML Tags as Extraction Cues for Web Page
Description Construction, Informing Science Journal, Vol 6.
[2]
Gatterbauer. Wolfgang, Bohunsky. Paul, Herzog. Marcus, Krupl. Bernhard, Pollak.
Bernhard, 2007, Towards Domain- Independent Information Extraction from Web Tables,
Proceedings of the 16th International Conference on World Wide Web, Canada, pp.71-80
[3]
Gruser. Jean-Robert, Raschid. Louiqa, Vidal. Maria Esther, Bright. Laura, 1998,
Wrapper Generation for Web Accessible Data Sources,
New York,
Cooperative Information Systems, 1998. Proceedings. 3rd IFCIS International
Conference page 14-23
[4]
Gultom, R.A.G, Fitri Sari, R, Budiarjo, B. 2011. Proposing the new Algorithm
and Technique Development for Integrating Web Table Extraction and Building a
Mashup. Journal of Computer Science 7 (2) : 129-142, ISSN 1549-3636
[5]
Lerman, K, Knoblock, C, Minton, S., 2001. Automatic Data Extraction from Lists
an Tables in Web Sources. In Proceedings of
Automatic
Text Extraction and Mining workshop (ATEM-01), IJCAI-01
[6] Lin,
J, Wong, J, Nichols, J, Cyper, A. 2009. End-User Programming of Mashups with Vegemite.
Proceedings of the 13th international conference on Intelligent user interfaces
pp. 97-106
[7] Web
page table extractor,
http://wpte.neuralsci.com/,
19 Oktober 2011