Sistem Pembelajaran Adaptif Berbasis Human-in-the-Loop untuk Ekstraksi Data PDF Template

Rahman, Moh Syaiful (2026) Sistem Pembelajaran Adaptif Berbasis Human-in-the-Loop untuk Ekstraksi Data PDF Template. Masters thesis, Universitas Nasional.

[thumbnail of COVER.pdf] Text
COVER.pdf

Download (2MB)
[thumbnail of BAB I .pdf] Text
BAB I .pdf

Download (218kB)
[thumbnail of BAB II .pdf] Text
BAB II .pdf

Download (331kB)
[thumbnail of BAB III .pdf] Text
BAB III .pdf

Download (1MB)
[thumbnail of BAB IV .pdf] Text
BAB IV .pdf

Download (9MB)
[thumbnail of BAB V .pdf] Text
BAB V .pdf

Download (377kB)
[thumbnail of BAB VI.pdf] Text
BAB VI.pdf

Download (260kB)
[thumbnail of LAMPIRAN .pdf] Text
LAMPIRAN .pdf

Download (1MB)

Abstract

Pada dokumen PDF berbasis template, pemetaan fields sering bergantung
pada isyarat tata letak. Perubahan kecil seperti jarak antar-elemen, pergeseran posisi
label, atau pergeseran baris pada tabel dapat mengubah hasil pemetaan tersebut.
Oleh sebab itu, keluaran ekstraksi dapat berbeda ketika dokumen berasal dari
sumber yang berbeda, walaupun jenis template-nya sama. Model pre-trained
berukuran besar dapat memberikan akurasi tinggi, tetapi biasanya menuntut
komputasi yang besar dan korpus berlabel yang ekstensif, sehingga penerapannya
tidak selalu realistis pada lingkungan dengan sumber daya terbatas. Di sisi lain,
pemrosesan berbasis aturan relatif ringan dan mudah diaudit, namun sensitif
terhadap perubahan tata letak sehingga kinerjanya dapat menurun. Penelitian ini
merancang alur pembelajaran adaptif berbasis pendekatan hibrid yang
menggabungkan komponen berbasis aturan dengan Conditional Random Fields
(CRF) untuk meningkatkan toleransi terhadap variasi tata letak pada kondisi data
dan infrastruktur yang terbatas.
Sistem menjalankan beberapa strategi ekstraksi secara paralel dan memilih
keluaran berdasarkan kriteria confidence, kemudian mengintegrasikan Human-inthe-Loop

(HITL) untuk mendukung perbaikan inkremental. Koreksi pengguna
dikonversi menjadi pembaruan pola pada komponen berbasis aturan, sedangkan
model CRF dilatih ulang secara berkala dalam batch kecil untuk menangkap fields
yang bergantung pada konteks dan sulit ditentukan sepenuhnya melalui aturan.
Pendekatan ini tidak dimaksudkan untuk menggantikan salah satu metode,
melainkan memanfaatkan aturan untuk interpretabilitas dan pembaruan cepat, serta
CRF untuk generalisasi ketika konteks lokal berperan, dengan tetap menjaga
kebutuhan deployment yang ringan.
Evaluasi tidak hanya berfokus pada akurasi ekstraksi, tetapi juga pada besarnya usaha koreksi dari pengguna serta efisiensi operasional. Pertimbangan ini
penting karena rancangan sistem ditujukan untuk skenario dengan kapasitas anotasi
yang terbatas dan ketersediaan komputasi yang tidak selalu memadai. Dievaluasi
pada 140 dokumen PDF sintetis di 4 jenis template (Form, Table, Letter, Mixed),
sistem mencapai akurasi 98,61% dengan data pelatihan 25–35 dokumen dan tingkat
koreksi pengguna 7,0% (196 dari 2.800 fields), menunjukkan efisiensi
pembelajaran 7,55 koreksi per peningkatan poin persentase. Akurasi dihitung pada
keluaran ekstraksi sebelum koreksi manual terhadap ground truth, sedangkan
koreksi pengguna merepresentasikan akumulasi koreksi sepanjang proses
pembelajaran adaptif. Peningkatan performa dari baseline (72,65%) ke sistem
adaptif (98,61%) signifikan secara statistik (paired t-test: t=17,89, p<0,001,
Cohen’s d=8,94). Sistem beroperasi pada perangkat keras CPU-only dengan
footprint memori 37–162 MB, ukuran model 1,75 MB, dan waktu pemrosesan
median 45 detik per dokumen (termasuk review HITL), sementara waktu ekstraksi
inti per dokumen (tanpa HITL) berdasarkan pencatatan waktu sistem berada pada
rentang 0,131–0,685 detik (median 0,265 detik)
Secara keseluruhan, hasil ini mengindikasikan bahwa alur kerja hibrid
berbasis HITL dapat menyeimbangkan akurasi dengan kebutuhan data dan sumber
daya pada lingkungan terbatas. Namun, karena evaluasi menggunakan dokumen
sintetis dan koreksi yang disimulasikan, diperlukan validasi lanjutan pada
kumpulan dokumen real-world dan studi pengguna sebelum menarik kesimpulan
terkait kinerja pada deployment produksi.

Item Type: Thesis (Masters)
Subjects: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
T Technology > T Technology (General)
Divisions: Tesis dan Disertasi > Sekolah Pasca Sarjana > Program Studi S2 Teknologi Informasi
Depositing User: Irna Irna Yunita
Date Deposited: 08 May 2026 04:27
Last Modified: 08 May 2026 04:27
URI: https://repository.unas.ac.id/id/eprint/15823

Actions (login required)

View Item View Item