OPTIMASI AKURASI KATEGORISASI KONTEN KESEHATAN BERBASIS PENYAKIT MENGGUNAKAN MODEL XGBOOST DAN LIGHTGBM

Nanda, Oktaviana (2026) OPTIMASI AKURASI KATEGORISASI KONTEN KESEHATAN BERBASIS PENYAKIT MENGGUNAKAN MODEL XGBOOST DAN LIGHTGBM. Diploma thesis, Universitas Nasional.

[thumbnail of Cover (Cover, Lembar Penunjang, Abstrak, Kata Pengantar, Daftar Isi) 2.pdf] Text
Cover (Cover, Lembar Penunjang, Abstrak, Kata Pengantar, Daftar Isi) 2.pdf

Download (1MB)
[thumbnail of BAB I.pdf] Text
BAB I.pdf

Download (297kB)
[thumbnail of BAB II.pdf] Text
BAB II.pdf

Download (991kB)
[thumbnail of BAB III.pdf] Text
BAB III.pdf

Download (564kB)
[thumbnail of BAB IV.pdf] Text
BAB IV.pdf

Download (1MB)
[thumbnail of BAB V.pdf] Text
BAB V.pdf

Download (155kB)
[thumbnail of LAMPIRAN.pdf] Text
LAMPIRAN.pdf

Download (723kB)

Abstract

Konten kesehatan berbahasa Indonesia pada platform X (Twitter) berkembang
sangat cepat dan memuat berbagai informasi serta pengalaman masyarakat terkait
penyakit, sehingga diperlukan sistem yang mampu melakukan klasifikasi konten
kesehatan secara otomatis dan akurat. Penelitian ini bertujuan untuk
mengoptimalkan akurasi klasifikasi konten kesehatan berbasis penyakit dengan
memanfaatkan IndoBERT embedding sebagai representasi semantik teks serta
membandingkan performa algoritma XGBoost dan Light Gradient Boosting
Machine (LightGBM) sebagai model klasifikasi. Data penelitian diperoleh melalui
proses data scraping dari platform X dengan fokus pada tiga kategori penyakit, yaitu
jantung, hipertensi, dan diabetes, kemudian dilakukan prapemrosesan teks dan
pembentukan embedding IndoBERT. Selanjutnya, embedding digunakan sebagai
masukan untuk pelatihan model XGBoost dan LightGBM, dengan evaluasi kinerja
menggunakan metrik accuracy, precision macro, recall macro, dan F1-score macro
melalui pendekatan K-Fold Cross Validation. Hasil penelitian menunjukkan bahwa
kombinasi IndoBERT + LightGBM menghasilkan performa terbaik dengan nilai
accuracy sebesar 85,26%, precision macro 85,29%, recall macro 85,26%, dan F1score
macro
85,27%,
lebih
tinggi
dibandingkan
kombinasi
IndoBERT
+
XGBoost

yang

memperoleh akurasi 83,25%. Penelitian ini diharapkan dapat memberikan
kontribusi dalam pengembangan sistem klasifikasi konten kesehatan digital
berbahasa Indonesia yang lebih akurat dan kontekstual, serta mendukung
peningkatan literasi kesehatan digital di Indonesia.

Item Type: Thesis (Diploma)
Subjects: T Technology > T Technology (General)
Divisions: Skripsi > Fakultas Teknologi Komunikasi dan Informatika > Program Studi Sistem Informasi
Depositing User: Irna Irna Yunita
Date Deposited: 28 Apr 2026 02:58
Last Modified: 28 Apr 2026 02:58
URI: https://repository.unas.ac.id/id/eprint/15411

Actions (login required)

View Item View Item