Studi baru di Geoenvironmental Disasters memanfaatkan BERT+CNN untuk memilah cuitan berbahasa Italia terkait kejadian longsor, lalu memvalidasinya dengan peristiwa badai Vaia 2018.
Tim peneliti Italia menunjukkan bahwa data Twitter (kini “X”) bisa dipakai untuk mendeteksi informasi kejadian longsor secara cepat dan akurat. Dengan melatih model BERT + CNN pada 13.349 cuitan berbahasa Italia, model terbaik—tanpa pra-pemrosesan agresif—mencapai akurasi 96% dan AUC 0,96 dalam membedakan cuitan “longsor” vs “bukan longsor” (klasifikasi biner). Riset ini terbit di jurnal Geoenvironmental Disasters tahun 2024. SpringerOpen
Mengapa penting
-
Sumber data cepat saat darurat. Media sosial sering “meledak” saat bencana; memanfaatkannya membantu penilaian kerusakan hampir real-time dan memperkaya data di wilayah yang miskin pengamatan. SpringerOpen
-
Validasi dunia nyata. Distribusi harian cuitan terkait longsor selaras dengan lonjakan berita koran saat badai Vaia (27–30 Okt 2018), peristiwa cuaca ekstrem yang merusak hutan >8,5 juta m³ di Italia Timur Laut. Korelasi temporal ini menguatkan keandalan pendekatan penambangan data media sosial. SpringerOpen+1
Metodologi singkat
-
Korpus & pelabelan. 13.349 cuitan dihimpun via API berdasarkan 5 kata kunci Italia terkait longsor, lalu dilabel manual (4.806 “longsor”; 8.544 “bukan”). Set data dibagi untuk latih/validasi/uji. SpringerOpen
-
Model. Dua encoder—BERT multi-cased dan DistilBERT multi-cased—diuji dengan/ tanpa pra-pemrosesan. BERT+CNN tanpa pra-pemrosesan memberi hasil terbaik; pra-pemrosesan agresif justru menghapus sinyal konteks penting. SpringerOpen
-
Validasi eksternal. Hasil Twitter dibandingkan dengan SeCaGN (mesin semantik penambang berita longsor) untuk periode Vaia; puncak cuitan dan artikel sama-sama jatuh pada 28 Oktober 2018. ricerca.ogs.it+1
Apa kata angkanya
-
Akurasi: 96,10% (pada epoch ke-19).
-
AUC ROC: 0,96 (uji).
-
Benar klasifikasi: 1.283 dari 1.335 cuitan uji; FN 16, FP 36. SpringerOpen
Keterbatasan yang diakui penulis
-
Akses API X/Twitter kini lebih terbatas untuk data real-time; langganan diperlukan.
-
Bias spasio-temporal & keandalan. Hanya ≈1% cuitan ber-geo-tag; lokasi sering harus disimpulkan dari isi teks, sehingga SECaGN/berita dan analisis konten menjadi penopang validasi. SpringerOpen+1
Implikasi
Penemuan ini membuka jalan untuk kalibrasi & validasi sistem peringatan dini di wilayah minim data, serta analisis balik (back-analysis) peristiwa lama yang kurang terdokumentasi—dengan biaya relatif efisien karena memanfaatkan jejak digital publik. SpringerOpen
Sumber ilmiah utama
-
R. Franceschini, A. Rosi, F. Catani, N. Casagli (2024). Detecting information from Twitter on landslide hazards in Italy using deep learning models, Geoenvironmental Disasters 11:22. DOI: 10.1186/s40677-024-00279-4. Tersedia akses terbuka. SpringerOpen
-
Tentang badai Vaia & kerusakan hutan (~8,5 juta m³): ringkasan kajian terbaru. MDPI
-
Tentang SECaGN (mesin semantik penambang berita longsor).







