WEB CRAWLER TERDISTRIBUSI MENGGUNAKAN APACHE SPARK UNTUK DATA KEPARIWISATAAN PULAU LOMBOK

Muhammad Qalbu, Dary (2023) WEB CRAWLER TERDISTRIBUSI MENGGUNAKAN APACHE SPARK UNTUK DATA KEPARIWISATAAN PULAU LOMBOK. S1 thesis, Universitas Mataram.

[img] Text
SKRIPSI FINAL F1D018040.pdf
Restricted to Repository staff only

Download (764kB)
[img]
Preview
Text
journal_F1D018040.pdf

Download (524kB) | Preview
[img]
Preview
Image
Poster Tugas Akhir F1D018040.png

Download (567kB) | Preview

Abstract

Hadoop adalah salah satu cluster computer yang saat ini paling popular. Hadoop memiliki sebuah framework bernama MapReduce yang digunakan untuk memproses, dan menganalisis Big Data dengan cara membagi data menjadi beberapa bagian dan memprosesnya di mesin yang berbeda. Apache juga merilis Spark pada tahun 2016 yang juga merupakan framework MapReduce untuk memperbaharui Hadoop MapReduce yang konvensional. Spark memiliki kecepartan 100 kali lebih cepat dibandingkan dengan Hadoop MapReduce. Web Crawling adalah program untuk menjelajahi situs web dan mengambil data secara metodis, otomatis, dan teratur. Penelitian ini mengimplementasikan web crawling dengan sistem terdistribusi menggunakan Hadoop Cluster dan Apache Spark untuk mengumpulkan informasi-informasi mengenai potensi wisata yang ada di Pulau Lombok. Sumber data yang akan digunakan adalah beberapa website portal berita wisata yang ada di Indonesia. Pengujian dilakukan dengan membandingkan penggunaan web crawler tanpa menggunakan Spark dan web crawler menggunakan Spark dengan jenis pengujian variasi node, CPU core dan RAM yang digunakan. Hasil pengujian menunjukkan bahwa pengunaan web crawler menggunakan Spark memiliki waktu proses crawling yang lebih cepat dibandingkan web crawler tanpa menggunakan Spark. Pengunaan jumlah node yang digunakan juga berpengaruh terhadap waktu proses crawling dimana penggunaan resource manager YARN memiliki waktu proses crawling yang lebih cepat dibandingkan Spark cluster. Pada pengujian variasi CPU core dan RAM, jumlah CPU core yang digunakan sangat berpengaruh dengan waktu proses crawling sedangkan jumlah RAM hanya berpengaruh jika jumlah CPU core yang digunakan pada proses crawling lebih banyak. Dapat disimpulkan dari penelitian ini bahwa pengunaan program web crawler menggunakan Spark memiliki keunggulan waktu proses crawling lebih cepat dengan rata-rata 3.7 menit untuk setiap jumlah node yang ditambahkan dan 2.7 menit waktu proses crawling lebih cepat untuk setiap 2 CPU core yang ditambahkan.

Item Type: Thesis (S1)
Keywords (Kata Kunci): Web Crawling, Hadoop, MapReduce, Apache Spark
Subjects: T Technology > TD Environmental technology. Sanitary engineering
Divisions: Fakultas Teknik
Depositing User: Meike Megawati
Date Deposited: 26 Jul 2023 04:00
Last Modified: 26 Jul 2023 04:00
URI: http://eprints.unram.ac.id/id/eprint/41703

Actions (login required)

View Item View Item