Abstract:
Data banyak berperan dalam kehidupan manusia serta memiliki beragam jenis, karakteristik, dan teknik pengumpulannya. Salah satu karakteristik data yang kerap kali dijumpai yakni data yang memiliki dimensi besar. Karakteristik tersebut terkadang dapat menjadi tantangan dalam proses analisis data. Salah satu pilihan untuk menangani hal tersebut yakni memanfaatkan metode dalam machine learning. Penelitian ini bertujuan untuk menerapkan dan melihat pengaruh suatu metode machine learning yang terpilih untuk penelitian, dalam pembentukan model prediksi, dengan melibatkan proses penanganan karakteristik data berdimensi besar. Model prediksi yang dipilih ialah Random Forest. Metode yang digunakan dalam mendukung pembentukan model prediksi tersebut antara lain adalah analisis komponen utama (Principal Component Analysis). Fokus utama dalam penelitian yakni melihat pengaruh dari penerapan reduksi dimensi data dengan metode analisis komponen utama, untuk suatu model prediksi jenis klasifikasi dengan Random Forest. Data yang digunakan dalam penelitian memiliki dimensi yang besar. Pada penelitian ini, digunakan himpunan data dengan topik kanker payudara dan kebangkrutan perusahaan. Harapannya adalah dapat menambah literasi terkait pengaruh penerapan metode yang dilakukan terhadap suatu model prediksi Random Forest. Hasil pembahasan skripsi ini menunjukkan bahwa penerapan reduksi dimensi dengan metode analisis komponen utama tidak menunjukkan hasil yang lebih signifikan dibandingkan model tanpa adanya reduksi dimensi. Artinya, dalam hal ini ternyata model Random Forest sudah cukup untuk mengolah data. Meskipun demikian, hal yang dapat dipastikan yakni waktu pelatihan data (training time) lebih cepat dan ukuran dimensi data yang menjadi lebih kecil. Selain itu, di dalam analisis hasil Random Forest juga dikaji variable importance model yang memberikan hasil bahwa adanya penerapan analisis komponen utama tidak mengganggu esensi informasi yang dimiliki data asli meskipun dimensi data lebih kecil. Penelitian ini berkontribusi pada literatur mengenai dampak metode yang diajukan terhadap model Random Forest, serta memberikan wawasan tentang efektivitasnya dalam menangani data berdimensi besar.