PT Expertindo Training sebagai perusahaan training dan consulting salah satu terbaik di Indonesia menggelar training berjudul Big Data Scientist di tanggal 15 dan 16 April 2025. In House Training ini diikuti peserta yang berasal dari Kantor Perwakilan Bank Indonesia Provinsi NTB. Adapun pembahasan yang berlangsung selama dua hari di Surabaya ini adalah sebagai berikut.
Foto Training Big Data Scientist Bank Indonesia
Deskripsi
Pelatihan ini dirancang untuk membekali peserta dengan pengetahuan, keterampilan, dan alat yang diperlukan untuk menjadi seorang Big Data Scientist yang kompeten. Peserta akan mempelajari siklus hidup data, teknik pengumpulan dan penyimpanan data skala besar, pemrosesan data, analisis data eksploratif, pemodelan prediktif, visualisasi data, serta implementasi solusi Big Data.
Tujuan Pembelajaran:
Setelah mengikuti pelatihan ini, peserta diharapkan mampu:
- Memahami konsep dan arsitektur Big Data.
- Mampu mengumpulkan, menyimpan, dan mengelola data skala besar menggunakan berbagai teknologi.
- Mampu melakukan pemrosesan dan transformasi data menggunakan alat dan framework Big Data.
- Mampu melakukan analisis data eksploratif untuk mengidentifikasi pola dan insight.
- Mampu membangun dan mengevaluasi model prediktif menggunakan algoritma Machine Learning.
- Mampu memvisualisasikan data untuk mengkomunikasikan insight secara efektif.
- Mampu mengimplementasikan solusi Big Data untuk memecahkan masalah bisnis.
- Memahami etika dan implikasi sosial dari Big Data.
Topik yang Dibahas:
Modul 1: Pengantar Big Data
- Konsep Dasar Big Data:
- Definisi dan karakteristik Big Data (Volume, Velocity, Variety, Veracity, Value).
- Evolusi Big Data dan perkembangannya.
- Peran dan tanggung jawab Big Data Scientist.
- Studi kasus dan aplikasi Big Data di berbagai industri.
- Arsitektur Big Data:
- Komponen-komponen utama dalam arsitektur Big Data.
- Sistem penyimpanan data terdistribusi (Hadoop, NoSQL).
- Framework pemrosesan data paralel (MapReduce, Spark).
- Cloud computing untuk Big Data (AWS, Azure, GCP).
- Siklus Hidup Data:
- Pengumpulan data.
- Penyimpanan data.
- Pemrosesan data.
- Analisis data.
- Visualisasi data.
- Interpretasi dan pengambilan keputusan.
Modul 2: Pengumpulan dan Penyimpanan Data Skala Besar
- Sumber Data Big Data:
- Data terstruktur, semi-terstruktur, dan tidak terstruktur.
- Database relasional dan NoSQL.
- Data dari web (web scraping, API).
- Data sensor dan IoT.
- Data media sosial.
- Teknologi Penyimpanan Data:
- Hadoop Distributed File System (HDFS).
- NoSQL Databases (MongoDB, Cassandra, HBase).
- Data Warehousing dan Data Lakes.
- Cloud-based storage solutions.
- Data Ingestion dan ETL/ELT:
- Alat dan teknik untuk memindahkan data ke sistem Big Data.
- Proses Extract, Transform, Load (ETL).
- Proses Extract, Load, Transform (ELT).
- Framework dan tools untuk data ingestion (Apache Kafka, Apache NiFi).
Modul 3: Pemrosesan dan Transformasi Data dengan Framework Big Data
- Pengantar Apache Hadoop dan MapReduce:
- Arsitektur Hadoop.
- Konsep MapReduce.
- Writing MapReduce jobs (Python, Java).
- Hadoop Ecosystem (HDFS, YARN, Hive, Pig).
- Pengantar Apache Spark:
- Arsitektur Spark.
- Resilient Distributed Datasets (RDDs).
- Spark SQL untuk pemrosesan data terstruktur.
- Spark Streaming untuk pemrosesan data real-time.
- Spark MLlib untuk Machine Learning.
- Bahasa Pemrograman untuk Big Data (Python):
- Library penting untuk manipulasi data (Pandas, NumPy).
- Koneksi ke sistem Big Data (PySpark).
- Teknik pembersihan dan transformasi data.
Modul 4: Analisis Data Eksploratif (Exploratory Data Analysis – EDA)
- Tujuan dan Teknik EDA:
- Mengidentifikasi pola, anomali, dan insight awal dalam data.
- Statistik deskriptif.
- Visualisasi data eksploratif (Matplotlib, Seaborn).
- Teknik reduksi dimensi (PCA).
- Penanganan missing values dan outliers.
- Feature Engineering:
- Membuat fitur baru dari data yang ada untuk meningkatkan kinerja model.
- Teknik encoding data kategorikal.
- Teknik scaling dan normalisasi data numerik.
- Pemilihan fitur yang relevan.
Modul 5: Pemodelan Prediktif dengan Machine Learning untuk Big Data
- Pengantar Machine Learning:
- Supervised learning (regresi, klasifikasi).
- Unsupervised learning (clustering, dimensionality reduction).
- Evaluasi model Machine Learning.
- Bias-Variance Tradeoff.
- Algoritma Machine Learning untuk Big Data (dengan Spark MLlib):
- Regresi linear dan logistik.
- Decision Trees dan Random Forests.
- Support Vector Machines (SVM).
- K-Means clustering.
- Collaborative Filtering.
- Skalabilitas Model Machine Learning:
- Pertimbangan performa pada data skala besar.
- Distributed training dan inference.
- Tuning hyperparameter untuk model Big Data.
Modul 6: Visualisasi Data dan Komunikasi Insight
- Prinsip-prinsip Visualisasi Data yang Efektif:
- Memilih jenis visualisasi yang tepat untuk data dan pesan.
- Desain visual yang jelas dan menarik.
- Menceritakan kisah dengan data.
- Alat Visualisasi Data:
- Python libraries (Matplotlib, Seaborn, Plotly, Bokeh).
- Business Intelligence tools (Tableau, Power BI).
- Membuat dashboard interaktif.
- Komunikasi Insight:
- Menyajikan temuan analisis kepada audiens teknis dan non-teknis.
- Membuat laporan dan presentasi yang efektif.
Modul 7: Implementasi Solusi Big Data dan Etika
- Membangun Pipeline Big Data End-to-End:
- Integrasi berbagai komponen Big Data.
- Deployment model Machine Learning pada platform Big Data.
- Monitoring dan pemeliharaan pipeline.
- Etika dalam Big Data:
- Privasi dan keamanan data.
- Bias dalam algoritma.
- Transparansi dan akuntabilitas.
- Implikasi sosial dari Big Data.
Untuk jadwal training lainnya selain Training Big Data Scientist Bank Indonesia di atas juga menggelar In House Training yang beritanya dapat dilihat di link berikut => In House Training.
Untuk judul dan informasi online training, kunjungi juga website PT Expertindo lainnya di alamat www.e-trainingonline.com