Assalamualaikum gaes, balik lagi ama gw, udah lama ndak upload lagi yaa hehe maaf. Nah kali ini gw akan sharing ilmu tentang dasar-dasar pemrogramman python untuk data science. Apa itu data science yaa s
Jadi ceritanya gw enroll salah satu course di Sadasa Academy yang berlokasi dibelakang Jogja Digital Valley (JDV), yaa overall course-nya lumayan worth lah terutama Alhamdulillah gw dapet relasi dan insight dari pengajar, dan temen2 lain, ada yg baru lulus juga ada, trus dosen juga ada. Serius ini banyak hal yang bisa aku dapetin bukan cuma sekadar ilmu course python-nya aja. Semoga kedepan bisa kolaborasi dengan orang2 hebat itu lagii Aamiin..
Oke sip udah ceritanya, kita masuk ke bagian teknisnya. Jadi yang akan gw share disini adalah udah berbentuk final project gw selama course tersebut. Insyaallah menyangkut semua apa yang dipelajari dari dasar-dasar pemrogramman python nya kok. Mungkin bagi yang belum familiar banget aku bisa belajar dulu di
w3school . Oiya pertama pastikan udah install dulu beberapa tools data science yaa, buat yang pake linux bisa banget liat tutorial gw yang sebelumnya
disini.
Jadi dasar-dasar yang dipake tuh antara lain: tipe data dan variabel, percabangan (if, elif, else), perulangan (for loops), pendefinisian fungsi, dan import library atau pustaka eksternal. Ok cuss langsung ke jupyter notebooknya..
Step 1 - import library
Penjelasan:
pandas merupakan library untuk membaca data berupa tabel, tipe data yang digunakan adalah DataFrame object
matplotlib.pyplot merupakan library untuk menampilkan grafik
%matplotlib inline digunakan untuk tambahan khusus pada jupyter notebook sehingga grafik dari matplotlib.pyplot dapat ditampilkan
Step 2 - loading data
Penjelasan:
Dataset diperoleh dari data.go.id yang meruapakan portal data gratis yang ada di Indonesia, gw disini memilih data realisasi investasi penanaman modal asing (PMA) di Jawa Tengah dari tahun 2011-2016. pertama data dimasukkan dengan bantuan perintah pd.read_csv lalu ditampilkan pada bagian awal data apakah sesuai dengan data yang sudah kita peroleh atau tidak
Step 3 - inspect data
Penjelasan:
Data mentah yang diperoleh dilihat terlebih dahulu dengan bantuan method .info() tujuannya adalah untuk mengetahui total kolom, jenis tipe data dan total baris data tiap kolomnya. Dari hasil ini terlihat bahwa ada beberapa data yang memiliki nilai NaN atau kosong dan beberapa kolom memiliki tipe data yang tidak sesuai, misalnya pada kolom 'Investasi USRibu' memiliki tipe data object seharusnya int64 demikian pula pada kolom 'TKI'.
Step 4 - cleaning dataset
Penjelasan:
Seperti yang diketahui terdapat beberapa permasalahan pada data mentah, maka dari itu, perlu dilakukan proses cleaning dataset sehingga kita dapat mencari insight dari data dengan baik sesuai harapan kita. pada cell program ini dilakukan penghapusan kolom 'No' karena tidak berguna, kemudian melakukan rename pada kolom tertentu, dan terakhir mengisi nilai kosong pada data dengan nilai 0.
penjelasan:
Selanjutnya kita lakukan proses cleaning untuk kolom yang memiliki tipe data yang tidak sesuai, disini gw aplikasikan apa yang udah dipelajari di course, misalnya fungsi, percabangan, perulangan. intinya fungsi ini menerima masukkan kolom yang ingin di-cleaning datanya. lalu melakukan perulangan tiap item yang ada pada kolom tersebut, dan masuk ke kondisi pengecekan. Jika tipe data item tersebut string, maka karakter koma akan dihilangkan dan megubah nilai item ke tipe data integer. Kondisi kedua jika item bertipe data float maka akan diubah ke integer. dan terakhir jika tipe data sudah benar (integer) maka nilai akan di-pass atau dimasukkan tanpa diubah. Fungsi ini akan mengembalikan nilai berupa kolom yang sudah teredit.
Penjelasan:
Setelah kita definisikan fungsi diatas, kita gunakan untuk membersihkan 4 kolom terakhir, gw gunain for loops disini supaya ngga hardcoded satu-satu hehe. Kemudian kita tampilkan data yang sudah diproses apakah sudah sesuai dengan apa yang kita inginkan atau belum menggunakan bantuan method .info()berikut hasil dari proses cleaning datanya
Step 5 - getting insight from data
Setelah data dibersihkan, kita akan lebih mudah untuk mencari insight dari data tersebut. Disini gw ingin mendapatkan insight gimana sih perkembangan dari total jumlah proyek, dan nilai investasi PMA di Jawa Tengah selama periode 2011 - 2016, demikan pula untuk perkembangan total TKI dan TKA yang dipekerjakan.
Penjelasan:
Pertama kita lihat nilai-nilai statistika kayak mean, median, quartile, dll dari tiap kolom dengan bantuan method .describe()
Penjelasan:
Dari data yang tersedia belum terdapat baris yang menunjukkan informasi total jumlah sesuai pada tiap tahunnya. Maka dari itu kita disini mengimplementasikan method .groupby berdasarkan tahun dan diikuti dengan method .sum()untuk mejumlahkan total nilai per tahunnya.
Step 6 - data visualization
Setelah mendapatkan data total untuk tiap tahunnya dalam bentuk tabel, langkah selanjutnya kita coba tampilkan dalam bentuk grafik sehingga kita bisa lebih mengetahui perkembangan nilainya. Kita akan tampilkan 4 grafik disini mewakili 4 kolom yang ingin kita cari tau nilai perkembangannya. Berikut listing code dan hasil grafiknya.
Penjelasan:
Intinya dari 4 grafik ini kita gunakan grafik garis atau line plot karena secara intuisi lebih masuk akal untuk menampilkannya seperti ini, sehingga orang awam yang melihat juga akan lebih mudah memahami nilai perkembangan dari tahun ke tahunnya. Untuk listing code digunakan fungsi plt.code dengan masukkan parameter sumbu x dan sumbu y, lalu gw tambahin warna dan titik pada tiap tahunnya dengan syntak 'bo-' b disini maksudnya blue, demikian seterusnya untuk grafik lainnya. Selain itu juga untuk memudahkan pembacaan juga ditambahkan caption untuk sumbu x dan sumbu y lalu judul grafik serta penambahan garis tipis atau grid.
Demikian gaes yang bisa gw sharing ke kalian semoga bisa bermanfaat, tunggu tutorial lainnya yaaa.