Jika kamu tertarik mempelajari ilmu data (data science) atau ingin mengolah data dalam bentuk tabel seperti spreadsheet, Pandas adalah perpustakaan (library) Python yang wajib kamu kenal. Pandas adalah alat berbasis Python yang sangat populer karena kemampuannya dalam membersihkan, memanipulasi, menganalisis, hingga memvisualisasikan data secara efisien dan intuitif.
Pandas adalah perpustakaan open-source yang dibangun di atas NumPy, pustaka dasar untuk komputasi numerik di Python. Nama “Pandas” berasal dari istilah Panel Data, yang menggambarkan fungsinya dalam menangani data berdimensi dua (baris dan kolom), seperti tabel pada Excel atau database SQL.
Dengan Pandas, kita bisa:
Bayangkan kamu memiliki file CSV berisi ribuan catatan penjualan, dan kamu ingin mengetahui total penjualan per kategori produk. Tanpa Pandas, kamu harus menulis banyak kode manual untuk membaca file, memproses baris per baris, mengelompokkan data, lalu menjumlahkannya.
Dengan Pandas? Cukup beberapa baris saja.
Pandas juga bekerja sangat baik dengan perpustakaan lain seperti Matplotlib (untuk visualisasi), Scikit-learn (untuk machine learning), dan SciPy (untuk analisis statistik), menjadikannya tulang punggung dalam ekosistem ilmu data Python.
Sebelum mulai, pastikan Pandas sudah terpasang di sistemmu. Jika belum, jalankan perintah berikut di terminal:
pip install pandas
Untuk memulai, biasanya para pengguna Pandas mengimpor perpustakaan ini dengan alias pd:
import pandas as pd
import numpy as np # Sering digunakan bersama Pandas
Pandas menyediakan dua struktur data utama yang menjadi tulang punggung semua operasinya:
Series adalah struktur data satu dimensi, seperti array atau kolom dalam tabel. Setiap nilai dalam Series memiliki label yang disebut index.
Contoh:
import pandas as pd
import numpy as np
data = np.array(['a', 'b', 'c', 'd'])
s = pd.Series(data)
print(s)
Output:
0 a
1 b
2 c
3 d
dtype: object
DataFrame adalah struktur data dua dimensi, mirip seperti tabel Excel dengan baris dan kolom. Setiap kolom bisa berisi tipe data yang berbeda (angka, teks, tanggal, dll).
Contoh:
df = pd.DataFrame({
'Nama': ['Andi', 'Budi', 'Cici'],
'Umur': [23, 27, 25],
'Kota': ['Jakarta', 'Bandung', 'Surabaya']
})
print(df)
Output:
Nama Umur Kota
0 Andi 23 Jakarta
1 Budi 27 Bandung
2 Cici 25 Surabaya
Salah satu keunggulan Pandas adalah kemudahannya dalam membaca data dari berbagai sumber. Misalnya, membaca file CSV:
df = pd.read_csv('data_penjualan.csv')
Setelah data dimuat, kamu bisa langsung melihat beberapa baris pertama dengan:
df.head() # Menampilkan 5 baris pertama
Atau melihat ringkasan statistik dasar:
df.describe()
Berikut beberapa operasi yang sering digunakan:
df['Nama']df[0:3]df[df['Umur'] > 25]Pandas menyediakan fungsi seperti dropna() untuk menghapus baris dengan data kosong, dan fillna() untuk mengisi nilai yang hilang.
Misalnya, menghitung rata-rata umur per kota:
df.groupby('Kota')['Umur'].mean()
Pandas mendukung penggabungan data seperti merge() (mirip JOIN di SQL) dan concat() untuk menyatukan beberapa DataFrame.
Meski Pandas bukan perpustakaan visualisasi utama, pustaka ini juga memiliki integrasi langsung dengan Matplotlib. Kamu bisa langsung membuat grafik dari data:
import matplotlib.pyplot as plt
df['Umur'].plot(kind='hist')
plt.show()
Untuk pemula, sangat disarankan menggunakan Jupyter Notebook saat belajar Pandas. Mengapa?
Kamu bisa menginstal Jupyter Notebook melalui pip:
pip install jupyter
jupyter notebook
Lalu browser akan terbuka secara otomatis, dan kamu siap bereksperimen!
Pandas adalah pintu gerbang menuju dunia analisis data di Python. Dengan struktur data yang intuitif dan fungsi-fungsi yang kuat, Pandas memungkinkan kamu untuk fokus pada analisis — bukan pada cara mengolah data itu sendiri.
Mulailah dengan dataset kecil, coba berbagai fungsi dasar, dan eksplorasi fitur-fiturnya secara perlahan. Dalam waktu singkat, kamu akan merasa nyaman menggunakannya untuk berbagai tugas analitik.