Konten [Tampil]

 

Exploratory Data Analysis (EDA): Langkah Awal dalam Data Science

Pengantar

Exploratory Data Analysis (EDA) adalah langkah penting dalam Data Science untuk memahami dataset sebelum melakukan pemodelan atau analisis lebih lanjut. EDA membantu mengidentifikasi pola, mendeteksi anomali, menemukan hubungan antar variabel, dan memahami distribusi data. Artikel ini akan membahas konsep dasar EDA, teknik yang digunakan, serta contoh implementasi dengan Python.

Mengapa EDA Penting?

EDA membantu Data Scientist dalam:

  • Memahami karakteristik dataset.
  • Mengidentifikasi nilai yang hilang (missing values) dan outlier.
  • Menentukan strategi preprocessing data.
  • Mengetahui hubungan antar variabel untuk pemodelan yang lebih akurat.

Langkah-Langkah dalam Exploratory Data Analysis

1. Memuat Dataset

Langkah pertama dalam EDA adalah membaca dataset yang akan dianalisis. Biasanya digunakan pustaka pandas untuk menangani data dalam format CSV, Excel, atau database lainnya.

import pandas as pd

# Memuat dataset
file_path = "data.csv"
df = pd.read_csv(file_path)

# Melihat 5 baris pertama
df.head()

2. Memeriksa Struktur Data

Untuk memahami struktur dataset, kita dapat melihat informasi dasar seperti jumlah baris dan kolom, tipe data, serta jumlah nilai yang hilang.

# Informasi dataset
df.info()

# Ringkasan statistik data numerik
df.describe()

3. Menangani Data yang Hilang (Missing Values)

Jika terdapat data yang hilang, kita bisa mengisi nilai yang hilang dengan mean/median atau menghapusnya jika terlalu banyak.

# Mengecek missing values
df.isnull().sum()

# Mengisi missing values dengan median
df.fillna(df.median(), inplace=True)

4. Mendeteksi Outlier

Outlier adalah nilai ekstrem yang bisa memengaruhi analisis data. Salah satu cara mendeteksi outlier adalah dengan box plot.

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x=df["column_name"])
plt.show()

5. Memvisualisasikan Distribusi Data

Distribusi data dapat divisualisasikan menggunakan histogram atau KDE plot.

sns.histplot(df["column_name"], bins=30, kde=True)
plt.show()

6. Menganalisis Hubungan Antar Variabel

Korelasi antar variabel numerik dapat divisualisasikan menggunakan heatmap.

import numpy as np

plt.figure(figsize=(10,6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.show()

7. Membuat Scatter Plot untuk Hubungan Dua Variabel

Scatter plot digunakan untuk melihat hubungan antar dua variabel.

sns.scatterplot(x=df["var1"], y=df["var2"])
plt.show()

Kesimpulan

EDA adalah langkah krusial dalam Data Science yang membantu memahami data sebelum diterapkan ke model machine learning. Dengan melakukan EDA secara menyeluruh, kita dapat meningkatkan kualitas analisis dan menghindari kesalahan dalam pengolahan data.

Jika Anda ingin menjadi Data Scientist yang handal, pastikan untuk menguasai teknik-teknik EDA ini! 🚀

Post a Comment

Lebih baru Lebih lama