Departemen Teknik
Informatika
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Hierarchical Clustering
Disusun oleh : Nanik Suciati
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Capaian Pembelajaran
Mahasiswa mampu menjelaskan algoritma clustering berbasis
hirarki agglomerative.
HIERARCHYCAL CLUSTERING
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Pengelompokan data
yang menghasilkan
serangkaian cluster
bersarang dan tersusun
seperti pohon hirarki
• Dapat divisualisasikan
menggunakan
dendogram
• Diagram berbentuk
seperti pohon (tree)
sehingga dapat
menyimpan urutan
penggabungan atau
pemisahan cluster
1 2 3 4 5
Dendrogram
Cluster bersarang
1
2
3
4
5
HIERARCHYCAL CLUSTERING
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Dua tipe hierarchical clustering
• Agglomerative:
• Mulai dari setiap titik (data) dianggap sebagai cluster
• Pada setiap tahap, dilakukan penggabungan sepasang cluster terdekat sampai tersisa satu cluster (atau sampai
tersisa k cluster)
• Divisive:
• Mulai dari satu cluster, semua titik (data) menjadi anggota cluster tersebut
• Pada setiap tahap, dilakukan pemisahan (split) satu cluster menjadi dua, sampai setiap cluster hanya berisi satu
data (atau sampai tersisa k cluster)
• Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau
jarak (distance)
• Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek
sangat berbeda)
• Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)
Algoritma Clustering Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Algoritma
1. Setiap data adalah satu cluster, hitung matriks jarak
Ulang
2. Gabung dua cluster paling dekat
3. Perbarui matriks jarak
Sampai tersisa hanya satu cluster
• Beberapa pendekatan untuk menghitung jarak antara dua cluster
• Single link, complete link, group average, jarak centroid
• Pemilihan pendekatan perhitungan jarak menentukan hasil clustering
Ilustrasi Algoritma Clustering Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Terdapat 5 data, masing-
masing berupa suatu
wadah.
Jumlah balok
Jumlah
silinder
1
2
3
4
5
 Data tersebut diplot ke dalam ruang 2
dimensi menggunakan nilai atribut
jumlah balok dan jumlah silinder.
 2 data yang mirip  jaraknya dekat
0
d(2,1) 0
d(3,1) d(3,2) 0
d(4,1) d(4,2) d(4,3) 0
d(5,1) d(5,2) d(5,3) d(5,4) 0
 Disusun matriks jarak yang
menyimpan jarak Euclidean
antara setiap dua data
1 2 3 4 5
1
2
3
4
5
Ilustrasi Algoritma
Clustering
Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Jumlah balok
Jumlah
silinder 1
2
3
4
5
0
d(2,1) 0
d(3,1) d(3,2) 0
d(4,1) d(4,2) d(4,3) 0
d(5,1) d(5,2) d(5,3) d(5,4) 0
1 2 3 4 5
1
2
3
4
5
𝑑 2, 1 = 2.0 − 1.0 2 + 3.0 − 2.0 2 = 1.41
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
1 2 3 4 5
1
2
3
4
5
𝑑 3, 1 = 2.0 − 1.0 2 + 4.0 − 2.0 2 = 2.24
𝑑 3, 2 = 2.0 − 2.0 2 + 4.0 − 3.0 2 = 1.00
𝑑 4, 1 = 3.0 − 1.0 2 + 1.0 − 2.0 2 = 2.24
𝑑 5, 4 = 3.0 − 3.0 2 + 2.0 − 1.0 2 = 1.00
.
.
.
 Terdapat 10 nilai jarak.
Ilustrasi Algoritma
Clustering
Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Bottom-Up (agglomerative):
1. Dimulai dengan menjadikan
tiap objek sebagai satu
cluster.
2. Menentukan pasangan
terdekat untuk digabung
menjadi satu cluster.
Memperbarui matriks jarak.
3. Langkah 2 diulang sampai
semua cluster tergabung
menjadi satu.
Data 1 Data 2 Data 3 Data 4 Data 5
1
2
3
4
5
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Perbarui matriks jarak. Data 2 Data 3
1
2
3
4
5
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
1 2 3 4 5
1
2
3
4
5
0
1.41 0
2.24 2.24 0
2.00 1.41 1.00 0
1 2,3 4 5
1
2,3
4
5
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
1
2
3
4
5
0
1.41 0
2.24 2.24 0
2.00 1.41 1.00 0
1 2,3 4 5
1
2,3
4
5
0
1.41 0
2.24 1.41 0
1 2,3 4,5
1
2,3
4,5
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Iterasi 3
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
3 kemungkinan yang ada.
1
2
3
4
5
0
1.41 0
2.24 1.41 0
1 2,3 4,5
1
2,3
4,5
0
1.41 0
Perbarui matriks jarak.
1,2,3 4,5
1,2,3
4,5
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Iterasi 3
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
3 kemungkinan yang ada.
0
1.41 0
1,2,3 4,5
1,2,3
4,5
Perbarui matriks jarak.
1,2,3,4,5
1
2
3
4
5
cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Pada iterasi 1 data 2 dan
data 3 digabung.
 Perbarui matriks jarak.
d( , ) = ??
d( , ) = ??
d( , ) = ??
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
0
?? 0
2.24 ?? 0
2.00 ?? 1.00 0
(𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥2, 𝑥3)
(𝑥1) (𝑥4) (𝑥5)
Matriks jarak
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
0
?? 0
2.24 ?? 0
2.00 ?? 1.00 0
(𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥2, 𝑥3)
(𝑥1) (𝑥4) (𝑥5)
𝑑 𝑥2, 𝑥3 , 𝑥1 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥1 , 𝑑 𝑥3 , 𝑥1 =1.41
𝑑 𝑥2, 𝑥3 , 𝑥4 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥4 , 𝑑 𝑥3 , 𝑥4 =2.24
𝑑 𝑥2, 𝑥3 , 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥5 , 𝑑 𝑥3 , 𝑥5 =1.41
cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
0
1.41 0
2.24 2.24 0
2.00 1.41 1.00 0
(𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥2, 𝑥3)
(𝑥1) (𝑥4) (𝑥5)
cluster
 Pada iterasi 2 data 4 dan
data 5 digabung.
 Perbarui matriks jarak.
0
1.41 0
?? ?? 0
(𝑥2,𝑥3)
(𝑥1) (𝑥4,𝑥5)
d((x1),(x4,x5))= ??
d((x2,x3),(x4,x5))= ??
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
0
1.41 0
?? ?? 0
(𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥2, 𝑥3)
(𝑥1)
𝑑 𝑥1 , 𝑥4, 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥1 , 𝑥4 , 𝑑 𝑥1 , 𝑥5 =2.00
𝑑 𝑥2, 𝑥3 , 𝑥4, 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥4 , 𝑑 𝑥2 , 𝑥5 , 𝑑 𝑥3 , 𝑥4 , 𝑑 𝑥3 , 𝑥5 =1.41
(𝑥4, 𝑥5)
cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
(𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5)
cluster
 Pada iterasi 3 data 1 dan
data (2,3) digabung.
0
1.41 0
2.00 1.41 0
(𝑥2,𝑥3)
(𝑥1) (𝑥4,𝑥5)
0
1.41 0
(𝑥1, 𝑥2, 𝑥3) (𝑥4, 𝑥5)
Gabung
Selesai
Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 MIN
 MAX
 Group Average
 Jarak centroid
 Metode lain menggunakan fungsi objektif
– Metode Ward menggunakan kuadrat jarak
Jarak?
Kemiripan?
Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 MIN
 MAX
 Group Average
 Jarak centroid
 Metode lain menggunakan fungsi
objektif
– Metode Ward menggunakan jarak kuadrat
𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = min 𝑗𝑎𝑟𝑎𝑘 𝑃1𝑖, 𝑃2𝑗
Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 MIN
 MAX
 Group Average
 Jarak centroid
 Metode lain menggunakan fungsi
objektif
– Metode Ward menggunakan jarak kuadrat
𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = max 𝑗𝑎𝑟𝑎𝑘 𝑃1𝑖, 𝑃2𝑗
Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 MIN
 MAX
 Group Average
 Jarak centroid
 Metode lain menggunakan fungsi
objektif
– Metode Ward menggunakan jarak kuadrat
𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = 𝑗𝑎𝑟𝑎𝑘 𝑃𝑖, 𝑃𝑗 / 𝐶1 * 𝐶2
Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 MIN
 MAX
 Group Average
 Jarak centroid
 Metode lain menggunakan fungsi
objektif
– Metode Ward menggunakan jarak kuadrat
 
Jarak antar Cluster: MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Jarak dua cluster diwakili oleh jarak terdekat antara dua titik pada
cluster yang berbeda.
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥1)
1 2 3 4 5
Dendrogram
Nested Clusters
Jarak antar Cluster : MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Kekuatan Min atau Single Link
• Dapat mengelompokkan kumpulan data berbentuk non-elips dengan baik, jika jarak antar
cluster tidak terlalu dekat.
Original Points
Two Clusters
Original Points Two Clusters
Jarak antar Cluster : MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Kelemahan Min atau Single Link
• Tidak dapat memisahkan kumpulan data dengan baik jika terdapat noise dan
outlier.
Original Points Two Clusters
Jarak antar Cluster: MAX atau
Complete Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Jarak dua cluster diwakili oleh jarak terjauh antara dua titik pada
cluster yang berbeda.
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥1)
1 2 3 4 5
Dendrogram
Nested Clusters
Jarak antar Cluster : MAX atau Complete
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Kekuatan Max atau Complete Link
• Dapat memisahkan kumpulan data dengan baik meski terdapat noise dan
outlier.
Original Points Two Clusters
Jarak antar Cluster : MAX atau Complete
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Kelemahan Max atau Complete Link
• Memiliki kecenderungan memecah cluster yang besar
Original Points Two Clusters
Jarak antar Cluster: Group Average
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Jarak dua cluster diwakili oleh rata-rata jarak antara titik-titik pada cluster yang
berbeda.
• Tidak terlalu sensitif dengan noise dan outlier.
Dendrogram
Nested Clusters
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(𝑥2) (𝑥3) (𝑥4) (𝑥5)
(𝑥1)
1 2 3 4 5
Jarak antar Cluster : Metode Ward
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
• Jarak dua cluster didasarkan pada nilai jarak kuadrat ketika dua
cluster digabung
• Mirip dengan group average hanya saja jarak antar titik adalah jarak kuadrat
• Tidak terlalu sensitif terhadap noise dan outlier
𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = 𝑗𝑎𝑟𝑎𝑘 𝑃𝑖, 𝑃𝑗
2
/ 𝐶1 * 𝐶2
Clustering Hirarki: Perbandingan
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Group Average
Ward’s Method
1
2
3
4
5
6
1
2
5
3
4
MIN
1
2
3
4
5
6
1
2
5
3
4
1
2
3
4
5
6
1
2 5
3
4
1
2
3
4
5
6
1
2
3
4
5
MAX
Fakta tentang hierarchical clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Tidak perlu menentukan jumlah cluster di awal
 Menghasilkan dendogram yang dapat membantu memahami data
Validasi hasil clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Kebutuhan validasi hasil clustering
 Evaluasi
 Mengevaluasi kualitas (seberapa baik) hasil clustering
 Stabilitas
 Mengetahui sensitivitas hasil clustering terhadap parameter algortima, misalnya jumlah cluster
 Tendensi
 Menilai kesesuaian hasil clustering, misalnya apakah data memiliki karakteristik pengelompokan
tertentu
Mengevaluasi kualitas hasil clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Internal
 Menggunakan informasi internal, seberapa compact dan separated cluster-cluster yang dihasilkan
 Silhouette coefficient
 Eksternal
 Membandingkan hasil clustering dengan label kelas eksternal yang tersedia (ground truth)
 Entropy, purity, F-measure
 Relatif
 Membandingkan dua hasil clustering, misalnya yang didapat dari satu algoritma yang sama dengan nilai
parameter (k, centroid awal) yang berbeda
 SSE atau entropy
 Digunakan untuk menentukan hasil clustering optimal, misalnya dengan memvariasikan nilai parameter jumlah
cluster k, posisi awal centroid
Silhouette coefficient
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Silhouette dapat memberikan representasi grafis yang ringkas tentang seberapa baik setiap objek telah
dikelompokkan.
 Nilai silhouette adalah ukuran seberapa mirip suatu objek dengan clusternya sendiri (kohesi) dibandingkan
dengan cluster lain.
 Nilai silhouette berkisar antara −1 hingga +1. Nilai 1 menyatakan hasil terbaik dimana suatu data sangat
compact dengan data lain pada cluster yang sama dan jauh dari cluster-cluster lain.
 Silhouette dapat dihitung dengan rumus jarak apa pun, seperti jarak Euclidean atau jarak Manhattan.
 Jika sebagian besar objek memiliki nilai silhouette tinggi, maka hasil clustering sudah baik.
 Jika banyak objek memiliki nilai silhouette rendah atau negatif, maka hasil clustering masih kurang baik,
mungkin memiliki terlalu banyak atau terlalu sedikit jumlah cluster.
Silhouette coefficient
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
 Silhouette coefficient dari setiap data x dari hasil clustering dapat dihitung dengan :
𝑠 𝑥 =
𝑏 𝑥 − 𝑎(𝑥)
max{𝑎 𝑥 , 𝑏(𝑥)}
 a(x) adalah rata−rata jarak antara x dan semua data lain pada cluster yang sama
 b(x) adalah minimum rata−rata jarak antara x dengan semua cluster yang lain
 𝑈𝑛𝑡𝑢𝑘 𝑠𝑒𝑡𝑖𝑎𝑝 𝑑𝑎𝑡𝑎 𝑥 ∈ 𝐶𝑥 𝑑𝑎𝑡𝑎 𝑥 𝑎𝑛𝑔𝑔𝑜𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝐶𝑥
𝑎 𝑥 =
1
𝐶𝑥 −1 𝑗∈𝐶𝑥,𝑥≠𝑦 𝑑 𝑥, 𝑦 dan 𝑏 𝑥 = min
𝑧≠𝑥
1
𝐶𝑧
𝑦∈𝐶𝑧
𝑑 𝑥, 𝑦
coefficient
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
- TERIMA KASIH -

More Related Content

PDF
Klasterisasi - AHC (Agglomerative Hierarchical Clustering).pdf
PDF
Klasterisasi - Algoritma K-Means Clustering.pdf
PPT
Modul 8 - Jaringan Syaraf Tiruan (JST)
PPTX
Similarity Measures (pptx)
PPT
3.3 hierarchical methods
PPTX
Pert 04 clustering data mining
PPTX
Birch Algorithm With Solved Example
PPTX
Grid based method & model based clustering method
Klasterisasi - AHC (Agglomerative Hierarchical Clustering).pdf
Klasterisasi - Algoritma K-Means Clustering.pdf
Modul 8 - Jaringan Syaraf Tiruan (JST)
Similarity Measures (pptx)
3.3 hierarchical methods
Pert 04 clustering data mining
Birch Algorithm With Solved Example
Grid based method & model based clustering method

What's hot (20)

DOCX
ALJABAR LINIER
PDF
Contoh-soal-kalkulus-iii
PPTX
Paraboloida - Geometri Analitik Ruang
PPTX
Teorema balzano weierstrass
PDF
Vektor, Aljabar Linier
PDF
Analisis real-lengkap-a1c
PDF
Grup siklik
DOCX
Metode numerik untuk menyelesaikan sistem persamaan linier
PPTX
Determinan Matriks ( Aljabar Linear Elementer )
PPT
Bilangan kompleks
PPT
Bilangan kompleks lengkap
DOC
Cara menggambar graf sederhana matematika diskrit
PPT
Bab 7 integrasi numerik
PPTX
Paraboloida eliptik dan paraboloida hiperbolik
PDF
Pengantar analisis real_I
DOCX
Matematika diskrit (dual graf, lintasan dan sirkuit euler, lintasan dan sirku...
PPTX
Ruang Hasil kali Dalam ( Aljabar Linear Elementer )
PDF
Matematika Diskrit - 06 relasi dan fungsi - 06
PPTX
6. interpolasi polynomial newton
PPTX
Pertemuan 3 turunan dan aturan rantai
ALJABAR LINIER
Contoh-soal-kalkulus-iii
Paraboloida - Geometri Analitik Ruang
Teorema balzano weierstrass
Vektor, Aljabar Linier
Analisis real-lengkap-a1c
Grup siklik
Metode numerik untuk menyelesaikan sistem persamaan linier
Determinan Matriks ( Aljabar Linear Elementer )
Bilangan kompleks
Bilangan kompleks lengkap
Cara menggambar graf sederhana matematika diskrit
Bab 7 integrasi numerik
Paraboloida eliptik dan paraboloida hiperbolik
Pengantar analisis real_I
Matematika diskrit (dual graf, lintasan dan sirkuit euler, lintasan dan sirku...
Ruang Hasil kali Dalam ( Aljabar Linear Elementer )
Matematika Diskrit - 06 relasi dan fungsi - 06
6. interpolasi polynomial newton
Pertemuan 3 turunan dan aturan rantai
Ad

Similar to Clustering_hirarki (tanpa narasi) (1).pptx (14)

PPTX
Clustering_fix(1) tentang algoritma kmeans.pptx
PPTX
Materi Kecerdasan Bisnis (Data Science) : clustering
PPTX
Presentasi Materi Data Maning klasifikasi
DOC
Modul clustering data mining modul clustering
PPTX
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx
PDF
LN s10-machine vision-s2
PPTX
analisis kluster
PDF
Belajar mudah algoritma data mining k means
PDF
clustering
PPT
Clustering
PPTX
Analisis Cluster-Teknik data mining perpisahan objek sesuai karakteristikpptx
PDF
KMeans.pdf
PPTX
DM_P11_Unsupervised Learning (K-Means Clustering).pptx
PDF
Analisis klaster
Clustering_fix(1) tentang algoritma kmeans.pptx
Materi Kecerdasan Bisnis (Data Science) : clustering
Presentasi Materi Data Maning klasifikasi
Modul clustering data mining modul clustering
Clustering Kelompok 4 FIXXXXXXXXXXX.pptx
LN s10-machine vision-s2
analisis kluster
Belajar mudah algoritma data mining k means
clustering
Clustering
Analisis Cluster-Teknik data mining perpisahan objek sesuai karakteristikpptx
KMeans.pdf
DM_P11_Unsupervised Learning (K-Means Clustering).pptx
Analisis klaster
Ad

More from nyomans1 (20)

PPT
PPT-UEU-Keamanan-Informasi-Pertemuan-5.ppt
PPTX
Template Pertemuan 1 All MK - Copy.pptx
PPT
slide 7_olap_example.ppt
PPT
PPT-UEU-Keamanan-Informasi-Pertemuan-5.ppt
PPTX
Security Requirement.pptx
PPTX
Minggu_1_Matriks_dan_Operasinya.pptx
PPT
Matriks suplemen.ppt
PPTX
fdokumen.com_muh1g3-matriks-dan-ruang-vektor-3-312017-muh1g3-matriks-dan-ruan...
PPTX
10-Image-Enhancement-Bagian3-2021.pptx
PPTX
08-Image-Enhancement-Bagian1.pptx
PPTX
03-Pembentukan-Citra-dan-Digitalisasi-Citra.pptx
PPTX
04-Format-citra-dan-struktur-data-citra-2021.pptx
PPTX
02-Pengantar-Pengolahan-Citra-Bag2-2021.pptx
PPTX
03spatialfiltering-130424050639-phpapp02.pptx
PPTX
Q-Step_WS_02102019_Practical_introduction_to_Python.pptx
PPTX
BAB 2_TIPE DATA, VARIABEL, DAN OPERATOR (1) (1).pptx
PPTX
Support-Vector-Machines_EJ_v5.06.pptx
PPTX
06-Image-Histogram-2021.pptx
PPTX
05-Operasi-dasar-pengolahan-citra-2021 (1).pptx
PDF
nlp2.pdf
PPT-UEU-Keamanan-Informasi-Pertemuan-5.ppt
Template Pertemuan 1 All MK - Copy.pptx
slide 7_olap_example.ppt
PPT-UEU-Keamanan-Informasi-Pertemuan-5.ppt
Security Requirement.pptx
Minggu_1_Matriks_dan_Operasinya.pptx
Matriks suplemen.ppt
fdokumen.com_muh1g3-matriks-dan-ruang-vektor-3-312017-muh1g3-matriks-dan-ruan...
10-Image-Enhancement-Bagian3-2021.pptx
08-Image-Enhancement-Bagian1.pptx
03-Pembentukan-Citra-dan-Digitalisasi-Citra.pptx
04-Format-citra-dan-struktur-data-citra-2021.pptx
02-Pengantar-Pengolahan-Citra-Bag2-2021.pptx
03spatialfiltering-130424050639-phpapp02.pptx
Q-Step_WS_02102019_Practical_introduction_to_Python.pptx
BAB 2_TIPE DATA, VARIABEL, DAN OPERATOR (1) (1).pptx
Support-Vector-Machines_EJ_v5.06.pptx
06-Image-Histogram-2021.pptx
05-Operasi-dasar-pengolahan-citra-2021 (1).pptx
nlp2.pdf

Recently uploaded (20)

PPTX
ALUR PELAYANAN UGD unit gawat darurat 1.pptx
PPTX
Analisis Demografi , PENATA kependudukan
PPTX
PPT pengukuran besaran fisika ukin 2023
PDF
HUBUNGAN STRUKTUR, ikatan kimia dan aktivitas fisiologis complete.en.id.pdf
PPTX
Introduction to Data Definition Language in MySQL
PDF
Sosialisasi_Lapor Diri Calon Mahasiswa PPG-2025.pdf
PDF
Pengenalan Manajemen Kinerja P3K KEMENAG.pdf
PPTX
Pertemuan 2_Modernisasi dan Globalisasi.pptx
PPTX
V1_Sosialisasi PKG Sekolah Dinkes Prov Jatim.pptx
PPTX
Judol_new materi yang penting jangan yaa
PPTX
soal soal k3 baru yang baru terbaru paling baru dan baru
PPTX
Presentation pengukuran panjang terbaru lagi
PPTX
PPT PRESENTASI DESAIN PENELITIAN KEREN.pptx
PPTX
210409 Tata Ruang Bahan Sosialisasi PP 21 - IAP.pptx
PPTX
Mengidentifikasi Bahaya dan Mengendalikan Resiko.pptx
PDF
3. RPS (Rubrik) rps Ekonomi Manajerial.pdf
PPTX
CONTOH PRESENTASI KEGIATAN VALIDASI DATA.pptx
PPT
Kuliah Uji Beda Rataan Perlakuan- Least Significant Difference Test
DOCX
PROPOSAL KERDOSMA KREATIVITAS_Kelompok 7 digunakan untuk presentasi
PPTX
PPT Interes Brebes Publikasi Data Statistik.pptx
ALUR PELAYANAN UGD unit gawat darurat 1.pptx
Analisis Demografi , PENATA kependudukan
PPT pengukuran besaran fisika ukin 2023
HUBUNGAN STRUKTUR, ikatan kimia dan aktivitas fisiologis complete.en.id.pdf
Introduction to Data Definition Language in MySQL
Sosialisasi_Lapor Diri Calon Mahasiswa PPG-2025.pdf
Pengenalan Manajemen Kinerja P3K KEMENAG.pdf
Pertemuan 2_Modernisasi dan Globalisasi.pptx
V1_Sosialisasi PKG Sekolah Dinkes Prov Jatim.pptx
Judol_new materi yang penting jangan yaa
soal soal k3 baru yang baru terbaru paling baru dan baru
Presentation pengukuran panjang terbaru lagi
PPT PRESENTASI DESAIN PENELITIAN KEREN.pptx
210409 Tata Ruang Bahan Sosialisasi PP 21 - IAP.pptx
Mengidentifikasi Bahaya dan Mengendalikan Resiko.pptx
3. RPS (Rubrik) rps Ekonomi Manajerial.pdf
CONTOH PRESENTASI KEGIATAN VALIDASI DATA.pptx
Kuliah Uji Beda Rataan Perlakuan- Least Significant Difference Test
PROPOSAL KERDOSMA KREATIVITAS_Kelompok 7 digunakan untuk presentasi
PPT Interes Brebes Publikasi Data Statistik.pptx

Clustering_hirarki (tanpa narasi) (1).pptx

  • 2. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Hierarchical Clustering Disusun oleh : Nanik Suciati
  • 3. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Capaian Pembelajaran Mahasiswa mampu menjelaskan algoritma clustering berbasis hirarki agglomerative.
  • 4. HIERARCHYCAL CLUSTERING www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Pengelompokan data yang menghasilkan serangkaian cluster bersarang dan tersusun seperti pohon hirarki • Dapat divisualisasikan menggunakan dendogram • Diagram berbentuk seperti pohon (tree) sehingga dapat menyimpan urutan penggabungan atau pemisahan cluster 1 2 3 4 5 Dendrogram Cluster bersarang 1 2 3 4 5
  • 5. HIERARCHYCAL CLUSTERING www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Dua tipe hierarchical clustering • Agglomerative: • Mulai dari setiap titik (data) dianggap sebagai cluster • Pada setiap tahap, dilakukan penggabungan sepasang cluster terdekat sampai tersisa satu cluster (atau sampai tersisa k cluster) • Divisive: • Mulai dari satu cluster, semua titik (data) menjadi anggota cluster tersebut • Pada setiap tahap, dilakukan pemisahan (split) satu cluster menjadi dua, sampai setiap cluster hanya berisi satu data (atau sampai tersisa k cluster) • Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau jarak (distance) • Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek sangat berbeda) • Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)
  • 6. Algoritma Clustering Agglomerative www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Algoritma 1. Setiap data adalah satu cluster, hitung matriks jarak Ulang 2. Gabung dua cluster paling dekat 3. Perbarui matriks jarak Sampai tersisa hanya satu cluster • Beberapa pendekatan untuk menghitung jarak antara dua cluster • Single link, complete link, group average, jarak centroid • Pemilihan pendekatan perhitungan jarak menentukan hasil clustering
  • 7. Ilustrasi Algoritma Clustering Agglomerative www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Terdapat 5 data, masing- masing berupa suatu wadah. Jumlah balok Jumlah silinder 1 2 3 4 5  Data tersebut diplot ke dalam ruang 2 dimensi menggunakan nilai atribut jumlah balok dan jumlah silinder.  2 data yang mirip  jaraknya dekat 0 d(2,1) 0 d(3,1) d(3,2) 0 d(4,1) d(4,2) d(4,3) 0 d(5,1) d(5,2) d(5,3) d(5,4) 0  Disusun matriks jarak yang menyimpan jarak Euclidean antara setiap dua data 1 2 3 4 5 1 2 3 4 5
  • 8. Ilustrasi Algoritma Clustering Agglomerative www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Jumlah balok Jumlah silinder 1 2 3 4 5 0 d(2,1) 0 d(3,1) d(3,2) 0 d(4,1) d(4,2) d(4,3) 0 d(5,1) d(5,2) d(5,3) d(5,4) 0 1 2 3 4 5 1 2 3 4 5 𝑑 2, 1 = 2.0 − 1.0 2 + 3.0 − 2.0 2 = 1.41 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 1 2 3 4 5 1 2 3 4 5 𝑑 3, 1 = 2.0 − 1.0 2 + 4.0 − 2.0 2 = 2.24 𝑑 3, 2 = 2.0 − 2.0 2 + 4.0 − 3.0 2 = 1.00 𝑑 4, 1 = 3.0 − 1.0 2 + 1.0 − 2.0 2 = 2.24 𝑑 5, 4 = 3.0 − 3.0 2 + 2.0 − 1.0 2 = 1.00 . . .  Terdapat 10 nilai jarak.
  • 9. Ilustrasi Algoritma Clustering Agglomerative www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Bottom-Up (agglomerative): 1. Dimulai dengan menjadikan tiap objek sebagai satu cluster. 2. Menentukan pasangan terdekat untuk digabung menjadi satu cluster. Memperbarui matriks jarak. 3. Langkah 2 diulang sampai semua cluster tergabung menjadi satu. Data 1 Data 2 Data 3 Data 4 Data 5 1 2 3 4 5
  • 10. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada. Iterasi 1 Perbarui matriks jarak. Data 2 Data 3 1 2 3 4 5 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 1 2 3 4 5 1 2 3 4 5 0 1.41 0 2.24 2.24 0 2.00 1.41 1.00 0 1 2,3 4 5 1 2,3 4 5
  • 11. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada. Iterasi 1 Iterasi 2 Perbarui matriks jarak. Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada. Perbarui matriks jarak. 1 2 3 4 5 0 1.41 0 2.24 2.24 0 2.00 1.41 1.00 0 1 2,3 4 5 1 2,3 4 5 0 1.41 0 2.24 1.41 0 1 2,3 4,5 1 2,3 4,5
  • 12. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada. Iterasi 1 Iterasi 2 Iterasi 3 Perbarui matriks jarak. Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada. Perbarui matriks jarak. Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada. 1 2 3 4 5 0 1.41 0 2.24 1.41 0 1 2,3 4,5 1 2,3 4,5 0 1.41 0 Perbarui matriks jarak. 1,2,3 4,5 1,2,3 4,5
  • 13. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada. Iterasi 1 Iterasi 2 Iterasi 3 Perbarui matriks jarak. Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada. Perbarui matriks jarak. Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada. 0 1.41 0 1,2,3 4,5 1,2,3 4,5 Perbarui matriks jarak. 1,2,3,4,5 1 2 3 4 5
  • 14. cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Pada iterasi 1 data 2 dan data 3 digabung.  Perbarui matriks jarak. d( , ) = ?? d( , ) = ?? d( , ) = ?? 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 0 ?? 0 2.24 ?? 0 2.00 ?? 1.00 0 (𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥2, 𝑥3) (𝑥1) (𝑥4) (𝑥5) Matriks jarak
  • 15. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 0 ?? 0 2.24 ?? 0 2.00 ?? 1.00 0 (𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥2, 𝑥3) (𝑥1) (𝑥4) (𝑥5) 𝑑 𝑥2, 𝑥3 , 𝑥1 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥1 , 𝑑 𝑥3 , 𝑥1 =1.41 𝑑 𝑥2, 𝑥3 , 𝑥4 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥4 , 𝑑 𝑥3 , 𝑥4 =2.24 𝑑 𝑥2, 𝑥3 , 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥5 , 𝑑 𝑥3 , 𝑥5 =1.41 cluster
  • 16. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 0 1.41 0 2.24 2.24 0 2.00 1.41 1.00 0 (𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥2, 𝑥3) (𝑥1) (𝑥4) (𝑥5) cluster  Pada iterasi 2 data 4 dan data 5 digabung.  Perbarui matriks jarak. 0 1.41 0 ?? ?? 0 (𝑥2,𝑥3) (𝑥1) (𝑥4,𝑥5) d((x1),(x4,x5))= ?? d((x2,x3),(x4,x5))= ??
  • 17. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 0 1.41 0 ?? ?? 0 (𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥2, 𝑥3) (𝑥1) 𝑑 𝑥1 , 𝑥4, 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥1 , 𝑥4 , 𝑑 𝑥1 , 𝑥5 =2.00 𝑑 𝑥2, 𝑥3 , 𝑥4, 𝑥5 = 𝑚𝑖𝑛 𝑑 𝑥2 , 𝑥4 , 𝑑 𝑥2 , 𝑥5 , 𝑑 𝑥3 , 𝑥4 , 𝑑 𝑥3 , 𝑥5 =1.41 (𝑥4, 𝑥5) cluster
  • 18. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia 0 1.41 0 2.24 1.00 0 2.24 2.24 3.16 0 2.00 1.41 2.24 1.00 0 (𝑥1) (𝑥2) (𝑥3) (𝑥4) (𝑥5) cluster  Pada iterasi 3 data 1 dan data (2,3) digabung. 0 1.41 0 2.00 1.41 0 (𝑥2,𝑥3) (𝑥1) (𝑥4,𝑥5) 0 1.41 0 (𝑥1, 𝑥2, 𝑥3) (𝑥4, 𝑥5) Gabung Selesai
  • 19. Menghitung jarak antar cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  MIN  MAX  Group Average  Jarak centroid  Metode lain menggunakan fungsi objektif – Metode Ward menggunakan kuadrat jarak Jarak? Kemiripan?
  • 20. Menghitung jarak antar cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  MIN  MAX  Group Average  Jarak centroid  Metode lain menggunakan fungsi objektif – Metode Ward menggunakan jarak kuadrat 𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = min 𝑗𝑎𝑟𝑎𝑘 𝑃1𝑖, 𝑃2𝑗
  • 21. Menghitung jarak antar cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  MIN  MAX  Group Average  Jarak centroid  Metode lain menggunakan fungsi objektif – Metode Ward menggunakan jarak kuadrat 𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = max 𝑗𝑎𝑟𝑎𝑘 𝑃1𝑖, 𝑃2𝑗
  • 22. Menghitung jarak antar cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  MIN  MAX  Group Average  Jarak centroid  Metode lain menggunakan fungsi objektif – Metode Ward menggunakan jarak kuadrat 𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = 𝑗𝑎𝑟𝑎𝑘 𝑃𝑖, 𝑃𝑗 / 𝐶1 * 𝐶2
  • 23. Menghitung jarak antar cluster www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  MIN  MAX  Group Average  Jarak centroid  Metode lain menggunakan fungsi objektif – Metode Ward menggunakan jarak kuadrat  
  • 24. Jarak antar Cluster: MIN atau Single Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Jarak dua cluster diwakili oleh jarak terdekat antara dua titik pada cluster yang berbeda. 0 0.10 0 0.90 0.30 0 0.35 0.40 0.60 0 0.80 0.50 0.70 0.20 0 (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥1) 1 2 3 4 5 Dendrogram Nested Clusters
  • 25. Jarak antar Cluster : MIN atau Single Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Kekuatan Min atau Single Link • Dapat mengelompokkan kumpulan data berbentuk non-elips dengan baik, jika jarak antar cluster tidak terlalu dekat. Original Points Two Clusters Original Points Two Clusters
  • 26. Jarak antar Cluster : MIN atau Single Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Kelemahan Min atau Single Link • Tidak dapat memisahkan kumpulan data dengan baik jika terdapat noise dan outlier. Original Points Two Clusters
  • 27. Jarak antar Cluster: MAX atau Complete Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Jarak dua cluster diwakili oleh jarak terjauh antara dua titik pada cluster yang berbeda. 0 0.10 0 0.90 0.30 0 0.35 0.40 0.60 0 0.80 0.50 0.70 0.20 0 (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥1) 1 2 3 4 5 Dendrogram Nested Clusters
  • 28. Jarak antar Cluster : MAX atau Complete Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Kekuatan Max atau Complete Link • Dapat memisahkan kumpulan data dengan baik meski terdapat noise dan outlier. Original Points Two Clusters
  • 29. Jarak antar Cluster : MAX atau Complete Link www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Kelemahan Max atau Complete Link • Memiliki kecenderungan memecah cluster yang besar Original Points Two Clusters
  • 30. Jarak antar Cluster: Group Average www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Jarak dua cluster diwakili oleh rata-rata jarak antara titik-titik pada cluster yang berbeda. • Tidak terlalu sensitif dengan noise dan outlier. Dendrogram Nested Clusters 0 0.10 0 0.90 0.30 0 0.35 0.40 0.60 0 0.80 0.50 0.70 0.20 0 (𝑥2) (𝑥3) (𝑥4) (𝑥5) (𝑥1) 1 2 3 4 5
  • 31. Jarak antar Cluster : Metode Ward www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia • Jarak dua cluster didasarkan pada nilai jarak kuadrat ketika dua cluster digabung • Mirip dengan group average hanya saja jarak antar titik adalah jarak kuadrat • Tidak terlalu sensitif terhadap noise dan outlier 𝑗𝑎𝑟𝑎𝑘 𝐶1, 𝐶2 = 𝑗𝑎𝑟𝑎𝑘 𝑃𝑖, 𝑃𝑗 2 / 𝐶1 * 𝐶2
  • 32. Clustering Hirarki: Perbandingan www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Group Average Ward’s Method 1 2 3 4 5 6 1 2 5 3 4 MIN 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 MAX
  • 33. Fakta tentang hierarchical clustering www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Tidak perlu menentukan jumlah cluster di awal  Menghasilkan dendogram yang dapat membantu memahami data
  • 34. Validasi hasil clustering www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia Kebutuhan validasi hasil clustering  Evaluasi  Mengevaluasi kualitas (seberapa baik) hasil clustering  Stabilitas  Mengetahui sensitivitas hasil clustering terhadap parameter algortima, misalnya jumlah cluster  Tendensi  Menilai kesesuaian hasil clustering, misalnya apakah data memiliki karakteristik pengelompokan tertentu
  • 35. Mengevaluasi kualitas hasil clustering www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Internal  Menggunakan informasi internal, seberapa compact dan separated cluster-cluster yang dihasilkan  Silhouette coefficient  Eksternal  Membandingkan hasil clustering dengan label kelas eksternal yang tersedia (ground truth)  Entropy, purity, F-measure  Relatif  Membandingkan dua hasil clustering, misalnya yang didapat dari satu algoritma yang sama dengan nilai parameter (k, centroid awal) yang berbeda  SSE atau entropy  Digunakan untuk menentukan hasil clustering optimal, misalnya dengan memvariasikan nilai parameter jumlah cluster k, posisi awal centroid
  • 36. Silhouette coefficient www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Silhouette dapat memberikan representasi grafis yang ringkas tentang seberapa baik setiap objek telah dikelompokkan.  Nilai silhouette adalah ukuran seberapa mirip suatu objek dengan clusternya sendiri (kohesi) dibandingkan dengan cluster lain.  Nilai silhouette berkisar antara −1 hingga +1. Nilai 1 menyatakan hasil terbaik dimana suatu data sangat compact dengan data lain pada cluster yang sama dan jauh dari cluster-cluster lain.  Silhouette dapat dihitung dengan rumus jarak apa pun, seperti jarak Euclidean atau jarak Manhattan.  Jika sebagian besar objek memiliki nilai silhouette tinggi, maka hasil clustering sudah baik.  Jika banyak objek memiliki nilai silhouette rendah atau negatif, maka hasil clustering masih kurang baik, mungkin memiliki terlalu banyak atau terlalu sedikit jumlah cluster.
  • 37. Silhouette coefficient www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia  Silhouette coefficient dari setiap data x dari hasil clustering dapat dihitung dengan : 𝑠 𝑥 = 𝑏 𝑥 − 𝑎(𝑥) max{𝑎 𝑥 , 𝑏(𝑥)}  a(x) adalah rata−rata jarak antara x dan semua data lain pada cluster yang sama  b(x) adalah minimum rata−rata jarak antara x dengan semua cluster yang lain  𝑈𝑛𝑡𝑢𝑘 𝑠𝑒𝑡𝑖𝑎𝑝 𝑑𝑎𝑡𝑎 𝑥 ∈ 𝐶𝑥 𝑑𝑎𝑡𝑎 𝑥 𝑎𝑛𝑔𝑔𝑜𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝐶𝑥 𝑎 𝑥 = 1 𝐶𝑥 −1 𝑗∈𝐶𝑥,𝑥≠𝑦 𝑑 𝑥, 𝑦 dan 𝑏 𝑥 = min 𝑧≠𝑥 1 𝐶𝑧 𝑦∈𝐶𝑧 𝑑 𝑥, 𝑦
  • 38. coefficient www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia

Editor's Notes

  • #4: Capaian pembelajaran dari mata kuliah ini yaitu…