Bir önceki makalemizde Weka programı yardımıyla elimizdeki veri seti üzerinde müşteri segmentasyonunu gerçekleştirmiştik. Bu makalemizde de aynı veri seti üzerinde aynı görevi Excel Data Mining Add-In yardımıyla gerçekleştireceğiz.(Eğer bir önceki makaleyi okumadıysanız, bu devam niteliğinde ki 2.makalemizi okumaya başlamadan önce 1.makaleyi okumanızı tavsiye ederim.)
İlk olarak belirtmek isterim ki Excel Add-In aslında analiz çalışmalarını kendisi yürütmemektedir. Excel, SQL Server' a bağlanarak analizi gerçekleştirmekte ve algoritmaların sonucunu son kullanıcının anlayacağı görselikte sunmaktadır. Ayrıca şunu da hatırlatmak isterim ki; iş zekası uygulamalarının son kullancıya aktarılması için SQL Server dışında Oracle başta olmak üzere birçok İş Zekası yada Veri Tabanı yazılımlarının "Excel Add-In" leri bulunmaktadır. (Bu makalede kullanılan SQL Server 2005 Add-Ins 'ine buradan ulaşabilirsiniz.)
SQL Server 2005 Data Mining Add-In Kurulumu
Microsoft Office Excel 2007 yazılımı, veri madenciliği görevlerini gerçekleştirmek için DataMining Add-In ‘ine sahiptir. Office Excel 2007 yazılımı, Microsoft SQL Server Analysis Servisinin son kullanıcının daha kolay kullanması için 9 adet veri madenciliği modelini uygulama fırsatını sağlamaktadır. Excel ortamında sağlıklı bir şekilde İş Zekası projeleri için Veri Madenciliği görevlerinin gerçekleştirilmesi için SQL Server 2005 Add-In'in kurulum sonrasında kendi SQL Server'ınıza göre ayarlanması gerekmektedir. Aşağıdaki adımları takip ederek öncelikle SQL Server 2005 içi gerekli ayarlamaları gerçekleştirmeliyiz. (Aşağıdaki ayarlar İngilizce Vista ve Office 2007 ye göredir.)
İlk olarak Programs/Microsoft SQL Server Add-Ins/Server Configuration Utility sihirbazını çalıştırıyoruz.

Ben burada kendi Local Server'ıma Windows Authentication ile bağlantı yapacağım için değişiklik yapmıyorum ve Next diyorum.
Eğer yukardaki ekrana ulaşamadan erişimlerle ilgili bir hata aldıysanız ( burada sorulan hatanın aynısını ) Analysis Service Erişim İzinlerinde local kullanıcınızı Admin olarak belirlemek için Management Studio yu açarken "Run As Administrator" olarak açmalısınız. (Tabii ki de Analysis Service çalışıyor olmalı )
Problem yoksa Next diyip bu ekranı da geçiyoruz ve aşağıdaki ekrana geliyoruz.

Yukarda görmüş olduğumuz ekranda Excel 2007'nin geçici olarak verilerini atacağı ve modellemede birlikte çalışacağı bir database oluşturmamızı yada oluşturulmuş bir database'i seçmemiz isteniyor. Eğer daha önceden bu işlem için bir database oluşturmamışsanız, "DMAddinsDB" olarak bir database oluşturmasına izin verip, Next butonuna basıyoruz ve hangi kullanıcıya erişim yetkilerini vereceğimiz aşağıdaki ekrana geçiyoruz.

Yukardaki ekranda hangi kullanıcı aracılığıyla Excel 2007'nin SQL Server Analysis Service 'a erişeceğini belirliyoruz. Burada seçilecek kullanıcı Analysis Service'da Admin yetkilerine sahip olmalıdır.
Böylelikle 4 adımda Excel 2007 Data Mining Add-In 'ini sağlıklı bir şekilde kullanabilmek için SQL 2005 Analysis Service için gerekli konfigurasyonları wizard sayesinde gerçekleştirdik.
Modelin Excel 2007 DataMining Kullanılarak Gerçeklenmesi
SQL Server 2005 Data Mining Add-In' ni bilgisayarınıza kurduktan sonra Excel 2007 'yi açtığınızda aşağıdaki gibi Data Mining Sekmesi eklenmiş olacaktır.
jpg.jpg)
Veri Setimiz üzerinde, WEKA yazılımında gerçekleştirmiş olduğumuz kümeleme işlemlerini Excelde de gerçekleştirebilmek için xls formatındaki verileri excel’de açıyoruz ve daha sonrasında Data Mining Sekmesi altında ki Cluster işlemlerini yapabilmek için Advanced / Create Mining Model düğmesine tıklıyoruz.
.jpg)
Karşımıza Data Mining Cluster Wizard çıkıyor.
Next diyoruz ve veri madenciliği modelimizi seçeceğimiz ekrana ulaşıyoruz.
Yukardaki gibi karşımıza çıkan ekranda istediğimiz parametreleri girebilmek amacıyla “Parameters ” butonuna tıklıyoruz ve Weka ile aynı parametrelerin geçerli olmasını sağlıyoruz.
Burada hemen şunu belirtmek isterim ki ; Microsoft Clustering Algoritması 4 farklı Clustering Algoritmasından oluşmaktadır ve biz hangi algoritmaya göre kümeleme işlemini gerçekleştireceğimizi belirtmeliyiz. (2)
Microsoft Clustering Modeli aşağıda ki 4 algoritmayı desteklemektedir.
1) Scalable EM (default olarak bu seçilidir.)
2)Vanilla (non-scable) EM
3) Scable K-Means (biz bu proje için bunu tercih ediceğiz.)
4) Vanilla (non-scable) K-Means
Yukarda Cluster_Count olarak 2 sayısını girerek; 2 kümeye ayırmasını istedik. (Zaten K-Means Algoritmasında ki K bizim belirlediğimiz küme sayısıdır.)
Clusterin_Method olarak da 3 sayısını girerek “Scalable K-means” algoritmasını seçmiş olduk.
Bir sonraki ekranda kümelemeye dahil edeceğimiz, attribute’lar karşımıza çıkıyor. Burada hepsini dahil ediyoruz.
Bir sonraki ekranda gerçekleştirilecek kümeleme işlemine isim ve tanım bilgilerini girmemiz isteniyor. Buraya uygun ifadeleri yazıyoruz.
Tüm değerleri girdikten sonra, Finish butonuna basıyoruz ve kümeleme işlemini başlatıyoruz.
Kümeleme işlemi bittiğinde, müşterilerin % 55 ve % 45 oranında kümelendiği sonucunu görüyoruz.
Sonuçların Karşılaştırılması :
Weka yazılımında, K-Means algoritması ile gerçekleştirilmiş olan kümeleme işleminde müşteriler %47 ve % 53 oranlarında 2 gruba ayrılmıştılar. Buna karşılık Excel Data Mining Add-In kullanılarak yapılan kümeleme işleminde ise %55 ve % 45 gibi bir oranla karşılaşıldı. 100 kişinin verisi üzerinde algoritmayı çalıştırdığımıza göre çıkan % 2 lik farklılık 2 kişiye karşılık geliyor olarak düşünülebilir.Oluşmuş olan bu farklılığın, 1 veya 2 kayıdın Excel tarafından yada Weka tarafından diğer kümeye dahil edilmesinden kaynaklanmış olabilir. Örnek olarak bir kayıdın, birinci küme merkezine olan uzaklığı ikinci küme merkezine olan uzaklığına daha yakınsa o kayıd ikinci kümenin elemanı olarak değerlendirilmiş olmaktadır. Bu da oluşan kümelerin bu gibi durumlarda homojenliğini kayıp edebileceği sonucunu ortaya koymuştur. Outlier değerlerde ki oluşabilecek sapmalara dikkat etmek gerekmektedir.
(1) Kavram ve Algoritmalarıyla Veri Madenciliği –Gökhan Silahtaroğlu - Papatya Yayınları-2008
(2) Data Mining with SQL Server 2005 – Tang/ MacLennan – Wiley Press - 2006