Kullanıcı Dostu Veri Bilimi Aracı : IBM SPSS Modeler
SPSS modeler, IBM tarafından geliştirilip veri madenciliğinde gerekli bütün araçları bir arada sunan güçlü bir araçtır. Verinin okunup işlemesini, görselleştirme, modelleme, modelleme sonuçlarının değerlendirilmesi ve çıktıların gerekli yerlere aktarılmasını sağlamaktadır. Sürükle-bırak yöntemiyle kullanıcı ara yüzü oldukça kullanışlıyken görsel akış sayesinde süreçlerin takibi kolaylıkla yapılabilmektedir.
SPSS Modeler birçok farklı kaynaktan veriyi okuyup işleyebilmektedir. Bu kaynakları şöyle sıralayabiliriz:
- ODBC’yle bağlantı sağlanan veri tabanları (Microsoft SQL Server, Db2, Oracle vb)
- Text dosyaları (*.csv, *.txt)
- Excel
- IBM Cognos BI server
- SPSS (*.sav or *.zsav ) ve SAS (*.sas7bdat) dosyaları
- JSON dosyaları
- Geospatial (Coğrafi) veriler
SPSS modeler verideki kayıtları işlemede de birçok kolaylar sağlamaktadır.
- Farklı veri kaynaklarını (Tabloları) birleştirme
- Veriyi tekilleştirme
- Verideki belli kayıtları seçme
- Veriden örneklem alınması
- Verinin sıralanması
SPSS modeler veriyi okuyup işledikten sonra:
- Veri tipini değiştirme
- Gereksiz kolonları eleme
- Yeni bir kolon oluşturma
- Boş verilerin manipülasyonu
- Verideki bir kolonun aralıkları baz alınarak kategorik hale getirilmesi (Binning)
- RFM analizi
- Verinin öğrenme, test ve validasyon olarak ayrıştırılması gibi işlemler kolaylıkla yapılmaktadır.
SPSS modeler birçok makine öğrenmesi algoritmasını desteklemektedir:
- Karar ağaçları (XG-boost, C&R, C5.0 , random forest vb)
- Linear modeller (Regresyon, lojistik regresyon, GLMM vb.)
- Kümeleme algoritmaları (KNN,Kmeans, two-step vb)
- Yapay sinir ağları
Bu algoritmalarla birlikte hedef değişkenin tipine göre otomatik modelleme desteği sayesinde birden çok model aynı eğitilip sonuçlarını karşılaştırma imkânı sunmaktadır.
SPSS modeler hem model sonuçlarını değerlendirmede hem de veriyi anlamlandırmak için görselleştirme imkanı da sağlamaktadır. Bunlardan bazıları:
- Histogram
- ROC ve Lift grafiği
- Çizgi grafikler