R’da tüm korelasyonları toplu göstermek


Verisetiniz içerisinde kaç parametre varsa bunların birbirleri ile ilişkisi için teker teker korelasyonlara bakmanıza gerek yok. R’da bu işlemi topluca yaparak zaman kazanabilirsiniz.

Veri Amerika’nın Wyoming eyaletindeki suç verileri (2013)

  library(xlsx)
  a=xlsx::read.xlsx("wyoming.xls",sheetName = "13tbl8wy"
                    ,as.data.frame = T
                    ,stringAsFactors=F)
  #NA konları sil
  a=a[colSums(!is.na(a)) > 0]
  #correlation pairs
  panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
  {
    usr <- par("usr"); on.exit(par(usr))
    par(usr = c(0, 1, 0, 1))
    r <- abs(cor(x, y))
    txt <- format(c(r, 0.123456789), digits = digits)[1]
    txt <- paste0(prefix, txt)
    if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
    text(0.5, 0.5, txt, cex = cex.cor * r)
  }
  pairs(a[1:5], lower.panel = panel.smooth, upper.panel = panel.cor)

#corelation pairs fonksiyonundan sonraki kısımla aşağıdaki gibi koralasyon tablosu elde edebiliyorsunuz.

Gördüğünüz üzere hem korelasyonlar hem grafikler kolayca eşleştirilebiliyor. Bu grafikten ne anlıyoruz. Wyoming için 2013 yılında şehir bazında nüfus ile işlenen şiddet içeren suçlar arasında ciddi ilişki var. O zaman küçük yerler daha güvenli olabilir. Ama kumarbaz yanılgısına düşmeyin. Küçük ihtimaller gelip sizi bulabilir.

Reklamlar

Veri Bilimcinin Yol Haritası


Öğrenilecek şeyler çok olunca sadece onların listesini bile düzenli bir yerde tutmak gerekiyor. Yüzlerce farklı kaynaktan, röportajdan ve listeden derlediğim bir kısmını da daha önceden kullandığım ‘şeyler’. İşte veri bilimciliğinde öğrenilmesi gereken şeylerin ‘canlı’ ve yapılandırılmış listesi:

  • Kullanılışlı API’ler:

    • Bu API’ler özellikle sosyal medya madenciliğinde yararlıdır:
    • Facebook API
    • Quandl API (Finansal veri API’si)
    • IBM Watson API
  • Sık kullanılan güncel algoritmalar / modeller / teknolojiler:

    • Bir çok yerde karşınıza çıkacak öğrenilmesi gereken konular:
    • Artificial Neural Network
    • eXtreme Gradient Boosing
    • Elastic Net
    • Vowpal Wabbit
    • Factorization Machines
    • LibFFM
    • Regualized Greedy Forest (RGF)
  • Değerli portaller:

    • Bu portallere ara sıra bakıp, okumalı:
    • AnalyticsVidhya: Hintliler bu işi de kimseye bırakmamış.

    • KDNuggets: Öğrenme kaynakları

    • Özellikle tasvsiye: Kaggle: Açık yarışmalar,StoryCV oluşturma
    • Springboard : Veri bilimciler için iş ilan sitesi
    • DataKind : Gerçek veri bilim problemleri ile uğraşın
  • Veri Kaynakları ve Kaynak Listeleri

  • Kurslar:

  • Veri Görselleştirme Araçları:

  • R /Python Paketleri

    • El altında bulunması gereken R/Python paketleri
    • RVest: Web’den metinsel veri derlemek için
    • Python için RAKE algoritması kütüphanesi. RAKE unsupervized yolla metin sınıflandırma imkanı sağlıyor. Python paketi burada
  • El altı sunumlar:

    ** Bir kaç slaytla dertlere deva olanlar**:

  • Makale Listeleri/ Makaleler:

(CopyPaste ya da ‘phrapase’ etmeden önce bir kez daha düşünün:)