Data Wrangling Cases: Case #1: Emre’s Language Score Problem


userscore_typescore
jimmytoefl80
catherineielts33
fitzwilliamtoefl90
emreielts100
emretoefl99

Let’s contemplate a data set like above. Any user can have TOEFL or IELTS score. Some of them like ‘Emre’ has two score together. Let’s think we want to convert this dataset like below:

userieltstoefl
jimmyNone80
catherine33None
fitzwilliam90None
emre100None
emreNone99

What we did? We just converted two factor type of score_type as a column and get the corresponding values from to the newly generated score columns. During this conversation if person has not given type of exam we put ‘None’ and if any person has more than one exam we put each score within a new row.

How can we perform this conversion? Manually? Perfect for a few row! What we do when there is 40.000 of row? The GG should answer this question? 🙂

Use Python Language:

import pandas as pd
df = pd.read_csv("/home/satan/Masaüstü/data.csv",sep="|")
# you can either use a function disctincts kind of factors from score_type column by df['colname'].unique().tolist()
score_factors = ['toefl','ielts']
for factor in score_factors:
  df[factor] = None
# distribute the values to added columns
j = 3 # due to additional columns should start from 3'th column
score_type_column_nr = 1 # locate where is score_type column
for factor in score_factors:
  for index,row in df.iterrows():
    stype = df.iloc[index,score_type_column_nr]
    corresponding_column_no = j
    if (factor in stype):
      df.iloc[index,corresponding_column_no] = df.iloc[index,2]
    else:
      pass
  j = j+1 

That’s all. Can you solve this problem with your veteran Excel? I think no 🙂 If you can write, please explain how, to below. Don’t forget, to add how much time you spend to solve the problem including goggling.

For me I didn’t open the browser and wrote it within 15 minutes! Huh ?

Note: This scenario and its answer is original and firstly published from Dr. Suat ATAN’s blog

Reklamlar

Firebase Kullanmaya Giriş


Firebase Google’ın sunduğu sunucu tarafı olmasına ihtiyaç bırakmayan bir hosting, veritabanı ve barındırma hizmetidir. Firebase ile hızla site hazırlayıp yayınlayabilirsiniz. PHP, Java, Python, C# veya başka bir dil kullanmaya gerek yoktur. Veri tabanı işlemleri dahi Javascript ile yapılır. Veritabanı olarak da Firebase Collections adlı bulut sisteminde veriler JSON benzeri yapıda tutulur.

Aşağıdaki komutlarla Firebase üzerinde çalışmaya hazır ve veritabanı bağlantısı yapan (Firebase Collection ile) ve Vue gibi herhangi bir araçla bağlantısı olmayan düz bir web uygulaması hazırlanır. Vue kullanarak Vue SPA tarzı bir uygulama için yazının devamındaki başlığa bakın:

Firebase sitesine giderek yeni bir proje oluşturun.

Aşağıdaki Komutları Çalıştın

#Eğer yoksa şu komutla kurun (windoesta sudo kullanmayın)
sudo npm install -g firebase-tools
#Başlatın
firebase init
#Lokalde çalıştırın
firebase serve --only hosting

Daha sonra index.html dosyasını şöyle dizayn edin

<!DOCTYPE html&gt;
<html&gt;
 <head&gt;
  <meta charset="utf-8"&gt;
  <meta name="viewport" content="width=device-width, initial-scale=1"&gt;
  <title&gt;Atan Finans</title&gt;

 <!-- Insert these scripts at the bottom of the HTML, but before you use any Firebase services --&gt;

 <!-- Firebase App (the core Firebase SDK) is always required and must be listed first --&gt;
 <script src="https://www.gstatic.com/firebasejs/5.9.4/firebase-app.js"&gt;</script&gt;

 <!-- Add Firebase products that you want to use --&gt;
 <script src="https://www.gstatic.com/firebasejs/5.9.4/firebase-auth.js"&gt;</script&gt;
 <script src="https://www.gstatic.com/firebasejs/5.9.4/firebase-database.js"&gt;</script&gt;


 <script src="https://www.gstatic.com/firebasejs/5.9.4/firebase.js"&gt;</script&gt;
 <script&gt;
  // Initialize Firebase
  var config = {
   apiKey: "Bu Kodu firebase konsolundan alın webden",
   authDomain: "siteadiniz.firebaseapp.com",
   databaseURL: "https://atanfinans.firebaseio.com",
   projectId: "siteadiniz",
   storageBucket: "siteadiniz.appspot.com",
   messagingSenderId: "Bu kodu fireabse konsolunda alın webden"
  };
  # Veritabanına veri ekleme
  firebase.initializeApp(config);
  var db = firebase.firestore();
  db.collection("users").add({
  first: "Ada",
  last: "Lovelace",
  born: 1815
  })
  .then(function(docRef) {
    console.log("Document written with ID: ", docRef.id);
  })
  .catch(function(error) {
    console.error("Error adding document: ", error);
  });


 </script&gt;

 <style media="screen"&gt;

 </style&gt;
 </head&gt;
 <body&gt;
  <div class="ana"&gt;
   <h1&gt;Atan Finans</h1&gt;

  </div&gt;
 </body&gt;
</html&gt;


Firebase Üzerinde Vue Uygulaması

Vue Uygulaması kendi içinde özel bir dosya yapısı ve modüller barınıdırır. Bunun için özel bir kurulum gerektir:

vue create vue-app

Vue Uygulamasında Vuex ve Sass kullanmak için (kullanmanız önerilir) modülleri şöyle eklemelisiniz:

vue init webpack vue-app
npm i vuex
npm i node-sass sass-loader --save-dev

Projeyi lokale çalıştırmak için:

npm run dev

Projeyi sunucuya yüklemek için:

firebase deploy

Dosya transferinde upload zamanından kurtulmak


Bir arkadaşına dosya yolladığınızda dropbox, drive veya benzer bir araç kullanırsın. Bu araçlar önce dosyayı buraya yüklersiniz sonra karşı taraf onu indirir. Ancak dosyanın büyük olduğu zamanlarda upload süresinden yırtmak için bir yol var. Bu yolla senin bilgisayarınızdaki dosya direkt olarak arkadaşınızla paylaşılmış oluyor. Yani arkadaşınız dosyayı direkt sizin bilgisayarınızdan çekmiş oluyor. Bu işlemi şu site yardımıyla yapabilirsiniz:
https://takeafile.com/

Tek yapmanız gereken dosyayı bu siteye sürükleyip bırakmak. Sistem anında bir bağlantı oluşturuyor ve bu bağlantıyı arkadaşınıza yolluyorsunuz. Bağlantı tıklandığı anda arkadaşınız direkt olarak sizin bilgisayarınızdan dosyayı indiriyor.

Küçük bir not: Bilgisayarınızı kapatırsanız işlem duracaktır. Bu nedenle bu bağlantı kalıcı değildir. Bu uygulamayı devamlı açık olan bilgisayarların arasında kullanmak faydalıdır.

Market Sepeti Analizi Nedir?


Bir markette herkes sepetine farklı ürünler doldurur. Ancak her sepette genellikle bir arada bulunan ürünler vardır. Bu ürünlerden örneğin kola ile cipsin bir arada alınması beklenebilir ancak beklenmediği halde bir arada olan ürünler olabilir mi? Örneğin bira ile çocuk bezi bir arada sıkça görülür mü? Bir şehir efsanesine göre evet. İşte buna benzer kalıpları görebilmek için “market sepeti analizi” adı verilen bir analiz yapılır. Bu bir veri madenciliği yöntemidir.Bunu R ile yapmak için şurayıPython ile yapmak için şurayı okuyabilirsiniz.

R ve Regex Yardımıyla düzensiz bir metin içinden yılı yakalamak


Bir projemde aşağıdaki gibi iki tür metin vardı:

> a="Volume 29, Issue 3, July 2007, Pages 357-374"
> b="Published: 1999, Start page: 117"

a ve b değerleri içinden 2007 ve 1999 gibi sayıları çıkarmak istiyordum. Regex’te buna uygun bir patternin var olduğunu düşündüm. Şuradan test ettim: https://www.regextester.com/93651

Daha sonra R’da bulunan stringr paketindeki str_extract fonksiyonunu kullandım:

> str_extract(a,"(19|20)\\d{2}")
[1] "2007"
> str_extract(b,"(19|20)\\d{2}")
[1] "1999"

Özetle (19|20)\d{2} şeklinde yazdığım regex kodu şöyle söyler: Git o metnin içinden 19 veya 20 ile başlayan ve devamında iki sayısal karakter(d) olan veriyi yani yılı getir.

Getirdi de! Büyük veri zorlu veridir. Ama aşmak için her zaman yollar vardır.

Üç Boyutlu Öykü


Bugüne kadar okuduğum en güzel öykülerden biri Ömür İklim Demir muhtelif evhamlar kitabındaki adı uzun uzun çalann zillerr ve bir mutfak kapısı hakkında olan öyküsü bu öykü Aslında çok basit bir fikre dayanıyor ancak müthiş bir perspektifle anlatılmış.

Hikaye kendisine çarpan bir araba
yüzünden feci şekilde yaralanan bir köpek ile başlıyor daha sonra durduk yere bu köpeği kurtarmaya çalışan bir adam ve bir kadından bahsediliyor bu adam ve kadın yola çıktıktan sonra aslında o yolda bulunan başka bir belediyeci hikaye konu ediliyor Ancak bu kez anlatıcı belediyeci oluyor.

Belediyesi’nin kriz geçirerek düşmesi ve düşüklüğü ve ölümü çok epik bir dille anlatılıyor daha sonra bu anlatım içersinde belediyecinin ölümü sonrasında önceden ölmüş olan karısını görüşü anlatılıyor.

Final kısmı ise gerçekten ilginç belediyeci, karısı ve en son ölen köpek bir araya geliyorlar ve öykünün finalini köpeğin dilinden dinliyoruz.

CountVectorizer’in Çalışma Şekli


Python’da Metin Madenciliğine dayalı makine öğrenme modelleri kullanırken doküman külliyatınızı (corpus) kelime kelime sayılara (numpy.array formatında) çevirmek için CountVectorizer nesnesini kullanabiliyorsunuz. Çalışma şekli aşağıda:In [43]:

from sklearn.feature_extraction.text import CountVectorizer

a=["gel ali","gel suat","ali atan","suat atan"]

In [44]:

vec = CountVectorizer(max_features=10, min_df=2, max_df=10) 
X = vec.fit_transform(a)
print(X.toarray())
print(vec.vocabulary_)
[[1 0 1 0]
 [0 0 1 1]
 [1 1 0 0]
 [0 1 0 1]]
{'gel': 2, 'ali': 0, 'suat': 3, 'atan': 1}

In [54]:

new_sentence = "gel ali"
mapped_a = vec.transform([new_sentence])
print(mapped_a.toarray()) # sparse feature vector
print(vec.vocabulary_)
[[1 0 1 0]]
{'gel': 2, 'ali': 0, 'suat': 3, 'atan': 1}

In [55]:

new_sentence = "sen ali"
mapped_a = vec.transform([new_sentence])
print(mapped_a.toarray()) # sparse feature vector
print(vec.vocabulary_)
[[1 0 0 0]]
{'gel': 2, 'ali': 0, 'suat': 3, 'atan': 1}

Tahmin Yaparken Yeni Gelen Söz Dizisini Vektörize Etmek

“hakan gel” ifadesi külliyatınızda birebir yok sadece ‘gel’ ifadesi eşleşmekte. Bu diziyi vektörize edince corpus’ta ‘gülnur’ olmadığından matriste değer sıfır çıkacaktır.In [59]:

new_sentence = "hakan gel"
mapped_a = vec.transform([new_sentence])
print(mapped_a.toarray()) # sparse feature vector
print(vec.vocabulary_)
[[0 0 1 0]]
{'gel': 2, 'ali': 0, 'suat': 3, 'atan': 1}

In [60]:

tokenizer = vec.build_tokenizer()
# array of words ids
for token in tokenizer(new_sentence):
  print(vec.vocabulary_.get(token))
None
2