Azure ML Studio ile COVID19 Tahminlemesi

Muhtalip Dede
4 min readApr 5, 2020

Merhabalar,

Bu yazımda son zamanlarda bütün dünyayı etkisi altına alan koronovirüs datası üzerinde Machine Learning algoritmasıyla Azure ML Studio üzerinde bir tahminleme modeli tasarlayacağız.

İlk olarak internet üzerinde çeşitlik kaynaklardan elde edebileceğiniz güncel koronavirüs dataseti bulunmaktadır. Ben bu model üzerinde çalışırken aşağıdaki linkten indirmiş olduğum dataseti kullanacağım.

İlk işlem olarak indirmiş olduğumuz bu datasetini Azure ML Studio üzerinde kullanabilmek için import edeceğiz.

Burada modelin sağlıklı çalışabilmesi adına datasetinizde bulunan kolonların data tiplerini doğru bir şekilde import edilmesi önemlidir. Dataseti Azure üzerine import ettikten sonra kullanabilir hale gelmektedir. Designer üzerinden modelimizi geliştirmeye başlayalım. Eklemiş olduğumuz Dataseti sürükle bırak yöntemiyle modelimize ekleyelim.

Eklemiş olduğumuz dataset içerisindeki kullanmak istediğimiz kolanları Select Column in Dataset özelliğini kullanarak seçebiliriz. Ben ilk aşamada tüm kolonları modele ekleyeceğim.

Bu işlemden sonra eklemiş olduğumuz datasetten belirli bir bölümünü eğitim datası olarak geri kalan kısmını da test datası olarak kullanacağız. Bunun için Split Data özelliğini kullanacağız. Ben model üzerinde nisan ayı datasını eğitim datası olarak kullanacağım. Önceki datalar ise eğitim datası olarak kullanılacaktır.

Daha sonra modelde kullanmak istediğiniz machine learning algoritmasını seçebilirsiniz. Ben bu modelde Boosted Decision Tree Regression algoritmasını kullanacağım. Modeli eğitmek için Train Model özelliğini kullanacağız. Train model iki input almaktadır. İlk input çalışacak olan algoritmayken ikinci input eğitim datasıdır. Burada ayrıca tahminlemek istediğiniz kolonu da seçmelisiniz. Ben bu modelde ölüm sayısını tahminlemek istiyorum.

Model eğitildikten sonra sonuçları skorlayabilmek için Score Model özelliğini kullanacağız. Score Model input olarak iki input almaktadır. İlk input eğitilmiş data ikinci input ise test edilecek datadır.

Modeli skorladıktan sonra en son olarak değerlendirebilirsiniz. Bunun için Eveluate Model özelliğini kullanacağız. Eveluate Model bize input olarak modelin ne kadar sağlıklı çalıştığı tahminlemenin ne kadar düngün yapıldığı hakkında bilgiler verecektir.

Modeli oluşturduktan sonra Modeli Submit ederek çalıştırabilirsiniz. Modeliniz başarılı bir şekilde çalıştıktan sonra sonuçları inceleyebilirsiniz. Ek olarak modelinize tahminlenecek olan kolonla en çok ilişkili kolonları saptayabilmek için Filter Based Features Selection özelliğini ekleyebilirsiniz. Aşağıda da görüldüğü üzere ölüm verisiyle en ilikili olan kolon tespit edilen hasta sayıdır.

Sonuçları karşılaştırmak için üç örneklem ülke seçeceğim. Bu ülkeler Çin, İtalya ve Türkiye olacak. Gerçek data üzerindeki tarih bazlı tespit edilen hasta ve ölüm grafikleri aşağıdaki gibidir.

Şimdi nisan ayı için gerçekleşen ve tahminlenen datasetlerini karşılaştıralım. Burada tahminlenen değerler gerçekleşen değerlere ne kadar yakın olursa ve hata ne kadar az olursa model o kadar sağlıklı çalışıyor demektedir. Bizim kurmuş olduğumuz modelin sonuçları aşağıdaki şekildedir.

Buradaki sonuçlardan tahminlemenin çok iyi olmağını ama ortalama bir sonuç çıkardığını görebiliriz. Bu modeli ölüm verisini etkileyen farklı datalar eklenerek, test ve eğitim datasetlerini iyi belirleyerek veya daha farklı machine learning algoritması kullarak arttırabilirsiniz.

Yukardaki grafikler tasarladığımız modelde nisan ayı için tahminlenen ölüm sayıları ile gerçekleşen ölüm sayılarının grafiğini göstermektedir. Bir sonraki yazıda görüşmek üzere…

Sağlıcakla,

Muhtalip Dede

--

--