Sakarya Üniversitesinde başlamış olduğum yüksek lisans programını hayırlısı ile bitirmiş bulunmaktayım. Bitirme projem biraz tez tadında  ve kronik böbrek rahatsızlığını apriori algoritmasıyla ilk defa inceleyen bir çalışma olduğu için paylaşmayı kayda değer gördüm. %83 oranında kronik böbrek rahatsızlığının tahmin edilmesini sağlayan, karar destek mekanizması olarak başarılı bir inceleme yaptık.
Projenin %80 kısmı burada yer almaktadır.

Kalın Sağlıcakla.

ÖZET

Tıp ve sağlık sektöründe her geçen gün hastalıkların teşhis ve tedavileri için farklı yöntem ve uygulamalar geliştirilmektedir. Geliştirilen cihazlar ve teknolojik altyapılar ile hastaların ya da sağlıklı bireylere ilişkin milyarlarca veri kaydedilmekte ve depolanmaktadır. Depolanan bu veriler tek başına hiç bir anlam ifade etmemektedir.

Veri madenciliği, bu veriler arasındaki ilişkileri bularak anlamlı bir sonuç elde etmemizi sağlamaktadır. Apriori algoritması da veri madenciliğinde tekrarlanan öğeler arasındaki ilişkiyi tespit edip, anlamlı sonuçlar bulunmasını sağlamaktadır. Bu sonuçlar tıp sektöründen tahmin ve destek yapıları olarak karşımıza çıkmaktadır.

Bu çalışmanın amacı apriori algoritmasını kullanarak birliktelik ilişkilerini bulmak ve kronik böbrek rahatsızlığının tespit edilmesi aşamasında ilgili sağlık personeli için karar destek sistemi geliştirmektir.

Rapid Minerdan destek alarak Apriori algoritması kullanılan bu çalışmanın sonucunda kronik böbrek rahatsızlığı görülen kişilerin kan değerlerinde ortak veri seti nitelikleri bulunmuş ve hastalığın karar aşamasını destekler nitelikte olduğu görüşmüştür.

Anahtar kelimeler: Veri madenciliği, kronik böbrek rahatsızlığı, apriori algoritması, birliktelik kuralı, tıp, sağlık.

GİRİŞ

İnsanoğlunun veriyi toplama merakı ki bu merak ihtiyaçtan doğmuştur, insanlığın varoluşundan beri süre gelen bir alışkanlıktır. Tarım ile uğraşan ilk insanlar güneşin mevsimsel doğuş ve batış saatlerini inceleyip mevsimler ve saatleri birliktelik kuralları yöntemine benzeyen yöntemlere göre inceleyerek mağara duvarlarına not ederek ekinlerini buna göre ekip, hasadını yapmışlardır.

Hayvancılık ile uğraşan diğer bir kesim ise hayvanların alışkanlıklarını gözlemleyip yerleşim yerlerini buna göre tasarlamış, avcılıklarını buna göre yapmışlardır.

Veri madenciliğinin tıp sektöründeki gelişim süreci de tıpkı diğer alanlar gibi bu dönemde örnekleriyle başlangıç gösterir. Hastalıkların çeşitli doğal ilaçlar ile kombinasyonu, gözlemlenmesi ve doğru tedavi yönteminin bulunmasının temelinde de veri madenciliği yatmaktadır. Tabii ki bu yaklaşımların hiçbiri veri madenciliğini tam olarak tanımlamaz.

Günümüzde de bu tarz çalışmalara yapılmış olsa da veri madenciliği için veriyi incelemek yetmemektedir, buna uygun veri ambarları üzerinden inceleyip bilginin keşfinden önce önerilen bir hipotez olması ve gizli bilgilerin keşfi gerekmektedir.

BÖLÜM 1: VERİ MADENCİLİĞİ

Veri madenciliği, verilerden üstü kapalı, çok net olmayan , önceden bilinmeyen ancak potansiyel olarak kullanılabilir bilgi ve örüntülerin çıkarılması olarak tanımlanabilir. (Yurtay, 2008)

Veri madenciliği tıp ve sağlık hizmetlerinde de bir çok konuya çözüm oluşturabilecek niteliktedir. Hastalıkların ortaya çıkışlarında ki temel sebepler tespit edilebilir ve buna uygun tedavi yöntemleri geliştirebilir. Alakasızmış gibi görünen bir değişken bile hastalıkların temelini oluşturabilir.

Burada bir örnekte Malcolm Gladwell’in Outliers kitabından verilebilir.

Yazar, kitabın “Roseto’nun Gizemi” kısmında İtalya’nın yüz mil güneydoğusunda ki Foggia’nın Roseto Valfortore kasabasındaki insanlardan şu şekilde bahsetmektedir, “BU İNSANLAR YAŞLILIKTAN ÖLÜYORDU. O KADAR.”

Hikayenin asıl ilginç kısmı, Wolf isimli hekim Roseto’ da yaşayan 65 yaş altı hiç bir bireyin kalp hastalığına yakalanmadığını fark eder ve çalışmalara başlar. Çalışma devam ettikçe ölüm oranlarının genelinin nüfusa oranla %35 daha az olduğunu fark eder ve nedenlerini araştırmaya devam eder. John Bruhn ismindeki sosyolog arkadaşından da yardım ister. Bruhn’nın bulduğu sonuçlar aslında doğru iz üzerinde olduklarını kanıtlar niteliktedir. Görüştükleri insanların hiç birinde intihar, alkolizm, uyuşturucu vb. Yoktur. Suç oranları çok düşüktür ve sosyal yardım alan kimse yoktur. Sonuç olarak ölen tüm insanlar yaşlılıktan ölüyorlardır. Araştırmalarına devam ettiklerinde buldukları tüm veriler onları şaşırtmaya devam eder. Yeme alışkanlıklarının Amerikalılarla kıyaslandığında daha sağlıksız besleniyor olduklarını, spor alışkanlıklarının çokta olmadığını ve çoğu Rosetolu’nun şişmanlıktan muzdarip olduğunu fark eder. Aldıkları hiç bir veri onları istediği sonuca götürmüyordu. Daha sonra aslında bunun nedeninin ROSETO’ nun kendisinde olabileceğini keşfederler. Gösterişten uzak yaşam biçimler, aile içi düzenleri, eşitlikçi hayat felsefeleri. Wolf ve Brahn Rosetoluların kendilerine baskılardan uzak güçlü bir yapı kurduklarını ve bu nedenle bu kadar sağlıklı olduklarını keşfederler.

Sonuç olarak Wolf ve Brahn çok alakasız bir değişkeni fark edip insanlığın sağlığa ve kalp krizine çok farklı bir bakış açısıyla bakılmasını sağlamışlardır.

1.1. Tıp ve Sağlık Hizmetlerinde Veri Madenciliği

Veri madenciliği genel kabule sahip hipotetik değerlerin sınanması yerine farklı gruplara , farklı çözümler getirilebilir.

Ön test yazılımlarla verilerin güvenliği konusunda önlemler alınabilir. Bunların dışında veri madenciliği ile

  • Sağlık personelinin performansının izlenmesi,
  • Hasta akış planlarının yapılması,
  • Tıbbi tedavi süreçlerinin optimizasyonu (klinik rehber),
  • İlaç kullanım hata ve yan etkileri için erken uyarı sinyallerinin belirlenmesi,
  • Veri Madenciliğine dayalı olarak hasta ve ilaç kullanımının profillendirilmesi ve Türkiye ilaç kullanım haritasının hazırlanması,
  • Kronik hastalıklarda veri madenciliğine dayalı olarak ilaç kullanım alışkanlıkları ve risk tespiti,
  • İlaç birim maliyetlerinin hesaplanması,
  • İlaç inovasyon maliyetlerinin belirlenmesi
  • Bioterörizme karşı sağlık veritabanı oluşturulması,
  • Afet telafisinde önceliklerin ve minimum maliyetlerin belirlenmesi

Son yıllarda artış göstermesi ile birlikte veri madenciliğine ilgi artmış ve 2015 yılında zirve yapmıştır. Sağlık sektörü içinde bunun nedeni açıkça ortadır.

2011 Yılında Arizona’da yapılan SIAM konferansında Allina Hospitals ve Chengchi Üniversitesi tarafından yapılan bir araştırmada, upi.com‘ a göre Amerika ülke ekonomisinin %17’ sini sağlık hizmetlerine harcıyor gene aynı araştırmada cnnmoney.com‘ a göre bu harcamaların 1.2 Milyar Doları boşa harcanan para olarak belirtilmiş. Amerika’da 2009 yılında Obama kaliteyi iyileştirmek ve sağlık sektöründe ki eksikliğin giderilmesi için sağlık reformu yasasını imzalamış ve 19 Milyar Dolarlık Bütçe ayrılmasını sağlamıştır.

Aynı araştırmanın içeresinden sağlık ve tıp hizmetlerinde veri madenciliğini dört ana başlıkta incelenmiştir.

  • Teşhis ve Tedavi
  • Sağlık Kaynak Yönetimi
  • Müşteri İlişkileri Yönetimi (CRM)
  • Dolandırıcılık ve Anomali Tespiti

1.1.1. Teşhis ve Tedavi

Yapılacak araştırmalar dahilince ulaşılacak sonuçların doktorları ve sağlık personelini destekleyici ve işlerini kolaylaştırıcı bir yapı oluşturmak hastalığın teşhis ve tedavi biçimini planlamada desteklemek amaçlanmıştır. Bu alanda birçok çalışma yapılmıştır.

  • Deri Lezyonlarının sayısallaştırılmış görüntülerinin teşhis ve analizi. (Burroni, 2004)
  • Tümörlerin kemoterapiye yanıt verme durumu ve ultrasonik görüntülerin bilgisayar destekli analizi. (Hubi, 2000)
  • Manyetik rezonans ile beyin tümörlerinin tahmini. (Zellner, 2004)

Tedavi planlamaları da tıpkı teşhis gibi yeni yöntemlerle tıp dünyasında etkin bir şekilde kullanılmaya başlanmıştır.

1.1.2. Sağlık Kaynak Yönetimi

Sağlık Kaynak yönetimi konusunda da veri madenciliği bir çok teşhisin daha kısa sürede kullanılmasını sağlayabilir ve hastalık ileri seviyelere gelmeden erken teşhisle önlenebilir, bu bağlamda personel, ilaç, ulaşım gibi sağlığa ayrılan bir çok kaynaktan tasarruf edilebilir.

  • Kalp dışı cerrahi uygulayan Hastane profillerini , Lojistik regresyon modellerini kullanarak 30 gün içerisindeki ölüm riski durumlarını karşılaştırmak.
  • Sinirsel Ağ sistemi ile acil servise bronşit şüphesi ile giden çocukların hastalık durumunun tahmin edilmesi
  • Kanser tanısı konan hastaların ölüm risklerini tahmin etme.
  • Hastaların hastane yatış sürelerinin tahmini

1.1.3. Müşteri İlişkileri Yönetimi (CRM)

Daha sağlıklı müşteri ilişkilerinin kurulması ve müşteri memnuniyetinin kurulması için konuyla alakalı birçok çalışma yapılmış ve başarılı olunmuştur. Hastaların ve hasta yakınlarının bir çok değişkeni(bilgileri) göz önünde bulundurularak çeşitli çalışmalar yapılmıştır. Veri Madenciliği ile tüm sektörlerde kullanılan CRM yapıları sağlık sektöründe de kullanılabilir, entegre edilebilir. İhtiyaca yönelik çözümlerin bulunması. Müşteri tabanlı bir organizasyonun inşa edilmesi vb.

1.1.4. Dolandırıcılık ve Anomali Tespiti

Sigorta dolandırıcılıkları, reçete sahtekarlıkları ve normalden daha pahalı gerçekleştirilen tıbbi işlemlerin tespiti sinir ağları , en yakın komşu yöntemleriyle tespit edip engellenebilir. Hastanelerin satın alma birimlerinde ve tıbbi cihazların alımında gerçekleşebilecek sahtekarlıkların engellenmesinde de veri madenciliği kullanılabilir.

1.2. Ege Bölgesi’ndeki Bir Araştırma ve Uygulama Hastanesinin Acil Hasta Verilerinin Veri Madenciliği İle Analiz Edilmesi

Ege Bölgesi’ndeki araştırma ve uygulama hastanesinin acil servisine başvuruda bulunan 214 bin hasta verisi ile veri setindeki gizle ve anlamlı veriler birliktelik kuralı ile bulunmaya çalışılmıştır. Araştırma sonunda bir çok acil servis hasta profili ve nedenleri konusunda sonuç elde edilmiştir.

Çalışmanın sonunda 65 farklı tekli , iki ve üçlü kural elde edilmiştir. Çalışmada benim ilgilimi çeken kısım acil servislere geliş durumlarının kesinlikle ay ve mevsimlerle bağlı olarak herhangi bir kural oluşturulamadığıdır. Cinsiyet, yaş, acil servis kalma süreleri ile oluşturulan birliktelik kuralları örnek olarak aşağıdaki tabloda yer almaktadır.

Birliktelik

1.3. Veri Madenciliği Uygulamasına İlişkin Paü Hastanesinde Hasta Profilinin Belirlenmesi

PAÜ Hastane Bilgi Yönetim Sisteminde yer alan veriler kullanılarak 2008, 2009, 2010 ve 2011 gelen hastaların profillerinin belirleyen bir uygulama çalışması yapılmıştır. Uygulamanın , sağlık personellerinin en doğru bilgiye ulaşması ve buna uygun çözümler üretilmesi için en uygun karar destek ağacı olduğu gösterilmeye çalışılmıştır.

Araştırmada hastaların genel özellikleri değerlendirilerek gelen hastaların daha iyi tanımlanması ve sorunlara uygun çözümler bulunması amaçlanmıştır.

Araştırmada aylara , doğum yerine, cinsiyete, sosyal güvencesine ve polikliniğe göre hasta sayıları analiz edilmiştir.

Çalışmanın sonuçlarında hastalara daha iyi hizmetin verebilmek ve hasta memnuniyetinin arttırmak için şehir dışından gelen hastaların işlerinin bu bağlamda değerlendirilmesi ve kendilerine misafirhane hazırlanabileceği belirtilmiştir.

Hasta memnuniyetinin artması ile hasta sayısının ve buna bağlı olarak hastane gelirlerinin artacağı belirtilmiştir.

Cinsiyet farklılıkları göz önünde bulundurularak ileride hastane ait bir AVM yapılabileceği ve kadınlara yönelik mağazaların açılabileceği de diğer ilginç sonuçlardan.

1.4. Hastanelerin Gelecekteki Hasta Yoğunluklarının Veri Madenciliği Yöntemleri ile Tahmin Edilmesi

Bu araştırma ARIMA , Yapay Sinir Ağları(YSA) , Winter Additive yönetimini kullanarak gelecek aylardaki hastane yoğunluğunun tahmin etmek için yapılmıştır.

Yapay sinir ağları yöntemi istatistiksel model sınıflarındandır ve son yıllarda bir çok araştırmada kullanılmıştır.

YSA’nın insan beyninin özelliklerinden olan öğrenme yolu ile yeni bilgiler türetebilme, yeni bilgiler oluşturabilme ve keşfedebilme gibi yetenekleri, herhangi bir yardım almadan otomatik olarak gerçekleştirebilmek amacı ile geliştirilen bilgisayar sistemleridir. (Çayiroglu, 2012)

ARIMA modeller zaman serilerini incelemek için ve geleceği ilişkin tahminler yapmak için kullanılır. arima(p,d,q) şeklinde kullanılır. p: autoregressive

, d: kaç kere difference edildiğini, q: moving average

Her yöntemin modelleri önce kendi içinde kıyaslanmış, daha sonra da her yöntemin en iyi modelleri birbirleriyle kıyaslanmıştır. Winter Additive üstel düzgünleştirme modeli, verilerdeki son değişim ve sıçramaları dikkate alarak tahminlerin ya da öngörülerin devamlı güncellendiği bir yöntemdir.(Benli ve Yıldız, 2014)

Araştırmanın sonunda gelecekte ki hasta yoğunluğunun tahmini ve buna en uygun model bulunmaya çalışılmıştır. En kestirmeci model Winter Additive üstel düzgünleştirme modeli olmuştur. Uyum iyiliği bakımında ilk 7 aya bakıldığında ARIMA(3,1,0)(1,0,0)12 modeli ikinci en iyi olsa da ileriki aylarda tahmin değeri kötüye gitmiştir. Yapay sinir ağları modelide , Winter Additive üstel düzgünleştirme modeline oldukça yakın tahminler yapsa da öğrenme problemleri gerçekleştiği görüşmüştür.

Araştırmanın geneline bakıldığında Veri Madenciliği Hasta yoğunluğunun tahmini için kullanılabileceğini göstermiştir.

1.5. Veri Madenciliği Kullanarak Kalp Rahatsızlıklarının Tahmini

Bu araştırma da sağlık sektörünün veri madenciliği ile işlenmesine en uygun alanlardan bir olduğu ve hasta sayısının doktor sayısı ile doğru orantılı olmadığı belirtilmiştir. Kalp krizi ve kalp rahatsızlıkların bazen belirtilerinin ihmal edildiği ve kalp rahatsızlıklarının belirlenmesin aslından büyük uzmanlık gerektiren bir iş olduğunun üzerinden durulmuştur.

Kalp hastalıklarının önceden belirlenmesi için araştırmacı CART, ID3, C4.5, CHAID ve J48 gibi bir çok karar ağacı içerisinden J48 karar ağacı ile algoritmayı yürütmüştür .

J48 için C4.5 ağacını WEKA programında yazılmış hali diyebiliriz. Verilerden ilgili özellikleri otomatik seçme ve işleme yeteneğine sahiptir. Sınıflandırma yeteneği en yüksek algoritmalar arasındadır. IF-THEN kuralına dayalı bir karar ağacıdır. Araştırmanın sonucunda bu karar ağacının en uygun karar ağacı olduğu ve kalp hastalıklarının tahmini için kullanılabileceği belirtilmiştir.

1.6. Ekg Sinyallerinin Kaba Kümeler Teorisi Kullanılarak Sınıflandırılması

Bu çalışmada kalp rahatsızlıklarının erken teşhis ve tedavisi amaçlanmıştır. Kaba Küme Teorisi(KKB) bulanık kümeler üzerinden analiz ve bilgi çıkarımı için kullanılan ve eksik, gereksiz, tutarsız bilgileri belirli kurallar bütününde süzüp doğru bir şekilde sınıflandırılmasını sağlayan kural tabanlı bir yöntemdir. Araştırmada ayırt edilebilirlik matris ve ayırt edilebilirlik fonksiyonları için ROSE programı kullanmıştır. Sınıflandırmada ise WEKA programından yardım alınmıştır.

EKG sinyallerinden 4 farklı hastalığa tanı koyulabilmektedir. 4 hastalığında sinyal belirtileri farklı olduğu için sınıflandırılmaya ihtiyaç duyulmuştur. Sınıflandırılan sinyaller KKB ile yorumlanmıştır.

Eskişehir Osmangazi Üniversitesinde 689 Hastanın EKG sinyalleri kullanılmıştır.

Uygulamanın Sonuçlarında %85 ‘e yakın bir doğruluk oranı ile sınıflandırma işlemi yapılmıştır.

1.7. Hastane Enfeksiyonlarının Gizli Örüntülerinin Bulunması : Bir Veri Madenciliği Yaklaşımı

Bu araştırmada her geçen gün artan hastane enfeksiyonların tespiti için yeni doğan bakım ünitesindeki hasta enfeksiyonlarına veri madenciliği yöntemi uygulanmıştır. Veri seti Osmangazi Üniversitesi tarafından hazırlanmıştır. Yapay sinir ağları ve karar ağaçları kullanılarak çapraz ve basit doğrulama yöntemleri kullanılmıştır.

Verilerin analizinde SAS Enterprise Miner kullanılmıştır. Bir çok değişkeni göz önünde bulundurarak yapılan bu araştırmada yapay sinir ağları ve CHAID karar ağaçları hasta enfeksiyonunda başarılı olmuştur. Antibiyotik ve üriner kateter vb bir çok maddenin kullanılmasının enfeksiyonları tetiklediği ortaya çıkmıştır.

1.8. Veri Madenciliği İle Akciğer Kanserinden Patolojik Evrelendirme : Klinik ve Patolojik Bilgiler Arasında Korelasyon

Akciğer kanseri her iki cinsiyette de önde gelen kanserlerden biridir ve dünya üzerinde ki ölümlerin %20 si akciğer kanseri yüzündendir. 19. Yüzyılda da akciğer kanseri büyük ölçüde artmıştır. Bu araştırmada akciğer kanserinin ilk evrelerinde tespiti ile ölümle sonuçlanan vakaların azaltılması amaçlanmıştır.

Akciğer kanserinde tümörün büyüklüğü ve yayılması patolojik sonuçlara göre belirlenmektedir. Bu sonuçların önceden belirlenmesiyle tedavi yöntemlerinde değişiklik göstermektir.

Patolojik ve klinik raporlar arasında ilişkiyi bulmak için veri madenciliği kullanılmıştır.

Eksik ve aynı veriler temizlenerek apriori algoritması kullanılmıştır.

Araştırmanın sonucunda hastalıkların tespit ve tahmini için güncel veri ambarları üzerinde çalışılması gerektiği sonucuna varılmıştır ayrıca farklı ağaçlar ve kurallar türetilerek en doğru karar ağacı bulunmuştur.%80 yakın bir tahmin ile başarılı olunmuş ve hastalığın teşhisinde doktorlara ve sağlık personelleri tarafından kullanılabileceği belirtilmiştir.

1.9. Tıp ‘da Veri Madenciliği Uygulamaları: Meme Kanseri Veri Seti Analizi

Bu tez çalışmasında meme kanseri teşhisi için IDE3, C4.5 ‘a dayanan J48 ve Bayes sınıflandırma algoritmalarından Naive-Bayes , lojistik regresyon ve örnek tabanlı algoritmalardan Kstar algoritmaları koşturulmuş ve başarı dereceleri karşılaştırılmıştır. Seçilen yöntemlerin uygulama kısmında WEKA programı kullanılmıştır.

University of Wisconsin Hospitals, Madison Dr. William H. Wolberg elde edinilen veri tabanına 683 farklı örnek incelenmiştir. Karşılaştırma amaçlı olarak regresyon tabanlı yöntemlerinden lojistik regrasyon %96,92 ile en doğru sonucu vermiştir. Lojistik regresyon algoritmasının en yakın takipçisi NaiveBayes algoritması %96.33 ile ikinci en iyi sonucu çıkarmıştır, çalışmada J48 ile K Star algoritmaları doğruluk olarak %95.74 aynı sonuçları üretmiştir.

Kesinlik ölçütü bakımından Naive-Bayes en iyi sonuçları oluşturmuştur ve J48, Lojistik Regresyon ve KStar sırasıyla takip etmiştir.

BÖLÜM 2: BİRLİKTELİK KURALLARI

Çalışmanın bu aşamasında apriori algoritmasının temeli olan birliktelik kuralı ve apriori algoritması tanımlanmış ve hazırlanan veri seti ile apriori algoritmasına örnek verilmiştir.

1990’lı yılların başına dek teknik yetersizlikten dolayı, kurumlara veya müşterilere satış yapıldığı anda değil belirli bir zaman aralığında (günlük, haftalık, aylık, yıllık) gerçekleşen satış hareketlerinin tamamına ilişkin genel veriler elektronik ortamda tutulmaktaydı. Barkod uygulamalarındaki gelişme, bir harekete ait verilerin satış hareketi oluştuğu anda toplanmasına ve elektronik ortama aktarılmasına olanak sağlamıştır. Genellikle süpermarketlerin satış noktalarında bu tür veriler toplandığından, toplanan bu veriye Pazar Sepeti verisi adı verilmiştir. Pazar sepeti verisinde yer alan bir kayıtta, işlem numarası, işlem tarihi ve satın alınan ürünlere ilişkin ürün kodu, miktarı, fiyatı gibi bilgiler yer almaktadır (Gürsoy, 2009).

En klasik örneği sepet analizidir. Bu analizde müşterilerin beraber satın aldığı ürünlerin analizi yapılır. Amaç ürünler arasındaki pozitif veya negatif korelasyonları bularak müşterilerin satın alma alışkanlıklarını ortaya çıkarmaktır. Çocuk bezi alan müşterilerin mama da satın alacağını veya deterjan satın alanların yumuşatıcı da alacağını tahmin edebiliriz ancak manuel olmayan bir analiz bütün olasılıkları göz önüne alır ve kolay düşünülemeyecek, “mama” ve “yumuşatıcı” gibi bağıntıları da bulur. Bu verilere sahip olan marketler, birlikte satılan ürünleri yakın raflara koyarak, katalogda birlikte satılan ürünlerin birlikte görülmesini sağlayarak veya müşteriler için cazip ürün paketleri oluşturarak satışları arttırabilirler (Argüden vd., 2008).

Birliktelik kuralı, kullanıcı tarafından minimum değeri belirlenmiş destek ve güvenirlik eşik değerlerini sağlayacak biçimde üretilir. Bir ürün kümesindeki destek, D ile 69 ifade edilen tüm hareketler içinde ilgili ürün kümesini içeren hareketlerin yüzdesidir. A ve B ürün kümelerinin, birliktelik kuralı “A → B” olarak gösterilirse, destek aşağıdaki gibi tanımlanır (Özçakır vd., 2007).

destek (A → B)= (A ve B’nin bulunduğu satır sayısı) / (toplam satır sayısı)

A→B birliktelik kuralının güven değeri ise, A’yı içeren hareketlerin B’yi de içerme yüzdesidir. Örneğin, bir kural % 85 güvenirliğe sahip ise, A’yı içeren ürün kümelerinin % 85’i B’yi de içermektedir. İşe bağlı veri satırları verilmiş ise, (A→B) güveni aşağıdaki gibi tanımlanır (Özçakır vd., 2007).

Güven (A→B) = (A ve B’nin bulunduğu satır sayısı) / (A’nın bulunduğu satır sayısı)

Güven değerinin % 100 olması durumunda, kural bütün veri analizlerinde doğrudur ve bu kurallara “kesin” denir (Özçakır vd., 2007).

2.1 Apriori Algoritması

Apriori algoritması birliktelik analizlerinin yapılıp birliktelik kurallarının ortaya çıkartılması konusunda en çok bilinen ve kullanılan algoritmadır. Geniş nesne kümelerinin ortaya çıkartılması işlemleri için kullanılır.

Geniş nesne kümelerini ortaya çıkartan algoritmalar eldeki tüm verileri birçok kez tararlar. İlk taramada, her bir nesnenin destek seviyesi, hesaplanarak kullanıcı tarafından başlangıçta girilen mininum destek seviyesi ile karşılaştırılır ve her bir nesnenin geniş olup olmadığına bakılır. Bundan sonraki her tarama bir önceki taramada geniş olarak tespit edilmiş nesnelerden başlar ve geniş nesne kümeleri oluşturulur. Bu geniş nesne kümelerine aday nesne kümeleri denir. Taramanın sonunda ise hangi aday nesne kümesinin gerçekten geniş olduğu kontrol edilir. Daha önce de belirtildiği gibi bir nesne kümesinin geniş olarak adlandırılabilmesi için o nesne kümesinin kullanıcı tarafından verilen minimum destek seviyesinin üzerinde bir destek seviyesine sahip olması gerekir. Bir sonraki taramada, yine bir önceki taramada geniş olarak seçilen nesne kümelerinden başlanır ve veritabanının sonuna kadar bu nesne kümelerinin destekleri hesaplanır. Bu işlem, başka yeni geniş nesne kümeleri bulunamayana kadar sürer. [Agrawal ve Srikant, 1994].

1: Geniş 1-Nesne Kümeleri

2: For (k = 2 ; while Lk-1 is non-empty; k++)

3 {Ck = apriori-gen(Lk-1)

4 For each c in Ck, initialise c.count to zero

5 For all records r in the DB

  • {Cr = subset(Ck, r); For each c in Cr , c.count++ }

7 Set Lk := all c in Ck whose count >= minsup

8 } /* end — return all of the Lk sets.

Apriori Algoritması

2.2. Problemin Tanımlanması

Bilgisayar ve Bilgisayar malzemeleri satan bir teknoloji firması dizüstü bilgisayar satışlarını arttırmak için , dizüstü bilgisayar yanında kullanıcılara bilgisayar sarf malzemeleri hediye etmek istemektedir. Bu amaçla geçmişe dönük müşteri faturaları incelenerek hangi ürünlerin birlikte daha çok satıldığı ve özellikle Dizüstü Bilgisayarlar ile birlikte en çok satılan malzemeyi belirlemek için Firmamızdan örnek bir çalışma talep etmektedir.

Bu aşamada satılan ürünler ;

Fatura No 1 2 3
1 Notebook Office External Hard D
2 Notebook USB Mouse
3 Notebook Mouse Office
4 Notebook Ekran Koruyucu Film USB
5 Notebook Monitör
6 Notebook Mouse Monitör
7 Notebook Mouse
8 Notebook USB Klayve
9 Mouse Office Monitör
10 External Hard D HDMI Kablo
11 USB Mouse
12 Mouse Monitör
13 USB Mouse
14 Mouse Monitör

Destek ve güven ölçütlerini karşılaştırmak için eşik değerinin belirlenmesi

Destek(eşik) = %20

Güven(eşik) = %50

Eşik destek sayısı 0,20 * 14 = 2,8 dir.

Ürünlerin destek sayıları hesaplanır ve karşılaştırma sonrasında eşik değerinden düşük olanlar çıkarılır.

Ürün Destek Değeri
Notebook 8
Mouse 8
USB 5
Monitör 5
Office 2
External Hard D 2
Klavye 1
HDMI Kablo 1

Kalan ürünler ikişerli gruplanarak eşik değerinin altında kalanlar çıkarılır. Burada dikkat edilmesi gereken diğer bir nokta tekrarlanan öğelerden biri çıkarılır.

Tekrarlanan öğelerden biri çıkarıldıktan sonra ;

Ürün-1 Ürün-2 Destek Değeri
Notebook Mouse 4
Notebook USB 3
Notebook Monitör 1
Mouse USB 3
Mouse Monitör 4
USB Monitör 0

Eşik değeri uygun olduğu sürece gruplamalara devam edilir, müşteriden gelen talep doğrultusunda bu aşamada gruplama durdurulabilir, aşağıda örnek olarak 3 lü gruplama verilmiştir.

Ürün-1 Ürün-2 Ürün-3 Destek
Notebook USB Monitör 0
Notebook Mouse USB 1
Notebook Mouse Monitör 1
Mouse USB Monitör 0

Destek ölçütlerine bakarak kurallar türetilip ve güven ölçütleri belirlenir.

Güven
NOTEBOOK ->MOUSE NOTEBOOK bulunan item-sette MOUSE bulunma olasılığı 4/8 %50
NOTEBOOK ->USB NOTEBOOK bulunan item-sette USB bulunma olasılığı 3/8 %37
NOTEBOOK ; MOUSE -> USB NOTEBOOK&MOUSE bulunan item-sette USB bulunma olasılığı 1/4 %25
NOTEBOOK ; USB -> MOUSE NOTEBOOK& USB bulunan item-sette MOUSE bulunma olasılığı 1/3 %33
MOUSE ; USB -> NOTEBOOK MOUSE& USB bulunan item-sette Notebook bulunma olasılığı 1/3 %33
NOTEBOOK ->MONITOR NOTEBOOK bulunan item-sette MONITOR bulunma olasılığı 1/8 %12
MONITOR ->NOTEBOOK MONITOR bulunan item-sette NOTEBOOK bulunma olasılığı 2/3 %66

Güven(eşik) = %50 değeri %50 olarak alındığında,

Moniter alan kullanıcıların %66 sının Mouse aldığı,

Kullanıcıdan gelen asıl soru dahilinde notebook alan kullanıclarından %50 sinin Mouse aldığı sonucu çıkarılmış ve bu bağlamda kampanya yapması tavsiye edilmiştir.

BÖLÜM 3: APRİORİ ALGORİTMASININ VERİ SETİNE UYGULANMASI

Bu Çalışmada Apollo Hastahanesinin Kronik Böbrek hastalığını(Chronic Kidney Disease) tahmin etmek için , 2 aylık süreçte topladığı 400 hastanın verisi yer almaktadır. 24 Farklı nitelik yer almaktadır. Eğitim Verisi olarak 149 ckd(Chronic Kidney Disease) , 150 notckh( Not Chronic Kidney Disease) sınıfında yer alan veri kullanılmıştır.

3.1. Veri Seti Nitelikleri

age (age)
bp (blood pressure)
sg (specific gravity)
al (albümin)
su (sugar)
rbc (red blood cells)
pc (pus cell)
pcc (pus cell clumps)
ba (bacteria)
bgr (blood glucose random)
bu (blood urea)
sc (serum creatinine)
sod (sodium)
pot (potassium)
hemo (hemoglobin)
pcv (packed cell volüme)
wc (white blood cell count)
rc (red blood cell count )
htn (hypertension )
dm (diabetes mellitus )
cad (coronary artery disease )
appet (appetite )
pe (pedal edema)
ane (anemia)
class (class)

3.2. Veri Seti Nitelik Özelikleri

1.Age(numerical) age in years
2.Blood Pressure(numerical) bp in mm/Hg
3.Specific Gravity(nominal) sg – (1.005,1.010,1.015,1.020,1.025)
4.Albumin(nominal) al – (0,1,2,3,4,5)
5.Sugar(nominal) su – (0,1,2,3,4,5)
6.Red Blood Cells(nominal) rbc – (normal,abnormal)
7.Pus Cell (nominal) pc – (normal,abnormal)
8.Pus Cell clumps(nominal) pcc – (present,notpresent)
9.Bacteria(nominal) ba – (present,notpresent)
10.Blood Glucose Random(numerical) bgr in mgs/dl
11.Blood Urea(numerical) bu in mgs/dl
12.Serum Creatinine(numerical) sc in mgs/dl
13.Sodium(numerical) sod in mEq/L
14.Potassium(numerical) pot in mEq/L
15.Hemoglobin(numerical) hemo in gms
16.Packed Cell Volume(numerical)
17.White Blood Cell Count(numerical) wc in cells/cumm
18.Red Blood Cell Count(numerical) rc in millions/cmm
19.Hypertension(nominal) htn – (yes,no)
20.Diabetes Mellitus(nominal) dm – (yes,no)
21.Coronary Artery Disease(nominal) cad – (yes,no)
22.Appetite(nominal) appet – (good,poor)
23.Pedal Edema(nominal) pe – (yes,no)
24.Anemia(nominal) ane – (yes,no)
25.Class (nominal) class – (ckd,notckd)

3.3. Eksik Veri

Eksik ve standart değerlerden çok farklı girilen işlemler için Rapid Miner aracılığı ile oluşturulan process ile class değerline göre sınıflandırılıp sayısal değerler için ortalamalar, nominal değerler içinde en çok bulunan değer girilmiştir.

Aşağıdaki processte sırasıyla veri çoklama işlemi yapılmış, class değerine göre sınıflandırılmış, eksik datalar girilmiş, sonra birleştirilmiştir.

process - 2process -13.4. Rapid Miner

RapidMiner makine öğrenmesi, veri madenciliği, metin madenciliği, tahmin edici analiz ve iş analizi amaçlarına yönelik olarak geliştirilmiş bir yazılım platformudur. Yazılım aynı isme sahip firma tarafından üretilmiştir.

Yazılım genel olarak iş ve ticari uygulamalarda kullanıldığı gibi aynı zamanda araştırma, eğitim, hızlı prototipleme ve uygulama geliştirme gibi amaçlarla da kullanılabilir. Ayrıca veri madenciliği sürecinin tüm adımları yazılım tarafından desteklenmektedir, bu yüzden veri hazırlama, sonuçları görselleştirme, doğrulama ve optimizasyon gibi amaçlarla da yazılımın kullanılması mümkündür.

3.5. Apriori Algoritması

Eksik verilerin yukarı da belirtilen process ile düzenlenmesinin akabinde excel çıktısı olarak incelenmiştir. Birliktelik algoritmasının kuruması için, veriler analiz edilmiş ve ortalama değerler bulunmuştur. Sayısal verilerin nominal değerlere çevrilmesi için ortalamadan büyük ve küçük olduğuna bakılıp, yeni değerler oluşturulmuştur.


3.5. Ortalamalar

Ortalamalar alınırken araştırmanın daha sağlıklı olabilmesi adında sağlıklı bireylerin ortalama kriterleri göz önünde bulundurulmuştur.

age 54,49800797
bp 79,64143426
sg 1,01396242
al 1
su 0,804780876
rbc
pc
pcc
ba
bgr 175,2151394
bu 72,11553785
sc 1,343380136
sod 133,9061611
pot 4,878927404
hemo 10,66488946
pcv 33,01593625
wc 8558,18
rc 4,649876393
htn
dm
cad
appet
pe
ane
class

Örnek :

Age niteliğinin ortalaması 54.4 ‘tür, Niteliğin altında bulunan veriler için 54.4 altında olanları Age ortalama küçük, yukarısında olanlara ise Age Ortalama Büyük değerlerini atayacak process oluşturulmuş ve tüm integer değerler için uygulanmıştır.

Ortalamalar

Son process uygulanmasının akabinde. Veri seti son Rapid Miner ‘a Weka operatörlerinden W-Apriori algoritması eklenmiş ve process’ e dahil edilmiştir.

Process’ te yer alan işlemle sırasıyla ;

  • Excel Dosyasının okunması
  • Veriyi çoklayıp bir dalında ön izleme sağlanması.

Çoklanan diğer verinin;

  • Tüm niteliklerinin seçimi
  • Sayısal verilerin binominal dönüştürülmesi.
  • Nominal Verilerin binominal dönüştürülmesi.
  • Apriori algoritmasının uygulanması.

Process

process - 3

Destek Değeri : 0,3

Güven : 0,7

Yukarıda belirtilen işleme sokulan verinin sonuçları şu şekildedir.

Minimum support: 0.3 (89 instances)
Minimum metric <confidence>: 0.6
Number of cycles performed: 14
Generated sets of large itemsets:
Size of set of large itemsets L(1): 8
Large Itemsets L(1):
age=Age Ortalama Büyük 142
bp=bp Ortalama Büyük 147
al=al Ortalama Büyük 110
sc=sc Ortalama Büyük 114
pcv=pvc Ortalama Küçük 91
wbcc=wbcc Ortalama Küçük 137
rbcc=rbbc Ortalama Büyük 144
class=ckd 147
Large Itemsets L(3):
al=al Ortalama Büyük sc=sc Ortalama Büyük class=ckd 95
Best rules found:
1. sc=sc Ortalama Büyük 114 ==> class=ckd 114 conf:(1)
2. al=al Ortalama Büyük 110 ==> class=ckd 110 conf:(1)
3. al=al Ortalama Büyük sc=sc Ortalama Büyük 95 ==> class=ckd 95 conf:(1)
4. pcv=pvc Ortalama Küçük 91 ==> class=ckd 91 conf:(1)
5. al=al Ortalama Büyük 110 ==> sc=sc Ortalama Büyük 95 conf:(0.86)
6. al=al Ortalama Büyük class=ckd 110 ==> sc=sc Ortalama Büyük 95 conf:(0.86)
7. al=al Ortalama Büyük 110 ==> sc=sc Ortalama Büyük class=ckd 95 conf:(0.86)
8. sc=sc Ortalama Büyük 114 ==> al=al Ortalama Büyük 95 conf:(0.83)
9. sc=sc Ortalama Büyük class=ckd 114 ==> al=al Ortalama Büyük 95 conf:(0.83)
10. sc=sc Ortalama Büyük 114 ==> al=al Ortalama Büyük class=ckd 95 conf:(0.83)
11. class=ckd 147 ==> sc=sc Ortalama Büyük 114 conf:(0.78)
12. class=ckd 147 ==> al=al Ortalama Büyük 110 conf:(0.75)
13. wbcc=wbcc Ortalama Küçük 137 ==> rbcc=rbbc Ortalama Büyük 94 conf:(0.69)
14. rbcc=rbbc Ortalama Büyük 144 ==> wbcc=wbcc Ortalama Küçük 94 conf:(0.65)
15. class=ckd 147 ==> al=al Ortalama Büyük sc=sc Ortalama Büyük 95 conf:(0.65)
16. age=Age Ortalama Büyük 142 ==> class=ckd 90 conf:(0.63)
17. class=ckd 147 ==> pcv=pvc Ortalama Küçük 91 conf:(0.62)
18. class=ckd 147 ==> age=Age Ortalama Büyük 90 conf:(0.61)

SONUÇ VE ÖNERİLER

Process sonucunda karşımıza çıkan ve üzerinde durulması gereken kurallar şu şekildedir:

Class sc ,al , pvc niteliklerinin en fazla etkisi olduğu görülmüştür.

  • sc (serum creatinine) değeri ortalamanın üzerinden olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %100
  • al (albümin) değeri ortalamanın üzerinden olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %100
  • pcv (packed cell volüme) değeri ortalamanın altında olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %100
  • al (albümin) değeri ortalamanın üzerinden olan ve sc (serum creatinine) değeri ortalamanın üzerinden olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %83
  • sc (serum creatinine) değeri ortalamanın üzerinden olan ve al (albümin) değeri ortalamanın üzerinden olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %100
  • age(Age) değeri ortalamanın üzerinden olan ve al (albümin) değeri ortalamanın üzerinden olan item – sette ckd(Chronic Kidney Disease) bulunma olasılığı %63

Bu araştırmanın devamında algoritmaya farklı Güven ve Destek değerleri verilerek sonuçlar incelenip, uzman görüşleri ile yorumlanıp daha sağlıklı destek kriterlerine ulaşılabilir.

KAYNAKLAR

AKSOY İ., Badur B., Mardikyan S. “Istanbul University Journal of the School of Business Administration”, Finding hidden patterns of hospital infections on newborn: A data mining approach Cilt/Vol:39, Sayı/No:2, 2010, 210-226 ISSN: 1303-1732

ERDEM S., Özdağoğlu G. “Araştırma makalesi Anadolu Üniversitesi Bilim Ve Teknoloji Dergisi Anadolu” , Ege Bölgesı̇’ndekı̇ Bı̇R Araştırma Ve Uygulama Hastanesı̇nı̇n Acı̇l Hasta Verı̇lerı̇nı̇n Verı̇ Madencı̇lı̇ğIi İle Analı̇z Edı̇lmesı̇ Cilt/Vol.:9-Sayı/No: 2 : 261-270 (2008)

ERTUĞRUL İ., Organ A., Şavlı A. “ Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi”, Verı̇ Madencı̇lı̇ği Uygulamasına İlı̇şkı̇n Paü Hastanesı̇nde Hasta Profı̇lı̇nı̇n Belı̇rlenmesı̇ Cilt 19, Sayı 2, 2013, Sayfalar 97-103

CAYİROĞLU İ.(2015) “Yapay Sinir Ağları”

http://www.ibrahimcayiroglu.com/Dokumanlar/IleriAlgoritmaAnalizi/IleriAlgoritmaAnalizi-5.Hafta-YapaySinirAglari.pdf

ÇEKİK R., TELÇEKEN S. “Anadolu Üniversitesi Bilim ve Teknoloji Dergisi”, Ekg Sinyallerinin Kaba Kümeler Teorisi Kullanılarak Sınıflandırılması

Cilt: 15 Sayı: 2 – 2014, Sayfa: 125 – 135

KOYUNCUGİL A. S., Ozgulbas N., “Early Warning System for SMEs as a Financial Risk Detector” Data Mining Applications for Empowering Knowledge Societies. Hakikur Rahman, Ed, Idea Group Inc., USA, 221-240, 2008.

Desikan P , Hsu K., Srivastava J.(2011) “Data Mining For Healthcare Management”

https://www.siam.org/meetings/sdm11/dmhm.pdf

SUDHAKAR K., Manımekalaı M. “Study of Heart Disease Prediction using Data Mining”,

http://www.ijarcsse.com/docs/papers/Volume_4/1_January2014/V3I12-0400.pdf

YANG H., Chen Yi-Ping P.(2015) “Data mining in lung cancer pathologic staging diagnosis: Correlation between clinical and pathology information”

http://www.sciencedirect.com/science/journal/09574174

POYRAZ,Oğuz (2012), Tıp ‘da Veri Madenciliği Uygulamaları: Meme Kanseri Veri Seti Analizi

Rapid Miner

https://en.wikipedia.org/wiki/RapidMiner