Paylaş
Hiss-i Kabl-el Vuku – Bir şeyi vukuundan (olmadan) önce hissetmek. Kısaca, önsezi.
Önsezi, tam olarak nasıl çalıştığını bilmediğimiz algoritmamız aslında. Yıllar içerisinde biriktirdiğimiz bilgileri kullanarak yaptığımız bir tahmin. Bu tahmin, bilgiye dayalı bir tahmin. Bu yüzden doğruluk oranı daha yüksek oluyor.
Olasılıksal metin analizi
Bizim, tahmin için kullandığımız hissikablelvukunun olasılık teorisi ile işlenmiş haline olasılıksal metin analizi diyoruz. Bu analiz yöntemi ile yazarını bilmediğimiz metinlerin yazarlarını çok yüksek doğruluk oranları ile tahmin edebiliyoruz. Bu algoritma, kelime sarısını yok saydığımızda Türkçe’de herhangi bir kelimenin kullanılma olasılığını hesaba katıyor. Örneğin, “aynen” kelimesinin kullanılma olasılığı “bilakis” kelimesinin kullanılma olasılığından fazladır. Ama aynı kelimeleri, örneğin, 50 yaş üstü kişilerin kullanma olasılığı dediğimizde olasılıklar yer değiştirir. Elbette sistem, burada bahsettiğim gibi farazi olasılıklar ile çalışmıyor.
Sistemin çok basit açıklaması şöyle. Bir yazara ait metinlerde kullandığı kelimelerin olasılıklarını hesapladıktan sonra Bayes teoremini kullanarak bu kelimeleri kullanan yazarı tahmin edebiliyoruz.
1787 yılında Amerika Birleşik Devletleri’nde Federalistler, yeni anayasanın onaylanmasını destekleyen yazıları kaleme almışlar ama çekindikleri için isimlerini gizli tutarlar. Aslında isimlerini hiçbir zaman açıklamamalarına rağmen bu yazıların Alexander Hamilton ve arkadaşları tarafından yazıldığı söylenir. Bu yazıların, Alexander Hamilton ve arkadaşları tarafından yazıldığını düşünenler, onlara ait isimlerini vererek yazdıkları diğer yazılardaki kelimelerin olasılıksal analizleri ile Federalist yazıların olasılıksal analizleri karşılaştırıldığında çok yüksek orandaki eşleşmeden dolayı Alexander Hamilton ve arkadaşlarının Federalistler olduğu söylenmeye başlanmıştır.
Peki! Bu bizim işimize nerelerde yarar. Aynı analiz yöntemi, e-posta kutunuzdaki istenmeyen e-postaların (spam) belirlenmesinde kullanılıyor. Gönderilen e-postaların %45’i istenmeyen e-postalardan oluşuyor. Bir başka ifadeyle, neredeyse gelen her iki e-postadan birisi istenmeyen. Bu durum da, filtreleme işini daha da zorlaştırıyor. Yeni gelen her e-posta için e-postadaki kelimelerin istenmeyen e-postaya benzeyip benzemediği inceleniyor. Bu şekilde, e-postalarımıza gelen istenmeyen e-postaları çok daha iyi filtreleme şansımız oluyor.
Bahsettiğimiz algoritmalar geliştirilerek, yenileri üretilerek farklı alanlarda kullanıp hayatımızı kolaylaştırmaya çalışıyoruz. Buna bir başka örnek ise, içerik benzerlik tespit algoritmalarıdır. Bu algoritmalar, yazılan bir metnin başka metinlerle benzerlik oranlarını hesaplayıp, hangi kısımlarının başka metinlerden alındığını ortaya koymak üzere programlanmıştır. Akademide, çok yoğun bir şekilde kullandığımız programlar ile intihallerin (akademik hırsızlık) ortaya çıkartılması sağlanıyor. Akademisyenler olarak, bu yazılımları bir öğretim aracı olarak kullanırız. Önsezilerimizi, resmi hale getirip olası intihalleri önceden (kabl-el) belirleyip yayınlamadan (vukuu) hissetmemize (hiss-i) imkân tanıyor. TÜBİTAK, bu alanda en çok kullanılan yazılımı bütün üniversitelere erişim imkanı tanıyarak önemli bir hizmette bulunmuştur.
Önsezilerimize güvendiğimiz bir yıl dileklerimle sağlıcakla kalın.
Paylaş