Daha önce doğru şekilde teşhisi konmuş, pozitif/negatif (ya da kanserli/kansersiz) şekilde işaretlenmiş binlerce MR görüntüsüne. Ya da müşteri şikayetlerini kategorize etmek için bir metin analitiği çözümü geliştireceksiniz. Bu durumda daha önce kategorize edilmiş şikayetlerle başlamanız lazım işe. Yani herhangi bir analitik (özellikle makine öğrenmesi) uygulaması geliştirmek için konuyla ilgili veriye erişim olmazsa olmaz. Ve maalesef dünya bu konuda adaletli değil. Nasıl petrole ulaşmak sadece bazı topraklarda kolaysa, veri de asimetrik olarak bazı sektör, iş modeli ya da şirketlerin elinde toplanmış durumda. Gelin veriye ne tür yöntemlerle ulaşılabilir bakalım.
Bahçenizde petrolün yerden fışkırdığı (ve aynı zamanda doğal gaz yatağı, altın madeni ve efsanevi bor madeni bulunduğu) durumlar: Eğer Google ya da Facebook iseniz milyarlarca kişi her gün size gönüllü olarak gelip kendileriyle ilgili tonla bilgi bırakıyorlar: ne yerler, sabah kahvelerini sütlü mü içerler, kimle arkadaşlar, o anki modları ne gibi. İşinizin doğal akışı sırasında böyle veri akıyorsa o zaman bu veriyi sadece kendi hizmetlerinizi daha iyi sunmak ve müşterinin hayatını kolaylaştırmak için değil (örneğin Google’ın emailinizden araba kiralama bilgisini alıp takviminize işlemesi ve sonra hatırlatması gibi), bu kişilere ürün hizmet satmaya çalışan herkese ‘Hop, dur bakalım, önce pazarlama bütçeni görelim’ diyebilirsiniz.
Bu kadar geniş bir yelpazede olmasa da operasyon sırasında sürekli veri toplayan e-ticaret, bankacılık ve telekomünikasyon gibi sektörler de var. İnternet şirketleri yeni nesil teknoloji ve iş modellerini ve teknolojilerini kullanmada daha ehil oldukları için mesafe çok açıldı tabii. Ama sonuçta veri yoğun şirketler Amazon’u örnek alabilirler ellerindeki veriyle ilgili ne yapabilecekleri konusunda.
Yukarıdaki kategoride değilseniz hayat oldukça zor, bir kaç alternatif yaklaşım olabilir:
Spesifik çözümler geliştirmek için küçük petrol kuyularının başında oturanlarla işbirliği yapmak. Yazının başındaki bahsettiğim kanser çalışması için bir yapay zeka ekibi zengin görüntü arşivine sahip olan hastanelerle çalışıp onların sahip olmadığı uzmanlığı veriyle buluşturabilir.
Halka açık kaynakları kullanmak. Özellikle kamu sektörünün elinde inovasyonu besleyebilecek çok fazla veri var. Amerika’daki data.gov buna güzel bir örnek. Keşke Türkiye’de de örneğin belediye trafik verisini halka açsa da bir çok zeki insan çözüm geliştirmek için uğraşsa. Bir de farklı sebeplerle açılan veri setleri oluyor. Örneğin Kaggle’daki makine öğrenmesi yarışmaları için şirketlerin paylaştığı veriler gibi. Bu şekilde Netflix’in kullanıcı verisine ulaşıp tavsiye sistemi geliştirme üzerinde çalışabilirsiniz örneğin.
Kendi kuyunuzu kazmak: Deyim olarak negatif olsa da burada bahsettiğim kendi verinizi el emeği göz nuru yöntemlerle toplamak. Bunun çok güzel bir örneğini smartcon’da konuşan Bell Labs araştırmacısı Daniele Quercia verdi. Londra’da şehrin koku haritasını çıkartmak için veri toplamayı ‘crowdsource’ eden (kitlesel yöntemler) Daniele, hiç bir yerde olmayan veriyi binlerce insanı mobilize ederek toplamış. Stanford akademisyeni ve Google Cloud Chief Scientist’i Fei Fei Li’nin yarattığı ve yapay zekada çığır açan imagenet veri seti de belki bu alanda en iyi bilinen örnek (imagenet’in müthiş hikayesi ayrı bir yazı konusu).
Genel manzara bu şekilde. Ama sonuçta hangi durumda olursanız olun veriyi işlemek için gerekli yetkinlikleri geliştirmek herkes için şart. İyi şanslar.