Ben Big Data Gördüm

LinkedIn’de paylaşılan bu resmi görünce artık Big Data konusunda bir şeyler yazmamın zamanıdır dedim.
Big Data Ergen Seksi Gibidir…
Herkes onun hakkında konuşur,
Hiç kimse nasıl yapılacağını bilmez,
Herkes diğerlerinin bunu yaptığını düşünür, bu yüzden herkes bunu yaptığını iddia eder.
Dan Ariely
Duke Üniversitesi’nde Psikoloji ve Davranışsal Ekonomi Profesörü
Bunu okuyunca okullarda yeni kelimelerin cümle içinde kullanılması istendiğinde öğrencilerin cümle içinde kullanmanın zor olduğu kelimelerle (örneğin nışadır: amonyak tuzu) ilgili “Ben nışadır gördüm” gibi kurdukları örnek cümleleri aklıma geldi. Big Data gibi bazı popüler kavramlarla ilgili olarak bazı yazıların “Ben Big Data gördüm” cümlesi kadar derin bir içerikten yoksun olduğunu görünce uzmanı olduğumu rahat rahat söyleyebileceğim bu konuda bir şeyler yazmamın artık zamanı geldi de geçiyor dedim kendi kendime.
Öncelikle şunu söylemek istiyorum. Big data konusu yeni bir konu değil, sadece iç denetçilerin dikkatini yaygın bir şekilde çekmesi yeni bir şey. Yoksa, big data çok uzun zamandan beri var. Big data kavramının var olduğu en önemli alanlardan biri finansal piyasalar, özellikle yapılandırılmış finansal piyasalar olan borsalardaki fiyat verileri big data için en önemli örneklerden biri.
Big data ile ilgili daha detaylı bilgilere geçmeden önce big data ile ilgili bilmeniz gereken birkaç şeyi söyleyeceğim.
  • Big data kullandığınız halde bunun farkında olmayabilirsiniz. Zira kullandığınız birçok yazılımda karşınıza işlenmiş big dataların sonuçları çıkmaktadır.
  • Big data olarak nitelendirdiğimiz şey, her geçen gün biraz daha büyümektedir.
  • Eskiden big data olan veriler, büyük ihtimalle artık big data değildir.
  • Önemli olan elinizde bir big datanın olması değil, bu big datayı faydalı bölümlere ayırıp, işleyip, sonunda bundan ilgili ve faydalı sonuçlara varmanızdır.
  • Bir big datam bile yok diye üzülmeyin, her geçen gün bir big data’yla muhatap olma şansınız artmaktadır. En iyisi mi, şimdiden big data ile nasıl başa çıkılır öğrenmeye bakın.
Banka ve menkul kıymetler şirketlerinin hazine bölümlerinde çalışırken, en önemli desteğim piyasadaki faiz oranlarını, döviz fiyatlarını ve diğer ekonomik veri ve haberleri gösteren ve piyasa ekranı tabir edilen Reuters ve Dow Jones Telerate terminalleriydi. Bu terminaller, önemli büyüklükteki big datayı ayrıştırıp işleyen ve biz kullanıcının en çok faydalanacağı şekilde veren sistemlerdi. Günümüzde hala Reuters ve diğer başka markalarda finansal veri ekranları piyasa oyuncularına hizmet etmektedir. Bankada bu harika sistemleri kullanırken, kendimi o zaman bu şirketlerin en önemlilerinden biri olan Dow Jones Telerate’in İstanbul ofisinde finansal verilerden sorumlu olarak çalışırken buldum. Havalı bir ünvanım vardı diyebilirim. Data Integrity Manager (Veri Doğruluğu Müdürü diye çevirebiliriz sanırım). Peki sorumlu olduğum bu veriyi neden big data olarak tanımlıyorum, şimdi onu anlatayım.
Öncelikle burada online ve real time (yani çevrimiçi ve gerçek zamanlı) bir veriden bahsediyoruz. Örneğin o zamanki adıyla İstanbul Menkul Kıymetler Borsası’ndan hisse senetleri piyasasında fiyat teklifleri ve gerçekleşen işlemler ile bu fiyatlara göre gerçekleşen endeks değerlerinin borsadan alınıp bizim sistemlerimizi kullanan kullanıcıların bilgisayarlarında doğru ve gerçek zamanlı gösterilme işi gerçekten karmaşık bir big data operasyonuydu. Bu verinin büyüklüğünün gözünüzde canlanması için saniyede 100 alım veya satım emrinin geldiğini söyleyeyim. Big data ile bu online ve real time veri yayınını yapan Dow Jones Telerate sayesinde tanıştım. Gelen veriyi hem ham olarak, hem de işlenmiş ve değişik analizler yapılmasına olanak sağlayacak şekilde ve tabii ki gerçek zamanlı olarak kullanıcılara vermek için çalışırken veriyi işleme ve farklı formatlarda kullanıcıya verme konusunda büyük bilgi ve tecrübe kazandım.
Dow Jones Telerate’de big data ile ilgili kazandığım bu tecrübeyi Ziraat Yatırım Menkul Değerler A.Ş.’de iç denetim bölümünde çalışırken kullanma fırsatı buldum. Bölümün ismi iç denetim olarak geçiyordu ama aslında iç kontrol yapıyorduk. Yaptığımız kontrollerden biri de müşterilerin açığa hisse senedi alımı yaparken SPK’nın tanıdığı limitlere uyup uymadıkları ve kredi kullanarak hisse senedi alan müşterilerin risklerinin seans bazında hesaplanmasıydı. Seans bittikten sonra İMKB her menkul değerler şirketine ait tüm emirleri ve gerçekleşen emirleri içeren büyük bir dosya (big data) gönderirdi. Bu gelen veriyi, şirketin sisteminden alınan müşterilerin portföylerindeki varlıklarla karşılaştırıp, seans içinde müşteri tarafından verilen her emir ve gerçekleşen her emir sonrası müşterinin yukarda saydığım limitler dahilinde işlem yapıp yapmadığını tespit ediyorduk. İşin özü, iki büyük veri grubunu (2 big datayı) çarpıştırıp analiz yapıyorduk. Bu analiz esnasında bilgisayarların 45 dakika boyunca kilitlendiğini söylersem ne denli büyük bir veri ile çalıştığımızı tahmin edersiniz sanırım.
Daha sonraki iç denetim tecrübelerimde de, yaptığım denetim testlerinde örneklemi ana kitleye yani %100’e yaklaştırmak açısından big datanın analiz yöntemlerinden faydalandım. Birçok suiistimali veya hatalı uygulamayı ortaya çıkarma fırsatı buldum. Bir menkul değerler şirketinde çalışırken, big data analiz yöntemlerini kullanmak, şirketin kullandığı menkul kıymetler yazılımında önemli bir parametre hatasını ortaya çıkarmamı bile sağladı.
Big data analizi konusunda bilgili ve deneyimli olmak, iç denetim testlerinizdeki örneklemleri %100’e yakınlaştırmanızı sağlayacaktır.
Big datanın analizi ile ilgili olarak öncelikle veri tiplerine bakmamızda fayda var. Microsoft Excel’de bir hücreye mouse’un sağ tuşuyla tıkladığınızda aşağıdaki menüde görebileceğiniz gibi hücredeki veriyi yapılandırabileceğiniz kategorileri görebilirsiniz.
Yan tarafta gördüğünüz gibi Excel’de hücrelerdeki verileri, Genel,
Sayı,
Para Birimi,
Finansal,
Tarih,
Saat,
Yüzde Oranı,
Kesir,
Bilimsel,
Metin
ve diğer
 kategorilerde izleyebilecek şekilde biçimlendirebilirsiniz.
Ama yukarıdaki kategorileri oluşturacak verilerin tiplerini de öğrenirsek big data konusunda biraz daha fikir sahibi olabiliriz. Yazılımcıların bildiği veri tiplerini de artık bilmenizde fayda var. Eğer big datayı, hakkında konuşacak kadar, bilmek ve analiz etmek istiyorsanız, ben bilgisayar programcısı olmayacağım, bunlara ihtiyacım yok demeye de maalesef hakkınız yok.
Yan taraftaki tabloda veri tipleri sıralanmıştır. Özellikle sayısal verilerin değer aralıklarına dikkat çekmek istiyorum. Örneğin elinizdeki sayının büyüklüğüne veya ondalık olup olmadığına göre uygun veri tipleri seçmeniz durumunda yazılımlarınızda, sistemlerinizde veya veritabanlarınızda daha az yer kaplamasını ve yazılımların daha hızlı çalışmasını sağlayabilirsiniz.
Renkler bile uzun zamandır birer veri olarak kullanılabilmekteler. Renklerin sayısal karşılıkları sayesinde birçok yazılım için artık renkler en küçük ayrıntılarıyla kullanılabiliyor. Aşağıdaki tabloda renkleri ve bunların hexadecimal karşılıklarını görebilirsiniz.
 
Elinizde bir big data varsa bu big datayı analiz edebileceğiniz ve bu analizlerin sonuçlarını raporlayabileceğiniz yazılımlar olarak da Microsoft Excel, Microsoft Access, Matlab, SPSS gibi yazılımları saymak lazım. Eğer işiniz big datayı analiz etmekse, bu yazılımları ileri seviyede kullanmak durumundasınız. Bunların haricinde iç denetçiler olarak çalıştığımız, danışmanlık verdiğimiz kurumların muhasebe ve operasyon yazılımlarını kullanmayı da çok iyi bilmemiz gerekiyor ki, ihtiyaç duyacağımız raporlara veya yukarıda saydığımız yazılımları kullanarak rapor hazırlamak için ihtiyaç duyacağımız verilere erişebilelim. Tabii ki Kurumsal Kaynak Planlaması ve Malzeme İhtiyaç Planlaması için hazırlanmış yazılımları da saymakta fayda var. Bu yazılımlar özellikle işletmelerinizdeki Big Data’yı en iyi analiz edebilecek araçlar olarak sayılabilir.
Şimdiye kadar tarif ettiğimiz big data olarak hep mantıksal, sayısal, karakter veri tiplerinden bahsettik. Ancak artık bu veri tiplerinin haricinde de veriler kullanılmaya başlandı. Ne tür verilerden mi bahsediyorum? Sosyal medyada paylaştığınız her şey bir veri olarak kategorileştirilmeye başladı bile.
Artık yüz resminiz de bir veridir. Yüz tanıma programları ile artık yüzünüzün hatları bir veri olarak kullanılıyor. Facebook, paylaşılan bir resimdeki yüzleri tanıyor ve şu kişiyi etiketlemek ister misiniz diye size soruyor. Yüz hatlarınız bir veri olarak çoktan dünyanın en büyük veri tabanlarında depolanmış durumda ve yüz tanıma programlarında kullanılıyor. Parmak izlerimizi veya avuç izlerimizi genellikle internette paylaşmasak da zorunlu olarak bazı kurumlarda paylaştığımız parmak ve avuç izlerimiz de bu kurumların veri tabanlarında birer veri olarak başka izlerle karşılaştırılmak üzere bekliyor. İnternette paylaştığınız resimlerde sadece kim olduğunuz değil, o resimlerdeki duygu durumunuz da (mutlu mu, üzgün mü, kızgın mı, şaşkın mı, vs.) anlaşılabiliyor. Facebook’ta, Instagram’da, Twitter’da resimlerini çokça paylaşanların duygularının tarihsel grafiği bile çıkarılabilecek durumda. Yüz tanıma programları, basit olarak anlatmak gerekirse yüz hatlarınızın geometrik özellikleri veya renginin sayısal hale dönüştürülüp algoritmalar oluşturulması ile çalışıyorlar. Zaten renklerin sayısal olarak değerleri olduğunu biliyorduk, yüz hatlarınızın üç boyutlu olarak geometrik hesaplamalarını da buna kattığımızda yüzünüz bir sayısal değere dönüşebiliyor.
Verilerle uğraşan insanın artık kendisinin bir veriye dönüştüğü günümüzde bütün bu verilerin (big datanın) farklı kombinasyonlarda kullanılması ve analizinin ticari veya toplumsal çok denli önemli sonuçlara varılmasını sağlayacağını söylemek gerekiyor.
Algoritmalar oluşturulmasından bahsetmişken buna da değinmek gerekiyor. Algoritma, matematikte ve bilgisayar biliminde bir işi yapmak için tanımlanan, bir başlangıç durumundan başladığında, açıkça belirlenmiş bir son durumunda sonlanan, sonlu işlemler kümesidir. Yani belli bir problemi çözmek veya belirli bir amaca ulaşmak için çizilen yola algoritma denir. (Kaynak: http://tr.wikipedia.org/wiki/Algoritma ) Algoritma kurma yeteneğinizin büyüklüğü gittikçe büyüyen ve çeşitlenen big datayı analiz etmedeki başarınızı da büyütecek.
Son olarak big data konusunu öğrenmek hatta bu konuda bir şeyler de yazmak ama bu “Ben Big Data Gördüm” cümlesinin basitliğinde olmamasını istiyorsanız, bu yazıda yazdıklarımın birçoğunu biliyor ve kullanıyor olmanız sizi başarıya götürecektir. Umarım size big data konusunda bir fikir verebilmişimdir.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir