Herkes Büyük Veriyi 3, 4 veya 10 V'lik bir setle tanımlar. Bu V'ler aslında bize Büyük Veri kavramının tanımını mı veriyor yoksa bize anlatmaya çalıştıkları başka bir şey mi var? Bu V tabanlı karakterizasyonu kullanmanın ana nedeni, Büyük Veri ile birlikte gelen zorlukları vurgulamaktır. Yakalama, temizleme, düzenleme, entegrasyon, depolama, işleme ve çok daha fazlası gibi zorluklar.
Bu V'ler, kendinizi olası Zorluklara hazırlamanız için talimatlar veriyor. Büyük Verilerinizi yönetmeye başladığınızda karşılaşabileceğiniz zorluklar:
Bu V'ler, Büyük Verinin önemli yönlerini ve kuruluşun göz ardı edemeyeceği Büyük Veri Stratejisini açıklar. Büyük Verinin farklı özelliklerine katkıda bulunan tüm Z'lere bakalım:
1. Hacim:
Facebook'a her gün 100 terabayt veri yükleniyor; Akamai, çevrimiçi reklamları hedeflemek için günde 75 milyon olayı analiz ediyor; Walmart her saat 1 milyon müşteri işlemini gerçekleştiriyor. Şimdiye kadar oluşturulan tüm verilerin %90'ı son 2 yılda üretildi.
Yukarıdaki rakamlar, Büyük Hacimli veri dediğimizde bunun ne anlama geldiğini tam olarak gösteriyor. Veriyi büyük veri yapan işte bu ilk özellikleridir. Bu devasa veri hacmi, bu verileri saklama konusunda bizim için zorluk teşkil ediyor.
Ayrıca Bakınız: En İyi 19 Ücretsiz Veri Madenciliği Aracı
2. Hız:
1999'da, her günün her dakikasında YouTube'a 100 saatlik video yüklüyoruz, 200 milyondan fazla e-posta gönderiyoruz ve 300.000 tweet gönderiyoruz.
Cilt rakamlarının altında yatan şey şu: daha da büyük bir eğilim var; mevcut verilerin %90'ı yalnızca son iki yılda oluşturuldu. Bu, verilerin oluşturulma, depolanma, analiz edilme ve görselleştirilme hızı veya hızını gösterir.
Kuruluşların karşı karşıya olduğu zorluk, verilerin gerçek zamanlı olarak oluşturulduğu ve kullanıldığı muazzam hızla başa çıkmaktır.
3. Çeşitlilik
Geçmişte oluşturulan tüm veriler yapılandırılmış verilerdi, sütunlara ve satırlara düzgün bir şekilde sığıyordu ancak o günler geride kaldı. Bugün üretilen verilerin %90'ı yapılandırılmamış olup, jeo-uzaysal verilerden içerik ve duygu açısından analiz edilebilecek tweet'lere, fotoğraf ve video gibi görsel veriler.
Çeşitlilik, büyük verinin en büyük zorluklarından birini açıklamaktadır. Yapılandırılmamış olabilir ve XML'den videoya ve SMS'e kadar pek çok farklı türde veri içerebilir. Verileri anlamlı bir şekilde düzenlemek kolay bir iş değildir, özellikle de verilerin kendisi hızla değiştiğinde.
4. Değişkenlik
Değişkenlik genellikle Çeşitlilik ile karıştırılır. Bunu ayırt etmek için basit bir örnek: Starbucks'ı düşünün; Soğuk Kahve'de pek çok lezzet var. Bu çeşitliliktir. Diyelim ki her gün Cafe Mocha alıyorsunuz ve tadı ve kokusu önceki günden biraz farklı. Değişkenliktir.
Büyük Veri bağlamındaki değişkenlik birkaç farklı şeyi ifade eder. Bunlardan biri verilerdeki tutarsızlıkların sayısıdır. Anlamlı bir analitiğin ortaya çıkabilmesi için bunların anormallik ve aykırı değer tespit yöntemleriyle bulunması gerekir. Büyük veri, birden fazla farklı veri türü ve kaynağından kaynaklanan çok sayıda veri boyutu nedeniyle de değişkendir. Değişkenlik aynı zamanda büyük verilerin veritabanınıza yüklenme hızının tutarsız olması anlamına da gelebilir.
Ayrıca Bakınız: En İyi Çevrimdışı Veri Temizleme Araçları
5. Doğruluk
Büyük Veriyi anlamada en önemli şey, onun karmaşık, gürültülü doğası ve analiz başlamadan önce doğru bir veri kümesi oluşturmak için harcanan iş miktarıdır. Analiz edilen verilerin hatalı veya eksik olması bir işe yaramaz.
Bu durum, veri akışları değişen sinyal-gürültü oranlarına sahip çeşitli formatlar sunan farklı kaynaklardan geldiğinde ortaya çıkar. Büyük Veri Analizi'ne ulaştığında bu birikmiş hatalarla dolu olabilir.
Doğruluk tamamen verilerin doğru olduğundan emin olmakla ilgilidir; bu da kötü verilerin sistemlerinizde birikmesini önleyecek süreçler gerektirir. En basit örnek, pazarlama otomasyon sisteminize sahte isimlerle ve hatalı iletişim bilgileriyle giren kişilerdir. Veritabanınızda Mickey Mouse'u kaç kez gördünüz? Bu, klasik "çöp gir, çöp dışarı" mücadelesidir.
6. Görselleştirme
Bu, Büyük Veri'nin en zor kısmıdır; başarısız olunması, bu kadar büyük miktardaki veriyi işe yaramaz hale getirir. Herhangi bir Büyük Veri işleme sisteminin temel görevi, onun muazzam ölçeğini kolayca anlaşılabilecek ve eyleme dönüştürülebilir bir şeye dönüştürmektir. İnsan tüketimi için bunun en iyi yöntemlerinden biri onu grafiksel formatlara dönüştürmektir.
Mevcut büyük veri görselleştirme araçları, aşağıdaki nedenlerden dolayı teknik zorluklarla karşı karşıyadır: bellek içi teknolojinin sınırlamaları ve zayıf ölçeklenebilirlik, işlevsellik ve yanıt süresi. Geleneksel grafikler bir milyar veri noktasının çizilmesi ihtiyacını karşılayamaz; bu nedenle veri kümeleme veya ağaç haritaları, güneş patlamaları, paralel koordinatlar, dairesel ağ diyagramları veya koni ağaçları kullanma gibi verileri temsil etmenin farklı yollarına ihtiyacınız vardır.
7 . Değer
Değer oyunun sonudur. Büyük Verinin potansiyel değeri çok büyüktür. Çok zaman ve çaba gerektiren hacim, hız, çeşitlilik, değişkenlik, doğruluk ve görselleştirmeye dikkat ettikten sonra, kuruluşunuzun verilerden değer elde ettiğinden emin olmak önemlidir.
Elbette. , veri tek başına hiçbir şekilde değerli değildir. Değer, bu veriler üzerinde yapılan analizlerde ve verinin nasıl bilgiye ve sonunda bilgiye dönüştürüldüğüdür.
Yukarıdaki 7 V size Büyük Verinin 3 önemli yönünü anlatır; yani tanımı, özellikleri ve özellikleri. zorluklar. Ancak insanlar, yukarıda bahsedilen 7 V'nin Zorluklarıyla karşılaşacakları yöntemleri icat etmek için büyük veri üzerinde araştırma yapmaya başladıklarında, başka V'lerle de karşılaştılar. Büyük veride çok önemli bir rol oynamasalar da Özellikler ve Zorluklar listesini tamamlıyorlar.
8. Geçerlilik
Doğruluğa benzer şekilde geçerlilik, verilerin amaçlanan kullanımı açısından ne kadar doğru ve doğru olduğunu ifade eder. Büyük Veri doğruluğu bir geçerlilik meselesidir, yani verilerin amaçlanan kullanım için doğru ve kesin olduğu anlamına gelir. Açıkça geçerli veriler, doğru kararları vermenin anahtarıdır. Veri doğrulama, verilerin bozulmadan iletilmesini onaylayan doğrulamadır.
9. Uygulanabilirlik
Aşağıdaki ifadeler üzerinde bir düşünün:
İlk görevimiz bu verilerin uygulanabilirliğini değerlendirmektir çünkü etkili bir tahmine dayalı model oluştururken göz önünde bulundurulması gereken çok sayıda veri ve değişken varken, hızlı ve uygun maliyetli olmak istiyoruz. Tam özellikli bir modelin oluşturulmasına yatırım yapmadan önce belirli bir değişkenin uygunluğunu etkili bir şekilde test edin ve onaylayın. Başka bir deyişle, daha fazla eyleme geçmeden önce ve bir projenin uygulanabilirliğini belirleme sürecinde bu hipotezi doğrulamak istiyoruz. değişkeni kullanarak, başlangıçtaki hipotezimizin parçası olmayan diğer değişkenlerin arzu ettiğimiz veya gözlemlediğimiz sonuçlar üzerinde anlamlı bir etkiye sahip olup olmadığını belirlemek için görüşümüzü genişletebiliriz.
10. Değişkenlik
Verilerinizin artık alakasız, tarihi veya kullanışlı olmadığı düşünülmesi için kaç yaşında olması gerekir? Verilerin ne kadar süre saklanması gerekiyor?
Büyük Verinin değişkenliğinden bahsederken, işletmelerimizde her gün uyguladığımız yapılandırılmış veri saklama politikasını kolaylıkla hatırlayabiliriz. Saklama süresi sona erdiğinde onu kolaylıkla yok edebiliriz.
Ancak büyük verinin hızı ve hacmi nedeniyle volatilitesinin dikkatle değerlendirilmesi gerekir. Artık veri geçerliliği ve kullanılabilirliği için kurallar oluşturmanız ve gerektiğinde bilgilerin hızlı bir şekilde alınmasını sağlamanız gerekiyor.
11. Güvenlik Açığı
2015'teki Ashley Madison Hack'ini hatırlıyor musunuz? Ya da Mayıs 2016'da CRN'nin "Barış adlı bir bilgisayar korsanının karanlık ağda satılmak üzere veri yayınladığını ve bunların 167 milyon LinkedIn Hesabına ve MySPace Kullanıcılarına ait 360 milyon e-posta ve şifreye ilişkin bilgileri içerdiği iddia edildiğini" bildirdiğini hatırlıyor musunuz?
Büyük. Veriler yeni güvenlik kaygılarını da beraberinde getiriyor. Özellikle bu özellikleri nedeniyle Büyük Veriye yönelik bir güvenlik programı geliştirmek zorlu bir hal almaktadır. Sonuçta veri ihlali büyük bir ihlaldir.
Peki tüm bunlar bize Büyük Verinin doğası hakkında ne söylüyor? Evet, çok büyük ve hızla genişliyor ama aynı zamanda gürültülü, dağınık, sürekli değişen, yüzlerce formatta ve analiz ve görselleştirme olmadan neredeyse hiçbir değeri yok.
Hacim, hız ve çeşitlilik yalnızca temel parametreler değildir. Ancak bunlar aynı zamanda Büyük Veri kavramını ve normal veri ile Büyük Veri arasındaki temel ayırıcı özellikleri doğurmanın da nedenidir. Her ne kadar Büyük Veri'nin özünde olsa da, diğer V'nin Değişkenliği, doğruluğu, görselliği ve değeri, Büyük Veri'nin onu işleyecek, analiz edecek ve ondan yararlanacak kişilere sunduğu devasa karmaşıklığı yansıtan önemli özelliklerdir.
Şüphesiz Büyük Veri, kurumsal BT'nin uygun bilgi işlem altyapılarıyla uyum sağlaması gereken önemli bir trenddir. Ancak tüm bunlardan anlam çıkaracak yüksek performanslı analizler ve veri bilimcileri olmadığında, iş avantajına dönüşecek değeri yaratmadan yalnızca Büyük Maliyetler yaratma riskiyle karşı karşıya kalırsınız.
Okunma: 0