Demo

Una definizione di Big Data

Negli ultimi anni sempre più rilevanza ha assunto il concetto di Big Data, soprattutto in contesti aziendali dove l’informazione è vista come una delle risorse fondamentali. Un Big Data può essere definito in maniera generica come una gigantesca collezione di informazioni e l’insieme delle tecnologie legate alla loro gestione. Le dimensioni di queste collezioni si aggirano nell’ordine degli zettabyte (uno zettabyte corrisponde a 10^21 byte, ossia un triliardo di byte).

A differenza dei Database classici che sono progettati e costruiti con l’intento di ospitare specifiche informazioni, i Big Data sono il risultato della creazione volontaria o involontaria di un gigantesco numero di dati prodotti da un altrettanto grande numero di generatori, siano essi persone o macchine. La diffusione del concetto di “Big Data” è legata infatti alla diffusione del WEB e delle milioni di applicazioni che lo popolano e che ne diffondono vastissimi contenuti informativi, offrendo la possibilità a miliardi di persone e di macchine di divenire produttori di informazioni di qualsiasi tipologia (testo, immagini, video, etc….). Proprio per questa ragione un’altra caratteristica fondamentale di un Big Data è l’elevatissima eterogeneità dell’informazione gestita. Un Big Data può essere costituito da informazioni proveniente da tantissime fonti differenti e di forma strutturata, semistrutturata o non strutturata.

Si prenda ad esempio in considerazione l’informazione prodotta da un social network, i quali sono probabilmente i principali alimentatori dei Big Data oggi esistenti. Il solo Facebook produce un quantitativo informativo superiore a mezzo petabyte per giorno. Ebbene, anche se l’informazione rappresentata da un post è presentata in forma strutturata, l’informazone vera, ossia quella che riguarda l’utente, corrisponde all’informazione testuale (nel campo testo) del post, quindi corrispondente ad informazione non strutturata.

Modelli dimensionali per la descrizione di un Big Data.

Quali sono le dimensioni descrittive nei confronti delle quali è necessario andare ad esprimere le caratteristiche costitutive di un Big Data? Il problema fu affrontato nel 2001 da Doug Laney, analista per la società internazionale MetaGroup , operante nel settore dell’Information 2 Technology. Laney sviluppò un modello descrittivo caratterizzato da tre dimensioni fondamentali: il famoso modello delle 3V.

Le dimensioni in questione sono:

Volume , con cui ci si riferisce alla caratteristica forse fondamentale di un Big Data dato che il nome stesso fa riferimento al quantitativo di dati costituenti. La principale caratteristica di un Big Data è infatti il suo ordine di grandezza, sempre al limite di quella che è la portata delle tecnologie disponibili per la gestione e manipolazione dell’informazione.

Varietà , la quale va a sottolineare non solo l’eterogenerità dei dati inclusi nella collezione che compone un Big Data, ma anche la potenziale eterogeneità dei Big Data stessi, che possono appartenere a categorie differenti. In generale un analista deve conoscere il contesto nel quale un Big Data si è sviluppato, al fine di una estrapolazione ottimale dell’informazione.

Velocità , la quale si riferisce sia alla velocità con la quale l’informazione costituente il Big Data viene generata, sia alla velocità dei sistemi che gestiscono ed analizzano tali moli informative, le quali devono reagire in maniera rapida, dato che con il passare del tempo una informazione può diventare sempre meno interessante, fino a diventare potenzialmente dannosa.

Col passare del tempo, tuttavia, questo modello si è rivelato per lo più inadeguato per la descrizione di tutte le caratteristiche di un Big Data. Sebbene la Gartner sia sostanzialmente fedele al loro modello classico descrittivo, altre società operanti nel settore dell’IT hanno apportato migliorie a tale modello, suggerendo nuove caratteristiche, quali:

Variabilità , la quale sottolinea la possibilità che l’informazione rappresentata da un Big Data possa essere soggetta a modifiche. In altre parole, questa dimensione inquadra la problematica dell’inconsistenza.

Veridicità , la quale rappresenta l’accuratezza dell’informazione inclusa. Anche questa caratteristica va opportunamente considerata nel processo di analisi dell’informazione di un Big Data.

Complessità , la quale rappresenta il grado di complessità dei processi di gestione del Big Data, fortemente dipendenti dal numero di fonti, dalle tipologie di dati e dal numero dei dati stessi che costituiscono il Big Data.

Esempi di applicazione.

Google offrendo una vastissima suite di servizi completamente gratuiti (quali Gmail, Youtube, il social Google+, e molti altri), è riuscita probabilmente a costruire uno dei più grandi Big Data della storia.Grazie a questa raccolta di informazioni dei propri utenti, Google riesce ad offrire pubblicità mirate ad ogni singolo user, ricavando, di fatto, oltre il 90% degli introiti dalla pubblicità. Un altro interessante esempio applicativo è legato al settore metereologico, infatti è grazie ad una gigantesca collezione di informazioni che il “Centro di Analisi degli Uragani degli Stati Uniti d’America” prova a stimare l’intensità ed i percorsi degli uragani che periodicamente si abbattono sugli Stati Uniti. Tali informazioni provengono da telecamere, sensori e rilevatori disposti su larga scala geografica. Due altri progetti interessanti sono “Google Flu Trends” e “Street Bump”. Il primo, promosso da Google, ha provato a stimare la portata di epidemie di influenza abbattutesi negli Stati Uniti monitorando le query effettuate sull’omonimo motore di ricerca in opportuni archi temporali. Il secondo, portato avanti dalla municipalità di Boston, con il supporto di una applicazione smartphone che faceva utilizzo dell’accelerometro, era in grado di segnalare la potenziale presenza di buche nel manto stradale della città.