Data science

Prendo ampio spunto per questa pagina dall’articolo La Data Science in tre dimensioni di Andrea Manieri e Francesco Nucci, di cui condivido la chiarezza e precisione di esposizione.

La Data Science è un termine che in ambiente scientifico e del business si sta imponendo come keyword accanto a quelli già (ab)usati di Big Data e IOT. Nel 2012 esce un articolo su Harward Business Review, di T.H. Davenport e D.J.Patil, dove il lavoro del Data Scientist viene definito il più sexy del 21° secolo: il secondo dei due autori era, all’epoca, senior Data Scientist di LinkedIn.

La capacità di estrarre valore dai dati non è solo una necessità delle industrie: anche in ambito governativo è ormai noto che alle elezioni del 2012 la vittoria di Obama per il suo secondo mandato fu ottenuta anche, e soprattutto, grazie all’uso specifico di tecniche di analisi dei data degli elettori (dal web, dai social network, ecc.) applicate alle campagne marketing da un allora non conosciuto analista, Dan Wagner, che riuscì ad identificare in modo nuovo gli elettori e fornire elementi utili ad indirizzare al meglio le azioni di propaganda. Lo stesso Obama nel 2015 chiamò DJ. Patil a ricoprire – per la prima volta nella storia degli Stati Uniti d’America –  il ruolo di Chief Data Scientist per offrire nuove informazioni sullo stato dell’Unione tramite il sito data.gov, sia all’amministrazione che ai cittadini.

Con il termine Data Science, benché sia ancora lontana una definizione universalmente riconosciuta, si tende ad indicare un campo di studi interdisciplinare focalizzato sia sui processi che sui sistemi tecnologici necessari ad estrarre conoscenza e – in ultima analisi valore, da dati di varia natura, forma e dimensione. Perciò la Data Science eredita elementi di Statistica, Data MiningMachine Learning, Ricerca Operativa, Teoria dell’Informazione, Programmazione e Big Data.

La Data Science si declina in tre dimensioni, tutte fondamentali:

  1. La dimensione della disponibilità del dato, inclusi gli aspetti legati al formato, l’interoperabilità e le regole di sfruttamento; la dimensione tecnologica, con le soluzioni sia open source che proprietarie che rendono possibile la gestione di questi dati; la dimensione educativa, con le iniziative volte ad identificare le competenze attese dal mercato del lavoro per supportare Università e centri di formazione per la preparazione di lavoratori in grado di affrontare adeguatamente il cambio di passo atteso nell’economia del 21° secolo.
  2. Nella dimensione della tecnologia, dove si sviluppano, distribuiscono e applicano gli strumenti per la gestione dei Big Data. Il più noto è il framework Hadoop per gestire attività inerenti grandi moli di dati, soprattutto in ambito Enterprise. Apache Spark ha invece raggiunto una maturità ed efficienza molto più avanzata di Hadoop e punta a diventare una piattaforma autonoma. Infine sul fronte proprietario da notare la tendenza ad offerte omnicomprensive da parte dei maggiori vendor (Microsoft, Google, Amazon Web Services) che includono Internet of Things, Big Data e Cloud Computing; segno che la convergenza tecnologica di queste tre buzzword è iniziata. In tal senso vediamo nascere anche piattaforme specifiche per la Data Science come la Data Science Experience, recentemente promossa da IBM.

  3. La dimensione finale è quella dell’educazione; in questo ambito distinguiamo tra le iniziative che mirano ad accrescere il livello delle conoscenze della popolazione nell’ambito digitale (inteso a 360°, incluse le abilità di utilizzare un browser e navigare in rete, oltre che quelle di saper programmare) e quelle più specifiche per la definizione di curricula universitari e post universitari dedicati alla Data Science o alla promozione di comunità legate ad essa. Presto l’aspetto educativo si fonderà con quello normativo, per cui alle comunità e ai corsi offerti sulla base di specificità e sensibilità dei singoli docenti ed istituti, si sostituiranno contenuti e competenze richieste sulla base di certificazione e/o indicazioni di associazioni professionali, come è successo con quelle del Project Management.