Un po’ di statistica

Questo post è un rapido ripasso delle basi di Statistica a supporto della Data Science. La statistica è la disciplina dell’analisi dei dati ed in quanto tale influisce molto sulla Data Science e sull’apprendimento automatico. Questi sono:

  • Statistica descrittiva
  • Inferenza
  • Predizione
  • Progettazione dei modelli sperimentali

La statistica descrittiva include l’analisi dei dati esplorativi, l’apprendimento automatico, il clustering etc. La statistica descrittiva ha molti usi, soprattutto per aiutarci a familiarizzare con un set di dati. Normalmente le statistiche descrittive sono il punto di partenza per qualsiasi analisi. Spesso, le statistiche descrittive ci aiutano ad arrivare a ipotesi da testare in seguito con inferenze più formali.

L’inferenza è il processo di prendere conclusioni sulle popolazioni da campioni. L’inferenza include la maggior parte delle attività tradizionalmente associate a statistiche quali: stima, intervalli di confidenza, test di ipotesi e variabilità. L’inferenza ci obbliga a definire formalmente obiettivi di stime o ipotesi. Ci obbliga a pensare alla popolazione che stiamo cercando di generalizzare dal nostro campione.

L’elaborazione di previsioni si sovrappone con l’inferenza ma tende ad avere un approccio diverso. La previsione è il processo di tentare di indovinare un risultato dato a una serie di eventi storici (risultati precedenti) e di alcuni predittori. L’apprendimento automatico, la regressione, il deep learning, il boosting, la random forest e la regressione logistica sono tutti algoritmi di previsione. Se l’obiettivo della previsione è binario o categoriale, la previsione viene spesso definita classificazione. La possibilità di generalizzare i risultati è dato non da un modello di campionamento, come nel caso dell’inferenza statistica tradizionale, ma testando e verificando l’algoritmo su nuovi set di dati. La previsione ha trasformato molti campi tra e-commerce, marketing e previsione finanziaria.

Il design sperimentale è l’atto di controllare il processo sperimentale per ottimizzare la possibilità di arrivare a conclusioni sane e affidabili. L’esempio più importante del progetto sperimentale è la randomizzazione. Nella randomizzazione un trattamento viene randomizzato attraverso le unità sperimentali per rendere i gruppi di trattamento il più possibile comparabili. Studi clinici e test A / B impiegano la randomizzazione. Nel campionamento casuale, si cerca di campionare casualmente una popolazione di interesse per ottenere una migliore generalizzabilità dei risultati alla popolazione. Molti sondaggi elettorali cercano di ottenere un campione casuale.

3 anni ago