Tecnologia e innovazione al servizio delle aziende

Datalin – Open Tools for Data Scientist

Datalin è una nuova distribuzione linux, su base Debian, da me costruita, nata con lo scopo di integrare in un solo luogo i principali strumenti open source per la data science. Potrà essere utilizzata sia dal Data Scientist esperto che ritroverà in un unico prodotto gli strumenti che normalmente utilizza, sia da chi vuole iniziare a esplorare i tools di advanced analytics in quanto costituisce un laboratorio portatile con cui sperimentare le principali tecnologie di analisi.

Alcune schermate di Datalin con i principali strumenti messi a disposizione.

datalin00
datalin01
datalin02
datalin16
datalin15
datalin14
datalin13
datalin12
datalin11
datalin17
datalin10
datalin09
datalin08
datalin07
datalin06
datalin05
datalin04
datalin03

Strumenti disponibili

Datalin integra al suo interno i seguenti strumenti open source:

  • Database: MariaDB, PostgreeSQL, MongoDB Community Edition, Neo4J Community Edition, Apache Cassandra Community Edition.
  • Apache Spark  in modalità local single node, con gli interpreti per Scala, PySpark, SparkR e Spark SQL.
  • Strumenti di Data Integration: Apatar Open Source, Talend Open Studio for Big Data Integration Community Edition, Google Open Refine, Squirrel SQL, Robo Mongo.
  • Scrittura documenti: Libre Office, Lyx, Texmaker e la suite texlive completa di tutte le principali librerie Latex.
  • Analisi di grafi e strutture reticolari: Cytoscape, Gephi.
  • Elaborazione grafica: GIMP, Image Magic, Processing.
  • Accesso a Internet: FileZilla, Firefox ESR.
  • Machine Learning e Data Mining: Knime Community Edition, Orange3, Weka.
  • Matematica e analisi scientifica: GNU Octave, Maxima, Scilab, YACAS.
  • Notebook: Jupyter notebook, Jupyter lab, Apache Zeppelin.
  • Programmazione: Atom, Brackets, Eclipse, Python 2.7, Python 3.4, Rodeo, RStudio community, Shiny Community, Thonny, Open JDK.
  • Strumenti standard di Debian Linux: Datalin è compatibile con Debian 8 Jessie per cui è possibile installare nuovi pacchetti e aggiornare quelli esistenti con APT. Si tenga però presente che molti degli stumenti di analytics installati sono molto sensibili alla versione delle librerie di sistema utilizzate (la loro integrazione non è stata semplice) e il loro aggiornamento non controllato potrebbe portare a malfunzionamenti e instabilità.

Modalità di installazione

Datalin sarà presto disponibile per il download nei seguenti formati:

  • Installer per PenDrive: eseguibile su qualsiasi chiavetta USB o SDcard di almeno 16 Gbyte di capacità. Tramite pendrive sarà possibile portare Datalin sempre con se ed eseguirla sulla quasi totalità di PC disponibili (è stata testata anche su iMac e MacBook pro dotati di porta USB standard sui quali ha funzionato correttamente). Tramite pendrive è possibile installare Datalin in modo permanente sull’hard disk del proprio PC.
  • Immagine per VMware.
  • Immagine per VirtualBox.
  • Immagine per Microsoft Virtual PC.

Le immagini per gli strumenti di virtualizzazione possono essere installate sul proprio PC o importare sulle piattaforma cloud compatibili come Amazon AWS, Microsoft Azure o Aruba.