Introduction to Apache Spark and AWS (University of London)

ATTENTION - il faut avoir Linux ou Mac pour suivre ce cours...et un compte Amazon Web Services (que les professeurs vous aideront à créer). Ceci dit, pour les utilisateurs de Windows, une application Ubuntu est disponible sur le Windows Store.

Apprenez à analyser les métadonnées à l'aide du framework de calcul distribué d'Apache Spark.

Dans une série de tâches ciblées et pratiques, vous allez commencer par lancer un cluster spark sur la plate-forme de cloud computing EC2 d'Amazon. Au fur et à mesure que vous travaillerez avec des données réelles, vous découvrirez divers outils utiles, notamment RDFlib et SPARQL.

Les tâches pratiques de ce cours s'appuient sur les données du projet Gutenberg, la plus grande collection ouverte de livres numériques au monde. Ceci n'offre pas de fin d'opportunité pour des analyses très engageantes et novatrices.


Comme le matériel enseigné et l'exemple de code sont donnés en Python, il est fortement recommandé que tous les étudiants possèdent une expérience de programmation Python antérieure. De plus, lancer et interagir avec un cluster sur EC2 requiert des connaissances de base sur la ligne de commande Unix, et une expérience avec un éditeur de ligne de commande tel que vim ou nano serait également un atout.

Voilà le lien du cours pour les intéressé(e)s.

Commentaires

Articles les plus consultés