Big Data Lab
Mit der Einführung des neuen Masterstudiengangs „Business Intelligence & Analytics“ im Wintersemester 2014/15 hat die Professur Wirtschaftsinformatik – Informations- und Geschäftsprozessmanagement ein Big-Data-Labor (BDL) aufgebaut, welches sowohl für Forschungsprojekte als auch für Lehr- und Testzwecke genutzt wird. Ein Überblick über die Labor-Philosophie bzw. konzeptionelle Architektur des BDL ist in Abbildung 1 dargestellt.
Abbildung 1: Konzeptionelle Architektur des Big Data Labs
Das BDL besteht konzeptuell aus drei Kernkomponenten: der Hardware, der Software und der offenen und innovationsfördernden Atmosphäre. Diese drei Säule bilden die Basis für die unterschiedlichen Anwendungsfälle, wie zum Beispiel Show Cases im Bereich Internet of Things (IoT) Lehrtätigkeiten oder auch Forschungs- und Projektvorhaben.
Das Lab besteht aus zwei Komponenten, dem Hadoop-Cluster (HC) und dem Advanced-Computing-Cluster (ACC). Ersteres stellt grundlegende Funktionalität zum verteilten Rechnen mittels Hadoop zur Verfügung. Sollte ein Anwendungsfall mehr Compute-Power oder zusätzliche Software benötigen, wird dies mittels des ACC realisiert. Ein Überblick über die technische Infrastruktur des BDL (Housing beim URZ der TU Chemnitz) ist Abbildung 2 zu entnehmen.
Abbildung 2: BDL-Infrastruktur
Hadoop-Cluster (HC)
Das HC besteht aus 12 Knoten, die eine Intel i5-CPU (4 Hardware-Threads pro CPU) mit 3,4GHz besitzen. Zusätzlich hat jeder Knoten 32GB Arbeitsspeicher und 2,5TB Festplattenkapazität (Ausbau geplant). Damit verfügt das HC in Summe aktuell über 384 GB Arbeitsspeicher und 30 TB Festplattenkapazität, welche für verteilte Berechnungen – beispielsweise nach dem Map-Reduce-Modell – genutzt werden können.Advanced-Computing-Cluster (ACC)
Das ACC verfügt über 6x Dell R720xd Server (Dell PowerEdge R720xd Spec Sheet), die in Summe über folgende Hardware-Ausstattung verfügen:- 120 Kerne / 240 Hardware-Threads auf 12 CPUs (Intel Xeon E5-2660v2)
- 1,5 TB Arbeitsspeicher
- 20 TB Festplattenkapazität in einem Storage-Area-Network (SAN)
Komponente | Details |
---|---|
ACC | 6x Dell PowerEdge R720xd Specs pro Node:
|
HC | 12x Computing Nodes auf Basis von Consumer Hardware Specs pro Node:
|
NAS | Specs:
|
Hauptanwendungsfälle
- Forschung bezieht sich auf alle akademischen und missionsorientierten Forschungsprojekte, einschließlich Big Data Analytics (BDA), IoT-Einstellungen, insbesondere Industrie 4.0, und Datenmanagement.
- Der Unterrichtsfall bezieht sich auf alle Lehraktivitäten, an denen das BDL beteiligt ist. Das Lab bietet die erforderlichen Softwaretools für praktische Schulungen sowie Flexibilität beim Einrichten zusätzlicher Software. Das Labor findet u.a. in den von der Professur angebotenen Lehrveranstaltung wie „Big Data Management“ regelmäßig Anwendung.
- Darüber hinaus dient das BDL als Evaluierungsplattform für Big-Data-Anwendungsfälle und -Anwendungen, wie etwa neuartige Analyseplattformen.
- Schließlich wird das Lab für Show-Case-Szenarien genutzt, um potenziellen Partnern, regionalen Unternehmen und interessierten Studenten Big-Data- und IoT-Einsatzmöglichkeiten zu präsentieren (z. B. an Tagen der offenen Universität).
Abbildung 3 stellt einen generellen Ablauf eines Anwendungsbeispiels mit, durch das BDL bereitgestellten, Ressourcen dar.
Abbildung 3: Genereller Ablauf eines Anwendungsbeispiels im BDL
Zusammengefasst bietet das BDL eine flexible und kreative Umgebung, um alle Arten von BDA-Szenarien in Lehre und Forschung zusätzlich zu unterstützen.