Fortschritte in praktisch allen Bereichen der physikalischen Forschung beruhen auf der Aufzeichnung und Analyse mehr oder weniger großer Datenmengen. Jüngste Verbesserungen der Detektorinstrumente bieten Wissenschaftlern eine beispiellose Auflösung. Gleichzeitig übertreffen die bei den Experimenten anfallenden Datenraten bei weitem die Kapazität der Speichersysteme. Die Online-Datenverarbeitung und -reduktion ist für die nächste Generation von Detektorsystemen daher von entscheidender Bedeutung. Dies ist in der Regel keine Herausforderung für große internationale Experimente, die in der Lage sind, in großen Teams maßgeschneiderter Datenerfassungssysteme zu entwickeln. Detektoren mit hoher Bandbreite werden jedoch mehr und mehr auch für Laborinstrumente verfügbar, die von einer einzelnen Gruppe oder innerhalb einer kleinen Kollaboration entwickelt und betrieben werden. Solchen Kollaborationen fehlt es oft sowohl an Fachwissen als auch an Ressourcen, um das erforderliche Online-System zu entwickeln.
Wir sehen die Technologien Infrastructure-as-a-Service (IaaS) und Platform-as-a-Service (PaaS) als Kernbausteine für ein universelles Framework, um Daten vom Detektor direkt in lokale Rechenzentren zu leiten und für die Online-Datenverarbeitung und -reduktion auf HPC-Ressourcen zurückzugreifen. Dies ist möglich bei einer engen Zusammenarbeit zwischen Gruppen, die neuartige Detektoren entwickeln, und Rechenzentren, die HPC-Cluster betreiben.
Wir sehen mehrere große Vorteile des beschriebenen Ansatzes:
- Reduktion der Kosten und des Aufwands für Entwurf, Aufbau und Wartung von Datenverarbeitungs-Clustern.
- Der Nutzer kann sich auf die experimentspezifische Datenverarbeitung auf Basis der verfügbaren gemeinsamen Komponenten für die Organisation des Datenflusses fokussieren.
- Erhöhung der Zuverlässigkeite durch Kompetenz die in den Rechenzentren.
- Verbesserung der Auslastung der Systeme gemeinsam Nutzung mehrerer Experimente. Jedem Experiment wird eine Anzahl dedizierter Ressourcen zugewiesen, aber während Lastspitzen kann auch ein viel größerer Anteil der gemeinsam genutzten Ressourcen zur Verfügung gestellt werden.
Technologie
Unser Ziel am IPE ist es, die Lücke zwischen der Detektorentwicklung und den Rechenzentren mit ihren HPC-Clustern zu schließen. Daher haben wir Technologien entwickelt, die für die Realisierung eines schnellen und zuverlässigen Datenflusses zwischen Detektor- und HPC-Infrastruktur erforderlich sind. Diese Bausteine ebnen den Weg, um bei der Datenverarbeitung und -reduktion auf HPC-Ressourcen zurückgreifen zu können.
Ethernet ist inzwischen eine populäre Schnittstelle für Hochgeschwindigkeits-Detektorsysteme. Die raschen Fortschritte in der Ethernet-Technologie ermöglichen eine ausreichende Auslesebandbreite. Denoch sind effiziente Datenverteilungsmethoden, die auf RDMA-Technologien basieren, erforderlich, um die Netzwerkkapazität effizient zu nutzen. Eine der größten Herausforderungen ist die Entwicklung von Methoden zur Vermeidung von Datenverlusten im Fall von Netzwerk- und Hardware-Ausfälle. Ein guter Kompromiss zwischen der Systemzuverlässigkeit und -komplexität kann nur erreicht werden, bei einer Abstimmung zwischen der Detektorfirmware und der HPC-Middleware. Zusätzliche Betriebsinformationen der Datenerfassung der Middleware helfen, Ressourcen zu verwalten und den Datenfluss effizient zu steuern. Darüber hinaus ist ein verteiltes Datenverarbeitungs-Framework erforderlich, um die Entwicklung von skalierbaren Datenreduktionsprozessen zu vereinfachen. Die grösste Herausforderung besteht darin, den Benutzern volle Flexibilität bei der Auswahl der Technologien zu ermöglichen und gleichzeitig sicherzustellen, dass die entwickelte Software einfach auf verschiedene Plattformen migriert werden kann und mit Software aus anderen Experimentteilen koexistieren kann, die möglicherweise auf sehr unterschiedlichen Technologien beruht. Insbesondere ist von so einem Framework zu erwarten, dass es den Einsatz komplexer Machine-Learning-Modelle erlaubt, die über mehrere Knoten hinweg ausgeführt und mit Hilfe von FPGAs, GPUs oder/und anderen Neuro-Architekturen beschleunigt werden sollen.
Wir konzentrieren uns auf datenintensiven Anwendungen auf Cloud-Plattformen und erforschen mögliche Erweiterungen der Cloud-Middleware, um die Zusammenarbeit mit der Detektorelektronik zu ermöglichen. Zu den unseren Forschungsgebieten gehören:
- IaaS (VMWare, oVirt und KVM) und PaaS (OpenShift/Kubernetes) Cloud-Infrastruktur für datenintensive Anwendungen
- Verteilte Dateisysteme für datenintensive Anwendungen (GlusterFS, CePH, BeeGFS)
- Infiniband- und Ethernet-Netzwerke mit niedriger Latenz unter Verwendung von RDMA- und RoCE-Technologien
- Optimierte Kommunikation von CRI-O-Containern innerhalb der Kubernetes Infrastruktur
- Wissenschaftliche Workflow-Engines für Cloud-Umgebungen
- HPC- und Datenbank-Arbeitslasten in Cloud-Umgebungen
- Desktop-Bildanalyse-Anwendungen in Cloud-Umgebungen