Einschränkungen im bwSFS (bestimmte Nutzende)
Es gibt seit ca. 14 Tagen große Performance-Probleme beim Datentransfer aus dem S3-Tier / Fabric Pool zurück auf die schnellen NVMe-basierten Speicherbereiche in unserem AFF A400 System. Damit bestehen seit je nach Anwendungsfall (erhebliche) Einschränkungen im Speichersystem für Forschungsdaten (bwSFS) für Galaxy und VMs in der bwCloud, da das Laden älterer Dateien mit starken (extremen) Verzögerung einhergeht. Die Ursache liegt mit hoher Wahrscheinlichkeit im Tiering des Hierarchical Storage Managements (ins S3-Backend vom bwSFS). Dienste wie die bwCloud sind nicht direkt betroffen, da sie dieses Feature im Storage-Backend nicht nutzen. Ebenso scheint das S3 in direkter Nutzung nicht betroffen zu sein. Die Analysen erfolgten als Team-Antrengung vieler Beteiligter inklusive Netzwerkgruppe.Weitere Schritte mit der potenziellen Involvierung des Anbieters erfolgen ab Montag.
Update (27.5. 12 Uhr):
Probleme im Tiering könnten auch andere Effekte getriggert werden, wie die Integration eines neuen Storage-Grid Knotens (Konfigurationsthematik) bzw. Recovery eines anderen. Anfragen beim Anbieter laufen hier gerade noch parallel. Die Auswirkungen in der bwCloud dürften in den meisten Fällen deutlich geringer sein, da alte Blöcke nur selten tatsächich angefragt werden.
Update (31.5. 9 Uhr):
Die Transfer-Raten liegen derzeit für den S3-Tier bei 1-3 Mb/s, ohne dass sich im Monitoring eine besondere Last auf dem Speichersystem oder im Netzwerk feststellen ließe. Im seit September 2021 produktiv eingesetzten Setup greifen rund um die Uhr ca. 100-200 Client-VMs parallel auf den von der A400 bereitgestellten NFS-Speicher zu. Dies war bis vor ca. 14 Tagen größtenteils ohne Probleme möglich.
Wir sind seit Auftreten der Probleme intensiv mit der Ursachenforschung beschäftigt, waren aber bisher nicht erfolgreich.