Paper: Performance of linear solvers in tensor-train format on current multicore architectures

Melven Röhrig-Zöllner · Manuel Becklas · Jonas Thies · Achim Basermann

IJHPCA · 2025

Tensornetzwerke sind eine Klasse von Algorithmen, die darauf abzielen, die Rechenkomplexität hochdimensionaler Probleme zu verringern. Sie werden in einer wachsenden Zahl von Anwendungen eingesetzt, von Quantensimulationen bis hin zum maschinellen Lernen. Die Ausnutzung der Datenparallelität in diesen Algorithmen ist der Schlüssel zur Nutzung moderner Hardware. Es gibt jedoch mehrere Möglichkeiten, die erforderlichen Tensoroperationen auf Routinen der linearen Algebra („Bausteine“) abzubilden. Die Optimierung dieser Abbildung hat Auswirkungen auf das numerische Verhalten, so dass rechnerische und numerische Aspekte Hand in Hand betrachtet werden müssen. In diesem Beitrag diskutieren wir die Leistung von Solvern für lineare Systeme mit niedrigem Rang im Tensor-Train-Format (auch bekannt als Matrix-Produkt-Zustände). Wir betrachten drei populäre
Algorithmen: TT-GMRES, MALS und AMEn. Wir veranschaulichen ihre Berechnungskomplexität anhand des Beispiels der Diskretisierung einer einfachen hochdimensionalen PDE in z.B. 5010 Gitterpunkten. Dabei zeigt sich, dass die Projektion auf kleinere Teilprobleme bei MALS und AMEn die Anzahl der Gleitkommaoperationen um Größenordnungen reduziert. Wir schlagen Optimierungen in Bezug auf Orthogonalisierungsschritte, Singulärwertzerlegungen und Tensorkontraktionen vor. Darüber hinaus schlagen wir eine generische Vorkonditionierung vor, die auf einer TT-Rang-1-Approximation des linearen Operators basiert. Insgesamt erreichen wir eine etwa 5-fache Beschleunigung gegenüber dem Referenzalgorithmus für die schnellste Methode (AMEn) auf einer aktuellen Multicore-CPU.

IJHPCA (2025)
https://doi.org/10.1177/10943420251317994

Sage Journals · Creative Commons BY 4.0