Deep-Learning-Cluster mit zwei Laptops – Erfahrungen?

Hi zusammen,
ich habe zwei ThinkPad P53 (i9, 128 GB RAM, RTX 5000, Linux) und steuere sie per SSH über zwei T440p. Ziel: die beiden P53 als Deep-Learning-Cluster laufen lassen.
Hat jemand sowas schonmal gemacht? Tipps zu Setup, verteiltem Training oder Netzwerkkonfiguration sind sehr willkommen.

Bei der Netzwerkkonfiguration gibt es so nicht wirklich viel zu beachten, sinn macht es jedoch, die über ein Twisted-Pair anzubinden und nicht über WLAN, vorallem wenn sie große Datenmengen untereinander austauschen.
Wenn du kein Bock hast, beide mit nem getrennten Terminal anzusteuern, gibt es Tools wie Ansible (AWX) die dir das auch erleichtern. Da definierst du rollen und kannst sachen dann auf beiden Rechnern gleichzeitig ausführen.
Finger weg von Desktop distributionen und evtl. etwas leichtgewichtiges wie Debian auswählen. Ubuntu Server hat so seine macken :wink:
Der rest wie Setup und verteiltes Training ist sehr davon abhängig, was du genau machen willst.

1 „Gefällt mir“

Hardware: 4x Läppi (mit LAN-Anschluss), 4x Ethernet-Kabel (CAT5e/6), 1x Switch (oder Router mit ausreichend Anschlüssen). Wenn die Büchsen kein LAN onboard haben, dann gibts ja günstige USB / LAN-Adapter (Amazon) die für Linux geeignet sind.
Einen unmanaged Ethernet-Switch gibts bei der Amazone ab 12-15€ (5-Port, 5x 10/100/1000 MBps rj45 ports with auto-negotiation and auto-mdi/mdix support) oder als 8-Port Variante für ca. 20€ (Netgear)

z.B. → https://www.amazon.de/NETGEAR-8-poorts-Gigabit-Ethernet-Unmanaged/dp/B07PTTX7MX/ref=asc_df_B07PTTX7MX?mcid=1a236877bde632d1aa82408db919ecf1&tag=nlshogostdde-21&linkCode=df0&hvadid=710032563034&hvpos=&hvnetw=g&hvrand=12647881105465107602&hvpone=&hvptwo=&hvqmt=&hvdev=c&hvdvcmdl=&hvlocint=&hvlocphy=9050778&hvtargid=pla-824806900477&gad_source=1&th=1

Wenn man allen 4 Geräten eine feste Ethernet-IP verpasst, reicht immer ein unmanaged Switch.
Wenn du auf einer der Linux-Büchsen dann noch „bind“ einrichtest bzw. eine Zuordnungstabelle etablierst (Computername zu IP bidirektional), kannst du auch problemlos DNS nutzen!

1 „Gefällt mir“