Wie lange soll ich warten, bis ein Runner natürlich leerläuft?

Die meisten Teams begrenzen den organischen Drain bei Nicht-Release-Hosts auf 45–90 Minuten; bleibt die Warteschlangentiefe flach und lange Jobs hängen, brechen Sie mit Eigentümerfreigabe ab oder leiten Sie vorübergehend auf Overflow-Kapazität um.

Kann ich alle Mac-Runner in einer Region auf einmal drainen?

Nur wenn redundant Kapazität woanders existiert oder Sie längere Wartezeiten akzeptieren. Staffeln Sie Drains nach Rack oder Label, sodass mindestens ein warmer Pool immer macOS-Jobs annimmt.

Was tun, wenn die Wartung das Änderungsfenster überzieht?

Halten Sie Overflow-Labels aktiv, veröffentlichen Sie eine neue ETA und hungern Sie die Warteschlange nicht still aus. Rollen Sie auf das vorherige Image zurück, wenn der neue Zustand vor Entwickler-Spitzenzeiten nicht validiert werden kann.

2026 Mac-CI-Runner-Drain & Wartungsübergabe

Mac-mini-Build-Hosts sind planbare Knoten, keine Haustiere—trotzdem färbt ein Neustart ohne Orchestrator-Drain Slack weiter rot. Dieses 2026-Playbook definiert, wie neue Arbeit pausiert, laufende Jobs sicher beendet, Labels auf Ersatzkapazität umgehängt und Zeitpläne kommuniziert werden, damit Entwickler dem Plattformteam vertrauen. Sie erhalten zwei Vergleichstabellen, numerische Drain-Schwellen und neun geordnete Schritte für selbst gehostete Flotten im GitHub-Actions-Stil, übertragbar auf andere macOS-Warteschlangen.

Sind Runner noch nicht registriert, starten Sie mit selbst gehosteten GitHub Actions auf Mac mini M4. Folgt Wartung auf ein größeres Image-Promotion, reihen Sie sie nach Canary- und Blue-Green-Cutovern ein, damit Hosts nicht mitten in der Promotion gedrained werden. Steigen Wartezeiten im Fenster, interpretieren Sie Metriken mit Warteschlangentiefe und Wartezeit-SLOs, bevor Sie „langsame Patches“ beschuldigen.

Fehlermodi ohne formalen Drain

Abgebrochene Compile-Jobs: Ein Reboot während xcodebuild verschwendet 15–40 Minuten Wandzeit und zerstört Vertrauen wochenlang.
Verwaiste Workspace-Sperren: Hartes Beenden hinterlässt alte .lock-Dateien oder Simulator-Prozesse, die die nächsten Dutzend Jobs scheitern lassen.
Überraschungen bei Secret-Rotation: Wartung umfasst oft Keychain- oder API-Key-Updates; laufende Jobs halten alte Credentials bis zum sauberen Ende.

Matrix der Übergabestrategie

Vorgehen	Zusätzliche Kapazität	Sichtbares Nutzerrisiko
Label-Drain + warmer Standby	1:1-Ersatzpool	Niedrig, wenn Standby vorgewärmt
Nur zeitlich begrenzter Drain	Keine	Mittel—Warteschlangen verlängern sich
Hard Stop / Reboot	Keine	Hoch—fehlgeschlagene Jobs

Wann weiterwarten vs. erzwingen

Beobachtung	Schwelle	Aktion
Alter des ältesten laufenden Jobs	< 50 Min	Warten—wahrscheinlich gesunder Langtest
Alter des ältesten laufenden Jobs	> 95 Min	Eigentümer anrufen; Abbruch + Retry auf frischem Host erwägen
Warteschlangentiefe vs. SLO	p95-Warte +25 %	Overflow-Labels oder temporäre Cloud-Mac-Miete aktivieren
Schwere des Sicherheitspatches	CVSS ≥ 9	Geschäftsführung-genehmigtes Abbruchfenster

Label-Wahrheit: Drainen heißt, den Host aus dem eingehenden Selektor zu nehmen, nicht die Binärdatei zu löschen. Service installiert lassen, damit Sie bei Wartungsverzug in Minuten wieder aktivieren können.

Neunstufige Wartungsübergabe-Checkliste

Change-Ticket öffnen: Hostnamen, Wartungstyp, erwartete Dauer, Rollback-Verantwortlicher.
Früh ankündigen: Mindestens 24 Stunden vor Bürozeit-Arbeit in Entwicklerkanälen; 72 Stunden bei Multi-Region-Drains.
Standby-Kapazität prüfen: Ersatz-Runner zeigen Idle in der Orchestrator-UI.
Drain-Ziel aus Standard-Labels entfernen: keine neuen Jobs planen; laufende Jobs auslaufen lassen.
Laufende Anzahl beobachten: alle 5 Minuten aktualisieren; Anomalien protokollieren.
Bei Zähler null: Runner-Dienst sauber stoppen; letzte Logs sichern.
Wartung ausführen: OS-Patch, Disk-Bereinigung, Xcode-Install—Notizen fürs CMDB.
Smoke-Test vor Reaktivierung: kanonischer Workflow mit Compile, Signieren, Upload.
Labels bei geringem Traffic wieder anheften: p95-Warte 60 Minuten beobachten, bevor das Ticket geschlossen wird.

Automations-Hooks, die Menschen ehrlich halten

Manuelle Drain-Checklisten versagen, wenn der Bereitschaftsingenieur neu oder müde ist. Kodieren Sie den Happy Path: ein Job, der Orchestrator-Labels per API schaltet, das Change-Ticket öffnet und den vorgefertigten Slack-Hinweis postet, reduziert Streuung. Halten Sie ein menschliches Tor vor kill -9-Pfaden—Automatisierung darf keinen Host rebooten, solange running_jobs > 0, ohne angehängte Break-Glass-Vorfall-ID. Teams, die das richtig verkabeln, sehen die mediane Wartungsdauer um 18–30 % sinken, weil niemand zwanzig Minuten dieselben Mac-„kubectl“-Schritte auswendig tippt.

Webhook beim Drain-Start: Ereignis mit Hostname und erwartetem Endzeitstempel an die Metrik-Stack senden.
Alarm bei flachen laufenden Jobs 20 Min: deutet auf hängenden Executor statt langem Compile hin.
Auto-Ablauf Wartungsmodus: Paging, wenn Labels länger als 4 Stunden ohne Abschluss getrennt bleiben—jemand hat den finalen Flip vergessen.

Behandeln Sie Automatisierung als ausführbare Dokumentation: jeder Zweig soll strukturiertes JSON loggen, damit Postmortems Timelines ohne SSH-Archäologie abspielen. Taggen Sie temporäre Overflow-Macs im CMDB mit demselben Label-Präfix wie Ihre Automatisierung erwartet—Ad-hoc-Hostnamen lassen doppelte Runner die Hälfte Ihrer Schlange stehlen.

Regionales Standby und Burst-Miete

Lebt Ihr einziger Mac-Pool in einer Metropole, werden Drains zwangsläufig Warteschlangenereignisse. Standby-Mac-mini-M4-Knoten in Hongkong, Japan, Korea, Singapur oder den USA absorbieren Wartung ohne Laptop-Versand. NodeMacs regionale Preise unterstützen Kurzzeitmieten genau für solche Überlappungen. Kombinieren Sie Miete mit SSH/VNC-Hilfedokumenten, wenn Sie nach einem Patch interaktiv prüfen müssen.

Kommunikations-Snippets, die Tickets reduzieren

Disziplin beim Kopieren zählt. Jedes Mal vier Fakten: betroffene Labels, Start- und Endfenster in UTC und Ortszeit, wo Live-Warteschlangentiefe sichtbar ist, und was Entwickler tun sollen, wenn ein Job über das angekündigte Fenster hinaus hängt. Teams, die die „hängender Job“-Zeile weglassen, sehen in der ersten Stunde eine 3×-Steigung doppelter IT-Tickets—einmal messen und Sie überspringen diese Zeile nie wieder.

Nach großen Drains 15 Minuten Retrospektive: hat reale Ausfallzeit die Schätzung überschritten, hat ein Team Labels mit hart codierten Runner-Namen umgangen, hat Overflow-Kapazität den Traffic wirklich aufgenommen? Antworten in die nächste Wartungs-RFC speisen, damit der Prozess sich aufsummiert statt jedes Quartal neu zu starten. Ein Screenshot des Orchestrator-Graphen „laufende Jobs“ ins Ticket—zukünftige Prüfer sehen objektive Evidenz, keine Erinnerung.

FAQ

Soll ich während Release-Freeze-Wochen drainen?

Kosmetische Patches lieber verschieben; wenn Sicherheit Arbeit erzwingt, zusätzliche Hosts vorprovisionieren und das Drain-Fenster verkürzen statt den Prozess ganz zu überspringen.

Was, wenn die Wartung das Änderungsfenster überzieht?

Zuerst Standby-Label-Routing verlängern, dann ein explizites „noch nicht frei“-Update mit neuer ETA senden. Rollback auf das alte Image ist günstiger, als die Warteschlange still auszuhungern, während die Geschäftsführung annimmt, CI sei gesund.

Mac-mini-M4-Hardware macht Drain-Mathematik vorhersagbar: Apple Silicon hält die Leistungsaufnahme unter gemischter Compile- und Simulator-Last stabil, vereinheitlichter Speicher reduziert Swap-bezogene Hänger bei langen Drains, und physische Isolation bedeutet, Standby-Hosts verhalten sich wie Produktion—nicht Laptop-Thermal-Throttling mitten in der Schlange. NodeMac liefert dedizierte Mac mini mit SSH und VNC in HK, JP, KR, SG und US, damit Standby-Pools echte Rechenzentrums-Knoten statt geteilter VMs sind. Burst-Kapazitätsmiete macht aus der Wartungssaison eine neben Cutovern und Audits planbare Opex-Zeile.

2026 Playbook: Selbst gehosteter Mac-CI-Runner-Drain, Wartungsfenster und unterbrechungsfreie Übergabe auf Mac mini M4