CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters

Résumés déjà disponibles dans d'autres langues : en

Auteurs : Sudarsanan Rajasekaran (Massachusetts Institute of Technology), Manya Ghobadi (Massachusetts Institute of Technology), Aditya Akella (UT Austin)

arXiv: 2308.00852v1 - DOI (cs.NI)

Licence : CC BY 4.0

Résumé : We present CASSINI, a network-aware job scheduler for machine learning (ML) clusters. CASSINI introduces a novel geometric abstraction to consider the communication pattern of different jobs while placing them on network links. To do so, CASSINI uses an affinity graph that finds a series of time-shift values to adjust the communication phases of a subset of jobs, such that the communication patterns of jobs sharing the same network link are interleaved with each other. Experiments with 13 common ML models on a 24-server testbed demonstrate that compared to the state-of-the-art ML schedulers, CASSINI improves the average and tail completion time of jobs by up to 1.6x and 2.5x, respectively. Moreover, we show that CASSINI reduces the number of ECN marked packets in the cluster by up to 33x.

Soumis à arXiv le 01 Aoû. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2308.00852v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Le résumé n'est pas encore prêt

Les points clés ne sont pas encore prêts

Le résumé vulgarisé n'est pas encore prêt

L'article de blog n'est pas encore prêt

Créé le 24 Sep. 2023

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters

Posez des questions sur cet article à notre assistant IA

Résultats du processus de synthèse de l'article arXiv : 2308.00852v1

Articles similaires résumés avec nos outils d'IA