Документ описывает интеграцию MPI (Message Passing Interface) с CUDA для оптимизации параллельных вычислений на кластерах. Он объясняет архитектуру и функции MPI, а также различные схемы передачи данных между узлами, включая преимущества использования CUDA-aware MPI. Приведены примеры программ и предпочтительные методы передачи данных для повышения эффективности работы с большими массивами данных на GPU.