Mojo 🔥 GPU Puzzles, Edition 1

“우리가 할 수 있기 전에 배워야 하는 것들은, 하면서 배운다.” 아리스토텔레스 (니코마코스 윤리학)

Mojo 🔥를 사용한 GPU 프로그래밍 실습 가이드에 오신 것을 환영합니다. Mojo는 파이썬 문법과 시스템 수준의 성능을 결합한 프로그래밍 언어입니다.

아래 개요 영상을 먼저 시청하거나, 계속 읽어주세요.

왜 GPU 프로그래밍인가?

GPU 프로그래밍은 전문 기술에서 현대 컴퓨팅의 핵심 인프라로 발전했습니다. 수십억 개의 매개변수를 처리하는 대규모 언어 모델부터 실시간 영상 스트림을 분석하는 컴퓨터 비전 시스템까지, GPU 가속이 오늘날의 연산 혁신을 이끌고 있습니다. 기후 모델링, 신약 발견, 양자 시뮬레이션 등 과학적 발전은 GPU만이 제공하는 대규모 병렬 처리 능력에 의존하고 있습니다. 금융 기관은 실시간 리스크 분석과 알고리즘 트레이딩에 GPU 컴퓨팅을 활용하며, 자율주행 차량은 GPU 가속 신경망을 통해 센서 데이터를 처리하여 중요한 의사결정을 내립니다.

경제적 파급력도 상당합니다. GPU 컴퓨팅을 효과적으로 활용하는 조직은 개발 주기 단축, 연산 비용 절감, 그리고 이전에는 풀기 어려웠던 계산 문제를 해결할 수 있는 능력 등 상당한 경쟁 우위를 확보합니다. 계산 능력이 비즈니스 가치와 직결되는 시대에, GPU 프로그래밍 역량은 엔지니어, 연구자, 조직에게 전략적 차별화 요소입니다.

왜 GPU 프로그래밍에 Mojo🔥를 사용하는가?

컴퓨팅 산업은 중대한 전환점에 도달했습니다. CPU 성능은 전력과 발열 제약으로 인해 클럭 속도 향상만으로는 한계에 이르렀습니다. 이에 따라 하드웨어 제조사들은 물리적 코어 수를 늘리는 방향으로 나아갔고, 이러한 멀티코어 접근 방식의 정점이 바로 수천 개의 코어가 병렬로 동작하는 현대 GPU입니다. NVIDIA H100을 예로 들면, 단일 클럭 사이클에 16,896개의 스레드를 동시에 실행하면서 270,000개 이상의 스레드를 대기시킬 수 있습니다.

Mojo는 GPU 프로그래밍에 대한 실용적인 접근 방식을 제공하여, 이러한 병렬성을 더 쉽게 활용할 수 있게 합니다:

파이썬 스타일 문법으로 시스템 프로그래밍까지
추상화해도 성능 손실 없이 머신 코드로 컴파일되는 제로 코스트 추상화
컴파일 타임에 오류를 잡는 강력한 타입 시스템
하드웨어 최적화를 고려한 텐서 기본 지원
CPU·GPU 내장 함수를 직접 호출할 수 있는 하드웨어 직접 제어
CPU와 GPU 모두에서 동작하는 크로스 하드웨어 이식성
C/C++ 대비 향상된 안전성
낮은 진입 장벽으로 더 많은 프로그래머가 GPU 성능을 활용

Mojo🔥는 GPU 프로그래밍을 누구나 할 수 있도록 만들어 혁신을 이끌고자 합니다. >익숙한 파이썬 문법을 바탕으로 GPU에 직접 접근할 수 있어, 깊은 전문 지식 없이도 CPU와 GPU를 함께 활용하는 고성능 애플리케이션을 만들 수 있습니다.

왜 퍼즐로 배우는가?

대부분의 GPU 프로그래밍 자료는 실습에 앞서 방대한 이론을 먼저 다룹니다. 하지만 직접 해봐야 이해되는 추상적 개념들은 입문자에게 부담이 될 수 있습니다.

이 책은 다른 접근 방식을 택합니다. 실전 문제에 바로 뛰어들어, 단계적으로 개념을 발견해 나갑니다.

퍼즐 기반 학습의 장점:

직접 체험: GPU에서 바로 실행하고 결과를 확인할 수 있습니다
점진적 복잡도: 각 퍼즐이 이전에 배운 개념 위에 쌓여갑니다
실용적 초점: 실제 계산 문제를 반영한 퍼즐로 구성되어 있습니다
디버깅 능력: 체계적인 디버깅 연습을 통해 문제 해결 감각을 키웁니다
지식 정착: 직접 풀어보는 것이 읽기만 하는 것보다 이해가 더 깊어집니다

암기가 아닌 발견에 중점을 둡니다. 직접 실험하면서 개념을 자연스럽게 익히고, 깊은 이해와 실전 역량을 함께 쌓아갈 수 있습니다.

감사의 말: 이 책의 Part I과 III은 인터랙티브 NVIDIA GPU 학습 프로젝트인 GPU Puzzles에서 큰 영감을 받았습니다. 이 책은 해당 개념들을 Mojo의 추상화와 성능을 활용하여 재구현하고, Mojo에 특화된 최적화로 고급 주제를 더 넓게 다룹니다.

GPU 프로그래밍 사고방식

효과적인 GPU 프로그래밍을 위해서는 계산을 바라보는 방식 자체를 바꿔야 합니다. 앞으로의 학습에 길잡이가 될 핵심 사고 모델을 소개합니다:

순차에서 병렬로: 반복문을 스레드로 대체

기존 CPU 프로그래밍에서는 반복문으로 데이터를 하나씩 순서대로 처리합니다:

# CPU 방식
for i in range(data_size):
    result[i] = process(data[i])

GPU 프로그래밍은 이 방식을 완전히 뒤집습니다. 데이터를 하나씩 순회하는 대신, 수천 개의 스레드를 할당하여 데이터 요소를 동시에 처리합니다:

# GPU 방식 (개념적)
thread_id = get_global_id()
if thread_id < data_size:
    result[thread_id] = process(data[thread_id])

각 스레드가 하나의 데이터 요소를 맡아 처리하므로, 명시적인 반복문이 대규모 병렬 실행으로 바뀝니다. 순차 처리에서 동시 실행으로의 전환이 GPU 프로그래밍의 핵심 개념입니다.

데이터 위에 연산 그리드 맞추기

데이터를 구조화된 그리드로, GPU 스레드가 이에 대응하는 연산 그리드를 형성한다고 생각해 보세요. 효과적인 GPU 프로그래밍은 이 스레드 구성을 잘 설계하여 데이터 공간을 최적으로 처리하는 것입니다:

스레드: 각각 특정 데이터 요소를 담당하는 개별 처리 단위
블록: 공유 메모리 접근과 동기화 기능을 갖춘 스레드 그룹
그리드: 전체 계산 문제를 아우르는 스레드 계층 구조

GPU 프로그래밍을 잘하려면 메모리 접근 패턴과 동기화 요구사항을 관리하면서 병렬 효율을 최대한 끌어올리도록 이 스레드 구성의 균형을 잡아야 합니다.

데이터 이동 vs. 연산

GPU 프로그래밍에서는 연산 자체보다 데이터를 옮기는 비용이 더 클 때가 많습니다:

CPU와 GPU 간 데이터 이동은 느립니다
전역 메모리에서 공유 메모리로의 이동은 그보다 빠릅니다
레지스터나 공유 메모리에 이미 있는 데이터를 다루는 것은 매우 빠릅니다

이는 프로그래밍에서 흔히 가지는 가정을 뒤집습니다. 병목은 연산이 아니라 데이터 이동입니다.

이 책의 퍼즐들을 풀어가면서 이러한 원칙을 직관적으로 체득하고, 계산 문제에 접근하는 방식을 바꿔 나갈 수 있습니다.

학습 내용

이 책은 기초 원리부터 고급 GPU 프로그래밍 기법까지 다룹니다. GPU를 알 수 없는 블랙박스로 두지 않고, 개별 스레드의 동작부터 시작하여 정교한 병렬 알고리즘까지 단계별로 이해를 쌓아갑니다. 저수준 메모리 관리와 고수준 텐서 추상화를 모두 배움으로써, 어떤 GPU 프로그래밍 과제에도 유연하게 대응할 수 있게 됩니다.

현재 학습 과정

핵심 기술	상태	퍼즐
스레드/블록 기초	✅ 제공 중	Part I (1-8)
GPU 프로그램 디버깅	✅ 제공 중	Part II (9-10)
핵심 알고리즘	✅ 제공 중	Part III (11-16)
MAX 그래프 통합	✅ 제공 중	Part IV (17-19)
PyTorch 통합	✅ 제공 중	Part V (20-22)
함수형 패턴 및 벤치마킹	✅ 제공 중	Part VI (23)
워프 프로그래밍	✅ 제공 중	Part VII (24-26)
블록 수준 프로그래밍	✅ 제공 중	Part VIII (27)
고급 메모리 연산	✅ 제공 중	Part IX (28-29)
성능 분석	✅ 제공 중	Part X (30-32)
최신 GPU 기능	✅ 제공 중	Part XI (33-34)

상세 학습 목표

Part I: GPU 기초 (퍼즐 1-8) ✅

스레드 인덱싱과 블록 구성 배우기
메모리 접근 패턴과 가드 이해하기
원시 포인터와 TileTensor 추상화 모두 다뤄보기
스레드 간 통신을 위한 공유 메모리 기초 익히기

Part II: GPU 프로그램 디버깅 (퍼즐 9-10) ✅

GPU 디버거와 디버깅 기법 배우기
새니타이저로 메모리 오류와 경쟁 상태 찾기
GPU 버그를 체계적으로 식별하고 수정하기
복잡한 GPU 프로그래밍 과제에 도전할 자신감 쌓기

참고: 디버깅 퍼즐을 실행하려면 NVIDIA GPU 디버깅 도구 접근을 위한 pixi가 필요합니다. CUDA를 지원하는 NVIDIA GPU에서만 작동합니다.

Part III: GPU 알고리즘 (퍼즐 11-16) ✅

병렬 리덕션과 풀링 연산 구현하기
효율적인 합성곱 커널 만들기
누적 합(스캔) 알고리즘 배우기
타일링 전략으로 행렬 곱셈 최적화하기

Part IV: MAX 그래프 통합 (퍼즐 17-19) ✅

커스텀 MAX 그래프 연산 만들기
GPU 커널과 파이썬 코드 연결하기
소프트맥스, 어텐션 같은 프로덕션 수준의 연산 구현하기

Part V: PyTorch 통합 (퍼즐 20-22) ✅

Mojo GPU 커널과 PyTorch 텐서 연결하기
CustomOpLibrary로 텐서 마샬링을 매끄럽게 처리하기
torch.compile과 통합하여 실행 최적화하기
커널 퓨전과 커스텀 역방향 패스 배우기

Part VI: Mojo 함수형 패턴 및 벤치마킹 (퍼즐 23) ✅

함수형 패턴 배우기: elementwise, tiled 처리, vectorization
체계적인 성능 최적화와 트레이드오프 익히기
정량적 벤치마킹으로 성능 분석하기
GPU 스레딩 vs SIMD 실행 계층 구조 이해하기

Part VII: 워프 수준 프로그래밍 (퍼즐 24-26) ✅

워프 기초와 SIMT 실행 모델 배우기
핵심 워프 연산 익히기: sum, shuffle_down, broadcast
shuffle_xor와 prefix_sum으로 고급 패턴 구현하기
워프 프로그래밍과 함수형 패턴을 효과적으로 결합하기

Part VIII: 블록 수준 프로그래밍 (퍼즐 27) ✅

block.sum()과 block.max()로 블록 단위 리덕션 배우기
블록 수준 누적 합 패턴과 통신 익히기
block.broadcast()로 블록 내 조율 효율적으로 구현하기

Part IX: 고급 메모리 시스템 (퍼즐 28-29) ✅

최적의 메모리 병합 패턴 구현하기
비동기 메모리 연산으로 연산과 전송을 겹쳐 지연 시간 숨기기
메모리 펜스와 동기화 기본 요소 배우기
프리페칭과 캐시 최적화 전략 익히기

Part X: 성능 분석 및 최적화 (퍼즐 30-32) ✅

GPU 커널 프로파일링으로 병목 지점 찾기
점유율과 리소스 활용도 최적화하기
공유 메모리 뱅크 충돌 제거하기

Part XI: 고급 GPU 기능 (퍼즐 33-34) ✅

AI 워크로드를 위한 텐서 코어 프로그래밍 배우기
현대 GPU의 클러스터 프로그래밍 배우기

이 책은 기존 방식과 달리, 먼저 저수준 메모리 조작으로 이해를 쌓은 뒤 점진적으로 Mojo의 TileTensor 추상화로 전환합니다. 이를 통해 GPU 메모리 패턴에 대한 깊은 이해와 현대적 텐서 기반 접근법의 실용적 지식을 모두 얻을 수 있습니다.

시작할 준비가 되셨나요?

GPU 프로그래밍이 왜 중요한지, Mojo가 왜 적합한지, 그리고 퍼즐로 어떻게 배우는지 살펴보았습니다. 이제 시작해 봅시다.

다음 단계: 퍼즐 사용 가이드에서 환경 설정, 시스템 요구사항, 첫 번째 퍼즐 실행 방법을 확인하세요.

퍼즐 사용 가이드

각 퍼즐은 단계적으로 실력을 쌓을 수 있도록 다음과 같은 일관된 구조로 구성되어 있습니다:

개요: 문제 정의와 핵심 개념 소개
구성: 기술적 설정과 메모리 구성 설명
완성할 코드: problems/pXX/에 채워야 할 부분이 표시된 구현 템플릿
힌트: 필요할 때 참고할 수 있는 전략적 힌트로, 정답을 직접 알려주지 않습니다
풀이: 성능 고려사항과 개념 설명을 포함한 종합 분석

퍼즐은 이전에 배운 개념 위에 새로운 개념을 쌓아가며 점차 복잡해집니다. 고급 퍼즐은 앞선 퍼즐의 개념을 알고 있다고 가정하므로, 순서대로 풀어나가는 것을 권장합니다.

코드 실행하기

모든 퍼즐에는 구현 결과를 예상 결과와 비교해주는 테스트 프레임워크가 포함되어 있습니다. 각 퍼즐별로 실행 방법과 검증 절차가 안내됩니다.

사전 준비

시스템 요구사항

먼저 시스템이 시스템 요구사항을 충족하는지 확인하세요.

지원되는 GPU

퍼즐을 실행하려면 지원되는 GPU가 필요합니다. 환경 설정을 마친 뒤 아래 환경 설정의 gpu-specs 명령어로 GPU 호환성을 확인할 수 있습니다.

운영체제

[!NOTE] 운영체제별 GPU 지원 설정 방법을 안내합니다.

NVIDIA를 사용하는 Windows WSL2 for Linux

NVIDIA를 사용하는 Linux 네이티브

macOS Apple Silicon

Windows WSL2 for Linux with NVIDIA

Windows Subsystem for Linux(WSL2, 예: Ubuntu)에서 NVIDIA GPU를 설정하려면 NVIDIA CUDA on WSL 가이드를 참고하세요.

핵심은 Windows용 NVIDIA CUDA 드라이버를 설치하는 것입니다. 이 드라이버가 WSL2를 완벽히 지원합니다. Windows에 NVIDIA GPU 드라이버를 설치하면 WSL 2 안에서 CUDA를 바로 사용할 수 있습니다. Windows 호스트의 CUDA 드라이버가 WSL 2 내부에서 libcuda.so로 스텁(stub) 처리되므로, WSL 2 안에 별도의 NVIDIA GPU Linux 드라이버를 설치해서는 안 됩니다.

드라이버 설치 후 정상 동작을 확인합니다.

Windows에서 확인: PowerShell을 엽니다 (WSL이 아닙니다)

nvidia-smi

WSL 내부에서 확인: (먼저 WSL을 시작합니다. 예: wsl -d Ubuntu)

ls -l /usr/lib/wsl/lib/nvidia-smi
/usr/lib/wsl/lib/nvidia-smi

Pixi에서 설정을 확인하고, 필요시 누락된 요구사항을 설치합니다 (예: cuda-gdb 디버깅용)

pixi run nvidia-smi
pixi run setup-cuda-gdb
pixi run mojo debug --help
pixi run cuda-gdb --version

WSL에서는 VS Code를 에디터로 사용할 수 있습니다.

Windows에서 https://code.visualstudio.com/을 통해 VS Code를 설치합니다.
그런 다음 Remote - WSL 확장을 설치합니다.

[!NOTE] 퍼즐 1-15는 모두 WSL과 Linux에서 작동합니다.

Linux native with NVIDIA

먼저 GPU와 Ubuntu 버전을 확인합니다 (지원되는 Ubuntu LTS: 20.04, 22.04, 24.04)

lspci | grep -i nvidia
lsb_release -a

NVIDIA 드라이버를 설치합니다 (필수)

sudo ubuntu-drivers devices
sudo ubuntu-drivers autoinstall
sudo reboot

Linux에서는 VS Code를 에디터로 사용할 수 있습니다. VS Code APT 저장소를 통해 설치하는 방법은 다음과 같습니다.

Microsoft GPG 키 가져오기

wget -qO- https://packages.microsoft.com/keys/microsoft.asc \
  | gpg --dearmor \
  | sudo tee /usr/share/keyrings/packages.microsoft.gpg > /dev/null

VS Code APT 저장소 추가

echo "deb [arch=amd64 signed-by=/usr/share/keyrings/packages.microsoft.gpg] \
https://packages.microsoft.com/repos/code stable main" \
| sudo tee /etc/apt/sources.list.d/vscode.list

VS Code 설치 및 확인

sudo apt update
sudo apt install code
code --version

[!NOTE] 퍼즐 1-15는 모두 Linux에서 작동합니다.

macOS Apple Silicon

osx-arm64 사용자는 다음이 필요합니다:

macOS 15.0 이상 — 최적 호환성을 위해 권장됩니다. pixi run check-macos로 확인하고, 실패하면 업그레이드하세요.
Xcode 16 이상 — 최소 요구사항입니다. xcodebuild -version으로 확인합니다.

xcrun -sdk macosx metal 실행 시 cannot execute tool 'metal' due to missing Metal toolchain 오류가 나타나면 다음을 실행합니다.

xcodebuild -downloadComponent MetalToolchain

이후 xcrun -sdk macosx metal을 다시 실행하면 no input files error가 나타나야 정상입니다.

[!NOTE] 현재 퍼즐 1-8과 11-15가 macOS에서 작동합니다. 더 많은 퍼즐 지원을 준비하고 있습니다!

프로그래밍 지식

다음에 대한 기본적인 이해가 있으면 좋습니다:

프로그래밍 기초 (변수, 반복문, 조건문, 함수)
병렬 컴퓨팅 개념 (스레드, 동기화, 경쟁 상태)
Mojo 기본 문법 (포인터 입문 섹션 포함)
GPU 프로그래밍 기초를 미리 읽어두면 도움이 됩니다!

GPU 프로그래밍 경험이 없어도 괜찮습니다! 퍼즐을 풀어가며 자연스럽게 익힐 수 있습니다.

Mojo🔥와 함께 GPU 컴퓨팅의 세계로 떠나봅시다!

환경 설정하기

GitHub 저장소를 클론하고 해당 디렉토리로 이동합니다:

# 저장소 클론
git clone https://github.com/modular/mojo-gpu-puzzles
cd mojo-gpu-puzzles

Mojo🔥 프로그램을 실행하기 위한 패키지 매니저를 설치합니다:

옵션 1 (강력 추천): pixi

이 프로젝트에서 `pixi`를 **권장하는 이유**는 다음과 같습니다:

Modular의 MAX/Mojo 패키지에 쉽게 접근 가능
GPU 의존성을 자동으로 처리
conda + PyPI 생태계를 모두 지원

> **참고: 일부 퍼즐은 `pixi`에서만 작동합니다**

**설치:**

 ```bash
curl -fsSL https://pixi.sh/install.sh | sh
 ```

**업데이트:**

 ```bash
pixi self-update
 ```

옵션 2: `uv`

**설치:**

```bash
curl -fsSL https://astral.sh/uv/install.sh | sh
```

**업데이트:**

```bash
uv self update
```

**가상 환경 생성:**

```bash
uv venv && source .venv/bin/activate
```

설정을 확인하고 첫 번째 퍼즐을 실행합니다:

# GPU 사양 확인
pixi run gpu-specs

# 첫 번째 퍼즐 실행
# 아직 구현 전이므로 실패합니다! 본문을 따라 구현해 보세요
pixi run p01

# GPU 사양 확인
pixi run gpu-specs

# 첫 번째 퍼즐 실행
# 아직 구현 전이므로 실패합니다! 본문을 따라 구현해 보세요
pixi run -e amd p01

# GPU 사양 확인
pixi run gpu-specs

# 첫 번째 퍼즐 실행
# 아직 구현 전이므로 실패합니다! 본문을 따라 구현해 보세요
pixi run -e apple p01

# GPU별 의존성 설치
uv pip install -e ".[nvidia]"  # NVIDIA GPU용
# 또는
uv pip install -e ".[amd]"     # AMD GPU용

# GPU 사양 확인
uv run poe gpu-specs

# 첫 번째 퍼즐 실행
# 아직 구현 전이므로 실패합니다! 본문을 따라 구현해 보세요
uv run poe p01

퍼즐 풀기

프로젝트 구조

problems/: 풀이를 직접 구현하는 곳입니다 (여기서 작업합니다!)
solutions/: 비교와 학습을 위한 참고 풀이입니다. 책 전반에 걸쳐 활용됩니다

작업 흐름

problems/pXX/에서 퍼즐 템플릿을 엽니다
제공된 프레임워크 안에 풀이를 작성합니다
구현을 테스트합니다: pixi run pXX 또는 uv run poe pXX (플랫폼에 따라 -e platform을 추가합니다. 예: -e amd)
solutions/pXX/의 참고 풀이와 비교하며 다른 접근 방식을 배웁니다

주요 명령어

# 퍼즐 실행 (필요시 -e로 플랫폼 지정)
pixi run pXX             # NVIDIA (기본값) `pixi run -e nvidia pXX`와 동일
pixi run -e amd pXX      # AMD GPU
pixi run -e apple pXX    # Apple GPU

# 풀이 테스트
pixi run tests           # 모든 풀이 테스트
pixi run tests pXX       # 특정 퍼즐 테스트

# 수동 실행
pixi run mojo problems/pXX/pXX.mojo     # 내 구현
pixi run mojo solutions/pXX/pXX.mojo    # 참고 풀이

# 인터랙티브 셸
pixi shell               # 환경 진입
mojo problems/p01/p01.mojo              # 직접 실행
exit                     # 셸 종료

# 개발
pixi run format         # 코드 포맷팅
pixi task list          # 사용 가능한 명령어

# 참고: uv는 제한적이며 일부 챕터는 pixi가 필요합니다
# GPU별 의존성 설치:
uv pip install -e ".[nvidia]"  # NVIDIA GPU용
uv pip install -e ".[amd]"     # AMD GPU용

# 풀이 테스트
uv run poe tests        # 모든 풀이 테스트
uv run poe tests pXX    # 특정 퍼즐 테스트

# 수동 실행
uv run mojo problems/pXX/pXX.mojo      # 내 구현
uv run mojo solutions/pXX/pXX.mojo     # 참고 풀이

GPU 지원 현황

아래 표는 퍼즐별 GPU 플랫폼 호환성을 정리한 것입니다. 퍼즐에 따라 필요한 GPU 기능과 벤더별 도구가 다릅니다.

퍼즐	NVIDIA GPU	AMD GPU	Apple GPU	비고
Part I: GPU 기초
1 - Map	✅	✅	✅	기본 GPU 커널
2 - Zip	✅	✅	✅	기본 GPU 커널
3 - 가드	✅	✅	✅	기본 GPU 커널
4 - Map 2D	✅	✅	✅	기본 GPU 커널
5 - 브로드캐스트	✅	✅	✅	기본 GPU 커널
6 - 블록	✅	✅	✅	기본 GPU 커널
7 - 공유 메모리	✅	✅	✅	기본 GPU 커널
8 - 스텐실	✅	✅	✅	기본 GPU 커널
Part II: 디버깅
9 - GPU 디버거	✅	❌	❌	NVIDIA 전용 디버깅 도구
10 - 새니타이저	✅	❌	❌	NVIDIA 전용 디버깅 도구
Part III: GPU 알고리즘
11 - 리덕션	✅	✅	✅	기본 GPU 커널
12 - 스캔	✅	✅	✅	기본 GPU 커널
13 - 풀링	✅	✅	✅	기본 GPU 커널
14 - 합성곱	✅	✅	✅	기본 GPU 커널
15 - 행렬 곱셈	✅	✅	✅	기본 GPU 커널
16 - Flashdot	✅	✅	✅	고급 메모리 패턴
Part IV: MAX 그래프
17 - 커스텀 Op	✅	✅	✅	MAX 그래프 통합
18 - 소프트맥스	✅	✅	✅	MAX 그래프 통합
19 - 어텐션	✅	✅	✅	MAX 그래프 통합
Part V: PyTorch 통합
20 - Torch 브릿지	✅	✅	❌	PyTorch 통합
21 - 오토그래드	✅	✅	❌	PyTorch 통합
22 - 퓨전	✅	✅	❌	PyTorch 통합
Part VI: 함수형 패턴
23 - 함수형	✅	✅	✅	고급 Mojo 패턴
Part VII: 워프 프로그래밍
24 - 워프 합계	✅	✅	✅	워프 수준 연산
25 - 워프 통신	✅	✅	✅	워프 수준 연산
26 - 고급 워프	✅	✅	✅	워프 수준 연산
Part VIII: 블록 프로그래밍
27 - 블록 연산	✅	✅	✅	블록 단위 프로그래밍 패턴
Part IX: 메모리 시스템
28 - 비동기 메모리	✅	✅	✅	고급 메모리 연산
29 - 배리어	✅	❌	❌	NVIDIA 전용 고급 동기화
Part X: 성능 분석
30 - 프로파일링	✅	❌	❌	NVIDIA 프로파일링 도구 (NSight)
31 - 점유율	✅	❌	❌	NVIDIA 프로파일링 도구
32 - 뱅크 충돌	✅	❌	❌	NVIDIA 프로파일링 도구
Part XI: 최신 GPU 기능
33 - 텐서 코어	✅	❌	❌	NVIDIA 텐서 코어 전용
34 - 클러스터	✅	❌	❌	NVIDIA 클러스터 프로그래밍

범례

✅ 지원: 해당 플랫폼에서 퍼즐이 작동합니다
❌ 미지원: 플랫폼별 고유 기능이 필요합니다

플랫폼별 참고사항

NVIDIA GPU (전체 지원)

모든 퍼즐(1-34)이 CUDA를 지원하는 NVIDIA GPU에서 작동합니다
CUDA 툴킷과 호환 드라이버가 필요합니다
모든 기능을 사용할 수 있어 가장 완전한 학습 경험을 제공합니다

AMD GPU (폭넓은 지원)

대부분의 퍼즐(1-8, 11-29)이 ROCm을 통해 작동합니다
미지원: 디버깅 도구(9-10), 프로파일링(30-32), 텐서 코어(33-34)
고급 알고리즘과 메모리 패턴까지 포함하여 GPU 프로그래밍을 폭넓게 학습할 수 있습니다

Apple GPU (기본 지원)

기초(1-8, 11-18) 및 고급(23-27) 퍼즐 일부를 지원합니다
미지원: 고급 기능 전반, 디버깅, 프로파일링 도구
GPU 프로그래밍의 기본 패턴을 익히기에 적합합니다

향후 지원 계획: AMD 및 Apple GPU에 대한 도구와 플랫폼 지원을 꾸준히 확대하고 있습니다. 디버깅 도구, 프로파일링 기능, 고급 GPU 연산 등 아직 지원되지 않는 기능은 향후 릴리스에 포함될 예정입니다. 크로스 플랫폼 호환성을 계속 개선하고 있으니 업데이트를 확인해 주세요.

GPU 리소스

무료 클라우드 GPU 플랫폼

로컬 GPU가 없다면, 무료로 GPU를 사용할 수 있는 클라우드 플랫폼을 활용할 수 있습니다:

Google Colab

Google Colab은 무료 GPU 접근을 제공하지만, Mojo GPU 프로그래밍에는 일부 제한이 있습니다:

사용 가능한 GPU:

Tesla T4 (구세대 Turing 아키텍처)
Tesla V100 (제한적 가용)

Mojo GPU Puzzles 사용 시 제한사항:

구세대 GPU 아키텍처: T4 GPU는 고급 Mojo GPU 기능과 호환되지 않을 수 있습니다
세션 시간 제한: 최대 12시간 실행 후 자동으로 연결이 끊깁니다
제한적 디버깅 지원: NVIDIA 디버깅 도구(퍼즐 9-10)를 완전히 사용하지 못할 수 있습니다
패키지 설치 제한: Mojo/MAX 설치 시 우회 방법이 필요할 수 있습니다
성능 제한: 공유 인프라 특성상 일관된 벤치마킹이 어렵습니다

추천 용도: 기본 GPU 프로그래밍 개념(퍼즐 1-8, 11-15)과 기초 패턴 학습.

Kaggle Notebooks

Kaggle은 Colab보다 넉넉한 무료 GPU 사용 시간을 제공합니다:

사용 가능한 GPU:

Tesla T4 (주당 30시간 무료)
P100 (제한적 가용)

Colab 대비 장점:

넉넉한 시간: Colab의 일일 세션 제한과 달리 주당 30시간 사용 가능
자동 저장: 노트북이 자동으로 저장됩니다
안정적인 환경: 패키지 설치가 더 안정적입니다

Mojo GPU Puzzles 사용 시 제한사항:

GPU 아키텍처 제약: T4의 고급 기능 호환성 문제는 Colab과 동일
제한적 디버깅 도구: NVIDIA 프로파일링 및 디버깅 도구(퍼즐 9-10, 30-32) 사용 불가
Mojo 설치 복잡성: Mojo 환경을 수동으로 설정해야 합니다
클러스터 프로그래밍 미지원: 고급 퍼즐(33-34) 작동 불가

추천 용도: 기본 GPU 프로그래밍(퍼즐 1-16)을 장시간에 걸쳐 학습할 때 적합합니다.

권장 사항

전체 학습 과정: NVIDIA GPU가 있으면 모든 퍼즐을 학습할 수 있습니다 (전체 34개)
폭넓은 학습: AMD GPU로도 대부분의 내용을 다룰 수 있습니다 (34개 중 27개)
기초 학습: Apple GPU로 기본 개념을 익힐 수 있습니다 (34개 중 13개)
무료 플랫폼 학습: Google Colab/Kaggle로 기초~중급 개념까지 학습 가능합니다 (퍼즐 1-16)
디버깅 및 프로파일링: 디버깅 도구와 성능 분석에는 NVIDIA GPU가 필요합니다
최신 GPU 기능: 텐서 코어와 클러스터 프로그래밍에는 NVIDIA GPU가 필요합니다

개발

자세한 내용은 README를 참고하세요.

커뮤니티 참여하기

커뮤니티에서 GPU 프로그래밍에 대해 이야기하고, 풀이를 공유하고, 서로 도움을 주고받을 수 있습니다.

🏆 보상을 받아가세요

퍼즐을 모두 풀어보셨나요? 여러분의 도전을 축하하며 무료 스티커 팩을 선물로 드려요!

무료 스티커를 받는 방법:

GitHub 저장소 https://github.com/modular/mojo-gpu-puzzles를 Fork합니다
퍼즐 솔루션을 작성해서 추가합니다
이 양식으로 제출하면 Modular 한정 스티커를 보내드려요!

현재는 북미 지역으로만 배송이 가능합니다. 다른 지역에 계신 분들도 솔루션을 제출해 주세요 – 배송 범위를 넓혀가고 있으니, 가능해지면 꼭 보상을 보내드릴게요.

Puzzle 1: Map

개요

이 퍼즐에서는 GPU 병렬 처리의 기본 개념을 다룹니다. 각 스레드가 데이터 요소 하나를 맡아 동시에 처리하는 방식을 배웁니다. 벡터 a의 각 요소에 10을 더해 output에 저장하는 커널을 구현해 보세요.

참고: 각 위치마다 스레드 1개가 배정됩니다.

핵심 개념

GPU 커널의 기본 구조
스레드와 데이터 간 일대일 매핑
메모리 접근 패턴
GPU에서의 배열 연산

각 위치 $i$에 대해: \[\Large output[i] = a[i] + 10\]

다루는 내용

🔰 원시 메모리 방식

직접 메모리를 다루며 GPU의 기본 원리를 익힙니다.

💡 미리보기: TileTensor를 활용한 현대적 방식

TileTensor가 GPU 프로그래밍을 어떻게 단순화하는지 살펴봅니다. 더 안전하고 깔끔한 코드를 작성할 수 있습니다.

💡 팁: 두 방식을 모두 익히면 현대적인 GPU 프로그래밍 패턴을 더 깊이 이해할 수 있습니다.

핵심 개념

이 퍼즐에서 배우는 내용:

기본 GPU 커널 구조
thread_idx.x를 사용한 스레드 인덱싱
간단한 병렬 연산
병렬성: 각 스레드가 독립적으로 실행됩니다
스레드 인덱싱: i = thread_idx.x 위치의 요소에 접근합니다
메모리 접근: a[i]에서 읽고 output[i]에 씁니다
데이터 독립성: 각 출력은 해당 입력에만 의존합니다

완성할 코드

comptime SIZE = 4
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = SIZE
comptime dtype = DType.float32


def add_10(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    # FILL ME IN (roughly 1 line)

전체 코드 보기: problems/p01/p01.mojo

팁

thread_idx.x를 i에 저장합니다
a[i]에 10을 더합니다
결과를 output[i]에 저장합니다

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p01

pixi run -e amd p01

pixi run -e apple p01

uv run poe p01

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])

솔루션

def add_10(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    output[i] = a[i] + 10.0

이 솔루션은:

i = thread_idx.x로 스레드 인덱스를 가져옵니다
입력값에 10을 더합니다: output[i] = a[i] + 10.0

왜 TileTensor를 고려해야 할까요?

아래 기존 구현을 보면 몇 가지 잠재적인 문제를 발견할 수 있습니다:

현재 방식

i = thread_idx.x
output[i] = a[i] + 10.0

1D 배열에서는 잘 작동하지만, 다음과 같은 상황에서는 어떨까요?

2D나 3D 데이터를 다뤄야 할 때
다양한 메모리 레이아웃을 처리해야 할 때
병합(coalesced) 메모리 접근을 보장해야 할 때

앞으로의 도전 미리보기

퍼즐을 진행하면서 배열 인덱싱은 점점 복잡해집니다:

# 이후 퍼즐에서 다룰 2D 인덱싱
idx = row * WIDTH + col

# 3D 인덱싱
idx = (batch * HEIGHT + row) * WIDTH + col

# 패딩이 있는 경우
idx = (batch * padded_height + row) * padded_width + col

TileTensor 미리보기

TileTensor를 사용하면 이런 경우를 훨씬 깔끔하게 처리할 수 있습니다:

# 미리보기 - 지금은 이 문법을 몰라도 괜찮습니다!
output[i, j] = a[i, j] + 10.0  # 2D 인덱싱
output[b, i, j] = a[b, i, j] + 10.0  # 3D 인덱싱

Puzzle 4에서 TileTensor를 자세히 배울 예정입니다. 그때 이 개념들이 필수가 됩니다. 지금은 다음 내용을 이해하는 데 집중하세요:

기본 스레드 인덱싱
간단한 메모리 접근 패턴
스레드와 데이터의 일대일 매핑

💡 핵심 포인트: 직접 인덱싱은 간단한 경우에 잘 작동하지만, 복잡한 GPU 프로그래밍 패턴에서는 곧 더 정교한 도구가 필요해집니다.

Puzzle 2: Zip

개요

벡터 a와 벡터 b의 각 위치를 더해 output에 저장하는 커널을 구현해 보세요.

참고: 각 위치마다 스레드 1개가 배정됩니다.

핵심 개념

이 퍼즐에서 배우는 내용:

여러 입력 배열의 병렬 처리
여러 입력에 대한 요소별 연산
배열 간 스레드-데이터 매핑
여러 배열의 메모리 접근 패턴

각 스레드 $i$에 대해: \[\Large output[i] = a[i] + b[i]\]

메모리 접근 패턴

Thread 0:  a[0] + b[0] → output[0]
Thread 1:  a[1] + b[1] → output[1]
Thread 2:  a[2] + b[2] → output[2]
...

💡 참고: 이제 커널에서 세 개의 배열(a, b, output)을 다루고 있습니다. 연산이 복잡해질수록 여러 배열에 대한 접근을 관리하기가 점점 어려워집니다.

완성할 코드

comptime SIZE = 4
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = SIZE
comptime dtype = DType.float32


def add(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    b: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    # FILL ME IN (roughly 1 line)

전체 코드 보기: problems/p02/p02.mojo

팁

thread_idx.x를 i에 저장합니다
a[i]와 b[i]를 더합니다
결과를 output[i]에 저장합니다

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p02

pixi run -e amd p02

pixi run -e apple p02

uv run poe p02

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([0.0, 2.0, 4.0, 6.0])

솔루션

def add(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    b: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    output[i] = a[i] + b[i]

이 솔루션은:

i = thread_idx.x로 스레드 인덱스를 가져옵니다
두 배열의 값을 더합니다: output[i] = a[i] + b[i]

앞으로 다룰 내용

직접 인덱싱은 간단한 요소별 연산에서 잘 작동하지만, 다음 상황을 생각해 보세요:

배열의 레이아웃이 서로 다르다면?
한 배열을 다른 배열에 브로드캐스트해야 한다면?
여러 배열에서 병합(coalesced) 접근을 어떻게 보장할 수 있을까?

이러한 질문들은 Puzzle 4의 TileTensor 알아보기에서 다룹니다.

Puzzle 3: 가드

개요

벡터 a의 각 위치에 10을 더해 output에 저장하는 커널을 구현해 보세요.

참고: 스레드 수가 데이터 개수보다 많아서, 일부 스레드는 처리할 데이터가 없습니다. 이런 스레드가 범위를 벗어난 메모리에 접근하지 않도록 방지해야 합니다.

핵심 개념

이 퍼즐에서 다루는 내용:

스레드 수와 데이터 크기 불일치 처리
범위를 벗어난 메모리 접근 방지
GPU 커널에서 조건부 실행 사용
안전한 메모리 접근 패턴

수학적 표현

각 스레드 $i$에 대해: \[\Large \text{if}\ i < \text{size}: output[i] = a[i] + 10\]

메모리 안전 패턴

Thread 0 (i=0):  if 0 < size:  output[0] = a[0] + 10  ✓ Valid
Thread 1 (i=1):  if 1 < size:  output[1] = a[1] + 10  ✓ Valid
Thread 2 (i=2):  if 2 < size:  output[2] = a[2] + 10  ✓ Valid
Thread 3 (i=3):  if 3 < size:  output[3] = a[3] + 10  ✓ Valid
Thread 4 (i=4):  if 4 < size:  ❌ Skip (out of bounds)
Thread 5 (i=5):  if 5 < size:  ❌ Skip (out of bounds)

💡 참고: 다음 상황에서 경계(boundary) 검사는 점점 복잡해집니다:

다차원 배열
다양한 배열 형태
복잡한 접근 패턴

완성할 코드

comptime SIZE = 4
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = 8
comptime dtype = DType.float32


def add_10_guard(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var i = thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p03/p03.mojo

팁

thread_idx.x를 i에 저장합니다
가드 추가: if i < size
가드 내부: output[i] = a[i] + 10.0

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p03

pixi run -e amd p03

pixi run -e apple p03

uv run poe p03

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])

솔루션

def add_10_guard(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var i = thread_idx.x
    if i < size:
        output[i] = a[i] + 10.0

이 솔루션은:

i = thread_idx.x로 스레드 인덱스를 가져옵니다
if i < size로 범위를 벗어난 접근을 방지합니다
가드 내부: 입력값에 10을 더합니다

경계 검사 없이도 테스트가 통과되는 이유가 궁금할 수 있습니다! 테스트 통과가 코드의 안전성이나 미정의 동작(Undefined Behavior) 부재를 보장하지는 않는다는 점을 항상 기억하세요. Puzzle 10에서 이런 경우를 살펴보고, 안전성 버그를 잡는 도구를 사용해 봅니다.

앞으로 다룰 내용

간단한 경계 검사는 여기서 잘 작동하지만, 다음 상황을 생각해 보세요:

2D/3D 배열의 경계는 어떻게 처리할까?
다양한 형태를 효율적으로 처리하려면?
패딩이나 가장자리 처리가 필요하다면?

복잡도가 증가하는 예시:

# 현재: 1D 경계 검사
if i < size: ...

# 곧 다룰 내용: 2D 경계 검사
if i < height and j < width: ...

# 이후: 패딩이 있는 3D
if i < height and j < width and k < depth and
   i >= padding and j >= padding: ...

이런 경계 처리 패턴은 Puzzle 4의 TileTensor 알아보기에서 배우면 훨씬 깔끔해집니다. TileTensor는 형태 관리 기능을 기본으로 제공합니다.

Puzzle 4: 2D Map

개요

2D 정사각 행렬 a의 각 위치에 10을 더해 2D 정사각 행렬 output에 저장하는 커널을 구현해 보세요.

참고: 스레드 수가 행렬의 위치 수보다 많습니다.

핵심 개념

2D 스레드 인덱싱
GPU에서의 행렬 연산
초과 스레드 처리
메모리 레이아웃 패턴

각 위치 $(i,j)$에 대해: \[\Large output[i,j] = a[i,j] + 10\]

스레드 인덱싱 규칙

GPU 프로그래밍에서 2D 행렬을 다룰 때는 스레드 인덱스와 행렬 좌표 사이의 자연스러운 매핑을 따릅니다:

thread_idx.y는 행(row) 인덱스

thread_idx.x는 열(column) 인덱스

이 규칙은 다음과 잘 맞습니다:

행렬 위치를 (row, column)으로 쓰는 표준 수학 표기법

행은 위에서 아래로(y축), 열은 왼쪽에서 오른쪽으로(x축) 가는 행렬의 시각적 구조

스레드 블록을 행렬 구조에 맞춰 2D 그리드로 구성하는 일반적인 GPU 프로그래밍 패턴

역사적 배경

그래픽이나 이미지 처리에서는 보통 $(x,y)$ 좌표를 쓰지만, 행렬 연산에서는 전통적으로 (row, column) 인덱싱을 써왔습니다. 초기 컴퓨터가 2D 데이터를 저장하고 처리하던 방식에서 비롯된 것입니다: 위에서 아래로 한 줄씩, 각 줄은 왼쪽에서 오른쪽으로 읽었죠. 이런 행 우선(row-major) 메모리 레이아웃은 메모리를 순차적으로 접근하는 방식과 맞아서 CPU와 GPU 모두에서 효율적임이 입증되었습니다. GPU 프로그래밍에서 병렬 처리용 스레드 블록이 도입됐을 때, thread_idx.y를 행에, thread_idx.x를 열에 매핑한 건 기존에 확립된 행렬 인덱싱 규칙과 일관성을 유지하려는 자연스러운 선택이었습니다.

구현 방식

🔰 원시 메모리 방식

수동으로 메모리를 관리하면서 2D 인덱싱이 어떻게 동작하는지 알아봅니다.

📚 TileTensor 알아보기

GPU에서 다차원 배열 연산과 메모리 관리를 간편하게 해주는 강력한 추상화를 소개합니다.

🚀 현대적 2D 연산

자연스러운 2D 인덱싱과 자동 경계 검사를 갖춘 TileTensor를 직접 써봅니다.

💡 참고: 이 퍼즐부터는 더 깔끔하고 안전한 GPU 코드를 위해 TileTensor를 주로 사용합니다.

개요

2D 정사각 행렬 a의 각 위치에 10을 더해 2D 정사각 행렬 output에 저장하는 커널을 구현해 보세요.

참고: 스레드 수가 행렬의 위치 수보다 많습니다.

핵심 개념

이 퍼즐에서 배울 내용:

2D 스레드 인덱스 다루기 (thread_idx.x, thread_idx.y)
2D 좌표를 1D 메모리 인덱스로 변환하기
2차원에서 경계 검사 처리하기

핵심은 2D 스레드 좌표 $(i,j)$를 크기 $n \times n$인 행 우선 행렬의 원소로 매핑하는 방법을 이해하는 것입니다. 동시에 스레드 인덱스가 범위를 벗어나지 않는지도 확인해야 합니다.

2D 인덱싱: 각 스레드가 고유한 $(i,j)$ 위치를 가짐
메모리 레이아웃: 행 우선 순서로 2D를 1D 메모리에 매핑
가드 조건: 두 차원 모두 경계 검사 필요
스레드 범위: 스레드 $(3 \times 3)$가 행렬 원소 $(2 \times 2)$보다 많음

완성할 코드

comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32


def add_10_2d(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p04/p04.mojo

팁

2D 인덱스 가져오기: row = thread_idx.y, col = thread_idx.x
가드 추가: if row < size and col < size
가드 내부에서 행 우선 방식으로 10 더하기!

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p04

pixi run -e amd p04

pixi run -e apple p04

uv run poe p04

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])

솔루션

def add_10_2d(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    if row < size and col < size:
        output[row * size + col] = a[row * size + col] + 10.0

이 솔루션은:

2D 인덱스 가져오기: row = thread_idx.y, col = thread_idx.x
가드 추가: if row < size and col < size
가드 내부: output[row * size + col] = a[row * size + col] + 10.0

TileTensor 알아보기

퍼즐 풀이를 잠시 멈추고, GPU 프로그래밍을 더 즐겁게 만들어줄 강력한 추상화를 미리 살펴봅시다: 🥁… 바로 TileTensor 입니다.

💡 TileTensor가 어떤 일을 할 수 있는지 맛보기로 살펴봅니다. 지금 모든 걸 이해할 필요는 없어요 - 퍼즐을 진행하면서 각 기능을 자세히 알아볼 겁니다.

문제: 점점 복잡해지는 코드

지금까지 겪은 어려움을 살펴봅시다:

# Puzzle 1: 단순 인덱싱
output[i] = a[i] + 10.0

# Puzzle 2: 여러 배열 관리
output[i] = a[i] + b[i]

# Puzzle 3: 경계 검사
if i < size:
    output[i] = a[i] + 10.0

차원이 늘어나면 코드는 더 복잡해집니다:

# 전통적인 2D 인덱싱 (행 우선 2D 행렬)
idx = row * WIDTH + col
if row < height and col < width:
    output[idx] = a[idx] + 10.0

해결책: TileTensor 미리보기

TileTensor는 이런 문제들을 깔끔하게 해결해줍니다. 앞으로 배울 내용을 살짝 엿보면:

자연스러운 인덱싱: 수동 오프셋 계산 대신 tensor[i, j] 사용
유연한 메모리 레이아웃: 행 우선, 열 우선, 타일 구성 지원
성능 최적화: GPU에 효율적인 메모리 접근 패턴

앞으로 배울 내용 맛보기

TileTensor가 할 수 있는 일을 몇 가지 예시로 살펴봅시다. 지금 모든 세부 사항을 이해할 필요는 없습니다 - 앞으로 나올 퍼즐에서 각 기능을 꼼꼼히 다룰 거예요.

기본 사용 예시

from layout import TileTensor
from layout.tile_layout import row_major

# 레이아웃 정의
comptime HEIGHT = 2
comptime WIDTH = 3
comptime layout = row_major[HEIGHT, WIDTH]()
comptime LayoutType = type_of(layout)

# 텐서 생성
tensor = TileTensor(buffer, layout)

# 자연스럽게 요소 접근
tensor[0, 0] = 1.0  # 첫 번째 요소
tensor[1, 2] = 2.0  # 마지막 요소

Layout과 TileTensor에 대해 더 알아보려면 Mojo 매뉴얼의 가이드를 참고하세요:

간단한 예제

TileTensor의 기본을 보여주는 간단한 예제로 모든 것을 정리해봅시다:

# ===----------------------------------------------------------------------=== #
#
# This file is Modular Inc proprietary.
#
# ===----------------------------------------------------------------------=== #
from std.gpu.host import DeviceContext
from layout import TileTensor
from layout.tile_layout import row_major

comptime HEIGHT = 2
comptime WIDTH = 3
comptime dtype = DType.float32
comptime layout = row_major[HEIGHT, WIDTH]()
comptime LayoutType = type_of(layout)


def kernel(
    tensor: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
):
    print("Before:")
    print(tensor)
    tensor[0, 0] += 1
    print("After:")
    print(tensor)


def main() raises:
    ctx = DeviceContext()

    a = ctx.enqueue_create_buffer[dtype](HEIGHT * WIDTH)
    a.enqueue_fill(0)
    tensor = TileTensor(a, layout)
    # Note: since `tensor` is a device tensor we can't print it without the kernel wrapper
    ctx.enqueue_function[kernel, kernel](tensor, grid_dim=1, block_dim=1)

    ctx.synchronize()

다음 명령어로 이 코드를 실행하면:

pixi run tile_tensor_intro

pixi run -e amd tile_tensor_intro

pixi run -e apple tile_tensor_intro

uv run poe tile_tensor_intro

Before:
0.0 0.0 0.0
0.0 0.0 0.0
After:
1.0 0.0 0.0
0.0 0.0 0.0

무슨 일이 일어나는지 살펴봅시다:

행 우선 레이아웃으로 2 x 3 텐서를 생성합니다
처음에는 모든 요소가 0입니다
자연스러운 인덱싱으로 하나의 요소를 수정합니다
변경 사항이 출력에 반영됩니다

이 간단한 예제는 TileTensor의 핵심 장점을 보여줍니다:

텐서 생성과 접근을 위한 깔끔한 문법
자동 메모리 레이아웃 처리
자연스러운 다차원 인덱싱

이 예제는 간단하지만, 같은 패턴이 앞으로 나올 퍼즐의 복잡한 GPU 연산에도 그대로 적용됩니다. 이런 기본 개념이 다음으로 어떻게 확장되는지 보게 될 거예요:

멀티 스레드 GPU 연산
공유 메모리 최적화
복잡한 타일링 전략
하드웨어 가속 연산

TileTensor와 함께 GPU 프로그래밍 여정을 시작할 준비가 됐나요? 퍼즐로 들어가봅시다!

💡 팁: 진행하면서 이 예제를 기억해두세요 - 이 기본 개념을 바탕으로 점점 더 정교한 GPU 프로그램을 만들어갈 겁니다.

TileTensor 버전

개요

2D TileTensor a의 각 위치에 10을 더해 2D TileTensor output에 저장하는 커널을 구현해 보세요.

참고: 스레드 수가 행렬의 위치 수보다 많습니다.

핵심 개념

이 퍼즐에서 배울 내용:

2D 배열 접근에 TileTensor 사용하기
tensor[i, j]로 직접 2D 인덱싱하기
TileTensor에서 경계 검사 처리하기

핵심은 TileTensor가 자연스러운 2D 인덱싱 인터페이스를 제공하여 내부 메모리 레이아웃을 추상화한다는 점입니다. 그러면서도 경계 검사는 여전히 필요합니다.

2D 접근: TileTensor로 자연스러운 $(i,j)$ 인덱싱
메모리 추상화: 수동 행 우선 계산 불필요
가드 조건: 두 차원 모두 경계 검사 필요
스레드 범위: 스레드 $(3 \times 3)$가 텐서 원소 $(2 \times 2)$보다 많음

완성할 코드

comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32
comptime layout = row_major[SIZE, SIZE]()
comptime LayoutType = type_of(layout)


def add_10_2d(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p04/p04_tile_tensor.mojo

팁

2D 인덱스 가져오기: row = thread_idx.y, col = thread_idx.x
가드 추가: if row < size and col < size
가드 내부에서 a[row, col]에 10 더하기

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p04_tile_tensor

pixi run -e amd p04_tile_tensor

pixi run -e apple p04_tile_tensor

uv run poe p04_tile_tensor

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])

솔루션

def add_10_2d(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    if col < size and row < size:
        output[row, col] = a[row, col] + 10.0

이 솔루션은:

row = thread_idx.y, col = thread_idx.x로 2D 스레드 인덱스를 가져옴
if row < size and col < size로 범위를 벗어난 접근 방지
TileTensor의 2D 인덱싱 사용: output[row, col] = a[row, col] + 10.0

Puzzle 5: 브로드캐스트

개요

1D TileTensor a와 b를 브로드캐스트로 더해 2D TileTensor output에 저장하는 커널을 구현해 보세요.

참고: 스레드 수가 행렬의 위치 수보다 많습니다.

핵심 개념

이 퍼즐에서 배울 내용:

브로드캐스트 연산에 TileTensor 사용하기
서로 다른 텐서 크기 다루기
TileTensor로 2D 인덱싱 처리하기

핵심은 TileTensor가 서로 다른 텐서 크기 $(1, n)$와 $(n, 1)$을 $(n,n)$으로 자연스럽게 브로드캐스트할 수 있다는 점입니다. 그러면서도 경계 검사는 여전히 필요합니다.

텐서 크기: 입력 벡터의 크기는 $(1, n)$과 $(n, 1)$
브로드캐스트: 두 차원을 결합해 $(n,n)$ 출력 생성
가드 조건: 출력 크기에 대한 경계 검사는 여전히 필요
스레드 범위: 텐서 원소 $(2 \times 2)$보다 스레드 $(3 \times 3)$가 많음

완성할 코드

comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32
comptime out_layout = row_major[SIZE, SIZE]()
comptime a_layout = row_major[1, SIZE]()
comptime b_layout = row_major[SIZE, 1]()
comptime OutLayout = type_of(out_layout)
comptime ALayout = type_of(a_layout)
comptime BLayout = type_of(b_layout)


def broadcast_add(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, ALayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, BLayout, ImmutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p05/p05.mojo

팁

2D 인덱스 가져오기: row = thread_idx.y, col = thread_idx.x
가드 추가: if row < size and col < size
가드 내부: TileTensor로 a와 b 값을 어떻게 브로드캐스트할지 생각해 보세요

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p05

pixi run -e amd p05

pixi run -e apple p05

uv run poe p05

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([1.0, 2.0, 11.0, 12.0])

솔루션

def broadcast_add(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, ALayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, BLayout, ImmutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    if row < size and col < size:
        output[row, col] = a[0, col] + b[row, 0]

TileTensor 브로드캐스트와 GPU 스레드 매핑의 핵심 개념을 보여주는 솔루션입니다:

스레드에서 행렬로 매핑
- thread_idx.y로 행, thread_idx.x로 열에 접근
- 자연스러운 2D 인덱싱이 출력 행렬 구조와 일치
- 초과 스레드(3×3 그리드)는 경계 검사로 처리
브로드캐스트 작동 방식
- 입력 a의 크기는 (1,n): a[0,col]이 행을 가로질러 브로드캐스트
- 입력 b의 크기는 (n,1): b[row,0]이 열을 가로질러 브로드캐스트
- 출력의 크기는 (n,n): 각 원소는 해당 브로드캐스트 값들의 합
```
[ a0 a1 ]  +  [ b0 ]  =  [ a0+b0  a1+b0 ]
              [ b1 ]     [ a0+b1  a1+b1 ]
```
경계 검사
- 가드 조건 row < size and col < size로 범위 초과 접근 방지
- 행렬 범위와 초과 스레드를 효율적으로 처리
- 브로드캐스트 덕분에 a와 b에 대한 별도 검사 불필요

이 패턴은 이후 퍼즐에서 다룰 더 복잡한 텐서 연산의 기초가 됩니다.

Puzzle 6: 블록

개요

벡터 a의 각 위치에 10을 더해 output에 저장하는 커널을 구현해 보세요.

참고: 블록당 스레드 수가 a의 크기보다 작습니다.

핵심 개념

이 퍼즐에서 다루는 내용:

스레드 블록 크기보다 큰 데이터 처리
여러 블록의 스레드 조율
전역 스레드 위치 계산

여기서 핵심은 여러 스레드 블록이 협력하여 단일 블록 용량보다 큰 데이터를 처리하면서도, 요소와 스레드 간 올바른 매핑을 유지하는 원리를 이해하는 것입니다.

완성할 코드

comptime SIZE = 9
comptime BLOCKS_PER_GRID = (3, 1)
comptime THREADS_PER_BLOCK = (4, 1)
comptime dtype = DType.float32


def add_10_blocks(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var i = block_dim.x * block_idx.x + thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p06/p06.mojo

참고: 이 퍼즐의 TileTensor 버전은 거의 동일하므로 독자에게 맡깁니다.

팁

전역 인덱스 계산: i = block_dim.x * block_idx.x + thread_idx.x
가드 추가: if i < size
가드 내부: output[i] = a[i] + 10.0

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p06

pixi run -e amd p06

pixi run -e apple p06

uv run poe p06

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0])

솔루션

def add_10_blocks(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    size: Int,
):
    var i = block_dim.x * block_idx.x + thread_idx.x
    if i < size:
        output[i] = a[i] + 10.0

이 솔루션은 블록 기반 GPU 처리의 핵심 개념을 다룹니다:

전역 스레드 인덱싱
- 블록 인덱스와 스레드 인덱스를 결합: block_dim.x * block_idx.x + thread_idx.x
- 각 스레드를 고유한 전역 위치에 매핑
- 블록당 3개 스레드 예시:
```
Block 0: [0 1 2]
Block 1: [3 4 5]
Block 2: [6 7 8]
```
블록 조율
- 각 블록은 연속된 데이터 청크를 처리
- 블록 크기(3) < 데이터 크기(9)이므로 여러 블록 필요
- 블록 간 자동 작업 분배:
```
Data:    [0 1 2 3 4 5 6 7 8]
Block 0: [0 1 2]
Block 1:       [3 4 5]
Block 2:             [6 7 8]
```
경계 검사
- 가드 조건 i < size로 경계 케이스 처리
- 데이터 크기가 블록 크기로 나누어 떨어지지 않을 때 범위를 벗어난 접근 방지
- 데이터 끝부분의 불완전한 블록 처리에 필수
메모리 접근 패턴
- 병합(coalesced) 메모리 접근: 블록 내 스레드들이 연속된 메모리에 접근
- 각 스레드가 하나의 요소 처리: output[i] = a[i] + 10.0
- 블록 수준 병렬성으로 메모리 대역폭을 효율적으로 활용

이 패턴은 단일 스레드 블록 크기를 초과하는 대규모 데이터셋 처리의 기초가 됩니다.

Puzzle 7: 2D 블록

개요

2D TileTensor a의 각 위치에 10을 더해 2D TileTensor output에 저장하는 커널을 구현해 보세요.

참고: 블록당 스레드 수가 a의 행과 열 크기보다 모두 작습니다.

핵심 개념

이 퍼즐에서 배울 내용:

여러 블록과 함께 TileTensor 사용하기
2D 블록 구성으로 큰 행렬 처리하기
블록 인덱싱과 TileTensor 접근 결합하기

핵심은 TileTensor가 2D 인덱싱을 단순화해 주지만, 큰 행렬에서는 여전히 블록 간 조율이 필요하다는 점입니다.

🔑 2D 스레드 인덱싱 방식

Puzzle 4: 2D Map의 블록 기반 인덱싱을 2D로 확장합니다:
전역 위치 계산:
row = block_dim.y * block_idx.y + thread_idx.y
col = block_dim.x * block_idx.x + thread_idx.x
예를 들어, 4×4 그리드에서 2×2 블록을 사용하면:
Block (0,0):   Block (1,0):
[0,0  0,1]     [0,2  0,3]
[1,0  1,1]     [1,2  1,3]

Block (0,1):   Block (1,1):
[2,0  2,1]     [2,2  2,3]
[3,0  3,1]     [3,2  3,3]
각 위치는 해당 스레드의 전역 인덱스 (row, col)를 나타냅니다. 블록 차원과 인덱스가 함께 작동하여 다음을 보장합니다:

2D 공간 전체를 빈틈없이 처리

블록 간 겹침 없음

효율적인 메모리 접근 패턴

구성

행렬 크기: $5 \times 5$ 원소
레이아웃 처리: TileTensor가 행 우선 구성 관리
블록 조율: 여러 블록으로 전체 행렬 커버
2D 인덱싱: 경계 검사와 함께 자연스러운 $(i,j)$ 접근
총 스레드 수: $25$개 원소에 대해 $36$개
스레드 매핑: 각 스레드가 행렬 원소 하나씩 처리

완성할 코드

comptime SIZE = 5
comptime BLOCKS_PER_GRID = (2, 2)
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32
comptime out_layout = row_major[SIZE, SIZE]()
comptime a_layout = row_major[SIZE, SIZE]()
comptime OutLayout = type_of(out_layout)
comptime ALayout = type_of(a_layout)


def add_10_blocks_2d(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, ALayout, ImmutAnyOrigin],
    size: Int,
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x
    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p07/p07.mojo

팁

전역 인덱스 계산: row = block_dim.y * block_idx.y + thread_idx.y, col = block_dim.x * block_idx.x + thread_idx.x
가드 추가: if row < size and col < size
가드 내부: 2D TileTensor에 10을 더하는 방법을 생각해 보세요

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p07

pixi run -e amd p07

pixi run -e apple p07

uv run poe p07

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, ... , 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, ... , 34.0])

솔루션

def add_10_blocks_2d(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, ALayout, ImmutAnyOrigin],
    size: Int,
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x
    if row < size and col < size:
        output[row, col] = a[row, col] + 10.0

TileTensor가 2D 블록 기반 처리를 얼마나 간소화하는지 보여주는 솔루션입니다:

2D 스레드 인덱싱

전역 행(row): block_dim.y * block_idx.y + thread_idx.y
전역 열(col): block_dim.x * block_idx.x + thread_idx.x

스레드 그리드를 텐서 원소에 매핑:

3×3 블록으로 구성된 5×5 텐서:

Block (0,0)         Block (1,0)
[(0,0) (0,1) (0,2)] [(0,3) (0,4)    *  ]
[(1,0) (1,1) (1,2)] [(1,3) (1,4)    *  ]
[(2,0) (2,1) (2,2)] [(2,3) (2,4)    *  ]

Block (0,1)         Block (1,1)
[(3,0) (3,1) (3,2)] [(3,3) (3,4)    *  ]
[(4,0) (4,1) (4,2)] [(4,3) (4,4)    *  ]
[  *     *     *  ] [  *     *      *  ]

(* = 스레드는 존재하지만 텐서 경계 밖)

TileTensor의 장점
- 자연스러운 2D 인덱싱: 수동 오프셋 계산 대신 tensor[row, col] 사용
- 자동 메모리 레이아웃 최적화
- 접근 패턴 예시:
```
원시 메모리:          TileTensor:
row * size + col    tensor[row, col]
(2,1) -> 11        (2,1) -> 같은 원소
```
경계 검사
- 가드 row < size and col < size가 처리하는 상황:
  - 부분 블록에서 범위를 벗어나는 스레드
  - 텐서 경계의 엣지 케이스
  - 메모리 레이아웃은 TileTensor가 자동으로 처리
  - 25개 원소를 36개 스레드로 처리 (3×3 블록의 2×2 그리드)
블록 조율
- 각 3×3 블록이 5×5 텐서의 일부분을 담당
- TileTensor가 처리하는 부분:
  - 메모리 레이아웃 최적화
  - 효율적인 접근 패턴
  - 블록 경계 간 조율
  - 캐시 친화적 데이터 접근

이 패턴은 TileTensor가 최적의 메모리 접근 패턴과 스레드 조율을 유지하면서도 2D 블록 처리를 얼마나 간소화하는지 보여줍니다.

Puzzle 8: 공유 메모리

개요

1D TileTensor a의 각 위치에 10을 더해 1D TileTensor output에 저장하는 커널을 구현해 보세요.

참고: 블록당 스레드 수가 a의 크기보다 작습니다.

핵심 개념

이 퍼즐에서 배울 내용:

address_space를 활용한 TileTensor의 공유 메모리 기능
공유 메모리를 사용할 때의 스레드 동기화
TileTensor로 블록 로컬 데이터 관리하기

핵심은 TileTensor가 블록 로컬 저장소의 성능은 그대로 유지하면서 공유 메모리 관리를 얼마나 간소화하는지 이해하는 것입니다.

구성

배열 크기: SIZE = 8 원소
블록당 스레드 수: TPB = 4
블록 수: 2
공유 메모리: 블록당 TPB개 원소

경고: 각 블록에는 해당 블록의 스레드들이 읽고 쓸 수 있는 공유 메모리의 양이 _상수_로 고정되어 있습니다. 이 값은 파이썬 리터럴 상수여야 하며 변수를 사용할 수 없습니다. 공유 메모리에 쓴 후에는 barrier를 호출해 스레드들이 교차하지 않도록 해야 합니다.

학습 참고: 이 퍼즐에서는 각 스레드가 자신의 공유 메모리 위치에만 접근하므로 barrier()가 엄밀히 필요하지 않습니다. 하지만 더 복잡한 상황에서 필요한 올바른 동기화 패턴을 익히기 위해 포함되어 있습니다.

완성할 코드

comptime TPB = 4
comptime SIZE = 8
comptime BLOCKS_PER_GRID = (2, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)


def add_10_shared(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    # Allocate shared memory using stack_allocation
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    if global_i < size:
        shared[local_i] = a[global_i]

    barrier()

    # FILL ME IN (roughly 2 lines)

전체 코드 보기: problems/p08/p08.mojo

팁

address_space 파라미터로 TileTensor 공유 메모리 생성
자연스러운 인덱싱으로 데이터 로드: shared[local_i] = a[global_i]
barrier()로 동기화 (학습용 - 여기서는 엄밀히 필요하지 않음)
공유 메모리 인덱스로 데이터 처리
범위를 벗어난 접근을 방지하는 가드

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p08

pixi run -e amd p08

pixi run -e apple p08

uv run poe p08

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([11.0, 11.0, 11.0, 11.0, 11.0, 11.0, 11.0, 11.0])

솔루션

def add_10_shared_tile_tensor(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    # Allocate shared memory using stack_allocation
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    if global_i < size:
        shared[local_i] = a[global_i]

    # Note: barrier is not strictly needed here since each thread only accesses
    # its own shared memory location. However, it's included to teach proper
    # shared memory synchronization patterns for more complex scenarios where
    # threads need to coordinate access to shared data.
    barrier()

    if global_i < size:
        output[global_i] = shared[local_i] + 10

TileTensor가 성능을 유지하면서 공유 메모리 사용을 얼마나 간소화하는지 보여주는 솔루션입니다:

TileTensor를 사용한 메모리 계층 구조
- 전역 텐서: a와 output (느림, 모든 블록에서 보임)
- 공유 텐서: shared (빠름, 스레드 블록 로컬)
- 블록당 4개 스레드로 8개 원소를 처리하는 예시:
```
전역 텐서 a: [1 1 1 1 | 1 1 1 1]  # 입력: 모두 1

Block (0):         Block (1):
shared[0..3]       shared[0..3]
[1 1 1 1]          [1 1 1 1]
```

스레드 조율

로드 단계 (자연스러운 인덱싱 사용):

Thread 0: shared[0] = a[0]=1    Thread 2: shared[2] = a[2]=1
Thread 1: shared[1] = a[1]=1    Thread 3: shared[3] = a[3]=1
barrier()    ↓         ↓        ↓         ↓   # 모든 로드 완료 대기

처리 단계: 각 스레드가 자신의 공유 텐서 값에 10을 더함
결과: output[global_i] = shared[local_i] + 10 = 11

참고: 이 경우에는 각 스레드가 자신의 공유 메모리 위치(shared[local_i])에만 쓰고 읽으므로 barrier()가 엄밀히 필요하지 않습니다. 하지만 스레드들이 서로의 데이터에 접근하는 상황에서 필수적인 동기화 패턴을 익히기 위해 포함되어 있습니다.

TileTensor의 장점

공유 메모리 할당:

# address_space를 사용한 깔끔한 TileTensor API
shared = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB]())

전역과 공유 메모리 모두 자연스러운 인덱싱:

Block 0 출력: [11 11 11 11]
Block 1 출력: [11 11 11 11]

내장된 레이아웃 관리와 타입 안전성

메모리 접근 패턴
- 로드: 전역 텐서 → 공유 텐서 (최적화됨)
- 동기화: 원시 메모리 버전과 동일한 barrier() 필요
- 처리: 공유 메모리 값에 10 더하기
- 저장: 결과(11)를 전역 텐서에 쓰기

이 패턴은 TileTensor가 공유 메모리의 성능 이점을 유지하면서 더 편리한 API와 내장 기능을 제공하는 방법을 보여줍니다.

Puzzle 9: GPU 디버깅 워크플로우

⚠️ 이 퍼즐은 호환되는 NVIDIA GPU에서만 작동합니다. 다른 GPU 벤더 지원을 위한 도구 개발이 진행 중입니다.

GPU 프로그램이 실패할 때

지금까지 GPU 커널을 작성하고, 공유 메모리를 다루고, 수천 개의 병렬 스레드를 조율해 왔습니다. 코드가 컴파일됩니다. 올바른 결과를 기대하며 실행하면:

크래시
잘못된 결과
무한 정지

GPU 프로그래밍의 현실이 바로 이것입니다. 수천 개의 스레드에서 동시에 실행되는 병렬 코드를 디버깅해야 하죠. 이론과 실전이 만나고, 알고리즘 지식과 조사 능력이 교차하는 영역입니다.

GPU 디버깅이 어려운 이유

단일 스레드의 순차 실행을 따라가는 전통적인 CPU 디버깅과 달리, GPU 디버깅은 다음을 요구합니다:

병렬로 사고하기: 수천 개의 스레드가 동시에 실행되며, 각각 다른 작업을 수행할 수 있음
여러 메모리 공간 탐색: 전역 메모리, 공유 메모리, 레지스터, 상수 메모리
조율 실패 처리: 경쟁 상태, 배리어 교착 상태, 메모리 접근 위반
최적화된 코드 디버깅: JIT 컴파일, 변수 최적화, 제한된 심볼 정보
전문 도구 사용: 커널 검사, 스레드 탐색, 병렬 상태 분석을 위한 CUDA-GDB

GPU 디버깅을 익히면 병렬 컴퓨팅의 기초를 깊이 이해하게 됩니다.

이 퍼즐에서 배울 내용

이 퍼즐에서는 GPU 코드를 체계적으로 디버깅하는 방법을 배웁니다. GPU 개발자들이 복잡한 병렬 프로그래밍 문제를 해결하기 위해 매일 사용하는 접근법, 도구, 기법을 익히게 됩니다.

익히게 될 핵심 기술

전문적인 디버깅 워크플로우 - 전문가들이 사용하는 체계적인 접근법
도구 숙련도 - 호스트 코드용 LLDB, GPU 커널용 CUDA-GDB
패턴 인식 - 흔한 GPU 버그 유형과 증상
조사 기법 - 변수가 최적화로 제거되었을 때 근본 원인 찾기
스레드 조율 디버깅 - 고급 GPU 디버깅 기술

실제 디버깅 시나리오

가장 흔한 세 가지 GPU 프로그래밍 실패 상황을 다룹니다:

메모리 크래시 - Null 포인터, 잘못된 메모리 접근, 세그멘테이션 폴트
로직 버그 - 정상 실행되지만 결과가 틀림, 알고리즘 오류
조율 교착 상태 - 배리어 동기화 실패, 무한 정지

각 시나리오는 서로 다른 조사 기법을 가르치고 디버깅 감각을 길러줍니다.

디버깅 여정

이 퍼즐은 기본 디버깅 개념부터 고급 병렬 조율 실패까지, 체계적으로 설계된 과정을 안내합니다:

📚 Step 1: Mojo GPU 디버깅의 핵심

기초 다지기 - 도구와 워크플로우 배우기

pixi와 CUDA-GDB로 디버깅 환경 설정
네 가지 디버깅 접근법 배우기: JIT vs 바이너리, CPU vs GPU
GPU 커널 검사를 위한 필수 CUDA-GDB 명령어 학습
이전 퍼즐의 익숙한 코드로 실습
각 디버깅 접근법을 언제 사용해야 하는지 이해

목표: 전문적인 디버깅 워크플로우와 도구 숙련도

🧐 Step 2: 탐정 수사: 첫 번째 사례

메모리 크래시 조사 - 크래시가 발생하는 GPU 프로그램 디버깅

CUDA_ERROR_ILLEGAL_ADDRESS 크래시 조사
체계적인 포인터 검사 기법 학습
Null 포인터 탐지 및 검증 학습
전문적인 크래시 분석 워크플로우 실습
GPU 메모리 접근 실패 이해

목표: GPU 메모리 크래시와 포인터 문제 디버깅 능력

🔍 Step 3: 탐정 수사: 두 번째 사례

로직 버그 조사 - 결과가 틀린 프로그램 디버깅

TileTensor 기반의 알고리즘 오류 조사
최적화로 변수가 사라졌을 때 실행 흐름 분석하기
반복문 경계와 반복 횟수 분석하기
틀린 결과에서 패턴 찾아내기
변수를 직접 확인하지 않고 디버깅하기

목표: GPU 커널의 알고리즘 오류와 로직 버그 디버깅 능력

🕵️ Step 4: 탐정 수사: 세 번째 사례

배리어 교착 상태 조사 - 영원히 멈추는 프로그램 디버깅

배리어 동기화 실패 조사
병렬 실행 전반의 멀티 스레드 상태 분석 학습
조건부 실행 경로 추적 학습
스레드 조율 디버깅 실습
가장 어려운 GPU 디버깅 시나리오 이해

목표: 고급 스레드 조율 디버깅 - GPU 디버깅 기술의 정점

탐정의 마인드셋

GPU 디버깅은 일반적인 프로그래밍과 다른 사고방식을 요구합니다. 여러분은 범죄 현장을 조사하는 탐정이 됩니다:

단서가 부족함 - 변수는 최적화로 사라지고, 심볼명은 알아보기 어려움
용의자가 넘침 - 수천 개의 스레드, 누구든 범인일 수 있음
타임라인이 복잡함 - 병렬 실행, 경쟁 상태, 타이밍 의존성
전문 도구가 필요함 - CUDA-GDB, 스레드 탐색, GPU 메모리 검사

하지만 훌륭한 탐정이 그렇듯, 여러분도 다음을 배우게 됩니다:

단서를 체계적으로 추적 - 에러 메시지, 크래시 패턴, 스레드 상태
가설 수립 - 이 동작을 일으킬 수 있는 원인은 무엇일까?
이론 검증 - 디버깅 명령어로 아이디어를 확인하거나 반증
근본 원인 추적 - 증상에서 실제 문제의 원인까지

시작하기 전에

알아야 할 것:

Puzzle 1-8에서 다룬 GPU 프로그래밍 개념 (스레드 인덱싱, 메모리 관리, 배리어)
기본적인 명령줄 사용에 익숙함 (터미널 기반 디버깅 도구를 사용합니다)
인내심과 체계적 사고 (GPU 디버깅은 꼼꼼한 조사가 필요합니다)

목표:

GPU 개발팀에서 사용하는 전문 디버깅 기술
스레드 수준의 실행을 관찰하며 얻는 병렬 컴퓨팅에 대한 깊은 이해
가장 까다로운 GPU 프로그래밍 상황에서도 문제를 해결할 수 있다는 자신감
GPU 프로그래밍 커리어 전반에 도움이 될 도구 숙련도

시작할 준비가 되셨나요?

GPU 디버깅은 GPU 프로그램을 작성하는 것에서 깊이 이해하는 것으로 나아가는 과정입니다. 전문 GPU 개발자라면 누구나 병렬 코드를 디버깅하고, 수천 개의 스레드로 동시에 사고하는 법을 익히고, 복잡한 조율 실패를 끈기 있게 조사하며 수많은 시간을 보냈습니다.

지금이 바로 그 전문가 그룹에 합류할 기회입니다.

디버깅 여정 시작하기: Mojo GPU 디버깅의 핵심

“디버깅은 코드 작성보다 두 배는 어렵다. 따라서 최대한 영리하게 코드를 작성했다면, 정의상 그것을 디버깅할 만큼 똑똑하지 않다는 뜻이다.” - Brian Kernighan

GPU 프로그래밍에서는 이 말이 수천 배로 와닿습니다. 동시에 디버깅해야 할 병렬 스레드 수만큼요.

📚 Mojo GPU 디버깅의 핵심

GPU 디버깅의 세계에 오신 것을 환영합니다! Puzzle 1-8을 통해 GPU 프로그래밍 개념을 배웠으니, 이제 모든 GPU 프로그래머에게 가장 중요한 기술을 배울 준비가 되었습니다: 문제가 발생했을 때 디버깅하는 방법.

GPU 디버깅은 처음에는 어려워 보일 수 있습니다. 수천 개의 스레드가 병렬로 실행되고, 다양한 메모리 공간이 있으며, 하드웨어별 동작도 다루어야 합니다. 하지만 적절한 도구와 워크플로우만 있으면 GPU 코드 디버깅도 체계적으로 다룰 수 있습니다.

이 가이드에서는 CPU 호스트 코드(GPU 작업을 설정하는 부분)와 GPU 커널 코드(병렬 연산이 실행되는 부분) 모두를 디버깅하는 방법을 배웁니다. 실제 예제, 실제 디버거 출력, 그리고 여러분의 프로젝트에 바로 적용할 수 있는 단계별 워크플로우를 사용합니다.

참고: 다음 내용은 범용 IDE 호환성을 위해 명령줄 디버깅에 초점을 맞춥니다. VS Code 디버깅을 선호한다면 Mojo 디버깅 문서에서 VS Code 전용 설정과 워크플로우를 참조하세요.

GPU 디버깅이 다른 이유

도구로 들어가기 전에, GPU 디버깅이 특별한 이유를 살펴보겠습니다:

전통적인 CPU 디버깅: 단일 스레드, 순차 실행, 단순한 메모리 모델
GPU 디버깅: 수천 개의 스레드, 병렬 실행, 여러 메모리 공간, 경쟁 상태

이는 다음을 할 수 있는 전문 도구가 필요하다는 의미입니다:

서로 다른 GPU 스레드 간 전환
스레드별 변수와 메모리 검사
병렬 실행의 복잡성 처리
CPU 설정 코드와 GPU 커널 코드 모두 디버깅

디버깅 도구 모음

Mojo의 GPU 디버깅 기능은 현재 NVIDIA GPU로 제한됩니다. Mojo 디버깅 문서에 따르면 Mojo 패키지에는 다음이 포함됩니다:

CPU 측 디버깅을 위한 Mojo 플러그인이 포함된 LLDB 디버거
GPU 커널 디버깅을 위한 CUDA-GDB 통합
범용 IDE 호환성을 위한 mojo debug를 통한 명령줄 인터페이스

GPU 전용 디버깅에 대해서는 Mojo GPU 디버깅 가이드에서 추가 기술 세부 사항을 제공합니다.

이 아키텍처는 익숙한 디버깅 명령어와 GPU 전용 기능, 두 가지 장점을 모두 제공합니다.

디버깅 워크플로우: 문제에서 해결까지

GPU 프로그램이 크래시하거나, 잘못된 결과를 내거나, 예상치 못한 동작을 할 때 다음의 체계적인 접근법을 따르세요:

디버깅을 위한 코드 준비 (최적화 비활성화, 디버그 심볼 추가)
적절한 디버거 선택 (CPU 호스트 코드 vs GPU 커널 디버깅)
전략적 브레이크포인트 설정 (문제가 의심되는 위치에)
실행 및 검사 (코드를 단계별로 실행하며 변수 검사)
패턴 분석 (메모리 접근, 스레드 동작, 경쟁 상태)

이 워크플로우는 Puzzle 01의 간단한 배열 연산이든 Puzzle 08의 복잡한 공유 메모리 코드든 상관없이 작동합니다.

Step 1: 디버깅을 위한 코드 준비

🥇 철칙: 최적화된 코드는 절대 디버깅하지 마세요. 최적화는 명령어 순서를 바꾸고, 변수를 제거하고, 함수를 인라인화하여 디버깅을 거의 불가능하게 만듭니다.

디버그 정보로 빌드하기

디버깅용 Mojo 프로그램을 빌드할 때는 항상 디버그 심볼을 포함하세요:

# 전체 디버그 정보로 빌드
mojo build -O0 -g your_program.mojo -o your_program_debug

이 플래그들이 하는 일:

-O0: 모든 최적화를 비활성화하여 원래 코드 구조를 보존
-g: 디버거가 머신 코드를 Mojo 소스에 매핑할 수 있도록 디버그 심볼 포함
-o: 쉬운 식별을 위해 명명된 출력 파일 생성

이것이 중요한 이유

디버그 심볼 없이는 디버깅 세션이 이렇게 보입니다:

(lldb) print my_variable
error: use of undeclared identifier 'my_variable'

디버그 심볼이 있으면 다음과 같이 됩니다:

(lldb) print my_variable
(int) $0 = 42

Step 2: 디버깅 접근법 선택

여기서 GPU 디버깅이 흥미로워집니다. 네 가지 다른 조합 중에서 선택할 수 있으며, 적절한 것을 고르면 시간을 절약할 수 있습니다:

네 가지 디버깅 조합

빠른 참조:

# 1. JIT + LLDB: 소스에서 직접 CPU 호스트 코드 디버깅
pixi run mojo debug your_gpu_program.mojo

# 2. JIT + CUDA-GDB: 소스에서 직접 GPU 커널 디버깅
pixi run mojo debug --cuda-gdb --break-on-launch your_gpu_program.mojo

# 3. 바이너리 + LLDB: 미리 컴파일된 바이너리에서 CPU 호스트 코드 디버깅
pixi run mojo build -O0 -g your_gpu_program.mojo -o your_program_debug
pixi run mojo debug your_program_debug

# 4. 바이너리 + CUDA-GDB: 미리 컴파일된 바이너리에서 GPU 커널 디버깅
pixi run mojo debug --cuda-gdb --break-on-launch your_program_debug

각 접근법을 언제 사용할까

학습과 빠른 실험용:

JIT 디버깅 사용 - 빌드 단계가 필요 없어 더 빠르게 반복 가능

본격적인 디버깅 세션용:

바이너리 디버깅 사용 - 더 예측 가능하고 깔끔한 디버거 출력

CPU 측 문제용 (버퍼 할당, 호스트 메모리, 프로그램 로직):

LLDB 모드 사용 - main() 함수와 설정 코드 디버깅에 적합

GPU 커널 문제용 (스레드 동작, GPU 메모리, 커널 크래시):

CUDA-GDB 모드 사용 - 개별 GPU 스레드를 검사하는 유일한 방법

장점은 다양하게 조합해서 사용할 수 있다는 점입니다. JIT + LLDB로 설정 코드를 디버깅한 다음, JIT + CUDA-GDB로 전환해서 실제 커널을 디버깅할 수 있습니다.

CUDA-GDB로 GPU 커널 디버깅 이해하기

이제 GPU 커널 디버깅입니다 - 디버깅 도구 모음에서 가장 강력하면서도 복잡한 부분입니다.

--cuda-gdb를 사용하면 Mojo는 NVIDIA의 CUDA-GDB 디버거와 통합됩니다. 이것은 단순한 디버거가 아닙니다 - GPU 컴퓨팅의 병렬 멀티스레드 세계를 위해 특별히 설계되었습니다.

CUDA-GDB가 특별한 이유

일반 GDB는 한 번에 하나의 스레드를 디버깅하며 순차 코드를 단계별로 실행합니다. CUDA-GDB는 수천 개의 GPU 스레드를 동시에 디버깅하며, 각각이 서로 다른 명령어를 실행할 수 있습니다.

이는 다음을 할 수 있다는 의미입니다:

GPU 커널 내부에 브레이크포인트 설정 - 어떤 스레드든 브레이크포인트에 도달하면 실행을 일시 정지
GPU 스레드 간 전환 - 같은 순간에 서로 다른 스레드가 무엇을 하는지 검사
스레드별 데이터 검사 - 같은 변수가 스레드마다 다른 값을 가지는 것을 확인
메모리 접근 패턴 디버깅 - 범위 초과 접근, 경쟁 상태, 메모리 손상 포착 (이런 문제 감지에 대해서는 Puzzle 10에서 더 자세히)
병렬 실행 분석 - 스레드들이 어떻게 상호작용하고 동기화하는지 이해

이전 퍼즐의 개념과 연결

Puzzle 1-8에서 배운 GPU 프로그래밍 개념을 기억하시나요? CUDA-GDB로 런타임에 모든 것을 검사할 수 있습니다:

스레드 계층 구조 디버깅

Puzzle 1-8에서 다음과 같은 코드를 작성했습니다:

# Puzzle 1에서: 기본 스레드 인덱싱
i = thread_idx.x  # 각 스레드가 고유한 인덱스를 얻음

# Puzzle 7에서: 2D 스레드 인덱싱
row = thread_idx.y  # 2D 스레드 그리드
col = thread_idx.x

CUDA-GDB로 이 스레드 좌표들이 실제로 동작하는 것을 볼 수 있습니다:

(cuda-gdb) info cuda threads

출력:

  BlockIdx ThreadIdx To BlockIdx To ThreadIdx Count                 PC                                                       Filename  Line
Kernel 0
*  (0,0,0)   (0,0,0)     (0,0,0)      (3,0,0)     4 0x00007fffcf26fed0 /home/ubuntu/workspace/mojo-gpu-puzzles/solutions/p01/p01.mojo    13

그리고 특정 스레드로 이동해서 무엇을 하는지 볼 수 있습니다:

(cuda-gdb) cuda thread (1,0,0)

출력:

[Switching to CUDA thread (1,0,0)]

정말 강력한 기능입니다 - 말 그대로 병렬 알고리즘이 여러 스레드에서 실행되는 것을 직접 지켜볼 수 있습니다.

메모리 공간 디버깅

다양한 유형의 GPU 메모리에 대해 배운 Puzzle 8을 기억하시나요? CUDA-GDB로 모든 것을 검사할 수 있습니다:

# 전역 메모리 검사 (Puzzle 1-5의 배열들)
(cuda-gdb) print input_array[0]@4
$1 = {{1}, {2}, {3}, {4}}   # Mojo 스칼라 형식

# 로컬 변수를 사용해 공유 메모리 검사 (thread_idx.x는 작동하지 않음)
(cuda-gdb) print shared_data[i]   # thread_idx.x 대신 로컬 변수 'i' 사용
$2 = {42}

디버거는 각 스레드가 메모리에서 정확히 무엇을 보는지 보여줍니다. 이는 경쟁 상태나 메모리 접근 버그를 잡기에 완벽합니다.

전략적 브레이크포인트 배치

CUDA-GDB 브레이크포인트는 병렬 실행과 함께 작동하기 때문에 일반 브레이크포인트보다 훨씬 강력합니다:

# 어떤 스레드든 커널에 진입할 때 중단
(cuda-gdb) break add_kernel

# 특정 스레드에 대해서만 중단 (문제 격리에 좋음)
(cuda-gdb) break add_kernel if thread_idx.x == 0

# 메모리 접근 위반 시 중단
(cuda-gdb) watch input_array[thread_idx.x]

# 특정 데이터 조건에서 중단
(cuda-gdb) break add_kernel if input_array[thread_idx.x] > 100.0

이를 통해 수천 개 스레드의 출력에 파묻히지 않고 정확히 관심 있는 스레드와 조건에 집중할 수 있습니다.

환경 준비하기

디버깅을 시작하기 전에 개발 환경이 제대로 구성되어 있는지 확인하세요. 이전 퍼즐들을 진행해왔다면 대부분 이미 설정되어 있을 것입니다!

참고: pixi 없이는 NVIDIA 공식 리소스에서 CUDA Toolkit을 수동으로 설치하고, 드라이버 호환성을 관리하고, 환경 변수를 구성하고, 컴포넌트 간 버전 충돌을 처리해야 합니다. pixi는 모든 CUDA 의존성, 버전, 환경 구성을 자동으로 관리하여 이 복잡성을 제거합니다.

`pixi`가 디버깅에 중요한 이유

문제점: GPU 디버깅은 CUDA 툴킷, GPU 드라이버, Mojo 컴파일러, 디버거 컴포넌트 간의 정밀한 조율이 필요합니다. 버전 불일치는 “디버거를 찾을 수 없음” 오류로 이어질 수 있습니다.

해결책: pixi를 사용하면 이 모든 컴포넌트가 조화롭게 작동합니다. pixi run mojo debug --cuda-gdb를 실행하면 pixi가 자동으로:

CUDA 툴킷 경로 설정
올바른 GPU 드라이버 로드
Mojo 디버깅 플러그인 구성
환경 변수를 일관되게 관리

설정 확인

모든 것이 작동하는지 확인해 봅시다:

# 1. GPU 하드웨어 접근 가능 여부 확인
pixi run nvidia-smi
# GPU와 드라이버 버전이 표시되어야 함

# 2. CUDA-GDB 통합 설정 (GPU 디버깅에 필요)
pixi run setup-cuda-gdb
# 시스템 CUDA-GDB 바이너리를 conda 환경에 링크

# 3. Mojo 디버거 사용 가능 여부 확인
pixi run mojo debug --help
# --cuda-gdb를 포함한 디버깅 옵션이 표시되어야 함

# 4. CUDA-GDB 통합 테스트
pixi run cuda-gdb --version
# NVIDIA CUDA-GDB 버전 정보가 표시되어야 함

이 명령어 중 하나라도 실패하면 pixi.toml 구성을 다시 확인하고 CUDA 툴킷 기능이 활성화되어 있는지 확인하세요.

중요: conda의 cuda-gdb 패키지는 래퍼 스크립트만 제공하기 때문에 pixi run setup-cuda-gdb 명령이 필요합니다. 이 명령은 시스템 CUDA 설치에서 실제 CUDA-GDB 바이너리를 자동 감지하고 conda 환경에 링크하여 전체 GPU 디버깅 기능을 활성화합니다.

이 명령이 하는 일:

스크립트는 여러 일반적인 위치에서 CUDA를 자동 감지합니다:

$CUDA_HOME 환경 변수
/usr/local/cuda (Ubuntu/Debian 기본값)
/opt/cuda (ArchLinux 및 기타 배포판)
시스템 PATH (which cuda-gdb 통해)

구현 세부 사항은 scripts/setup-cuda-gdb.sh를 참조하세요.

WSL 사용자를 위한 특별 참고사항: Part II에서 사용할 두 가지 디버그 도구(cuda-gdb와 compute-sanitizer)는 WSL에서 CUDA 애플리케이션 디버깅을 지원하지만, 레지스트리 키 HKEY_LOCAL_MACHINE\SOFTWARE\NVIDIA Corporation\GPUDebugger\EnableInterface를 추가하고 (DWORD) 1로 설정해야 합니다. 지원되는 플랫폼과 OS별 동작에 대한 자세한 내용은 cuda-gdb와 compute-sanitizer를 참조하세요.

실습 튜토리얼: 첫 GPU 디버깅 세션

이론도 좋지만 직접 경험하는 것만 한 게 없습니다. Puzzle 01 - 여러분이 잘 아는 간단한 “배열 각 요소에 10 더하기” 커널을 사용해서 실제 프로그램을 디버깅해 봅시다.

왜 Puzzle 01인가? 다음 이유로 완벽한 디버깅 튜토리얼입니다:

충분히 단순해서 무엇이 일어나야 하는지 이해할 수 있음
실제 커널 실행이 있는 진짜 GPU 코드
CPU 설정 코드와 GPU 커널 코드 모두 포함
짧은 실행 시간으로 빠른 반복 가능

이 튜토리얼이 끝나면 네 가지 디버깅 접근법 모두로 같은 프로그램을 디버깅하고, 실제 디버거 출력을 보고, 매일 사용할 필수 디버깅 명령어를 배우게 됩니다.

디버깅 접근법 학습 경로

Puzzle 01을 예제로 네 가지 디버깅 조합을 탐색합니다. 학습 경로: JIT + LLDB(가장 쉬움)로 시작해서 CUDA-GDB(가장 강력함)로 진행합니다.

⚠️ GPU 디버깅 시 중요사항:

--break-on-launch 플래그는 CUDA-GDB 접근법에서 필수
미리 컴파일된 바이너리 (접근법 3 & 4)는 디버깅을 위해 i 같은 로컬 변수를 보존
JIT 컴파일 (접근법 1 & 2)은 대부분의 로컬 변수를 최적화로 제거
본격적인 GPU 디버깅에는 접근법 4 (바이너리 + CUDA-GDB) 사용

튜토리얼 Step 1: LLDB로 CPU 디버깅

가장 일반적인 디버깅 시나리오로 시작합시다: 프로그램이 크래시하거나 예상치 못한 동작을 해서 main() 함수에서 무슨 일이 일어나는지 봐야 할 때.

미션: Puzzle 01의 CPU 측 설정 코드를 디버깅하여 Mojo가 GPU 메모리를 초기화하고 커널을 실행하는 방법을 파악합니다.

디버거 실행

JIT 컴파일로 LLDB 디버거를 시작합니다:

# 한 단계로 p01.mojo를 컴파일하고 디버깅
pixi run mojo debug solutions/p01/p01.mojo

LLDB 프롬프트가 보입니다: (lldb). 이제 디버거 안에서 프로그램 실행을 검사할 준비가 되었습니다!

첫 디버깅 명령어들

Puzzle 01이 실행될 때 무슨 일이 일어나는지 추적해 봅시다. 보여드린 대로 정확히 이 명령어들을 입력하고 출력을 관찰하세요:

Step 1: main 함수에 브레이크포인트 설정

(lldb) br set -n main

출력:

Breakpoint 1: where = mojo`main, address = 0x00000000027d7530

디버거가 main 함수를 찾았고 거기서 실행을 일시 정지합니다.

Step 2: 프로그램 시작

(lldb) run

출력:

Process 186951 launched: '/home/ubuntu/workspace/mojo-gpu-puzzles/.pixi/envs/default/bin/mojo' (x86_64)
Process 186951 stopped
* thread #1, name = 'mojo', stop reason = breakpoint 1.1
    frame #0: 0x0000555557d2b530 mojo`main
mojo`main:
->  0x555557d2b530 <+0>: pushq  %rbp
    0x555557d2b531 <+1>: movq   %rsp, %rbp
    ...

프로그램이 브레이크포인트에서 멈췄습니다. 현재 어셈블리 코드를 보고 있는데 이는 정상입니다 - 디버거가 고수준 Mojo 소스에 도달하기 전에 저수준 머신 코드에서 시작합니다.

Step 3: 시작 과정 탐색

# 명령어 하나를 단계별 실행 시도
(lldb) next

출력:

Process 186951 stopped
* thread #1, name = 'mojo', stop reason = instruction step over
    frame #0: 0x0000555557d2b531 mojo`main + 1
mojo`main:
->  0x555557d2b531 <+1>: movq   %rsp, %rbp
    0x555557d2b534 <+4>: pushq  %r15
    ...

어셈블리를 단계별로 실행하는 것은 지루할 수 있습니다. 더 관련 있는 부분으로 진행합시다.

Step 4: Mojo 소스 코드에 도달하기 위해 계속

# 시작 어셈블리를 건너뛰어 실제 코드로 이동
(lldb) continue

출력:

Process 186951 resuming
Process 186951 stopped and restarted: thread 1 received signal: SIGCHLD
2 locations added to breakpoint 1
Process 186951 stopped
* thread #1, name = 'mojo', stop reason = breakpoint 1.3
    frame #0: 0x00007fff5c01e841 JIT(0x7fff5c075000)`stdlib::builtin::_startup::__mojo_main_prototype(argc=([0] = 1), argv=0x00007fffffffa858) at _startup.mojo:95:4

Mojo의 런타임이 초기화 중입니다. _startup.mojo는 Mojo의 내부 시작 코드를 나타냅니다. SIGCHLD 시그널은 정상입니다 - Mojo가 내부 프로세스를 관리하는 방식입니다.

Step 5: 실제 코드로 계속

# 한 번 더 continue해서 p01.mojo 코드에 도달!
(lldb) continue

출력:

Process 186951 resuming
Process 186951 stopped
* thread #1, name = 'mojo', stop reason = breakpoint 1.2
    frame #0: 0x00007fff5c014040 JIT(0x7fff5c075000)`p01::main(__error__=<unavailable>) at p01.mojo:24:23
   21
   22
   23   def main():
-> 24       with DeviceContext() as ctx:
   25           out = ctx.enqueue_create_buffer[dtype](SIZE)
   26           out.enqueue_fill(0)
   27           a = ctx.enqueue_create_buffer[dtype](SIZE)

이제 실제 Mojo 소스 코드를 볼 수 있습니다. 주목할 점:

p01.mojo 파일의 21-27번 줄
현재 줄 24: with DeviceContext() as ctx:
JIT 컴파일: JIT(0x7fff5c075000)은 Mojo가 코드를 즉석에서 컴파일했음을 나타냄

Step 6: 프로그램 완료

# 프로그램을 완료까지 실행
(lldb) continue

출력:

Process 186951 resuming
out: HostBuffer([10.0, 11.0, 12.0, 13.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])
Process 186951 exited with status = 0 (0x00000000)

배운 내용

🎓 축하합니다! 첫 GPU 프로그램 디버깅 세션을 완료했습니다. 무슨 일이 있었는지 살펴보겠습니다:

거쳐온 디버깅 여정:

어셈블리로 시작 - 저수준 디버깅에서는 정상적인 현상이며, 디버거가 머신 수준에서 어떻게 작동하는지 보여줌
Mojo 시작 과정 탐색 - Mojo에 내부 초기화 코드가 있음을 학습
소스 코드 도달 - 구문 강조가 된 실제 p01.mojo 21-27번 줄 확인
JIT 컴파일 관찰 - Mojo가 코드를 즉석에서 컴파일하는 것을 관찰
성공적인 실행 확인 - 프로그램이 예상된 출력을 생성함을 확인

LLDB 디버깅이 제공하는 것:

✅ CPU 측 가시성: main() 함수, 버퍼 할당, 메모리 설정 확인
✅ 소스 코드 검사: 줄 번호가 있는 실제 Mojo 코드 보기
✅ 변수 검사: 호스트 측 변수(CPU 메모리) 값 확인
✅ 프로그램 흐름 제어: 설정 로직을 줄 단위로 단계별 실행
✅ 오류 조사: 장치 설정, 메모리 할당 등의 크래시 디버깅

LLDB가 할 수 없는 것:

❌ GPU 커널 검사: add_10 함수 실행 내부로 진입 불가능
❌ 스레드 수준 디버깅: 개별 GPU 스레드 동작 확인 불가
❌ GPU 메모리 접근: GPU 스레드가 보는 데이터 검사 불가
❌ 병렬 실행 분석: 경쟁 상태나 동기화 디버깅 불가

LLDB 디버깅을 사용할 때:

GPU 코드가 실행되기 전에 프로그램이 크래시할 때
버퍼 할당이나 메모리 설정 문제
프로그램 초기화와 흐름 이해
Mojo 애플리케이션이 어떻게 시작되는지 학습
빠른 프로토타이핑과 코드 변경 실험

핵심 통찰: LLDB는 호스트 측 디버깅에 완벽합니다 - GPU 실행 전후에 CPU에서 일어나는 모든 것. 실제 GPU 커널 디버깅에는 다음 접근법이 필요합니다…

튜토리얼 Step 2: 바이너리 디버깅

JIT 디버깅을 배웠으니 이제 프로덕션 환경에서 사용하는 전문적인 접근법을 탐색합시다.

시나리오: 여러 파일이 있는 복잡한 애플리케이션을 디버깅하거나 같은 프로그램을 반복적으로 디버깅해야 합니다. 먼저 바이너리를 빌드하면 더 많은 제어와 빠른 디버깅 반복이 가능합니다.

디버그 바이너리 빌드

Step 1: 디버그 정보로 컴파일

# 디버그 빌드 생성 (명확한 명명에 주목)
pixi run mojo build -O0 -g solutions/p01/p01.mojo -o solutions/p01/p01_debug

여기서 일어나는 일:

🔧 -O0: 최적화 비활성화 (정확한 디버깅에 반드시 필요)
🔍 -g: 머신 코드를 소스 코드에 매핑하는 디버그 심볼 포함
📁 -o p01_debug: 명확하게 이름 지은 디버그 바이너리 생성

Step 2: 바이너리 디버깅

# 미리 빌드된 바이너리 디버깅
pixi run mojo debug solutions/p01/p01_debug

무엇이 다른가 (그리고 더 나은가)

시작 비교:

JIT 디버깅	바이너리 디버깅
한 단계로 컴파일 + 디버깅	한 번 빌드, 여러 번 디버깅
느린 시작 (컴파일 오버헤드)	빠른 시작
컴파일 메시지가 디버그 출력과 섞임	깔끔한 디버거 출력
디버깅 중 생성되는 디버그 심볼	고정된 디버그 심볼

같은 LLDB 명령어(br set -n main, run, continue)를 실행하면 다음과 같은 차이를 느낄 수 있습니다:

빠른 시작 - 컴파일 지연 없음
깔끔한 출력 - JIT 컴파일 메시지 없음
더 예측 가능 - 디버그 심볼이 실행 간에 변하지 않음
전문적인 워크플로우 - 프로덕션 디버깅이 이렇게 작동함

튜토리얼 Step 3: GPU 커널 디버깅

지금까지는 CPU 호스트 코드 - 설정, 메모리 할당, 초기화를 디버깅했습니다. 하지만 병렬 연산이 일어나는 실제 GPU 커널은 어떨까요?

문제점: add_10 커널은 잠재적으로 수천 개의 스레드가 동시에 실행되는 GPU에서 실행됩니다. LLDB는 GPU의 병렬 실행 환경에 접근할 수 없습니다.

해결책: CUDA-GDB - GPU 스레드, GPU 메모리, 병렬 실행을 이해하는 전문 디버거입니다.

CUDA-GDB가 필요한 이유

GPU 디버깅이 근본적으로 다른 이유를 이해합시다:

CPU 디버깅 (LLDB):

순차적으로 실행되는 단일 스레드
추적할 콜 스택이 하나뿐
단순한 메모리 모델
변수가 단일 값을 가짐

GPU 디버깅 (CUDA-GDB):

병렬로 실행되는 수천 개의 스레드
여러 콜 스택 (스레드당 하나)
복잡한 메모리 계층 구조 (전역, 공유, 로컬, 레지스터)
같은 변수가 스레드마다 다른 값을 가짐

실제 예: add_10 커널에서 thread_idx.x 변수는 각 스레드마다 다른 값을 가집니다 - 스레드 0은 0을, 스레드 1은 1을 보는 식입니다. CUDA-GDB만이 이 병렬 현실을 보여줄 수 있습니다.

CUDA-GDB 디버거 실행

Step 1: GPU 커널 디버깅 시작

접근법을 선택하세요:

# 이미 실행했는지 확인 (한 번이면 충분)
pixi run setup-cuda-gdb

# JIT + CUDA-GDB 사용 (위의 접근법 2)
pixi run mojo debug --cuda-gdb --break-on-launch solutions/p01/p01.mojo

학습과 빠른 반복에 적합한 JIT + CUDA-GDB 접근법을 사용합니다.

Step 2: 실행하고 GPU 커널 진입 시 자동 정지

CUDA-GDB 프롬프트는 이렇게 보입니다: (cuda-gdb). 프로그램을 시작합니다:

# 프로그램 실행 - GPU 커널이 실행될 때 자동으로 정지
(cuda-gdb) run

출력:

Starting program: /home/ubuntu/workspace/mojo-gpu-puzzles/.pixi/envs/default/bin/mojo...
[Thread debugging using libthread_db enabled]
...
[Switching focus to CUDA kernel 0, grid 1, block (0,0,0), thread (0,0,0)]

CUDA thread hit application kernel entry function breakpoint, p01_add_10_UnsafePointer...
   <<<(1,1,1),(4,1,1)>>> (output=0x302000000, a=0x302000200) at p01.mojo:16
16          i = thread_idx.x

성공! GPU 커널 내부에서 자동으로 정지했습니다! --break-on-launch 플래그가 커널 실행을 감지했고 이제 i = thread_idx.x가 실행되는 16번 줄에 있습니다.

중요: break add_10처럼 수동으로 브레이크포인트를 설정할 필요 없습니다

커널 진입 브레이크포인트는 자동입니다. GPU 커널 함수는 CUDA-GDB에서 맹글링된 이름(p01_add_10_UnsafePointer... 같은)을 가지지만, 이미 커널 안에 있으므로 바로 디버깅을 시작할 수 있습니다.

Step 3: 병렬 실행 탐색

# 브레이크포인트에서 일시 정지된 모든 GPU 스레드 보기
(cuda-gdb) info cuda threads

출력:

  BlockIdx ThreadIdx To BlockIdx To ThreadIdx Count                 PC                                                       Filename  Line
Kernel 0
*  (0,0,0)   (0,0,0)     (0,0,0)      (3,0,0)     4 0x00007fffd326fb70 /home/ubuntu/workspace/mojo-gpu-puzzles/solutions/p01/p01.mojo    16

완벽합니다! Puzzle 01의 모든 4개 병렬 GPU 스레드를 보여줍니다:

*가 현재 스레드 표시: (0,0,0) - 디버깅 중인 스레드
스레드 범위: (0,0,0)에서 (3,0,0)까지 - 블록의 모든 4개 스레드
Count: 4 - 코드의 THREADS_PER_BLOCK = 4와 일치
같은 위치: 모든 스레드가 p01.mojo의 16번 줄에서 일시 정지

Step 4: 커널을 단계별 실행하고 변수 검사

# 'next'로 코드 단계별 실행 ('step'은 내부로 들어감)
(cuda-gdb) next

출력:

p01_add_10_UnsafePointer... at p01.mojo:17
17          output[i] = a[i] + 10.0

# 로컬 변수는 미리 컴파일된 바이너리에서 작동!
(cuda-gdb) print i

출력:

$1 = 0                    # 이 스레드의 인덱스 (thread_idx.x 값 캡처)

# GPU 내장 변수는 작동하지 않지만 필요 없음
(cuda-gdb) print thread_idx.x

출력:

No symbol "thread_idx" in current context.

# 로컬 변수를 사용해 스레드별 데이터 접근
(cuda-gdb) print a[i]     # 이 스레드의 입력: a[0]

출력:

$2 = {0}                  # 입력 값 (Mojo 스칼라 형식)

(cuda-gdb) print output[i] # 연산 전 이 스레드의 출력

출력:

$3 = {0}                  # 아직 0 - 연산이 아직 실행되지 않음!

# 연산 줄 실행
(cuda-gdb) next

출력:

13      fn add_10(         # 연산 후 함수 시그니처 줄로 이동

# 이제 결과 확인
(cuda-gdb) print output[i]

출력:

$4 = {10}                 # 이제 계산된 결과 표시: 0 + 10 = 10

# 함수 파라미터는 여전히 사용 가능
(cuda-gdb) print a

출력:

$5 = (!pop.scalar<f32> * @register) 0x302000200

Step 5: 병렬 스레드 간 이동

# 다른 스레드로 전환해서 실행 확인
(cuda-gdb) cuda thread (1,0,0)

출력:

[Switching focus to CUDA kernel 0, grid 1, block (0,0,0), thread (1,0,0), device 0, sm 0, warp 0, lane 1]
13      fn add_10(         # 스레드 1도 함수 시그니처에 있음

# 스레드의 로컬 변수 확인
(cuda-gdb) print i

출력:

$5 = 1                    # 스레드 1의 인덱스 (스레드 0과 다름!)

# 이 스레드가 처리하는 것 검사
(cuda-gdb) print a[i]     # 이 스레드의 입력: a[1]

출력:

$6 = {1}                  # 스레드 1의 입력 값

# 스레드 1의 연산은 이미 완료 (병렬 실행!)
(cuda-gdb) print output[i] # 이 스레드의 출력: output[1]

출력:

$7 = {11}                 # 1 + 10 = 11 (이미 계산됨)

# 최고의 기법: 모든 스레드 결과를 한 번에 보기
(cuda-gdb) print output[0]@4

출력:

$8 = {{10}, {11}, {12}, {13}}     # 모든 4개 스레드의 결과를 한 명령어로!

(cuda-gdb) print a[0]@4

출력:

$9 = {{0}, {1}, {2}, {3}}         # 비교를 위한 모든 입력 값

# 너무 멀리 진행하면 CUDA 컨텍스트를 잃습니다
(cuda-gdb) next

출력:

[Switching to Thread 0x7ffff7e25840 (LWP 306942)]  # 호스트 스레드로 복귀
0x00007fffeca3f831 in ?? () from /lib/x86_64-linux-gnu/libcuda.so.1

(cuda-gdb) print output[i]

출력:

No symbol "output" in current context.  # GPU 컨텍스트를 잃음!

이 디버깅 세션의 핵심 통찰:

🤯 병렬 실행은 진짜입니다 - 스레드 (1,0,0)으로 전환하면 이미 연산이 완료되어 있습니다!
각 스레드는 서로 다른 데이터를 봅니다 - i=0 vs i=1, a[i]={0} vs a[i]={1}, output[i]={10} vs output[i]={11}
배열 검사가 강력합니다 - print output[0]@4로 모든 스레드의 결과를 확인할 수 있습니다: {{10}, {11}, {12}, {13}}
GPU 컨텍스트는 깨지기 쉽습니다 - 너무 멀리 진행하면 호스트 스레드로 돌아가 GPU 변수에 접근할 수 없게 됩니다

이것이 바로 병렬 컴퓨팅의 본질입니다: 같은 코드, 스레드마다 다른 데이터, 동시 실행.

CUDA-GDB로 배운 내용

미리 컴파일된 바이너리로 GPU 커널 실행 디버깅을 완료했습니다. 다음은 실제로 작동하는 기능들입니다:

습득한 GPU 디버깅 능력:

✅ GPU 커널 자동 디버깅 - --break-on-launch가 커널 진입 시점에서 정지합니다
✅ GPU 스레드 간 이동 - cuda thread로 컨텍스트를 전환합니다
✅ 로컬 변수 접근 - -O0 -g로 컴파일된 바이너리에서 print i가 작동합니다
✅ 스레드별 데이터 검사 - 각 스레드가 서로 다른 i, a[i], output[i] 값을 보여줍니다
✅ 모든 스레드 결과 보기 - print output[0]@4로 {{10}, {11}, {12}, {13}}을 한 번에 표시합니다
✅ GPU 코드 단계별 실행 - next가 연산을 실행하고 결과를 보여줍니다
✅ 병렬 실행 확인 - 스레드가 동시에 실행됩니다 (전환하면 다른 스레드는 이미 계산 완료)
✅ 함수 파라미터 접근 - output과 a 포인터를 검사할 수 있습니다
❌ GPU 내장 변수 사용 불가 - thread_idx.x, blockIdx.x 등은 작동하지 않습니다 (하지만 로컬 변수는 작동합니다!)
📊 Mojo 스칼라 형식 - 값이 10.0 대신 {10}으로 표시됩니다
⚠️ 깨지기 쉬운 GPU 컨텍스트 - 너무 멀리 진행하면 GPU 변수에 접근할 수 없게 됩니다

핵심 통찰:

미리 컴파일된 바이너리 (mojo build -O0 -g)는 필수입니다 - 로컬 변수가 보존됩니다
@N을 사용한 배열 검사 - 모든 병렬 결과를 한 번에 보는 가장 효율적인 방법입니다
GPU 내장 변수는 없습니다 - 하지만 i 같은 로컬 변수가 필요한 정보를 담고 있습니다
Mojo는 {value} 형식을 사용합니다 - 스칼라가 10.0 대신 {10}으로 표시됩니다
단계별 실행에 주의하세요 - GPU 컨텍스트를 잃고 호스트 스레드로 돌아가기 쉽습니다

실제 디버깅 기법들

이제 실제 GPU 프로그래밍에서 마주치게 될 실용적인 디버깅 시나리오를 살펴봅시다:

기법 1: 스레드 경계 확인

# 모든 4개 스레드가 올바르게 계산했는지 확인
(cuda-gdb) print output[0]@4

출력:

$8 = {{10}, {11}, {12}, {13}}    # 모든 4개 스레드가 올바르게 계산

# 유효 범위를 넘어 확인하여 범위 초과 문제 감지
(cuda-gdb) print output[0]@5

출력:

$9 = {{10}, {11}, {12}, {13}, {0}}  # 요소 4는 초기화되지 않음 (좋음!)

# 입력과 비교하여 연산 검증
(cuda-gdb) print a[0]@4

출력:

$10 = {{0}, {1}, {2}, {3}}       # 입력 값: 0+10=10, 1+10=11 등

이것이 중요한 이유: 범위 초과 접근은 GPU 크래시의 가장 흔한 원인입니다. 이런 디버깅 단계로 일찍 발견할 수 있습니다.

기법 2: 스레드 구성 이해

# 스레드가 블록으로 어떻게 구성되는지 보기
(cuda-gdb) info cuda blocks

출력:

  BlockIdx To BlockIdx Count   State
Kernel 0
*  (0,0,0)     (0,0,0)     1 running

# 현재 블록의 모든 스레드 보기
(cuda-gdb) info cuda threads

출력은 어떤 스레드가 활성 상태인지, 정지되었는지, 오류가 있는지 보여줍니다.

이것이 중요한 이유: 스레드 블록 구성을 이해하면 동기화와 공유 메모리 문제를 디버깅하는 데 도움이 됩니다.

기법 3: 메모리 접근 패턴 분석

# GPU 메모리 주소 확인:
(cuda-gdb) print a               # 입력 배열 GPU 포인터

출력:

$9 = (!pop.scalar<f32> * @register) 0x302000200

(cuda-gdb) print output          # 출력 배열 GPU 포인터

출력:

$10 = (!pop.scalar<f32> * @register) 0x302000000

# 로컬 변수를 사용해 메모리 접근 패턴 확인:
(cuda-gdb) print a[i]            # 각 스레드가 'i'를 사용해 자신의 요소에 접근

출력:

$11 = {0}                        # 스레드의 입력 데이터

이것이 중요한 이유: 메모리 접근 패턴은 성능과 정확성에 영향을 미칩니다. 잘못된 패턴은 경쟁 상태나 크래시를 초래합니다.

기법 4: 결과 검증 및 완료

# 커널 실행을 단계별로 실행한 후 최종 결과 확인
(cuda-gdb) print output[0]@4

출력:

$11 = {10.0, 11.0, 12.0, 13.0}    # 완벽! 각 요소가 10 증가

# 프로그램을 정상적으로 완료
(cuda-gdb) continue

출력:

...프로그램 출력이 성공 표시...

# 디버거 종료
(cuda-gdb) exit

설정부터 결과까지 GPU 커널 실행 디버깅을 완료했습니다.

GPU 디버깅 여정: 핵심 통찰

포괄적인 GPU 디버깅 튜토리얼을 완료했습니다. 병렬 컴퓨팅에 대해 발견한 내용입니다:

병렬 실행에 대한 깊은 통찰

스레드 인덱싱의 실제: thread_idx.x가 병렬 스레드마다 다른 값(0, 1, 2, 3…)을 갖는 것을 이론이 아닌 직접 확인했습니다
메모리 접근 패턴 파악: 각 스레드가 a[thread_idx.x]에서 읽고 output[thread_idx.x]에 쓰며, 충돌 없이 완벽한 데이터 병렬성을 만들어냅니다
병렬 실행의 이해: 수천 개의 스레드가 동일한 커널 코드를 동시에 실행하면서 각각 서로 다른 데이터 요소를 처리합니다
GPU 메모리 계층 구조: 배열은 전역 GPU 메모리에 있어 모든 스레드가 접근할 수 있지만, 스레드별 인덱싱을 사용합니다

모든 퍼즐에 적용되는 디버깅 기법

Puzzle 01부터 Puzzle 08, 그리고 그 이후까지 보편적으로 적용되는 기법을 습득했습니다:

CPU 측 문제(장치 설정, 메모리 할당)는 LLDB로 시작합니다
GPU 커널 문제(스레드 동작, 메모리 접근)는 CUDA-GDB로 전환합니다
특정 스레드나 데이터 조건에 집중하려면 조건부 브레이크포인트를 사용합니다
병렬 실행 패턴을 이해하려면 스레드 간 이동을 활용합니다
경쟁 상태와 범위 초과 오류를 잡으려면 메모리 접근 패턴을 확인합니다

확장성: 이 기법들은 다음 모든 상황에서 동일하게 작동합니다:

Puzzle 01: 간단한 덧셈을 하는 4개 요소 배열
Puzzle 08: 스레드 동기화가 필요한 복잡한 공유 메모리 연산
프로덕션 코드: 정교한 알고리즘을 사용하는 백만 개 요소 배열

필수 디버깅 명령어 참조

디버깅 워크플로우를 배웠으니, 일상적인 디버깅 세션에서 쓸 빠른 참조 가이드를 드립니다. 이 섹션을 북마크하세요!

GDB 명령어 약어 (시간 절약!)

가장 많이 사용하는 단축키로 더 빠른 디버깅:

약어	전체 명령어	기능
`r`	`run`	프로그램 시작/실행
`c`	`continue`	실행 재개
`n`	`next`	스텝 오버 (같은 레벨)
`s`	`step`	함수 내부로 진입
`b`	`break`	브레이크포인트 설정
`p`	`print`	변수 값 출력
`l`	`list`	소스 코드 표시
`q`	`quit`	디버거 종료

예시:

(cuda-gdb) r                    # 'run' 대신
(cuda-gdb) b 39                 # 'break 39' 대신
(cuda-gdb) p thread_id          # 'print thread_id' 대신
(cuda-gdb) n                    # 'next' 대신
(cuda-gdb) c                    # 'continue' 대신

⚡ Pro 팁: 약어를 사용하면 디버깅 속도가 3-5배 빨라집니다!

LLDB 명령어 (CPU 호스트 코드 디버깅)

언제 사용: 장치 설정, 메모리 할당, 프로그램 흐름, 호스트 측 크래시 디버깅

실행 제어

(lldb) run                   # 프로그램 실행
(lldb) continue              # 실행 재개 (별칭: c)
(lldb) step                  # 함수 내부로 진입 (소스 레벨)
(lldb) next                  # 함수 건너뛰기 (소스 레벨)
(lldb) finish                # 현재 함수에서 나가기

브레이크포인트 관리

(lldb) br set -n main        # main 함수에 브레이크포인트 설정
(lldb) br set -n function_name     # 어떤 함수에든 브레이크포인트 설정
(lldb) br list               # 모든 브레이크포인트 표시
(lldb) br delete 1           # 브레이크포인트 #1 삭제
(lldb) br disable 1          # 브레이크포인트 #1 임시 비활성화

변수 검사

(lldb) print variable_name   # 변수 값 표시
(lldb) print pointer[offset]        # 포인터 역참조
(lldb) print array[0]@4      # 첫 4개 배열 요소 표시

CUDA-GDB 명령어 (GPU 커널 디버깅)

언제 사용: GPU 커널, 스레드 동작, 병렬 실행, GPU 메모리 문제 디버깅

GPU 상태 검사

(cuda-gdb) info cuda threads    # 모든 GPU 스레드와 상태 표시
(cuda-gdb) info cuda blocks     # 모든 스레드 블록 표시
(cuda-gdb) cuda kernel          # 활성 GPU 커널 나열

스레드 탐색 (가장 강력한 기능!)

(cuda-gdb) cuda thread (0,0,0)  # 특정 스레드 좌표로 전환
(cuda-gdb) cuda block (0,0)     # 특정 블록으로 전환
(cuda-gdb) cuda thread          # 현재 스레드 좌표 표시

스레드별 변수 검사

# 로컬 변수와 함수 파라미터:
(cuda-gdb) print i              # 로컬 스레드 인덱스 변수
(cuda-gdb) print output         # 함수 파라미터 포인터
(cuda-gdb) print a              # 함수 파라미터 포인터

GPU 메모리 접근

# 로컬 변수를 사용한 배열 검사 (실제로 작동하는 것):
(cuda-gdb) print array[i]       # 로컬 변수를 사용한 스레드별 배열 접근
(cuda-gdb) print array[0]@4     # 여러 요소 보기: {{val1}, {val2}, {val3}, {val4}}

고급 GPU 디버깅

# 메모리 감시
(cuda-gdb) watch array[i]     # 메모리 변경 시 중단
(cuda-gdb) rwatch array[i]    # 메모리 읽기 시 중단

빠른 참조: 디버깅 결정 트리

🤔 어떤 유형의 문제를 디버깅하고 있나요?

GPU 코드 실행 전에 프로그램이 크래시

→ LLDB 디버깅 사용

pixi run mojo debug your_program.mojo

GPU 커널이 잘못된 결과 생성

→ 조건부 브레이크포인트와 함께 CUDA-GDB 사용

pixi run mojo debug --cuda-gdb --break-on-launch your_program.mojo

성능 문제나 경쟁 상태

→ 재현성을 위해 바이너리 디버깅 사용

pixi run mojo build -O0 -g your_program.mojo -o debug_binary
pixi run mojo debug --cuda-gdb --break-on-launch debug_binary

GPU 디버깅의 핵심을 배웠습니다

GPU 디버깅 기초에 대한 포괄적인 튜토리얼을 완료했습니다. 다음은 달성한 내용입니다:

습득한 기술

다중 레벨 디버깅 지식:

✅ LLDB로 CPU 호스트 디버깅 - 장치 설정, 메모리 할당, 프로그램 흐름 디버깅
✅ CUDA-GDB로 GPU 커널 디버깅 - 병렬 스레드, GPU 메모리, 경쟁 상태 디버깅
✅ JIT vs 바이너리 디버깅 - 상황에 맞는 접근법 선택
✅ pixi로 환경 관리 - 일관되고 신뢰할 수 있는 디버깅 설정 보장

실제 병렬 프로그래밍 통찰:

스레드의 실제 동작 확인 - 병렬 스레드마다 thread_idx.x가 다른 값을 갖는 것을 직접 목격했습니다
메모리 계층 구조 이해 - 전역 GPU 메모리, 공유 메모리, 스레드 로컬 변수를 디버깅했습니다
스레드 탐색 학습 - 수천 개의 병렬 스레드 사이를 효율적으로 이동했습니다

이론에서 실전으로

GPU 디버깅에 대해 읽기만 한 것이 아니라 경험했습니다:

실제 코드 디버깅: 실제 GPU 실행으로 Puzzle 01의 add_10 커널을 디버깅했습니다
실제 디버거 출력 확인: LLDB 어셈블리, CUDA-GDB 스레드 상태, 메모리 주소를 직접 확인했습니다
전문 도구 사용: 프로덕션 GPU 개발에서 사용하는 것과 동일한 CUDA-GDB를 사용했습니다
실제 시나리오 해결: 범위 초과 접근, 경쟁 상태, 커널 실행 실패 문제를 다뤘습니다

디버깅 도구 모음

빠른 결정 가이드 (항상 가까이 두세요!):

문제 유형	도구	명령어
GPU 전에 프로그램 크래시	LLDB	`pixi run mojo debug program.mojo`
GPU 커널 문제	CUDA-GDB	`pixi run mojo debug --cuda-gdb --break-on-launch program.mojo`
경쟁 상태	CUDA-GDB + 스레드 탐색	`(cuda-gdb) cuda thread (0,0,0)`

필수 명령어 (일상 디버깅용):

# GPU 스레드 검사
(cuda-gdb) info cuda threads          # 모든 스레드 보기
(cuda-gdb) cuda thread (0,0,0)        # 스레드 전환
(cuda-gdb) print i                    # 로컬 스레드 인덱스 (thread_idx.x 등가)

# 스마트 브레이크포인트 (GPU 내장 변수가 작동하지 않으므로 로컬 변수 사용)
(cuda-gdb) break kernel if i == 0      # 스레드 0에 집중
(cuda-gdb) break kernel if array[i] > 100  # 데이터 조건에 집중

# 메모리 디버깅
(cuda-gdb) print array[i]              # 로컬 변수를 사용한 스레드별 데이터
(cuda-gdb) print array[0]@4            # 배열 세그먼트: {{val1}, {val2}, {val3}, {val4}}

요약

GPU 디버깅에는 수천 개의 병렬 스레드, 복잡한 메모리 계층 구조, 전문 도구가 관여합니다. 이제 다음을 갖추게 되었습니다:

어떤 GPU 프로그램에도 적용할 수 있는 체계적인 워크플로우
LLDB와 CUDA-GDB 전문 도구에 대한 친숙함
실제 병렬 코드를 디버깅한 실전 경험
복잡한 상황을 처리하기 위한 실용적인 전략
GPU 디버깅 과제를 해결할 기초

추가 자료

참고: GPU 디버깅에는 인내심과 체계적인 조사가 필요합니다. 이 퍼즐에서 다룬 워크플로우와 명령어는 실제 애플리케이션에서 마주치게 될 복잡한 GPU 문제를 디버깅하는 기초가 됩니다.

🧐 탐정 수사: 첫 번째 사례

개요

이번 퍼즐에서는 크래시가 발생하는 GPU 프로그램이 주어집니다. 소스 코드를 보지 않고 (cuda-gdb) 디버깅 도구만으로 문제를 찾아내야 합니다. 디버깅 스킬을 발휘해 미스터리를 풀어보세요!

사전 준비: Mojo GPU 디버깅의 핵심을 먼저 완료해서 CUDA-GDB 설정과 기본 디버깅 명령어를 익혀두세요. 아래 명령을 실행했는지 확인하세요:

pixi run -e nvidia setup-cuda-gdb

이 명령은 시스템의 CUDA 설치를 자동으로 감지하고 GPU 디버깅에 필요한 링크를 설정합니다.

핵심 개념

이번 디버깅 챌린지에서 배울 내용:

체계적인 디버깅: 오류 메시지를 단서 삼아 근본 원인 찾기
오류 분석: 크래시 메시지와 스택 추적(stack trace) 해석하기
가설 수립: 문제에 대한 합리적인 추측 세우기
디버깅 워크플로우: 단계별 조사 과정 익히기

코드 실행

먼저 전체 코드를 보지 않고 커널만 살펴봅시다:

def add_10(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    output[i] = a[i] + 10.0

버그를 직접 경험하려면 터미널에서 다음 명령을 실행하세요 (pixi 전용):

pixi run -e nvidia p09 --first-case

프로그램이 크래시하면 다음과 같은 출력이 나타납니다:

First Case: Try to identify what's wrong without looking at the code!

stack trace was not collected. Enable stack trace collection with environment variable `MOJO_ENABLE_STACK_TRACE_ON_ERROR`
Unhandled exception caught during execution: At open-source/max/mojo/stdlib/stdlib/gpu/host/device_context.mojo:2082:17: CUDA call failed: CUDA_ERROR_INVALID_IMAGE (device kernel image is invalid)
To get more accurate error information, set MODULAR_DEVICE_CONTEXT_SYNC_MODE=true.
/home/ubuntu/workspace/mojo-gpu-puzzles/.pixi/envs/nvidia/bin/mojo: error: execution exited with a non-zero result: 1

과제: 탐정 수사

도전: 코드를 보지 않은 상태에서, 이 크래시를 조사하기 위한 디버깅 전략은 무엇일까요?

다음 명령으로 시작해 보세요:

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --first-case

팁

크래시 메시지를 꼼꼼히 읽기 - CUDA_ERROR_ILLEGAL_ADDRESS는 GPU가 잘못된 메모리에 접근하려 했다는 뜻입니다
브레이크포인트 정보 확인 - CUDA-GDB가 멈출 때 표시되는 함수 파라미터를 살펴보세요
모든 포인터를 체계적으로 검사 - print로 각 포인터 파라미터를 확인하세요
수상한 주소 찾기 - 유효한 GPU 주소는 보통 큰 16진수입니다 (0x0은 무엇을 의미할까요?)
메모리 접근 테스트 - 각 포인터로 데이터에 접근해서 어느 것이 실패하는지 확인하세요
체계적으로 접근 - 탐정처럼 증거를 따라가며 증상에서 근본 원인까지 추적하세요
유효한 패턴과 그렇지 않은 패턴 비교 - 한 포인터가 작동하고 다른 건 안 된다면, 문제가 있는 쪽에 집중하세요

💡 조사 과정과 해결책

CUDA-GDB로 단계별 조사

디버거 실행

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --first-case

브레이크포인트 정보 확인

CUDA-GDB가 멈추면 바로 유용한 단서가 나타납니다:

(cuda-gdb) run
CUDA thread hit breakpoint, p09_add_10_... (output=0x302000000, a=0x0)
    at /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo:31
31          i = thread_idx.x

🔍 첫 번째 단서: 함수 시그니처에 (output=0x302000000, a=0x0)이 보입니다

output은 유효한 GPU 메모리 주소를 가지고 있습니다
a는 0x0 - null 포인터입니다!

체계적인 변수 검사

(cuda-gdb) next
32          output[i] = a[i] + 10.0
(cuda-gdb) print i
$1 = 0
(cuda-gdb) print output
$2 = (!pop.scalar<f32> * @register) 0x302000000
(cuda-gdb) print a
$3 = (!pop.scalar<f32> * @register) 0x0

증거 수집:

✅ 스레드 인덱스 i=0은 유효합니다
✅ 결과 포인터 0x302000000은 올바른 GPU 주소입니다
❌ 입력 포인터 0x0은 null입니다

문제 확인

(cuda-gdb) print a[i]
Cannot access memory at address 0x0

결정적 증거: null 주소의 메모리에 접근할 수 없습니다 - 바로 이것이 크래시의 원인입니다!

근본 원인 분석

문제점: 이제 --first-crash의 코드를 보면, 호스트 코드가 GPU 메모리를 제대로 할당하지 않고 null 포인터를 만들고 있습니다:

 input_buf = ctx.enqueue_create_buffer[dtype](0)  # 0개의 요소를 가진 `DeviceBuffer`를 생성합니다. 요소가 0개이므로 메모리가 할당되지 않아 NULL 포인터가 됩니다!

왜 크래시가 발생하는가:

ctx.enqueue_create_buffer[dtype](0)은 0개 요소를 가진 DeviceBuffer를 생성합니다.
할당할 요소가 없으니 null 포인터를 반환합니다.
이 null 포인터가 GPU 커널로 전달됩니다.
커널이 a[i]에 접근하려 할 때 null을 역참조 → CUDA_ERROR_ILLEGAL_ADDRESS

수정 방법

Null 포인터 생성을 적절한 버퍼 할당으로 교체합니다:

# 잘못된 방법: Null 포인터 생성
input_buf = ctx.enqueue_create_buffer[dtype](0)

# 올바른 방법: 안전한 처리를 위해 실제 GPU 메모리를 할당하고 초기화
input_buf = ctx.enqueue_create_buffer[dtype](SIZE)
input_buf.enqueue_fill(0)

핵심 디버깅 교훈

패턴 인식:

0x0 주소는 항상 null 포인터입니다
유효한 GPU 주소는 큰 16진수입니다 (예: 0x302000000)

디버깅 전략:

크래시 메시지 읽기 - 대체로 문제 유형에 대한 힌트를 줍니다
함수 파라미터 확인 - CUDA-GDB가 브레이크포인트 진입 시 보여줍니다
모든 포인터 검사 - 주소를 비교해서 null이나 잘못된 것을 찾습니다
메모리 접근 테스트 - 수상한 포인터를 역참조해 봅니다
할당 지점까지 추적 - 문제의 포인터가 어디서 생성되었는지 찾습니다

💡 핵심 통찰: 이런 유형의 null 포인터 버그는 GPU 프로그래밍에서 매우 흔합니다. 여기서 배운 체계적인 CUDA-GDB 조사 방법은 다른 많은 GPU 메모리 문제, 경쟁 상태, 커널 크래시를 디버깅할 때도 그대로 적용됩니다.

다음 단계: 크래시에서 조용한 버그로

크래시 디버깅을 익혔습니다! 이제 할 수 있습니다:

오류 메시지를 단서로 GPU 크래시를 체계적으로 조사
포인터 주소 검사를 통해 null 포인터 버그 식별
메모리 관련 디버깅에 CUDA-GDB를 효과적으로 사용

다음 도전: 탐정 수사: 두 번째 사례

그런데 프로그램이 크래시하지 않는다면요? 완벽하게 실행되지만 잘못된 결과가 나온다면?

두 번째 사례는 전혀 다른 유형의 디버깅 도전입니다:

길잡이가 되어줄 크래시 메시지가 없습니다
조사할 뚜렷한 포인터 문제도 없습니다
문제를 가리키는 스택 추적도 없습니다
체계적인 조사가 필요한 잘못된 결과만 있습니다

새롭게 익히게 될 스킬:

로직 버그 탐지 - 크래시 없이 알고리즘 오류 찾기
패턴 분석 - 잘못된 출력에서 근본 원인까지 거슬러 올라가기
실행 흐름 디버깅 - 최적화 때문에 변수 검사가 안 될 때 대처하기

여기서 배운 체계적인 조사 방법 - 단서 읽기, 가설 세우기, 체계적으로 테스트하기 - 은 앞으로 마주할 더 미묘한 로직 오류를 디버깅하는 기초가 됩니다.

🔍 탐정 수사: 두 번째 사례

개요

첫 번째 사례에서 익힌 크래시 디버깅 스킬을 바탕으로, 이번에는 전혀 다른 유형의 도전을 마주합니다: 크래시 없이 잘못된 결과를 내는 로직 버그입니다.

디버깅 관점의 전환:

첫 번째 사례: 명확한 크래시 신호(CUDA_ERROR_ILLEGAL_ADDRESS)가 조사를 안내함
두 번째 사례: 크래시도 없고 에러 메시지도 없음 - 탐정처럼 파헤쳐야 하는 미묘하게 잘못된 결과만 있음

이번 중급 디버깅 챌린지에서는 TileTensor 연산을 사용하는 알고리즘 오류를 조사합니다. 프로그램은 성공적으로 실행되지만 잘못된 출력을 내는데, 실제 개발에서 훨씬 흔하면서도 까다로운 디버깅 시나리오입니다.

사전 준비: Mojo GPU 디버깅의 핵심과 탐정 수사: 첫 번째 사례를 먼저 완료해서 CUDA-GDB 워크플로우와 체계적인 디버깅 기법을 익혀두세요. 아래 명령을 실행했는지 확인하세요:

pixi run -e nvidia setup-cuda-gdb

핵심 개념

이번 디버깅 챌린지에서 배울 내용:

TileTensor 디버깅: 구조화된 데이터 접근 패턴 조사하기
로직 버그 탐지: 크래시하지 않는 알고리즘 오류 찾기
반복문 경계 분석: 반복 횟수 문제 이해하기
결과 패턴 분석: 출력 데이터로 근본 원인까지 거슬러 올라가기

코드 실행

먼저 전체 코드를 보지 않고 커널만 살펴봅시다:

def process_sliding_window(
    output: TileTensor[mut=True, dtype, VectorLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, VectorLayout, ImmutAnyOrigin],
):
    var thread_id = thread_idx.x

    # Each thread processes a sliding window of 3 elements
    var window_sum = Scalar[dtype](0.0)

    # Sum elements in sliding window: [i-1, i, i+1]
    for offset in range(ITER):
        var idx = Int(thread_id) + offset - 1
        if 0 <= idx < SIZE:
            var value = rebind[Scalar[dtype]](a[idx])
            window_sum += value

    output[thread_id] = window_sum

버그를 직접 경험하려면 터미널에서 다음 명령을 실행하세요 (pixi 전용):

pixi run -e nvidia p09 --second-case

다음과 같은 출력이 나타납니다 - 크래시 없이 잘못된 결과:

This program computes sliding window sums for each position...

Input array: [0, 1, 2, 3]
Computing sliding window sums (window size = 3)...
Each position should sum its neighbors: [left + center + right]
stack trace was not collected. Enable stack trace collection with environment variable `MOJO_ENABLE_STACK_TRACE_ON_ERROR`
Unhandled exception caught during execution: At open-source/max/mojo/stdlib/stdlib/gpu/host/device_context.mojo:2082:17: CUDA call failed: CUDA_ERROR_INVALID_IMAGE (device kernel image is invalid)
To get more accurate error information, set MODULAR_DEVICE_CONTEXT_SYNC_MODE=true.
/home/ubuntu/workspace/mojo-gpu-puzzles/.pixi/envs/nvidia/bin/mojo: error: execution exited with a non-zero result: 1

과제: 탐정 수사

도전: 프로그램은 크래시 없이 실행되지만 일정한 패턴으로 잘못된 결과를 냅니다. 코드를 보지 않은 상태에서, 이 로직 버그를 조사하기 위한 체계적인 접근 방식은 무엇일까요?

생각해 볼 점:

잘못된 결과에서 어떤 패턴이 보이나요?
제대로 돌지 않는 것 같은 반복문은 어떻게 조사할 건가요?
변수를 직접 검사할 수 없을 때 어떤 디버깅 전략이 효과적일까요?
조사를 안내해 줄 크래시 신호가 없을 때, 첫 번째 사례의 체계적인 조사 방법을 어떻게 적용할 수 있을까요?

다음 명령으로 시작해 보세요:

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --second-case

GDB 명령어 단축키 (빠른 디버깅)

이 단축키들을 사용하면 디버깅 세션 속도를 높일 수 있습니다:

단축	전체	사용 예시
`r`	`run`	`(cuda-gdb) r`
`n`	`next`	`(cuda-gdb) n`
`c`	`continue`	`(cuda-gdb) c`
`b`	`break`	`(cuda-gdb) b 39`
`p`	`print`	`(cuda-gdb) p thread_id`
`q`	`quit`	`(cuda-gdb) q`

아래 모든 디버깅 명령어는 효율을 위해 이 단축키를 사용합니다!

팁

패턴 분석부터 - 기대값과 실제 결과의 관계를 살펴보세요 (차이에 어떤 수학적 패턴이 있나요?)
실행 흐름에 집중 - 변수에 접근할 수 없으면 반복 횟수를 세어보세요
단순한 브레이크포인트 사용 - 최적화된 코드에서는 복잡한 디버깅 명령이 실패하기 쉽습니다
수학적 추론 - 각 스레드가 접근해야 하는 것과 실제로 접근하는 것을 따져보세요
누락된 데이터 조사 - 결과가 일관되게 기대보다 작다면, 무엇이 빠졌을까요?
호스트 출력 검증 - 최종 결과에서 버그의 패턴이 드러나는 경우가 많습니다
알고리즘 경계 분석 - 반복문이 올바른 개수의 요소를 처리하는지 확인하세요
작동하는 케이스와 교차 검증 - 스레드 3은 정확하게 작동하는데 다른 것들은 왜 안 될까요?

💡 조사 과정과 해결책

CUDA-GDB로 단계별 조사

1단계: 실행과 초기 분석

Step 1: 디버거 실행

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --second-case

Step 2: 증상부터 분석

디버거로 들어가기 전에, 이미 알고 있는 것을 정리합니다:

실제 결과: [0.0, 1.0, 3.0, 5.0]
기대값: [1.0, 3.0, 6.0, 5.0]

🔍 패턴 인식:

스레드 0: 0.0 얻음, 기대값 1.0 → 1.0 누락
스레드 1: 1.0 얻음, 기대값 3.0 → 2.0 누락
스레드 2: 3.0 얻음, 기대값 6.0 → 3.0 누락
스레드 3: 5.0 얻음, 기대값 5.0 → ✅ 정확

초기 가설: 각 스레드가 일부 데이터를 누락하고 있는데, 스레드 3만 정확하게 작동합니다.

2단계: 커널 진입

Step 3: 브레이크포인트 진입 확인

실제 디버깅 세션에서는 다음과 같이 진행됩니다:

(cuda-gdb) r
Starting program: .../mojo run problems/p09/p09.mojo --second-case

This program computes sliding window sums for each position...
Input array: [0, 1, 2, 3]
Computing sliding window sums (window size = 3)...
Each position should sum its neighbors: [left + center + right]

[Switching focus to CUDA kernel 0, grid 1, block (0,0,0), thread (0,0,0), device 0, sm 0, warp 0, lane 0]

CUDA thread hit application kernel entry function breakpoint, p09_process_sliding_window_...
   <<<(1,1,1),(4,1,1)>>> (output=..., input=...)
    at /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo:30
30          input: TileTensor[mut=False, dtype, vector_layout],

Step 4: 메인 로직으로 이동

(cuda-gdb) n
29          output: TileTensor[mut=True, dtype, vector_layout],
(cuda-gdb) n
32          thread_id = thread_idx.x
(cuda-gdb) n
38          for offset in range(ITER):

Step 5: 변수 접근성 테스트 - 중요한 발견

(cuda-gdb) p thread_id
$1 = 0

✅ 좋음: Thread ID에 접근 가능합니다.

(cuda-gdb) p window_sum
Cannot access memory at address 0x0

❌ 문제: window_sum에 접근할 수 없습니다.

(cuda-gdb) p a[0]
Attempt to take address of value not located in memory.

❌ 문제: TileTensor 직접 인덱싱이 작동하지 않습니다.

(cuda-gdb) p a.ptr[0]
$2 = {0}
(cuda-gdb) p a.ptr[0]@4
$3 = {{0}, {1}, {2}, {3}}

🎯 돌파구: a.ptr[0]@4로 전체 입력 배열을 볼 수 있습니다! 이것이 TileTensor 데이터를 검사하는 방법입니다.

3단계: 핵심 반복문 조사

Step 6: 반복문 모니터링 설정

(cuda-gdb) b 42
Breakpoint 1 at 0x7fffd326ffd0: file problems/p09/p09.mojo, line 42.
(cuda-gdb) c
Continuing.

CUDA thread hit Breakpoint 1, p09_process_sliding_window_...
   <<<(1,1,1),(4,1,1)>>> (output=..., input=...)
    at /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo:42
42              idx = thread_id + offset - 1

🔍 이제 반복문 본문 안에 있습니다. 직접 반복 횟수를 세어봅시다.

Step 7: 첫 번째 반복 (offset = 0)

(cuda-gdb) n
43              if 0 <= idx < SIZE:
(cuda-gdb) n
41          for offset in range(ITER):

첫 번째 반복 완료: 반복문이 42번 줄 → 43번 줄 → 41번 줄로 돌아왔습니다. 반복문이 계속됩니다.

Step 8: 두 번째 반복 (offset = 1)

(cuda-gdb) n

CUDA thread hit Breakpoint 1, p09_process_sliding_window_...
42              idx = thread_id + offset - 1
(cuda-gdb) n
43              if 0 <= idx < SIZE:
(cuda-gdb) n
44                  value = rebind[Scalar[dtype]](input[idx])
(cuda-gdb) n
45                  window_sum += value
(cuda-gdb) n
43              if 0 <= idx < SIZE:
(cuda-gdb) n
41          for offset in range(ITER):

두 번째 반복 완료: 이번에는 if 블록(44-45번 줄)을 통과했습니다.

Step 9: 세 번째 반복 테스트

(cuda-gdb) n
47          output[thread_id] = window_sum

결정적 발견: 반복문이 2번만 돌고 종료되었습니다! 42번 줄의 브레이크포인트에 다시 걸리지 않고 47번 줄로 바로 넘어갔습니다.

결론: 반복문이 정확히 2번 돌고 종료되었습니다.

Step 10: 커널 실행 완료와 컨텍스트 손실

(cuda-gdb) n
31      fn process_sliding_window(
(cuda-gdb) n
[Switching to Thread 0x7ffff7cc0e00 (LWP 110927)]
0x00007ffff064f84a in ?? () from /lib/x86_64-linux-gnu/libcuda.so.1
(cuda-gdb) p output.ptr[0]@4
No symbol "output" in current context.
(cuda-gdb) p offset
No symbol "offset" in current context.

🔍 컨텍스트 손실: 커널 실행이 끝나면 커널 변수에 더 이상 접근할 수 없습니다. 정상적인 동작입니다.

4단계: 근본 원인 분석

Step 11: 관찰된 실행에서 알고리즘 분석

디버깅 세션에서 관찰한 것:

반복 횟수: 2번만 반복 (offset = 0, offset = 1)
기대값: 크기 3의 슬라이딩 윈도우는 3번 반복해야 함 (offset = 0, 1, 2)
누락: 세 번째 반복 (offset = 2)

각 스레드가 계산해야 할 것:

스레드 0: window_sum = input[-1] + input[0] + input[1] = (경계) + 0 + 1 = 1.0
스레드 1: window_sum = input[0] + input[1] + input[2] = 0 + 1 + 2 = 3.0
스레드 2: window_sum = input[1] + input[2] + input[3] = 1 + 2 + 3 = 6.0
스레드 3: window_sum = input[2] + input[3] + input[4] = 2 + 3 + (경계) = 5.0

Step 12: 스레드 0의 실제 실행 추적

2번만 반복할 경우 (offset = 0, 1):

반복 1 (offset = 0):

idx = thread_id + offset - 1 = 0 + 0 - 1 = -1
if 0 <= idx < SIZE: → if 0 <= -1 < 4: → False
합산 연산 건너뜀

반복 2 (offset = 1):

idx = thread_id + offset - 1 = 0 + 1 - 1 = 0
if 0 <= idx < SIZE: → if 0 <= 0 < 4: → True
window_sum += input[0] → window_sum += 0

누락된 반복 3 (offset = 2):

idx = thread_id + offset - 1 = 0 + 2 - 1 = 1
if 0 <= idx < SIZE: → if 0 <= 1 < 4: → True
window_sum += input[1] → window_sum += 1 ← 이 연산이 실행되지 않음

결과: 스레드 0은 window_sum = 0 + 1 = 1 대신 window_sum = 0을 얻습니다

5단계: 버그 확인

문제 코드를 보면:

comptime ITER = 2                       # ← 버그: 3이어야 함!

for offset in range(ITER):           # ← 2번만 반복: [0, 1]
    idx = Int(thread_id) + offset - 1     # ← offset = 2 누락
    if 0 <= idx < SIZE:
        value = rebind[Scalar[dtype]](a[idx])
        window_sum += value

🎯 근본 원인 확인: 크기 3의 슬라이딩 윈도우를 위해 ITER = 2가 ITER = 3이어야 합니다.

수정 방법: 소스 코드에서 comptime ITER = 2를 comptime ITER = 3으로 변경합니다.

핵심 디버깅 교훈

변수에 접근할 수 없을 때:

실행 흐름에 집중 - 브레이크포인트가 몇 번 걸리는지, 반복이 몇 번 도는지 세어보세요
수학적 추론 사용 - 일어나야 할 일과 실제로 일어나는 일을 따져보세요
패턴 분석 - 잘못된 결과가 조사를 이끌도록 하세요
교차 검증 - 여러 데이터 포인트에 대해 가설을 테스트하세요

전문적인 GPU 디버깅의 현실:

컴파일러 최적화 때문에 변수 검사가 실패하는 경우가 많습니다
실행 흐름 분석이 데이터 검사보다 더 신뢰할 수 있습니다
호스트 출력 패턴이 중요한 디버깅 단서를 제공합니다
소스 코드 추론이 제한된 디버거 기능을 보완합니다

TileTensor 디버깅:

TileTensor 추상화를 사용해도 근본적인 알고리즘 버그는 그대로 드러납니다
텐서 내용을 검사하려 하기보다 알고리즘 로직에 집중하세요
체계적인 추론으로 각 스레드가 접근해야 하는 것과 실제로 접근하는 것을 추적하세요

💡 핵심 통찰: 이런 유형의 off-by-one (역주: 경계값이 1만큼 어긋나는 오류) 반복문 버그는 GPU 프로그래밍에서 매우 흔합니다. 여기서 배운 체계적인 접근법 - 제한된 디버거 정보에 수학적 분석과 패턴 인식을 결합하는 것 - 은 도구에 한계가 있을 때 전문 GPU 개발자들이 디버깅하는 방식 그대로입니다.

다음 단계: 로직 버그에서 교착 상태로

로직 버그 디버깅을 익혔습니다! 이제 할 수 있습니다:

✅ 크래시나 뚜렷한 증상 없이도 알고리즘 오류 조사
✅ 패턴 분석으로 잘못된 결과에서 근본 원인까지 추적
✅ 실행 흐름 분석으로 변수 접근이 제한된 상황에서 디버깅
✅ 디버거 도구에 한계가 있을 때 수학적 추론 적용

마지막 도전: 탐정 수사: 세 번째 사례

그런데 프로그램이 크래시하지도 않고 끝나지도 않는다면요? 그냥 영원히 멈춰버린다면요?

세 번째 사례는 궁극의 디버깅 도전을 제시합니다:

❌ 크래시 메시지 없음 (첫 번째 사례처럼)
❌ 잘못된 결과 없음 (두 번째 사례처럼)
❌ 완료 자체가 없음 - 그냥 무한히 멈춤
✅ 고급 스레드 조율 분석이 필요한 조용한 교착 상태

새롭게 익히게 될 스킬:

배리어 교착 상태 탐지 - 병렬 스레드에서 조율 실패 찾기
멀티 스레드 상태 분석 - 모든 스레드를 동시에 검사하기
동기화 디버깅 - 스레드 협력 실패 이해하기

디버깅 진화:

첫 번째 사례: 크래시 신호 따라가기 → 메모리 버그 찾기
두 번째 사례: 결과 패턴 분석하기 → 로직 버그 찾기
세 번째 사례: 스레드 상태 조사하기 → 조율 버그 찾기

이전 두 사례에서 배운 체계적인 조사 스킬 - 가설 수립, 증거 수집, 패턴 분석 - 은 가장 어려운 GPU 문제를 디버깅할 때 핵심이 됩니다: 조율이 어긋나 영원히 서로를 기다리는 스레드들.

🕵 탐정 수사: 세 번째 사례

개요

메모리 크래시와 로직 버그 디버깅을 익혔습니다. 이제 GPU 디버깅의 최종 보스에 도전합니다: 프로그램이 무한정 멈춰버리는 배리어 교착 상태. 오류 메시지도, 잘못된 결과도 없이 - 그저 끝없는 침묵만 있습니다.

디버깅 여정의 완결:

첫 번째 사례: 프로그램 크래시 → 오류 신호 추적 → 메모리 버그 발견
두 번째 사례: 잘못된 결과 출력 → 패턴 분석 → 로직 버그 발견
세 번째 사례: 프로그램 무한 정지 → 스레드 상태 조사 → 조율 버그 발견

이 고급 디버깅 챌린지에서는 공유 메모리, TileTensor 연산, 배리어 동기화가 얽힌 스레드 조율 실패를 조사하는 방법을 배웁니다 - 이전 사례들에서 익힌 체계적인 조사 기술을 총동원합니다.

사전 준비: Mojo GPU 디버깅의 핵심, 탐정 수사: 첫 번째 사례, 탐정 수사: 두 번째 사례를 먼저 완료해서 CUDA-GDB 워크플로우, 변수 검사의 한계, 체계적인 디버깅 접근법을 이해하세요. 아래 설정 명령을 실행했는지 확인하세요:

pixi run -e nvidia setup-cuda-gdb

핵심 개념

이번 디버깅 챌린지에서 배울 내용:

배리어 교착 상태 탐지: 스레드들이 동기화 지점에서 영원히 기다리게 되는 상황 식별하기
공유 메모리 조율: TileTensor를 사용한 스레드 협력 패턴 이해하기
조건부 실행 분석: 일부 스레드가 다른 코드 경로를 탈 때 디버깅하기
스레드 조율 디버깅: CUDA-GDB로 다중 스레드 동기화 실패 분석하기

코드 실행

먼저 전체 코드를 보지 않고 커널만 살펴봅시다:

def collaborative_filter(
    output: TileTensor[mut=True, dtype, VectorLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, VectorLayout, ImmutAnyOrigin],
):
    var thread_id = thread_idx.x

    # Shared memory workspace for collaborative processing
    var shared_workspace = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[SIZE - 1]())

    # Phase 1: Initialize shared workspace (all threads participate)
    if thread_id < SIZE - 1:
        shared_workspace[thread_id] = rebind[Scalar[dtype]](a[thread_id])
    barrier()

    # Phase 2: Collaborative processing
    if thread_id < SIZE - 1:
        # Apply collaborative filter with neighbors
        if thread_id > 0:
            shared_workspace[thread_id] += shared_workspace[thread_id - 1] * 0.5
        barrier()

    # Phase 3: Final synchronization and output
    barrier()

    # Write filtered results back to output
    if thread_id < SIZE - 1:
        output[thread_id] = shared_workspace[thread_id]
    else:
        output[thread_id] = rebind[Scalar[dtype]](a[thread_id])

버그를 직접 경험하려면 터미널에서 다음 명령을 실행하세요 (pixi 전용):

pixi run -e nvidia p09 --third-case

다음과 같은 출력이 나타납니다 - 프로그램이 무한정 멈춥니다:

Third Case: Advanced collaborative filtering with shared memory...
WARNING: This may hang - use Ctrl+C to stop if needed

Input array: [1, 2, 3, 4]
Applying collaborative filter using shared memory...
Each thread cooperates with neighbors for smoothing...
Waiting for GPU computation to complete...
[HANGS FOREVER - Use Ctrl+C to stop]

⚠️ 경고: 이 프로그램은 멈춰서 완료되지 않습니다. Ctrl+C로 중단하세요.

과제: 탐정 수사

도전: 프로그램이 정상적으로 시작되지만 GPU 연산 중에 멈춰서 결과를 반환하지 않습니다. 코드를 보지 않은 상태에서, 이 교착 상태를 조사하기 위한 체계적인 접근법은 무엇일까요?

생각해볼 점:

GPU 커널이 영영 완료되지 않게 만드는 원인은 무엇일까요?
스레드 조율 문제를 어떻게 조사하시겠습니까?
오류 메시지 없이 프로그램이 그냥 “멈춰버릴” 때 어떤 디버깅 전략이 통할까요?
스레드들이 제대로 협력하지 않을 수도 있다면 어떻게 디버깅할까요?
체계적 조사(첫 번째 사례)와 실행 흐름 분석(두 번째 사례)을 결합해서 조율 실패를 어떻게 디버깅할 수 있을까요?

다음 명령으로 시작해 보세요:

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --third-case

GDB 명령어 단축키 (빠른 디버깅)

이 단축키들을 사용하면 디버깅 세션 속도를 높일 수 있습니다:

단축	전체	사용 예시
`r`	`run`	`(cuda-gdb) r`
`n`	`next`	`(cuda-gdb) n`
`c`	`continue`	`(cuda-gdb) c`
`b`	`break`	`(cuda-gdb) b 62`
`p`	`print`	`(cuda-gdb) p thread_id`
`q`	`quit`	`(cuda-gdb) q`

아래 모든 디버깅 명령은 효율성을 위해 단축키를 사용합니다!

팁

소리 없는 멈춤 조사 - 오류 메시지 없이 프로그램이 멈춰버릴 때, GPU의 어떤 기본 요소가 무한 대기를 일으킬 수 있을까요?
스레드 상태 검사 - info cuda threads로 서로 다른 스레드들이 어디서 멈췄는지 확인하세요
조건부 실행 분석 - 어떤 스레드가 어떤 코드 경로를 실행하는지 확인하세요 (모든 스레드가 같은 경로를 따르나요?)
동기화 지점 조사 - 스레드들이 조율해야 할 수도 있는 지점을 찾으세요
스레드 분기 탐지 - 모든 스레드가 같은 프로그램 위치에 있나요, 아니면 일부는 다른 곳에 있나요?
조율 기본 요소 분석 - 모든 스레드가 같은 동기화 연산에 참여하지 않으면 어떻게 될까요?
실행 흐름 추적 - 각 스레드가 조건문을 통해 어떤 경로를 따라가는지 추적하세요
스레드 ID 영향 분석 - 서로 다른 스레드 ID가 어떤 코드 경로를 실행할지 어떻게 영향을 미치나요?

💡 조사 과정과 해결책

CUDA-GDB로 단계별 조사

1단계: 실행과 초기 설정

Step 1: 디버거 실행

pixi run -e nvidia mojo debug --cuda-gdb --break-on-launch problems/p09/p09.mojo --third-case

Step 2: 정지 현상 분석

디버깅에 들어가기 전에 알고 있는 정보를 정리합니다:

기대값: 프로그램이 완료되고 필터링된 결과 표시
실제: "Waiting for GPU computation to complete..."에서 멈춤

🔍 초기 가설: GPU 커널이 교착 상태에 빠짐 - 어떤 동기화 기본 요소가 스레드들을 영원히 대기시키고 있습니다.

2단계: 커널 진입

Step 3: 실행 및 커널 진입 관찰

(cuda-gdb) r
Starting program: .../mojo run problems/p09/p09.mojo --third-case

Third Case: Advanced collaborative filtering with shared memory...
WARNING: This may hang - use Ctrl+C to stop if needed

Input array: [1, 2, 3, 4]
Applying collaborative filter using shared memory...
Each thread cooperates with neighbors for smoothing...
Waiting for GPU computation to complete...

[Switching focus to CUDA kernel 0, grid 1, block (0,0,0), thread (0,0,0), device 0, sm 0, warp 0, lane 0]

CUDA thread hit application kernel entry function breakpoint, p09_collaborative_filter_Orig6A6AcB6A6A_1882ca334fc2d34b2b9c4fa338df6c07<<<(1,1,1),(4,1,1)>>> (
    output=..., a=...)
    at /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo:56
56          a: TileTensor[mut=False, dtype, vector_layout],

🔍 주요 관찰:

Grid: (1,1,1) - 단일 블록
Block: (4,1,1) - 총 4개 스레드 (0, 1, 2, 3)
현재 스레드: (0,0,0) - 스레드 0 디버깅 중
함수: 공유 메모리 연산을 사용하는 collaborative_filter

Step 4: 초기화 과정 탐색

(cuda-gdb) n
55          output: TileTensor[mut=True, dtype, vector_layout],
(cuda-gdb) n
58          thread_id = thread_idx.x
(cuda-gdb) n
66          ].stack_allocation()
(cuda-gdb) n
69          if thread_id < SIZE - 1:
(cuda-gdb) p thread_id
$1 = 0

✅ 스레드 0 상태: thread_id = 0, 조건 0 < 3 검사 직전 → True

Step 5: 1단계 추적

(cuda-gdb) n
70              shared_workspace[thread_id] = rebind[Scalar[dtype]](a[thread_id])
(cuda-gdb) n
69          if thread_id < SIZE - 1:
(cuda-gdb) n
71          barrier()

1단계 완료: 스레드 0이 초기화를 실행하고 첫 번째 배리어에 도달했습니다.

3단계: 결정적인 배리어 조사

Step 6: 첫 번째 배리어 검사

(cuda-gdb) n
74          if thread_id < SIZE - 1:
(cuda-gdb) info cuda threads
  BlockIdx ThreadIdx To BlockIdx To ThreadIdx Count                 PC                                                       Filename  Line
Kernel 0
*  (0,0,0)   (0,0,0)     (0,0,0)      (3,0,0)     4 0x00007fffd3272180 /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo    74

✅ 정상: 4개 스레드 모두 74번 줄(첫 번째 배리어 통과 후)에 있습니다. 첫 번째 배리어는 정상 작동했습니다.

🔍 결정적 지점: 이제 또 다른 조건문이 있는 2단계에 진입합니다.

Step 7: 2단계 추적 - 스레드 0 관점

(cuda-gdb) n
76              if thread_id > 0:

스레드 0 분석: 0 < 3 → True → 스레드 0이 2단계 블록에 진입

(cuda-gdb) n
78              barrier()

스레드 0 경로: 0 > 0 → False → 스레드 0이 내부 연산은 건너뛰지만 78번 줄의 배리어에 도달

결정적 순간: 스레드 0이 이제 78번 줄의 배리어에서 대기 중입니다.

(cuda-gdb) n # <-- 실행하면 프로그램이 멈춥니다!
[HANGS HERE - 프로그램이 이 지점을 넘어가지 못함]

Step 8: 다른 스레드 조사

(cuda-gdb) cuda thread (1,0,0)
[Switching focus to CUDA kernel 0, grid 1, block (0,0,0), thread (1,0,0), device 0, sm 0, warp 0, lane 1]
78              barrier()
(cuda-gdb) p thread_id
$2 = 1
(cuda-gdb) info cuda threads
  BlockIdx ThreadIdx To BlockIdx To ThreadIdx Count                 PC                                                       Filename  Line
Kernel 0
*  (0,0,0)   (0,0,0)     (0,0,0)      (2,0,0)     3 0x00007fffd3273aa0 /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo    78
   (0,0,0)   (3,0,0)     (0,0,0)      (3,0,0)     1 0x00007fffd3273b10 /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p09/p09.mojo    81

결정적 증거 발견:

스레드 0, 1, 2: 78번 줄에서 모두 대기 중 (조건 블록 안의 배리어)
스레드 3: 81번 줄에 있음 (조건 블록을 지나쳤고, 배리어에 도달한 적 없음!)

Step 9: 스레드 3의 실행 경로 분석

🔍 info 출력으로 본 스레드 3 분석:

스레드 3: 81번 줄에 위치 (PC: 0x00007fffd3273b10)
2단계 조건: thread_id < SIZE - 1 → 3 < 3 → False
결과: 스레드 3은 2단계 블록(74-78번 줄)에 진입하지 않음
결과: 스레드 3은 78번 줄의 배리어에 도달한 적 없음
현재 상태: 스레드 3은 81번 줄(마지막 배리어)에 있고, 스레드 0,1,2는 78번 줄에서 갇혀 있음

4단계: 근본 원인 분석

Step 10: 교착 상태 메커니즘 식별

# 2단계: 협력적 처리
if thread_id < SIZE - 1:        # ← 스레드 0, 1, 2만 이 블록에 진입
    # 이웃과 협력 필터 적용
    if thread_id > 0:
        shared_workspace[thread_id] += shared_workspace[thread_id - 1] * 0.5
    barrier()                   # ← 교착 상태: 4개 중 3개 스레드만 여기에 도달!

💀 교착 상태 메커니즘:

스레드 0: 0 < 3 → True → 블록 진입 → 배리어에서 대기 (69번 줄)
스레드 1: 1 < 3 → True → 블록 진입 → 배리어에서 대기 (69번 줄)
스레드 2: 2 < 3 → True → 블록 진입 → 배리어에서 대기 (69번 줄)
스레드 3: 3 < 3 → False → 블록에 진입 안 함 → 72번 줄로 계속 진행

결과: 3개 스레드가 4번째 스레드를 영원히 기다리지만, 스레드 3은 그 배리어에 절대 도착하지 않습니다.

5단계: 버그 확인과 해결책

Step 11: 근본적인 배리어 규칙 위반

GPU 배리어 규칙: 동기화가 완료되려면 스레드 블록의 모든 스레드가 같은 배리어에 도달해야 합니다.

무엇이 잘못되었나:

# ❌ 잘못된 방법: 조건문 안에 배리어
if thread_id < SIZE - 1:    # 모든 스레드가 진입하지 않음
    # ... 연산 ...
    barrier()               # 일부 스레드만 여기에 도달

# ✅ 올바른 방법: 조건문 밖에 배리어
if thread_id < SIZE - 1:    # 모든 스레드가 진입하지 않음
    # ... 연산 ...
 barrier()                  # 모든 스레드가 여기에 도달

수정 방법: 배리어를 조건 블록 밖으로 이동:

def collaborative_filter(
    output: TileTensor[mut=True, dtype, vector_layout],
    a: TileTensor[mut=False, dtype, vector_layout],
):
    thread_id = thread_idx.x
    shared_workspace = TileTensor[
        dtype,
        row_major[SIZE-1](),
        MutAnyOrigin,
        address_space = AddressSpace.SHARED,
    ].stack_allocation()

    # 1단계: 공유 작업공간 초기화 (모든 스레드 참여)
    if thread_id < SIZE - 1:
        shared_workspace[thread_id] = rebind[Scalar[dtype]](a[thread_id])
    barrier()

    # 2단계: 협력적 처리
    if thread_id < SIZE - 1:
        if thread_id > 0:
            shared_workspace[thread_id] += shared_workspace[thread_id - 1] * 0.5
    # ✅ 수정: 배리어를 조건문 밖으로 이동해서 모든 스레드가 도달하도록
    barrier()

    # 3단계: 최종 동기화와 출력
    barrier()

    if thread_id < SIZE - 1:
        output[thread_id] = shared_workspace[thread_id]
    else:
        output[thread_id] = rebind[Scalar[dtype]](a[thread_id])

핵심 디버깅 교훈

배리어 교착 상태 탐지:

info cuda threads 사용 - 어떤 스레드가 어느 줄에 있는지 보여줌
스레드 상태 분기 찾기 - 일부 스레드가 다른 프로그램 위치에 있음
조건부 실행 경로 추적 - 모든 스레드가 같은 배리어에 도달하는지 확인
배리어 도달 가능성 검증 - 다른 스레드들이 도달하는 배리어를 건너뛰는 스레드가 없는지 확인

실무 GPU 디버깅의 현실:

교착 상태는 소리 없는 살인자 - 오류 메시지 없이 프로그램이 그냥 멈춤
스레드 조율 디버깅은 인내가 필요 - 각 스레드 경로를 체계적으로 분석해야 함
조건부 배리어가 교착 상태의 1순위 원인 - 모든 스레드가 같은 동기화 지점에 도달하는지 항상 확인
CUDA-GDB 스레드 검사가 필수 - 스레드 조율 실패를 볼 수 있는 유일한 방법

고급 GPU 동기화:

배리어 규칙: 블록의 모든 스레드가 같은 배리어에 도달해야 함
조건부 실행의 함정: 어떤 if문이든 스레드 분기를 일으킬 수 있음
공유 메모리 조율: 올바른 동기화를 위해 배리어 배치에 주의 필요
TileTensor가 교착 상태를 막아주지 않음: 고수준 추상화라도 올바른 동기화는 여전히 필요

💡 핵심 통찰: 배리어 교착 상태는 GPU 버그 중 디버깅하기 가장 어려운 유형에 속합니다:

오류가 보이지 않음 - 그저 무한 대기
다중 스레드 분석 필요 - 스레드 하나만 봐서는 디버깅할 수 없음
조용한 실패 모드 - 정확성 버그가 아닌 성능 문제처럼 보임
복잡한 스레드 조율 - 모든 스레드에 걸쳐 실행 경로를 추적해야 함

CUDA-GDB로 스레드 상태를 분석하고, 분기된 실행 경로를 식별하고, 배리어 도달 가능성을 검증하는 이 디버깅 방식은 실무 GPU 개발자들이 운영 시스템에서 교착 상태 문제에 맞닥뜨렸을 때 쓰는 방법과 정확히 같습니다.

다음 단계: GPU 디버깅 스킬 완성

GPU 디버깅 삼부작을 완료했습니다!

완성된 GPU 디버깅 무기고

첫 번째 사례에서 - 크래시 디버깅:

✅ 오류 메시지를 가이드 삼아 체계적인 크래시 조사
✅ 포인터 주소 검사를 통한 메모리 버그 탐지
✅ 메모리 관련 문제를 위한 CUDA-GDB 기초

두 번째 사례에서 - 로직 버그 디버깅:

✅ 뚜렷한 증상 없이 알고리즘 오류 조사
✅ 잘못된 결과를 근본 원인까지 추적하는 패턴 분석 기법
✅ 변수 검사가 안 될 때 실행 흐름 디버깅

세 번째 사례에서 - 조율 디버깅:

✅ 스레드 조율 실패를 위한 배리어 교착 상태 조사
✅ 고급 CUDA-GDB 기법을 사용한 다중 스레드 상태 분석
✅ 복잡한 병렬 프로그램을 위한 동기화 검증

전문가의 GPU 디버깅 방법론

실무 GPU 개발자들이 사용하는 체계적인 접근법을 익혔습니다:

증상 읽기 - 크래시인가? 잘못된 결과인가? 무한 정지인가?
가설 수립 - 메모리 문제? 로직 오류? 조율 문제?
증거 수집 - 버그 유형에 맞춰 CUDA-GDB를 전략적으로 활용
체계적으로 테스트 - 목표 지향적 조사를 통해 각 가설 검증
근본 원인 추적 - 증거의 연결 고리를 따라 원천까지

업적 달성: 이제 가장 흔한 세 가지 GPU 프로그래밍 문제를 디버깅할 수 있습니다:

메모리 크래시 (첫 번째 사례) - null 포인터, 범위 밖 접근
로직 버그 (두 번째 사례) - 알고리즘 오류, 잘못된 결과
조율 교착 상태 (세 번째 사례) - 배리어 동기화 실패

Puzzle 10: 새니타이저로 메모리 오류와 경쟁 상태 찾기

⚠️ 이 퍼즐은 호환되는 NVIDIA GPU에서만 작동합니다. 다른 GPU 벤더 지원을 위한 도구 개발이 진행 중입니다.

모든 GPU 개발자가 두려워하는 순간

완벽해 보이는 GPU 코드를 작성했습니다. 알고리즘은 정확하고, 메모리 관리도 올바른 것 같고, 스레드 조율도 흠잡을 데 없어 보입니다. 자신 있게 테스트를 실행하면…

✅ 모든 테스트 통과
✅ 성능도 훌륭함
✅ 출력이 예상 결과와 일치

뿌듯하게 코드를 프로덕션에 배포합니다. 그런데 몇 주 후, 연락이 옵니다:

“프로덕션에서 애플리케이션이 크래시됐어요”
“실행할 때마다 결과가 달라요”
“메모리 손상이 감지됐어요”

조용히 숨어드는 GPU 버그의 세계에 오신 것을 환영합니다. 대규모 병렬 처리의 그늘에 숨어 있다가 가장 예상치 못한 순간에 튀어나오는 오류들이죠. 이런 버그들은 모든 테스트를 통과하고, 99%의 경우 올바른 결과를 내다가, 가장 중요한 순간에 치명적으로 실패합니다.

중요: 이 퍼즐은 NVIDIA GPU 하드웨어가 필요하며, compute-sanitizer가 NVIDIA CUDA toolkit에 포함되어 있어 pixi를 통해서만 사용할 수 있습니다.

GPU 버그가 유난히 교활한 이유

CPU 프로그램에서는 버그가 보통 즉각적인 크래시나 잘못된 결과로 자신의 존재를 알립니다. 하지만 GPU 버그는 숨기의 달인입니다:

조용히 데이터를 손상시키는 패턴:

크래시 없는 메모리 위반: 우연히 유효한 메모리 위치를 건드리는 범위 초과 접근
“대부분은 잘 동작하는” 경쟁 상태: 타이밍에 따라 무작위처럼 나타나는 버그
스레드 조율 실패: 특정 부하 조건에서만 발생하는 교착 상태

대규모 병렬 처리에서 증폭되는 문제:

한 스레드의 버그가 수천 개에 영향: 메모리 위반 하나가 전체 워프를 손상시킬 수 있음
경쟁 상태의 기하급수적 증가: 스레드가 많을수록 손상 가능성도 커짐
하드웨어 차이가 문제를 은폐: 같은 버그가 GPU 아키텍처마다 다르게 동작

하지만 희소식이 있습니다: GPU 검사 도구를 익히면, 이렇게 찾기 어려운 버그들을 프로덕션에 도달하기 전에 잡아낼 수 있습니다.

새니타이저 도구 모음: NVIDIA compute-sanitizer

NVIDIA compute-sanitizer는 GPU 버그에 맞서 싸우는 여러분의 비밀 무기입니다. 다음을 탐지할 수 있습니다:

메모리 위반: 범위 초과 접근, 잘못된 포인터, 메모리 누수
경쟁 상태: 스레드 간 공유 메모리 hazard
동기화 버그: 교착 상태, barrier 오용, 부적절한 스레드 조율
그 외: pixi run compute-sanitizer --help로 확인

📖 공식 문서: NVIDIA Compute Sanitizer User Guide

GPU 프로그램의 X-ray라고 생각하면 됩니다. 일반 테스트로는 볼 수 없는 숨겨진 문제까지 드러내 줍니다.

이 퍼즐에서 배울 내용

이 퍼즐에서는 가장 찾기 어려운 GPU 버그를 체계적으로 찾아 수정하는 방법을 배웁니다. 유능한 GPU 개발자와 뛰어난 개발자를 구분 짓는 탐정 기술을 익히게 됩니다.

익히게 될 핵심 기술

숨은 버그 찾기 - 테스트로는 잡히지 않는 문제 발견
메모리 손상 조사 - 피해가 발생하기 전에 미정의 동작 추적
경쟁 상태 탐지 - 동시성 위험 요소를 찾아내고 제거
도구 선택 능력 - 상황에 맞는 새니타이저 선택
프로덕션 디버깅 자신감 - 사용자에게 도달하기 전에 버그 포착

실전 버그 사냥 시나리오

가장 위험한 두 종류의 GPU 버그를 조사합니다:

메모리 위반 - 경고 없이 데이터를 망가뜨리는 조용한 암살자
경쟁 상태 - 결과를 예측 불가능하게 만드는 혼돈의 씨앗

각 시나리오에서 일반 테스트로는 보이지 않는 단서를 따라가며, GPU 버그 탐정처럼 사고하는 법을 배웁니다.

버그 사냥 여정

이 퍼즐은 조용한 손상을 발견하는 것부터 병렬 디버깅을 배우는 것까지, 체계적으로 설계된 과정을 안내합니다:

👮🏼‍♂️ 메모리 위반 탐지

메모리 위반 조사 - 테스트는 통과해도 메모리는 거짓말을 할 때

테스트를 통과하면서도 메모리 범죄를 저지르는 프로그램 조사
미정의 동작(UB)의 징후를 알아보는 법 익히기
memcheck 학습 - 메모리 위반을 잡아내는 탐지기
GPU 하드웨어가 메모리 오류를 숨기는 이유 이해
체계적인 메모리 접근 검증 실습

목표: 방치하면 프로덕션까지 발견되지 않았을 메모리 위반 탐지 능력

🏁 경쟁 상태 디버깅

동시성 버그 조사 - 스레드들이 서로 발목을 잡을 때

스레드 타이밍 때문에 무작위로 실패하는 프로그램 조사
데이터가 손상되기 전에 공유 메모리 위험 요소 식별법 익히기
racecheck 학습 - 경쟁 상태를 잡아내는 탐지기
다양한 동시성 버그에 대해 racecheck vs synccheck 비교
스레드 동기화 전략 실습

목표: 고급 동시성 디버깅 - 수천 개의 병렬 스레드를 길들이는 능력

GPU 탐정 마인드셋

GPU 검사를 하려면 병렬 프로그램 탐정이 되어야 합니다. 다음과 같은 사건을 조사하게 됩니다:

증거가 숨겨져 있다 - 직접 관찰할 수 없는 병렬 실행 속에서 버그가 발생
용의자가 수없이 많다 - 수천 개의 스레드 중 어떤 조합이든 범인일 수 있음
범행이 간헐적이다 - 경쟁 상태와 타이밍에 따른 실패
전문 도구가 필요하다 - 일반 디버깅으로는 볼 수 없는 것을 새니타이저가 보여줌

하지만 훌륭한 탐정처럼, 여러분도 다음을 배우게 됩니다:

보이지 않는 단서 따라가기 - 메모리 접근 패턴, 스레드 타이밍, 동기화 지점
병렬적으로 사고하기 - 수천 개의 스레드가 동시에 어떻게 상호작용하는지 고려
미래의 범죄 예방하기 - 개발 워크플로우에 검사 도구 통합
도구 믿기 - 수동 테스트로는 드러낼 수 없는 것을 새니타이저에 맡기기

시작하기 전에

알아야 할 것:

Puzzle 1-8에서 다룬 GPU 프로그래밍 개념 (메모리 관리, 스레드 조율, 배리어)
호환 NVIDIA GPU 하드웨어
compute-sanitizer 접근을 위한 pixi 패키지 매니저 환경 설정
선행 퍼즐: Puzzle 4와 Puzzle 8 숙지 권장

목표:

전문 GPU 개발팀에서 사용하는 프로덕션급 디버깅 기술
비용이 큰 프로덕션 장애를 예방하는 숨은 버그 탐지 기술
가장 까다로운 동시성 시나리오에서도 병렬 디버깅 자신감
GPU 프로그래밍 커리어 전반에 도움이 될 도구 전문성

👮🏼‍♂️ 메모리 위반 탐지

개요

테스트가 통과하는 것처럼 보여도 GPU 프로그램을 조용히 손상시킬 수 있는 메모리 위반을 탐지하는 방법을 배웁니다. NVIDIA의 compute-sanitizer(pixi를 통해 사용 가능)와 memcheck 도구를 사용하여, GPU 코드에서 예측 불가능한 동작을 일으킬 수 있는 숨은 메모리 버그를 발견하게 됩니다.

핵심 통찰: GPU 프로그램은 불법적인 메모리 접근을 수행하면서도 동시에 “올바른” 결과를 만들어낼 수 있습니다.

선행 학습: Puzzle 4 TileTensor와 기본적인 GPU 메모리 개념에 대한 이해가 필요합니다.

조용한 메모리 버그의 발견

테스트는 통과했지만, 코드가 정말 올바른 걸까?

얼핏 무해해 보이고 완벽하게 동작하는 듯한 프로그램으로 시작해 봅시다 (가드가 없는 Puzzle 04입니다):

def add_10_2d(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    output[row, col] = a[row, col] + 10.0

전체 파일 보기: problems/p10/p10.mojo

이 프로그램을 일반적으로 실행하면, 모든 것이 정상으로 보입니다:

pixi run p10 --memory-bug

out shape: 2 x 2
Running memory bug example (bounds checking issue)...
out: HostBuffer([10.0, 11.0, 12.0, 13.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])
✅ Memory test PASSED! (memcheck may find bounds violations)

✅ 테스트 통과! 출력이 예상 결과와 완벽하게 일치합니다. 사건 종결, 맞죠?

아닙니다! compute-sanitizer가 무엇을 보여주는지 봅시다:

MODULAR_DEVICE_CONTEXT_MEMORY_MANAGER_SIZE_PERCENT=0 pixi run compute-sanitizer --tool memcheck mojo problems/p10/p10.mojo --memory-bug

참고: MODULAR_DEVICE_CONTEXT_MEMORY_MANAGER_SIZE_PERCENT=0은 디바이스 컨텍스트의 버퍼 캐시를 비활성화하는 명령줄 환경 변수 설정입니다. 이 설정은 일반적인 캐싱 동작에 의해 숨겨지던 경계 위반 같은 메모리 문제를 드러낼 수 있습니다. (역주: 버퍼 캐시가 활성화되면 해제된 메모리를 즉시 반환하지 않고 재사용을 위해 보관합니다. 이 때문에 범위를 벗어난 접근이 아직 유효한 캐시 영역에 닿아 오류가 드러나지 않을 수 있습니다. 비활성화하면 메모리가 즉시 반환되어 위반이 감지됩니다.)

========= COMPUTE-SANITIZER
out shape: 2 x 2
Running memory bug example (bounds checking issue)...

========= Invalid __global__ read of size 4 bytes
=========     at p10_add_10_2d_...+0x80
=========     by thread (2,1,0) in block (0,0,0)
=========     Access at 0xe0c000210 is out of bounds
=========     and is 513 bytes after the nearest allocation at 0xe0c000000 of size 16 bytes

========= Invalid __global__ read of size 4 bytes
=========     at p10_add_10_2d_...+0x80
=========     by thread (0,2,0) in block (0,0,0)
=========     Access at 0xe0c000210 is out of bounds
=========     and is 513 bytes after the nearest allocation at 0xe0c000000 of size 16 bytes

========= Invalid __global__ read of size 4 bytes
=========     at p10_add_10_2d_...+0x80
=========     by thread (1,2,0) in block (0,0,0)
=========     Access at 0xe0c000214 is out of bounds
=========     and is 517 bytes after the nearest allocation at 0xe0c000000 of size 16 bytes

========= Invalid __global__ read of size 4 bytes
=========     at p10_add_10_2d_...+0x80
=========     by thread (2,2,0) in block (0,0,0)
=========     Access at 0xe0c000218 is out of bounds
=========     and is 521 bytes after the nearest allocation at 0xe0c000000 of size 16 bytes

========= Program hit CUDA_ERROR_LAUNCH_FAILED (error 719) due to "unspecified launch failure" on CUDA API call to cuStreamSynchronize.
========= Program hit CUDA_ERROR_LAUNCH_FAILED (error 719) due to "unspecified launch failure" on CUDA API call to cuEventCreate.
========= Program hit CUDA_ERROR_LAUNCH_FAILED (error 719) due to "unspecified launch failure" on CUDA API call to cuMemFreeAsync.

========= ERROR SUMMARY: 7 errors

모든 테스트를 통과했음에도 프로그램에는 총 7개의 오류가 있습니다:

4개의 메모리 위반 (Invalid __global__ read)
3개의 런타임 오류 (메모리 위반으로 인해 발생)

숨겨진 버그 이해하기

근본 원인 분석

문제:

텐서 크기: 2×2 (유효한 인덱스: 0, 1)
스레드 그리드: 3×3 (스레드 인덱스: 0, 1, 2)
범위 초과 스레드: (2,1), (0,2), (1,2), (2,2)가 잘못된 메모리에 접근
경계 검사 누락: 텐서 차원에 대한 thread_idx 검증이 없음

7개 오류 전체 이해하기

4개의 메모리 위반:

각 범위 초과 스레드 (2,1), (0,2), (1,2), (2,2)가 Invalid __global__ read를 발생시킴

3개의 CUDA 런타임 오류:

커널 실행 실패로 인해 cuStreamSynchronize 실패
정리 과정에서 cuEventCreate 실패
메모리 해제 과정에서 cuMemFreeAsync 실패

핵심 통찰: 메모리 위반은 연쇄 효과를 일으킵니다 - 하나의 잘못된 메모리 접근이 여러 후속 CUDA API 실패를 야기합니다.

그럼에도 테스트가 통과한 이유:

유효한 스레드 (0,0), (0,1), (1,0), (1,1)이 올바른 결과를 기록함
테스트가 유효한 출력 위치만 검사함
범위 초과 접근이 프로그램을 즉시 크래시시키지 않음

미정의 동작 이해하기

미정의 동작이란?

미정의 동작(Undefined Behavior, UB) 은 프로그램이 언어 명세상 정의되지 않은 연산을 수행할 때 발생합니다. 범위 초과 메모리 접근이 대표적인 예입니다.

미정의 동작의 주요 특성:

프로그램이 말 그대로 무슨 짓이든 할 수 있음: 크래시, 잘못된 결과, 정상 동작하는 것처럼 보이기, 메모리 손상
어떤 보장도 없음: 컴파일러, 하드웨어, 드라이버, 심지어 실행할 때마다 동작이 달라질 수 있음

미정의 동작이 특히 위험한 이유

정확성 문제:

예측 불가능한 결과: 테스트 중에는 동작하다가 프로덕션에서 실패할 수 있음
비결정적 동작: 같은 코드가 다른 실행에서 다른 결과를 낼 수 있음
조용한 손상: 미정의 동작은 가시적인 오류 없이 데이터를 손상시킬 수 있음
컴파일러 최적화: 컴파일러는 미정의 동작이 없다고 가정하고 예상치 못한 방식으로 최적화할 수 있음

보안 취약점:

버퍼 오버플로우: 시스템 프로그래밍에서 보안 공격의 고전적인 원인
메모리 손상: 권한 상승이나 코드 인젝션 공격으로 이어질 수 있음
정보 유출: 범위를 벗어난 읽기로 민감한 데이터가 노출될 수 있음
제어 흐름 하이재킹: 미정의 동작을 악용해 프로그램 실행 흐름을 탈취할 수 있음

GPU 특유의 미정의 동작 위험성

대규모 영향:

스레드 분기: 한 스레드의 미정의 동작이 전체 워프(32개 스레드)에 영향을 줄 수 있음
메모리 병합: 범위 초과 접근이 인접 스레드의 데이터를 손상시킬 수 있음
커널 실패: 미정의 동작이 GPU 커널 전체를 완전히 망가뜨릴 수 있음

하드웨어 차이:

다른 GPU 아키텍처: 미정의 동작이 다른 GPU 모델에서 다르게 나타날 수 있음
드라이버 차이: 같은 미정의 동작이 드라이버 버전에 따라 다르게 동작할 수 있음
메모리 레이아웃 변경: GPU 메모리 할당 패턴에 따라 미정의 동작이 다르게 나타날 수 있음

메모리 위반 수정하기

해결책

Puzzle 04에서 본 것처럼, 다음과 같이 경계 검사를 해야 합니다:

def add_10_2d(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x
    if col < size and row < size:
        output[row, col] = a[row, col] + 10.0

해결책은 간단합니다: 메모리에 접근하기 전에 항상 스레드 인덱스를 데이터 차원에 대해 검증하세요.

compute-sanitizer로 검증

# p10.mojo 복사본에서 경계 검사를 수정한 후 실행:
MODULAR_DEVICE_CONTEXT_MEMORY_MANAGER_SIZE_PERCENT=0 pixi run compute-sanitizer --tool memcheck mojo problems/p10/p10.mojo --memory-bug

========= COMPUTE-SANITIZER
out shape: 2 x 2
Running memory bug example (bounds checking issue)...
out: HostBuffer([10.0, 11.0, 12.0, 13.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])
✅ Memory test PASSED! (memcheck may find bounds violations)
========= ERROR SUMMARY: 0 errors

✅ 성공: 메모리 위반이 탐지되지 않았습니다!

핵심 학습 포인트

수동 경계 검사가 중요한 이유

명확성: 코드에서 안전 요구사항을 명시적으로 표현
제어: 범위 초과 케이스에서 정확히 어떤 일이 일어날지 직접 결정
디버깅: 메모리 위반이 발생할 때 추론하기 쉬움

GPU 메모리 안전 규칙

항상 스레드 인덱스를 검증하여 데이터 차원과 비교
미정의 동작을 어떤 대가를 치르더라도 피하기 - 범위 초과 접근은 미정의 동작이며 모든 것을 망가뜨릴 수 있음
개발과 테스트 중 compute-sanitizer 사용
메모리 검사 없이 “동작한다“고 절대 가정하지 않기
다양한 그리드/블록 구성으로 테스트하여 일관성 없이 나타나는 미정의 동작 포착

compute-sanitizer 모범 사례

MODULAR_DEVICE_CONTEXT_MEMORY_MANAGER_SIZE_PERCENT=0 pixi run compute-sanitizer --tool memcheck mojo your_code.mojo

참고: 새니타이저 출력에서 Mojo 런타임 경고를 볼 수 있습니다. 실제 메모리 위반을 확인하려면 ========= Invalid와 ========= ERROR SUMMARY 라인에 집중하세요.

🏁 경쟁 상태 디버깅

개요

NVIDIA compute-sanitizer를 사용해 잘못된 결과를 일으키는 경쟁 상태를 식별하면서 실패하는 GPU 프로그램을 디버깅합니다. 공유 메모리 연산에서 동시성 버그를 찾는 racecheck 도구 사용법을 배웁니다.

공유 메모리로 여러 스레드의 값을 누적해야 하는 GPU 커널이 있습니다. 테스트는 실패하는데, 로직은 올바른 것 같습니다. 당신의 과제는 실패를 일으키는 경쟁 상태를 찾아 수정하는 것입니다.

구성

comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)  # 9개 스레드 중 4개만 활성화
comptime dtype = DType.float32

실패하는 커널


comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32
comptime layout = row_major[SIZE, SIZE]()
comptime LayoutType = type_of(layout)


def shared_memory_race(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var row = thread_idx.y
    var col = thread_idx.x

    var shared_sum = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[1]())

    if row < size and col < size:
        shared_sum[0] += a[row, col]

    barrier()

    if row < size and col < size:
        output[row, col] = shared_sum[0]

전체 파일 보기: problems/p10/p10.mojo

코드 실행

pixi run p10 --race-condition

출력은 다음과 같습니다

out shape: 2 x 2
Running race condition example...
out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([6.0, 6.0, 6.0, 6.0])
stack trace was not collected. Enable stack trace collection with environment variable `MOJO_ENABLE_STACK_TRACE_ON_ERROR`
Unhandled exception caught during execution: At /home/ubuntu/workspace/mojo-gpu-puzzles/problems/p10/p10.mojo:122:33: AssertionError: `left == right` comparison failed:
   left: 0.0
  right: 6.0

compute-sanitizer가 GPU 코드의 문제를 어떻게 찾아내는지 살펴봅시다.

`compute-sanitizer`로 디버깅하기

1단계: `racecheck`로 경쟁 상태 식별

compute-sanitizer와 racecheck 도구를 사용하여 경쟁 상태를 식별합니다:

pixi run compute-sanitizer --tool racecheck mojo problems/p10/p10.mojo --race-condition

출력은 다음과 같습니다

========= COMPUTE-SANITIZER
out shape: 2 x 2
Running race condition example...
========= Error: Race reported between Write access at p10_shared_memory_race_...+0x140
=========     and Read access at p10_shared_memory_race_...+0xe0 [4 hazards]
=========     and Write access at p10_shared_memory_race_...+0x140 [5 hazards]
=========
out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([6.0, 6.0, 6.0, 6.0])
AssertionError: `left == right` comparison failed:
  left: 0.0
  right: 6.0
========= RACECHECK SUMMARY: 1 hazard displayed (1 error, 0 warnings)

분석: 프로그램에 1개의 경쟁 상태와 9개의 개별 위험 요소가 있습니다:

4개의 read-after-write 위험 요소 (다른 스레드가 쓰는 동안 읽기)
5개의 write-after-write 위험 요소 (여러 스레드가 동시에 쓰기)

2단계: `synccheck`와 비교

동기화 문제가 아닌 경쟁 상태인지 확인합니다:

pixi run compute-sanitizer --tool synccheck mojo problems/p10/p10.mojo --race-condition

출력은 다음과 같습니다

========= COMPUTE-SANITIZER
out shape: 2 x 2
Running race condition example...
out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([6.0, 6.0, 6.0, 6.0])
AssertionError: `left == right` comparison failed:
  left: 0.0
  right: 6.0
========= ERROR SUMMARY: 0 errors

핵심 통찰: synccheck가 0개의 오류를 찾았습니다 - 교착 상태 같은 동기화 문제는 없습니다. 문제는 동기화 버그가 아닌 경쟁 상태입니다.

교착 상태 vs 경쟁 상태: 차이점 이해하기

측면	교착 상태	경쟁 상태
증상	프로그램이 영원히 멈춤	프로그램이 잘못된 결과 생성
실행	완료되지 않음	성공적으로 완료됨
타이밍	결정적으로 멈춤	비결정적 결과
근본 원인	동기화 로직 오류	동기화되지 않은 데이터 접근
탐지 도구	`synccheck`	`racecheck`
예시	Puzzle 09: 세 번째 사례 배리어 교착 상태	공유 메모리 `+=` 연산

우리 사례에서:

프로그램 완료됨 → 교착 상태 없음 (스레드가 멈추지 않음)
잘못된 결과 → 경쟁 상태 (스레드들이 서로의 데이터를 손상)
도구 확인 → synccheck는 0개 오류, racecheck는 9개 위험 요소 보고

디버깅에서 이 구분이 중요한 이유:

교착 상태 디버깅: 배리어 배치, 조건부 동기화, 스레드 조율에 집중
경쟁 상태 디버깅: 공유 메모리 접근 패턴, 원자적 연산 (역주: 중간 상태 없이 완전히 실행되거나 전혀 실행되지 않는 연산), 데이터 의존성에 집중

도전 과제

이 도구들을 활용하여 실패하는 커널을 수정하세요.

팁

위험 요소 분석

shared_sum[0] += a[row, col] 연산이 위험한 이유는 실제로 세 개의 별도 메모리 연산이기 때문입니다:

shared_sum[0] 읽기
읽은 값에 a[row, col] 더하기
결과를 shared_sum[0]에 다시 쓰기

4개의 활성 스레드(위치 (0,0), (0,1), (1,0), (1,1))에서 이 연산들이 겹칠 수 있습니다:

스레드 타이밍 중첩 → 여러 스레드가 같은 초기값(0.0)을 읽음
업데이트 손실 → 각 스레드가 0.0 + 자신의_값을 써서 다른 스레드의 작업을 덮어씀
비원자적 연산 → += 복합 대입은 GPU 공유 메모리에서 원자적이지 않음 (역주: 실행 도중 다른 스레드가 끼어들 수 있어 중간 상태가 노출됨)

정확히 9개의 위험 요소가 나오는 이유:

각 스레드가 read-modify-write를 시도
4개 스레드 × 스레드당 2-3개 위험 요소 = 총 9개 위험 요소
compute-sanitizer가 모든 충돌하는 메모리 접근 쌍을 추적

경쟁 상태 디버깅 팁

데이터 경쟁에는 racecheck 사용: 공유 메모리 위험 요소와 데이터 손상 탐지
교착 상태에는 synccheck 사용: 동기화 버그(배리어 문제, 교착 상태) 탐지
공유 메모리 접근에 집중: 공유 변수에 대한 동기화되지 않은 +=, = 연산 찾기
패턴 식별: read-modify-write 연산이 흔한 경쟁 상태 원인
배리어 배치 확인: 배리어는 충돌 연산 이전에 배치해야 함, 이후가 아님

디버깅에서 이 구분이 중요한 이유:

교착 상태 디버깅: 배리어 배치, 조건부 동기화, 스레드 조율에 집중
경쟁 상태 디버깅: 공유 메모리 접근 패턴, 원자적 연산, 데이터 의존성에 집중

피해야 할 흔한 경쟁 상태 패턴:

여러 스레드가 같은 공유 메모리 위치에 쓰기
동기화되지 않은 read-modify-write 연산 (+=, ++ 등)
경쟁 상태 이전이 아닌 이후에 배리어 배치

솔루션


comptime SIZE = 2
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = (3, 3)
comptime dtype = DType.float32
comptime layout = row_major[SIZE, SIZE]()
comptime LayoutType = type_of(layout)


def shared_memory_race(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Fixed: sequential access with barriers eliminates race conditions."""
    var row = thread_idx.y
    var col = thread_idx.x

    var shared_sum = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[1]())

    # Only thread 0 does all the accumulation work to prevent races
    if row == 0 and col == 0:
        # Use local accumulation first, then single write to shared memory
        var local_sum = Scalar[dtype](0.0)
        for r in range(size):
            for c in range(size):
                local_sum += rebind[Scalar[dtype]](a[r, c])

        shared_sum[0] = local_sum  # Single write operation

    barrier()  # Ensure thread 0 completes before others read

    # All threads read the safely accumulated result after synchronization
    if row < size and col < size:
        output[row, col] = shared_sum[0]

무엇이 잘못되었는지 이해하기

경쟁 상태 문제 패턴

원래 실패하는 코드에는 이 핵심적인 줄이 있었습니다:

shared_sum[0] += a[row, col]  # 경쟁 상태!

이 한 줄이 4개의 유효한 스레드 사이에서 여러 위험 요소를 일으킵니다:

스레드 (0,0)이 읽음 shared_sum[0] (값: 0.0)
스레드 (0,1)이 읽음 shared_sum[0] (값: 0.0) ← Read-after-write 위험!
스레드 (0,0)이 씀 0.0 + 0
스레드 (1,0)이 씀 0.0 + 2 ← Write-after-write 위험!

테스트가 실패한 이유

+= 연산 중 여러 스레드가 서로의 쓰기를 손상시킴
+= 연산이 중단되어 업데이트 손실 발생
예상 합계 6.0 (0+1+2+3)이지만, 경쟁 상태로 인해 0.0이 됨
barrier()가 너무 늦게 옴 - 경쟁 상태가 이미 발생한 후

경쟁 상태란?

경쟁 상태는 여러 스레드가 공유 데이터에 동시에 접근하고, 결과가 예측 불가능한 스레드 실행 타이밍에 따라 달라질 때 발생합니다.

주요 특성:

비결정적 동작: 같은 코드가 다른 실행에서 다른 결과를 낼 수 있음
타이밍 의존적: 결과가 어떤 스레드가 “경쟁에서 이기는지“에 따라 달라짐
재현하기 어려움: 특정 조건이나 하드웨어에서만 나타날 수 있음

GPU 특유의 위험성

대규모 병렬 처리의 영향:

워프 수준 손상: 경쟁 상태가 전체 워프(32개 스레드)에 영향을 줄 수 있음
메모리 병합 문제: 경쟁으로 효율적인 메모리 접근 패턴이 깨질 수 있음
커널 전체 실패: 공유 메모리 손상이 전체 GPU 커널에 영향을 줄 수 있음

하드웨어 차이:

다른 GPU 아키텍처: 경쟁 상태가 GPU 모델마다 다르게 나타날 수 있음
메모리 계층: L1 캐시, L2 캐시, 전역 메모리가 각각 다른 경쟁 동작을 보일 수 있음
워프 스케줄링: 다른 스레드 스케줄링이 다른 경쟁 상태 시나리오를 노출시킬 수 있음

전략: 단일 쓰기 패턴

핵심은 공유 메모리에 대한 동시 쓰기를 없애는 것입니다:

Single writer: 하나의 스레드(위치 (0,0))만 모든 누적 작업 수행
로컬 누적: 위치 (0,0) 스레드가 로컬 변수를 사용해 반복적인 공유 메모리 접근을 피함
단일 공유 메모리 쓰기: 단일 쓰기 연산으로 write-write 경쟁 제거
배리어 동기화: writer가 완료된 후에야 다른 스레드가 읽도록 보장
다중 읽기: 모든 스레드가 안전하게 최종 결과를 읽음

단계별 솔루션 분석

1단계: 스레드 식별

if row == 0 and col == 0:

직접 좌표 검사로 위치 (0,0)의 스레드를 식별합니다.

2단계: 단일 스레드 누적

if row == 0 and col == 0:
    local_sum = Scalar[dtype](0.0)
    for r in range(size):
        for c in range(size):
            local_sum += rebind[Scalar[dtype]](a[r, c])
    shared_sum[0] = local_sum  # 단일 쓰기 연산

위치 (0,0)의 스레드만 모든 누적 작업을 수행하여 경쟁 상태를 제거합니다.

3단계: 동기화 배리어

barrier()  # 스레드 (0,0)이 완료한 후 다른 스레드가 읽도록 보장

모든 스레드가 위치 (0,0)의 스레드가 누적을 마칠 때까지 기다립니다.

4단계: 안전한 병렬 읽기

if row < size and col < size:
    output[row, col] = shared_sum[0]

동기화 후 모든 스레드가 안전하게 결과를 읽을 수 있습니다.

효율성에 관한 중요 사항

이 솔루션은 효율성보다 정확성을 우선합니다. 경쟁 상태는 제거하지만, 위치 (0,0) 스레드만 누적에 사용하는 것은 GPU 성능에 최적이 아닙니다 - 대규모 병렬 장치에서 사실상 직렬 계산을 하는 셈입니다.

이어서 Puzzle 11: 풀링에서: 모든 스레드를 활용해 고성능 합산 연산을 수행하면서도 경쟁 상태를 피하는 효율적인 병렬 리덕션 알고리즘을 배웁니다. 이 퍼즐은 정확성 우선의 기초를 가르칩니다 - 경쟁 상태를 피하는 방법을 이해하고 나면, Puzzle 11에서 정확성과 성능 모두를 달성하는 방법을 보게 됩니다.

검증

pixi run compute-sanitizer --tool racecheck mojo solutions/p10/p10.mojo --race-condition

예상 출력:

========= COMPUTE-SANITIZER
out shape: 2 x 2
Running race condition example...
out: HostBuffer([6.0, 6.0, 6.0, 6.0])
expected: HostBuffer([6.0, 6.0, 6.0, 6.0])
✅ Race condition test PASSED! (racecheck will find hazards)
========= RACECHECK SUMMARY: 0 hazards displayed (0 errors, 0 warnings)

✅ 성공: 테스트가 통과하고 경쟁 상태가 탐지되지 않았습니다!

Puzzle 11: 풀링

개요

1D TileTensor a에서 각 위치의 직전 3개 값의 합을 계산하여 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: 각 위치마다 스레드 1개가 있습니다. 스레드당 전역 읽기 1회, 전역 쓰기 1회만 필요합니다.

핵심 개념

이 퍼즐에서 배울 내용:

TileTensor로 슬라이딩 윈도우 연산 구현하기
Puzzle 8에서 다룬 TileTensor 주소 공간(address_space)으로 공유 메모리 관리하기
효율적인 이웃 접근 패턴
경계 조건 처리

핵심은 TileTensor가 효율적인 윈도우 기반 연산은 유지하면서도 공유 메모리 관리를 간소화하는 방법입니다.

구성

배열 크기: SIZE = 8
블록당 스레드 수: TPB = 8
윈도우 크기: 3
공유 메모리: TPB개

참고:

TileTensor 할당: stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB]()) 사용
윈도우 접근: 3개짜리 윈도우에 자연스러운 인덱싱
경계 처리: 처음 두 위치는 특수 케이스
메모리 패턴: 스레드당 공유 메모리 로드 1회

완성할 코드

comptime TPB = 8
comptime SIZE = 8
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)


def pooling(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    # Allocate shared memory using stack_allocation
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # FIX ME IN (roughly 10 lines)

전체 파일 보기: problems/p11/p11.mojo

팁

TileTensor와 주소 공간(address_space)으로 공유 메모리 생성
자연스러운 인덱싱으로 데이터 로드: shared[local_i] = a[global_i]
처음 두 위치를 특수 케이스로 처리
윈도우 연산에 공유 메모리 활용
경계 초과 접근에 가드 추가

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p11

pixi run -e amd p11

pixi run -e apple p11

uv run poe p11

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([0.0, 1.0, 3.0, 6.0, 9.0, 12.0, 15.0, 18.0])

솔루션

def pooling(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    # Allocate shared memory using stack_allocation
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Load data into shared memory
    if global_i < size:
        shared[local_i] = a[global_i]

    # Synchronize threads within block
    barrier()

    # Handle first two special cases
    if global_i == 0:
        output[0] = shared[0]
    elif global_i == 1:
        output[1] = shared[0] + shared[1]
    # Handle general case
    elif 1 < global_i < size:
        output[global_i] = (
            shared[local_i - 2] + shared[local_i - 1] + shared[local_i]
        )

TileTensor를 활용한 슬라이딩 윈도우 합계 구현입니다. 주요 단계는 다음과 같습니다:

공유 메모리 설정
- TileTensor가 주소 공간(address_space)으로 블록 로컬 저장소를 생성:
```
shared = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB]())
```
- 각 스레드가 하나씩 로드:
```
Input array:  [0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0]
Block shared: [0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0]
```
- barrier()로 모든 데이터 로드 완료를 보장

경계 케이스

위치 0: 하나만
```
output[0] = shared[0] = 0.0
```

위치 1: 처음 두 값의 합

output[1] = shared[0] + shared[1] = 0.0 + 1.0 = 1.0

메인 윈도우 연산

위치 2 이후:

Position 2: shared[0] + shared[1] + shared[2] = 0.0 + 1.0 + 2.0 = 3.0
Position 3: shared[1] + shared[2] + shared[3] = 1.0 + 2.0 + 3.0 = 6.0
Position 4: shared[2] + shared[3] + shared[4] = 2.0 + 3.0 + 4.0 = 9.0
...

TileTensor의 자연스러운 인덱싱:

# 3개짜리 슬라이딩 윈도우
window_sum = shared[i-2] + shared[i-1] + shared[i]

메모리 접근 패턴
- 스레드마다 공유 텐서로 전역 읽기 1회
- 공유 메모리를 통한 효율적인 이웃 접근
- TileTensor의 장점:
  - 자동 경계 검사
  - 자연스러운 윈도우 인덱싱
  - 레이아웃을 인식하는 메모리 접근
  - 전 과정에 걸친 타입 안전성

공유 메모리의 성능과 TileTensor의 안전성 및 편의성을 결합한 방식입니다:

전역 메모리 접근 최소화
윈도우 연산 간소화
깔끔한 경계 처리
병합 접근 패턴 유지

최종 출력은 누적 윈도우 합계입니다:

[0.0, 1.0, 3.0, 6.0, 9.0, 12.0, 15.0, 18.0]

Puzzle 12: 내적

개요

1D TileTensor a와 1D TileTensor b의 내적을 계산하여 1D TileTensor output(단일 값)에 저장하는 커널을 구현하세요. 내적은 크기가 같은 두 벡터에서 대응하는 원소끼리 곱한 뒤, 그 결과를 모두 더해 하나의 숫자(스칼라)를 구하는 연산입니다.

예를 들어, 두 벡터가 다음과 같을 때:

\[a = [a_{1}, a_{2}, …, a_{n}] \] \[b = [b_{1}, b_{2}, …, b_{n}] \]

내적은 이렇게 구합니다: \[a \cdot b = a_{1}b_{1} + a_{2}b_{2} + … + a_{n}b_{n}\]

참고: 각 위치마다 스레드 1개가 있습니다. 스레드당 전역 읽기 2회, 블록당 전역 쓰기 1회만 필요합니다.

핵심 개념

이 퍼즐에서 배울 내용:

Puzzle 8, Puzzle 11에서 이어지는 TileTensor 기반 병렬 리덕션
address_space를 활용한 공유 메모리 관리
여러 스레드가 협력해 하나의 결과를 만들어가는 과정
레이아웃을 인식하는 텐서 연산

핵심은 TileTensor가 메모리 관리를 간소화하면서도, 병렬 리덕션의 효율은 그대로 살리는 방식을 이해하는 것입니다.

구성

벡터 크기: SIZE = 8
블록당 스레드 수: TPB = 8
블록 수: 1
출력 크기: 1
공유 메모리: TPB개

참고:

TileTensor 할당: stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB]()) 사용
요소 접근: 경계 검사가 자동으로 따라오는 자연스러운 인덱싱
레이아웃 처리: 입력용과 출력용 레이아웃을 따로 구성
스레드 조율: 동일한 동기화 패턴으로 barrier() 사용

완성할 코드

from std.gpu import thread_idx, block_idx, block_dim, barrier
from std.gpu.memory import AddressSpace
from layout import TileTensor
from layout.tile_layout import row_major
from layout.tile_tensor import stack_allocation


comptime TPB = 8
comptime SIZE = 8
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime out_layout = row_major[1]()
comptime LayoutType = type_of(layout)
comptime OutLayout = type_of(out_layout)


def dot_product(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    # FILL ME IN (roughly 13 lines)
    ...

전체 파일 보기: problems/p12/p12.mojo

팁

TileTensor와 address_space로 공유 메모리 생성
shared[local_i]에 a[global_i] * b[global_i]를 저장
barrier()와 함께 병렬 리덕션 패턴 적용
스레드 0이 최종 결과를 output[0]에 기록

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p12

pixi run -e amd p12

pixi run -e apple p12

uv run poe p12

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0])
expected: HostBuffer([140.0])

솔루션

def dot_product(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Compute element-wise multiplication into shared memory
    if global_i < size:
        shared[local_i] = a[global_i] * b[global_i]

    # Synchronize threads within block
    barrier()

    # Parallel reduction in shared memory
    var stride = TPB // 2
    while stride > 0:
        if local_i < stride:
            shared[local_i] += shared[local_i + stride]

        barrier()
        stride //= 2

    # Only thread 0 writes the final result
    if local_i == 0:
        output[0] = shared[0]

TileTensor를 활용한 병렬 리덕션으로 내적을 계산하는 솔루션입니다. 단계별로 살펴보겠습니다:

1단계: 요소별 곱셈

각 스레드가 직관적인 인덱싱으로 곱셈 연산을 하나씩 처리합니다:

shared[local_i] = a[global_i] * b[global_i]

2단계: 병렬 리덕션

레이아웃을 인식하는 트리 기반 리덕션입니다:

초기값:    [0*0  1*1  2*2  3*3  4*4  5*5  6*6  7*7]
        = [0    1    4    9    16   25   36   49]

Step 1:   [0+16 1+25 4+36 9+49  16   25   36   49]
        = [16   26   40   58   16   25   36   49]

Step 2:   [16+40 26+58 40   58   16   25   36   49]
        = [56   84   40   58   16   25   36   49]

Step 3:   [56+84  84   40   58   16   25   36   49]
        = [140   84   40   58   16   25   36   49]

구현의 핵심 특징

메모리 관리:
- address_space 파라미터 하나로 공유 메모리를 깔끔하게 할당
- 타입 안전한 연산이 보장되고
- 경계 검사가 자동으로 따라오며
- 인덱싱도 레이아웃을 인식
스레드 동기화:
- 초기 곱셈이 끝나면 barrier()
- 리덕션 단계 사이마다 barrier()
- 스레드 간 안전한 조율 보장

리덕션 로직:

stride = TPB // 2
while stride > 0:
    if local_i < stride:
        shared[local_i] += shared[local_i + stride]
    barrier()
    stride //= 2

성능상 이점:
- $O(\log n)$ 시간 복잡도
- 병합 메모리 접근
- 최소한의 스레드 분기
- 공유 메모리의 효율적 활용

TileTensor 버전은 병렬 리덕션의 효율은 그대로 유지하면서, 여기에 더해:

타입 안전성이 한층 강화되고
메모리 관리가 더 깔끔해지며
레이아웃을 자동으로 인식하고
인덱싱 문법도 자연스러워집니다

배리어 동기화의 중요성

리덕션 단계 사이의 barrier()는 정확한 결과를 위해 반드시 필요합니다. 그 이유를 살펴보겠습니다:

barrier()가 없으면 경쟁 상태가 발생합니다:

초기 공유 메모리: [0 1 4 9 16 25 36 49]

Step 1 (stride = 4):
Thread 0 읽기: shared[0] = 0, shared[4] = 16
Thread 1 읽기: shared[1] = 1, shared[5] = 25
Thread 2 읽기: shared[2] = 4, shared[6] = 36
Thread 3 읽기: shared[3] = 9, shared[7] = 49

barrier 없이:
- Thread 0 쓰기: shared[0] = 0 + 16 = 16
- Thread 1이 Thread 0보다 먼저 다음 단계(stride = 2)로 넘어가서
  16이 아닌 이전 값 shared[0] = 0을 읽어버립니다!

barrier()가 있으면:

Step 1 (stride = 4):
모든 스레드가 합을 기록:
[16 26 40 58 16 25 36 49]
barrier()가 모든 스레드에게 이 값들이 보이도록 보장

Step 2 (stride = 2):
이제 업데이트된 값을 안전하게 읽을 수 있음:
Thread 0: shared[0] = 16 + 40 = 56
Thread 1: shared[1] = 26 + 58 = 84

barrier()는 다음을 보장합니다:

현재 단계의 모든 쓰기가 끝난 뒤에야 다음으로 넘어감
모든 스레드가 최신 값을 볼 수 있음
어떤 스레드도 앞서 나가지 않음
공유 메모리가 항상 일관된 상태를 유지

이런 동기화 지점이 없으면:

경쟁 상태가 발생하고
스레드가 이미 지난 값을 읽게 되며
실행할 때마다 결과가 달라지고
최종 합계가 틀어질 수 있습니다

Puzzle 13: 1D 합성곱

TileTensor로 전환하기

지금까지 GPU 퍼즐 여정에서 GPU 메모리 관리에 대한 두 가지 접근 방식을 함께 살펴보았습니다:

UnsafePointer를 사용한 포인터 직접 조작 방식의 raw 메모리 관리

강력한 address_space 파라미터로 메모리를 할당하는, 보다 구조화된 TileTensor

이 퍼즐부터는 TileTensor로 완전히 전환합니다. 이 추상화는 다음과 같은 이점을 제공합니다:

타입 안전한 메모리 접근 패턴

데이터 레이아웃의 명확한 표현

코드 유지보수성 향상

메모리 관련 버그 발생 가능성 감소

내부 연산의 의도를 더 잘 드러내는 표현력 있는 코드

앞으로 차차 알아갈 더 많은 것들!

이러한 전환은 Mojo 🔥의 현대적 GPU 프로그래밍 모범 사례와 맞닿아 있습니다. 높은 수준의 추상화로 복잡성을 관리하면서도 성능은 그대로 유지할 수 있습니다.

개요

신호 처리와 이미지 분석에서 합성곱(convolution)은 두 시퀀스를 결합해 새로운 시퀀스를 만들어내는 핵심 연산입니다. 이 퍼즐에서는 입력 배열 위로 커널을 슬라이딩하면서 각 출력 원소를 계산하는 1D 합성곱을 GPU에서 구현해 봅니다.

TileTensor 추상화를 사용하여 벡터 a와 벡터 b의 1D 합성곱을 계산하고, 결과를 output에 저장하는 커널을 구현하세요.

참고: 일반적인 경우를 처리해야 합니다. 스레드당 전역 읽기 2회, 전역 쓰기 1회만 필요합니다.

합성곱이 처음이라면, 가중치가 적용된 슬라이딩 윈도우 연산이라고 생각하면 됩니다. 각 위치에서 커널 값과 대응하는 입력 값을 곱한 뒤 합산합니다. 수학적 표기로는 다음과 같습니다:

\[\Large output[i] = \sum_{j=0}^{\text{CONV}-1} a[i+j] \cdot b[j] \]

의사 코드로 표현한 1D 합성곱:

for i in range(SIZE):
    for j in range(CONV):
        if i + j < SIZE:
            ret[i] += a_host[i + j] * b_host[j]

이 퍼즐은 단계적으로 이해를 쌓아갈 수 있도록 두 파트로 나뉩니다:

🔰 기본 버전 여기서부터 시작하세요. 단일 블록에서 TileTensor와 공유 메모리를 활용한 합성곱 구현의 기초를 익힙니다.
⭐ 블록 경계 버전 이어서 블록 경계를 넘어 데이터를 공유해야 하는 더 까다로운 경우에 도전합니다. TileTensor의 기능을 본격적으로 활용합니다.

각 버전은 메모리 접근 패턴과 스레드 간 협력 측면에서 서로 다른 도전 과제를 제시합니다. 기본 버전에서 합성곱 연산의 원리를 익힌 다음, 블록 경계 버전에서는 실제 GPU 프로그래밍에서 마주치는 복잡한 상황을 다루는 능력을 시험해 봅니다.

단일 블록을 사용한 기본 버전

1D TileTensor a와 1D TileTensor b의 1D 합성곱을 계산하여 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: 일반적인 경우를 처리해야 합니다. 스레드당 전역 읽기 2회, 전역 쓰기 1회만 필요합니다.

핵심 개념

이 퍼즐에서 다루는 내용:

GPU에서 슬라이딩 윈도우 연산 구현하기
스레드 간 데이터 의존성 관리하기
겹치는 영역에 공유 메모리 활용하기

핵심은 경계 조건을 올바르게 유지하면서도 겹치는 원소에 효율적으로 접근하는 방법을 이해하는 것입니다.

구성

입력 배열 크기: SIZE = 6
커널 크기: CONV = 3
블록당 스레드 수: TPB = 8
블록 수: 1
공유 메모리: SIZE와 CONV 크기의 배열 2개

참고:

데이터 로딩: 각 스레드가 입력 배열과 커널에서 원소를 하나씩 로드
메모리 패턴: 입력 배열과 합성곱 커널을 저장하는 공유 배열
스레드 동기화: 연산 시작 전 스레드 간 조율

완성할 코드

comptime TPB = 8
comptime SIZE = 6
comptime CONV = 3
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime in_layout = row_major[SIZE]()
comptime InLayout = type_of(in_layout)
comptime out_layout = row_major[SIZE]()
comptime OutLayout = type_of(out_layout)
comptime conv_layout = row_major[CONV]()
comptime ConvLayout = type_of(conv_layout)


def conv_1d_simple(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, ConvLayout, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # FILL ME IN (roughly 14 lines)

전체 파일 보기: problems/p13/p13.mojo

팁

stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[SIZE]())으로 공유 메모리 할당
입력을 shared_a[local_i]에, 커널을 shared_b[local_i]에 로드
데이터 로드 후 barrier() 호출
경계 안에서 곱을 합산: if local_i + j < SIZE
global_i < SIZE일 때만 결과 기록

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p13 --simple

pixi run -e amd p13 --simple

pixi run -e apple p13 --simple

uv run poe p13 --simple

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([5.0, 8.0, 11.0, 14.0, 5.0, 0.0])

솔루션

def conv_1d_simple(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, ConvLayout, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var shared_a = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[SIZE]())
    var shared_b = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[CONV]())
    if global_i < SIZE:
        shared_a[local_i] = a[global_i]

    if global_i < CONV:
        shared_b[local_i] = b[global_i]

    barrier()

    # Note: this is unsafe as it enforces no guard so could access `shared_a` beyond its bounds
    # local_sum = Scalar[dtype](0)
    # for j in range(CONV):
    #     if local_i + j < SIZE:
    #         local_sum += shared_a[local_i + j] * shared_b[j]

    # if global_i < SIZE:
    #     out[global_i] = local_sum

    # Safe and correct:
    if global_i < SIZE:
        # Note: using `var` allows us to include the type in the type inference
        # `out.ElementType` is available in TileTensor
        var local_sum: output.ElementType = 0

        # Note: `@parameter` decorator unrolls the loop at compile time given `CONV` is a compile-time constant
        # See: https://docs.modular.com/mojo/manual/decorators/parameter/#parametric-for-statement
        comptime for j in range(CONV):
            # Bonus: do we need this check for this specific example with fixed SIZE, CONV
            if local_i + j < SIZE:
                local_sum += shared_a[local_i + j] * shared_b[j]

        output[global_i] = local_sum

공유 메모리를 활용해 겹치는 원소에 효율적으로 접근하는 1D 합성곱 구현입니다. 단계별로 살펴보겠습니다:

메모리 레이아웃

입력 배열 a:       [0  1  2  3  4  5]
커널 b:          [0  1  2]

연산 과정

데이터 로딩:

shared_a: [0  1  2  3  4  5]  // 입력 배열
shared_b: [0  1  2]           // 합성곱 커널

각 위치 i에 대한 합성곱 연산:

output[0] = a[0]*b[0] + a[1]*b[1] + a[2]*b[2] = 0*0 + 1*1 + 2*2 = 5
output[1] = a[1]*b[0] + a[2]*b[1] + a[3]*b[2] = 1*0 + 2*1 + 3*2 = 8
output[2] = a[2]*b[0] + a[3]*b[1] + a[4]*b[2] = 2*0 + 3*1 + 4*2 = 11
output[3] = a[3]*b[0] + a[4]*b[1] + a[5]*b[2] = 3*0 + 4*1 + 5*2 = 14
output[4] = a[4]*b[0] + a[5]*b[1] + 0*b[2]    = 4*0 + 5*1 + 0*2 = 5
output[5] = a[5]*b[0] + 0*b[1]   + 0*b[2]     = 5*0 + 0*1 + 0*2 = 0

구현 상세

스레드 참여 범위와 효율성:

적절한 스레드 가드가 없는 비효율적 접근:

# 비효율적 버전 - 결과가 사용되지 않을 스레드도 모두 연산 수행
local_sum = Scalar[dtype](0)
for j in range(CONV):
    if local_i + j < SIZE:
        local_sum += shared_a[local_i + j] * shared_b[j]
# 마지막 쓰기만 가드
if global_i < SIZE:
    output[global_i] = local_sum

효율적이고 올바른 구현:

if global_i < SIZE:
    var local_sum: output.element_type = 0  # var로 타입 추론 활용
    @parameter  # CONV가 상수이므로 컴파일 타임에 루프 전개
    for j in range(CONV):
        if local_i + j < SIZE:
            local_sum += shared_a[local_i + j] * shared_b[j]
    output[global_i] = local_sum

핵심적인 차이는 가드의 위치입니다. 비효율적 버전은 global_i >= SIZE인 스레드를 포함해 모든 스레드가 합성곱 연산을 수행한 뒤, 마지막 쓰기에서만 가드를 적용합니다. 이로 인해:

불필요한 연산: 유효 범위 밖의 스레드가 쓸모없는 작업을 수행
효율 저하: 사용되지 않을 연산에 자원 소비
GPU 활용도 저하: 의미 없는 계산에 GPU 코어를 낭비

효율적 버전은 유효한 global_i 값을 가진 스레드만 연산을 수행하므로 GPU 자원을 더 잘 활용합니다.

주요 구현 특징:
- var와 output.element_type으로 적절한 타입 추론
- @parameter 데코레이터로 합성곱 루프를 컴파일 타임에 전개
- 엄격한 경계 검사로 메모리 안전성 확보
- TileTensor의 타입 시스템으로 코드 안전성 향상
메모리 관리:
- 입력 배열과 커널 모두 공유 메모리 사용
- 스레드당 전역 메모리에서 1회 로드
- 로드한 데이터의 효율적 재사용
스레드 조율:
- barrier()로 모든 데이터 로드가 끝난 후 연산 시작을 보장
- 각 스레드가 출력 원소 하나를 계산
- 병합 메모리 접근 패턴 유지
성능 최적화:
- 전역 메모리 접근 최소화
- 공유 메모리로 빠른 데이터 접근
- 메인 연산 루프에서 스레드 분기 회피
- @parameter 데코레이터를 통한 루프 전개

블록 경계 버전

1D TileTensor a와 1D TileTensor b의 1D 합성곱을 계산하여 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: 일반적인 경우를 처리해야 합니다. 스레드당 전역 읽기 2회, 전역 쓰기 1회만 필요합니다.

구성

입력 배열 크기: SIZE_2 = 15
커널 크기: CONV_2 = 4
블록당 스레드 수: TPB = 8
블록 수: 2
공유 메모리: 입력용 TPB + CONV_2 - 1개

참고:

확장 로딩: 경계 겹침 영역을 고려
블록 가장자리: 블록 경계를 넘는 데이터 처리
메모리 레이아웃: 공유 메모리의 효율적 활용
동기화: 적절한 스레드 간 조율

완성할 코드

comptime SIZE_2 = 15
comptime CONV_2 = 4
comptime BLOCKS_PER_GRID_2 = (2, 1)
comptime THREADS_PER_BLOCK_2 = (TPB, 1)
comptime in_2_layout = row_major[SIZE_2]()
comptime In2Layout = type_of(in_2_layout)
comptime out_2_layout = row_major[SIZE_2]()
comptime Out2Layout = type_of(out_2_layout)
comptime conv_2_layout = row_major[CONV_2]()
comptime Conv2Layout = type_of(conv_2_layout)


def conv_1d_block_boundary(
    output: TileTensor[mut=True, dtype, Out2Layout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, In2Layout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, Conv2Layout, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # FILL ME IN (roughly 18 lines)

전체 파일 보기: problems/p13/p13.mojo

팁

stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB + CONV_2 - 1]())으로 공유 메모리 할당
메인 데이터 로드: shared_a[local_i] = a[global_i]
경계 데이터 로드: if local_i < CONV_2 - 1일 때 다음 블록의 데이터 처리
커널 로드: shared_b[local_i] = b[local_i]
입력 범위 안에서 합산: if global_i + j < SIZE_2

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p13 --block-boundary

pixi run -e amd p13 --block-boundary

pixi run -e apple p13 --block-boundary

uv run poe p13 --block-boundary

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([14.0, 20.0, 26.0, 32.0, 38.0, 44.0, 50.0, 56.0, 62.0, 68.0, 74.0, 80.0, 41.0, 14.0, 0.0])

솔루션

def conv_1d_block_boundary(
    output: TileTensor[mut=True, dtype, Out2Layout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, In2Layout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, Conv2Layout, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # first: need to account for padding
    var shared_a = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB + CONV_2 - 1]())
    var shared_b = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[CONV_2]())
    if global_i < SIZE_2:
        shared_a[local_i] = a[global_i]
    else:
        shared_a[local_i] = 0

    # second: load elements needed for convolution at block boundary
    if local_i < CONV_2 - 1:
        # indices from next block
        var next_idx = global_i + TPB
        if next_idx < SIZE_2:
            shared_a[TPB + local_i] = a[next_idx]
        else:
            # Initialize out-of-bounds elements to 0 to avoid reading from uninitialized memory
            # which is an undefined behavior
            shared_a[TPB + local_i] = 0

    if local_i < CONV_2:
        shared_b[local_i] = b[local_i]

    barrier()

    if global_i < SIZE_2:
        var local_sum: output.ElementType = 0

        comptime for j in range(CONV_2):
            if global_i + j < SIZE_2:
                local_sum += shared_a[local_i + j] * shared_b[j]

        output[global_i] = local_sum

확장된 공유 메모리를 사용해 블록 경계를 넘는 1D 합성곱을 처리하는 솔루션입니다. 자세히 분석해 보겠습니다:

메모리 레이아웃과 크기 계산

테스트 구성:
- 전체 배열 크기: SIZE_2 = 15
- 그리드: 2 블록 × 8 스레드
- 합성곱 커널: CONV_2 = 4

Block 0 공유 메모리:  [0 1 2 3 4 5 6 7|8 9 10]  // TPB(8) + (CONV_2-1)(3) 패딩
Block 1 공유 메모리:  [8 9 10 11 12 13 14 0|0 0 0]  // 두 번째 블록. 데이터(7) + 그리드 채움용 패딩(1) + (CONV_2-1)(3) 패딩

크기 계산:
- 메인 데이터: TPB개 (8)
- 겹침 영역: CONV_2 - 1개 (4 - 1 = 3)
- 합계: TPB + CONV_2 - 1 = 8 + 4 - 1 = 11개

구현 상세

공유 메모리 할당:

# 합성곱 윈도우에 필요한 패딩을 먼저 고려
shared_a = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB + CONV_2 - 1]())
shared_b = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[CONV_2]())

이렇게 하면 블록 데이터와 겹침 영역을 모두 담기에 충분한 공간이 확보됩니다.

데이터 로딩 전략:

# 메인 블록 데이터
if global_i < SIZE_2:
    shared_a[local_i] = a[global_i]
else:
    shared_a[local_i] = 0

# 다음 블록의 경계 데이터
if local_i < CONV_2 - 1:
    next_idx = global_i + TPB
    if next_idx < SIZE_2:
        shared_a[TPB + local_i] = a[next_idx]
    else:
        # 범위 밖 원소를 0으로 초기화하여
        # 미정의 동작을 유발하는 초기화되지 않은 메모리 읽기를 방지
        shared_a[TPB + local_i] = 0

local_i < CONV_2 - 1인 스레드만 경계 데이터를 로드
불필요한 스레드 분기 방지
메인 데이터 로드의 메모리 병합 유지
범위 밖 원소를 명시적으로 0으로 초기화하여 미정의 동작 방지

커널 로딩:
```
if local_i < b_size:
    shared_b[local_i] = b[local_i]
```
- 스레드당 1회 로드
- 커널 크기로 범위 제한

합성곱 연산:

if global_i < SIZE_2:
    var local_sum: output.element_type = 0
    @parameter
    for j in range(CONV_2):
        if global_i + j < SIZE_2:
            local_sum += shared_a[local_i + j] * shared_b[j]

@parameter로 컴파일 타임 루프 전개
output.element_type으로 적절한 타입 추론
의미적으로 올바른 경계 검사: 유효한 입력 위치에서만 합성곱 계산

메모리 접근 패턴 분석

Block 0 접근 패턴:

Thread 0: [0 1 2 3] × [0 1 2 3]
Thread 1: [1 2 3 4] × [0 1 2 3]
Thread 2: [2 3 4 5] × [0 1 2 3]
...
Thread 7: [7 8 9 10] × [0 1 2 3]  // 겹침 영역 데이터 사용

Block 1 접근 패턴: Thread 4부터는 global_i + j < SIZE_2가 False가 되어 해당 반복을 건너뛰는 점에 주목하세요.

Thread 0: [8  9 10 11] × [0 1 2 3]
Thread 1: [9 10 11 12] × [0 1 2 3]
...
Thread 4: [12 13 14] × [0 1 2]       // 끝부분 제로 패딩
Thread 5: [13 14]    × [0 1]
Thread 6: [14]       × [0]
Thread 7: 건너뜀                      // 모든 j에 대해 global_i + j < SIZE_2가 false, 연산 없음

성능 최적화

메모리 병합:
- 메인 데이터 로드: 인접 스레드가 연속된 메모리에 접근
- 경계 데이터: 필요한 스레드만 참여
- 단일 배리어 동기화 지점
스레드 분기 최소화:
- 메인 로딩과 경계 로딩의 깔끔한 분리
- 워프 내 균일한 연산 패턴
- 효율적인 경계 검사
공유 메모리 활용:
- 블록 경계 처리에 최적화된 크기 설정
- 접근 패턴에서 뱅크 충돌 없음
- 로드한 데이터의 효율적 재사용
경계 처리:
- 범위 밖 원소를 명시적으로 0으로 설정하여 초기화되지 않은 공유 메모리 읽기 방지
- global_i + j < SIZE_2로 공유 메모리가 아닌 실제 입력 범위 기준의 경계 검사
- 불필요한 연산 없이 적절한 엣지 케이스 처리

경계 조건 개선

이 솔루션은 공유 메모리 범위를 확인하는 대신 if global_i + j < SIZE_2:를 사용합니다. 이 패턴은:

수학적으로 정확: 입력 데이터가 실제로 존재하는 위치에서만 합성곱 계산
더 효율적: 입력 배열을 넘어선 위치에 대한 불필요한 연산 회피
더 안전: 공유 메모리의 제로 패딩 동작에 의존하지 않음

이 구현은 블록 간 합성곱을 효율적으로 수행하면서 다음을 유지합니다:

적절한 경계 검사를 통한 메모리 안전성
최적화된 메모리 접근을 통한 높은 성능
TileTensor 추상화를 활용한 깔끔한 코드 구조
최소한의 동기화 오버헤드
수학적으로 건전한 경계 처리

Puzzle 14: 누적 합

개요

누적 합(prefix sum, scan 이라고도 합니다)은 시퀀스의 값을 차례로 더해 나가는 기본적인 병렬 알고리즘입니다. 정렬 알고리즘부터 과학 시뮬레이션까지 수많은 병렬 응용의 핵심에 자리하고 있으며, 숫자 시퀀스를 누적 합계로 변환하는 역할을 합니다. 순차적으로 계산하기는 간단하지만, GPU에서 효율적으로 만들려면 기발한 병렬적 사고가 필요합니다!

1D TileTensor a에 대해 누적 합을 계산하고 결과를 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: a의 크기가 블록 크기보다 큰 경우, 각 블록의 합계만 저장합니다.

핵심 개념

이 퍼즐에서 배울 내용:

로그 복잡도를 가진 병렬 알고리즘
공유 메모리 협력 패턴
다단계 연산 전략

핵심 통찰은 순차 연산을 공유 메모리를 활용한 효율적인 병렬 알고리즘으로 변환하는 방법을 이해하는 것입니다.

예를 들어, 입력 시퀀스 $[3, 1, 4, 1, 5, 9]$ 가 주어지면, 누적 합은 다음과 같이 만들어집니다:

$[3]$ (첫 번째 원소 그대로)
$[3, 4]$ (3 + 1)
$[3, 4, 8]$ (이전 합 + 4)
$[3, 4, 8, 9]$ (이전 합 + 1)
$[3, 4, 8, 9, 14]$ (이전 합 + 5)
$[3, 4, 8, 9, 14, 23]$ (이전 합 + 9)

수학적으로, 시퀀스 $[x_0, x_1, …, x_n]$ 의 누적 합은 다음과 같습니다: \[ [x_0, x_0+x_1, x_0+x_1+x_2, …, \sum_{i=0}^n x_i] \]

순차 알고리즘이라면 $O(n)$ 단계가 필요하겠지만, 여기서는 영리한 2단계 병렬 알고리즘으로 $O(\log n)$ 단계만에 완료합니다! 위의 애니메이션에서 이 과정을 확인할 수 있습니다.

이 퍼즐은 개념을 단계적으로 익힐 수 있도록 두 파트로 나뉩니다:

🔰 기본 버전 모든 데이터가 공유 메모리에 들어가는 단일 블록 구현부터 시작합니다. 핵심 병렬 알고리즘의 원리를 파악하는 데 좋습니다.
⭐ 완성 버전 이어서 여러 블록에 걸치는 큰 배열을 처리하는 더 까다로운 경우에 도전합니다. 블록 간 조율이 필요합니다.

각 버전은 이전 버전 위에 쌓아 올리는 방식으로, 병렬 누적 합 연산에 대한 이해를 깊이 있게 발전시켜 줍니다. 기본 버전에서 핵심 알고리즘을 다지고, 완성 버전에서는 더 큰 데이터셋으로 확장하는 방법을 배웁니다 — 실제 GPU 애플리케이션에서 자주 마주치는 과제입니다.

기본 버전

1D TileTensor a에 대해 누적 합을 계산하고 결과를 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: a의 크기가 블록 크기보다 큰 경우, 각 블록의 합계만 저장합니다.

구성

배열 크기: SIZE = 8
블록당 스레드 수: TPB = 8
블록 수: 1
공유 메모리: TPB개 원소

참고:

데이터 로딩: 각 스레드가 TileTensor 접근을 통해 원소 하나를 로드
메모리 패턴: address_space를 지정한 TileTensor로 중간 결과를 공유 메모리에 저장
스레드 동기화: 연산 단계 간 조율
접근 패턴: 스트라이드 기반 병렬 연산
타입 안전성: TileTensor의 타입 시스템 활용

완성할 코드

comptime TPB = 8
comptime SIZE = 8
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)


def prefix_sum_simple(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # FILL ME IN (roughly 18 lines)

전체 파일 보기: problems/p14/p14.mojo

팁

데이터를 shared[local_i]에 로드
offset = 1에서 시작해 매 단계마다 2배로 증가
local_i >= offset인 원소에 대해 덧셈 수행
각 단계 사이에 barrier() 호출

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p14 --simple

pixi run -e amd p14 --simple

pixi run -e apple p14 --simple

uv run poe p14 --simple

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: DeviceBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([0.0, 1.0, 3.0, 6.0, 10.0, 15.0, 21.0, 28.0])

솔루션

def prefix_sum_simple(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    if global_i < size:
        shared[local_i] = a[global_i]

    barrier()

    var offset = 1
    for i in range(Int(log2(Scalar[dtype](TPB)))):
        var current_val: output.ElementType = 0
        if local_i >= offset and local_i < size:
            current_val = shared[local_i - offset]  # read

        barrier()
        if local_i >= offset and local_i < size:
            shared[local_i] += current_val

        barrier()
        offset *= 2

    if global_i < size:
        output[global_i] = shared[local_i]

병렬 (포함) 누적 합 알고리즘은 다음과 같이 동작합니다:

설정 및 구성

TPB (블록당 스레드 수) = 8
SIZE (배열 크기) = 8

경쟁 상태 방지

이 알고리즘은 명시적 동기화를 통해 읽기-쓰기 충돌을 방지합니다:

읽기 단계: 모든 스레드가 먼저 필요한 값을 로컬 변수 current_val에 읽어둠
동기화: barrier()로 모든 읽기가 완료된 후에야 쓰기가 시작되도록 보장
쓰기 단계: 모든 스레드가 계산된 값을 안전하게 공유 메모리에 기록

이렇게 하면 여러 스레드가 동시에 같은 공유 메모리 위치를 읽고 쓸 때 발생하는 경쟁 상태를 방지할 수 있습니다.ㄹㅇ

대안적 접근: 경쟁 상태를 방지하는 또 다른 방법은 더블 버퍼링 입니다. 공유 메모리를 2배로 할당한 뒤, 한 버퍼에서 읽고 다른 버퍼에 쓰는 것을 번갈아 수행하는 방식입니다. 이 방법은 경쟁 상태를 완전히 제거하지만, 공유 메모리 사용량이 늘어나고 복잡도가 올라갑니다. 학습 목적으로는 이해하기 더 쉬운 명시적 동기화 방식을 사용합니다.

스레드 매핑

thread_idx.x: $[0, 1, 2, 3, 4, 5, 6, 7]$ (local_i)
block_idx.x: $[0, 0, 0, 0, 0, 0, 0, 0]$
global_i: $[0, 1, 2, 3, 4, 5, 6, 7]$ (block_idx.x * TPB + thread_idx.x)

공유 메모리에 초기 로드

Threads:      T₀   T₁   T₂   T₃   T₄   T₅   T₆   T₇
Input array:  [0    1    2    3    4    5    6    7]
shared:       [0    1    2    3    4    5    6    7]
               ↑    ↑    ↑    ↑    ↑    ↑    ↑    ↑
              T₀   T₁   T₂   T₃   T₄   T₅   T₆   T₇

Offset = 1: 첫 번째 병렬 단계

활성 스레드: $T_1 \ldots T_7$ (local_i ≥ 1인 스레드)

읽기 단계: 각 스레드가 필요한 값을 읽음:

T₁ reads shared[0] = 0    T₅ reads shared[4] = 4
T₂ reads shared[1] = 1    T₆ reads shared[5] = 5
T₃ reads shared[2] = 2    T₇ reads shared[6] = 6
T₄ reads shared[3] = 3

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 현재 위치에 더함:

Before:      [0    1    2    3    4    5    6    7]
Add:              +0   +1   +2   +3   +4   +5   +6
                   |    |    |    |    |    |    |
Result:      [0    1    3    5    7    9    11   13]
                   ↑    ↑    ↑    ↑    ↑    ↑    ↑
                  T₁   T₂   T₃   T₄   T₅   T₆   T₇

Offset = 2: 두 번째 병렬 단계

활성 스레드: $T_2 \ldots T_7$ (local_i ≥ 2인 스레드)

읽기 단계: 각 스레드가 필요한 값을 읽음:

T₂ reads shared[0] = 0    T₅ reads shared[3] = 5
T₃ reads shared[1] = 1    T₆ reads shared[4] = 7
T₄ reads shared[2] = 3    T₇ reads shared[5] = 9

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 더함:

Before:      [0    1    3    5    7    9    11   13]
Add:                   +0   +1   +3   +5   +7   +9
                        |    |    |    |    |    |
Result:      [0    1    3    6    10   14   18   22]
                        ↑    ↑    ↑    ↑    ↑    ↑
                       T₂   T₃   T₄   T₅   T₆   T₇

Offset = 4: 세 번째 병렬 단계

활성 스레드: $T_4 \ldots T_7$ (local_i ≥ 4인 스레드)

읽기 단계: 각 스레드가 필요한 값을 읽음:

T₄ reads shared[0] = 0    T₆ reads shared[2] = 3
T₅ reads shared[1] = 1    T₇ reads shared[3] = 6

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 더함:

Before:      [0    1    3    6    10   14   18   22]
Add:                              +0   +1   +3   +6
                                  |    |    |    |
Result:      [0    1    3    6    10   15   21   28]
                                  ↑    ↑    ↑    ↑
                                  T₄   T₅   T₆   T₇

최종 결과를 output에 기록

Threads:      T₀   T₁   T₂   T₃   T₄   T₅   T₆   T₇
global_i:     0    1    2    3    4    5    6    7
output:       [0    1    3    6    10   15   21   28]
              ↑    ↑    ↑    ↑    ↑    ↑    ↑    ↑
              T₀   T₁   T₂   T₃   T₄   T₅   T₆   T₇

주요 구현 상세

동기화 패턴: 각 반복은 엄격한 읽기 → 동기화 → 쓰기 패턴을 따릅니다:

var current_val: out.element_type = 0 - 로컬 변수 초기화
current_val = shared[local_i - offset] - 읽기 단계 (조건 충족 시)
barrier() - 경쟁 상태 방지를 위한 명시적 동기화
shared[local_i] += current_val - 쓰기 단계 (조건 충족 시)
barrier() - 다음 반복 전 동기화

경쟁 상태 방지: 읽기와 쓰기를 명시적으로 분리하지 않으면 여러 스레드가 동시에 같은 공유 메모리 위치에 접근하여 미정의 동작이 발생할 수 있습니다. 명시적 동기화를 사용한 2단계 접근 방식이 정확성을 보장합니다.

메모리 안전성: 알고리즘은 다음을 통해 메모리 안전성을 유지합니다:

if local_i >= offset and local_i < size로 경계 검사
임시 변수의 적절한 초기화
경쟁 상태를 방지하는 조율된 접근 패턴

이 솔루션은 barrier()를 사용해 단계 간 올바른 동기화를 보장하고, if global_i < size로 배열 경계 검사를 처리합니다. 최종 결과는 각 원소 $i$가 $\sum_{j=0}^{i} a[j]$ 를 포함하는 포함 누적 합입니다.

완성 버전

1D TileTensor a에 대해 누적 합을 계산하고 결과를 1D TileTensor output에 저장하는 커널을 구현하세요.

참고: a의 크기가 블록 크기보다 큰 경우, 올바른 결과를 얻으려면 여러 블록 간 동기화가 필요합니다.

구성

배열 크기: SIZE_2 = 15
블록당 스레드 수: TPB = 8
블록 수: 2
공유 메모리: 블록당 TPB개 원소

참고:

다중 블록: 입력 배열이 하나의 블록보다 클 때는 다단계 접근이 필요
블록 레벨 동기화: 블록 내에서는 barrier()로 스레드를 동기화
호스트 레벨 동기화: Mojo의 DeviceContext가 커널 실행 순서를 보장하므로, 커널들은 큐에 넣은 순서대로 실행되고 이전 커널이 끝나야 다음이 시작됩니다. 호스트에서 결과를 읽기 전에 ctx.synchronize()로 모든 GPU 작업 완료를 확인해야 할 수 있습니다.
보조 저장소: 블록 간 통신을 위해 블록 합계를 저장할 추가 공간 사용

완성할 코드

멀티 블록 누적 합을 위해 두 개의 별도 커널 함수를 완성해야 합니다:

첫 번째 커널 (prefix_sum_local_phase): 각 블록 내에서 로컬 누적 합을 계산하고 블록 합계를 저장
두 번째 커널 (prefix_sum_block_sum_phase): 이전 블록의 합계를 후속 블록의 원소에 더함

메인 함수가 이 커널들 사이에 필요한 호스트 측 동기화를 처리합니다.

comptime SIZE_2 = 15
comptime BLOCKS_PER_GRID_2 = (2, 1)
comptime THREADS_PER_BLOCK_2 = (TPB, 1)
comptime EXTENDED_SIZE = SIZE_2 + 2  # up to 2 blocks
comptime layout_2 = row_major[SIZE_2]()
comptime Layout2Type = type_of(layout_2)
comptime extended_layout = row_major[EXTENDED_SIZE]()
comptime ExtendedLayoutType = type_of(extended_layout)


# Kernel 1: Compute local prefix sums and store block sums in out
def prefix_sum_local_phase(
    output: TileTensor[mut=True, dtype, ExtendedLayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, Layout2Type, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # FILL ME IN (roughly 20 lines)


# Kernel 2: Add block sums to their respective blocks
def prefix_sum_block_sum_phase(
    output: TileTensor[mut=True, dtype, ExtendedLayoutType, MutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    # FILL ME IN (roughly 3 lines)

전체 파일 보기: problems/p14/p14.mojo

이 퍼즐의 핵심은 barrier가 블록 내부의 스레드만 동기화하며, 블록 간 동기화는 하지 않는다는 점을 이해하는 것입니다. 블록 간 동기화를 위해서는 디바이스에서 순차적으로 실행되는 여러 커널을 큐에 넣어야 합니다:

            # Phase 1: Local prefix sums
            ctx.enqueue_function[
                prefix_sum_local_phase, prefix_sum_local_phase
            ](
                out_tensor,
                a_tensor,
                size,
                grid_dim=BLOCKS_PER_GRID_2,
                block_dim=THREADS_PER_BLOCK_2,
            )

            # Phase 2: Add block sums
            ctx.enqueue_function[
                prefix_sum_block_sum_phase, prefix_sum_block_sum_phase
            ](
                out_tensor,
                size,
                grid_dim=BLOCKS_PER_GRID_2,
                block_dim=THREADS_PER_BLOCK_2,
            )

두 커널이 순차적으로 큐에 들어가지만, out_tensor는 두 커널의 작업이 모두 끝날 때까지 호스트로 전송되지 않는다는 점에 주목하세요. Mojo의 DeviceContext가 단일 실행 스트림을 사용하므로, 큐에 넣은 모든 커널이 순차적으로 실행됩니다. 호스트에서 결과를 읽기 전에 모든 GPU 작업의 완료를 명시적으로 대기하려면 ctx.synchronize()를 사용할 수 있습니다.

팁

1. 기본 누적 합 위에 쌓아 올리기

🔰 기본 버전에서 단일 블록 누적 합 구현 방법을 보여줍니다. 이 접근법을 여러 블록에서 동작하도록 확장해야 합니다:

기본 버전 (단일 블록): [0,1,2,3,4,5,6,7] → [0,1,3,6,10,15,21,28]

완성 버전 (두 블록):
Block 0: [0,1,2,3,4,5,6,7] → [0,1,3,6,10,15,21,28]
Block 1: [8,9,10,11,12,13,14] → [8,17,27,38,50,63,77]

그런데 두 번째 블록의 값은 어떻게 처리할까요? 첫 번째 블록의 합계를 포함해야 합니다!

2. 2단계 접근

기본 누적 합으로는 블록 간 동기화가 불가능하므로, 작업을 나눕니다:

1단계: 각 블록이 로컬 누적 합을 계산 (기본 버전과 동일)
2단계: 각 블록이 이전 블록의 합계를 반영

주의: barrier()는 하나의 블록 내에서만 스레드를 동기화합니다. 단계 간에는 호스트 레벨 동기화가 필요합니다.

3. 확장 메모리 전략

블록끼리 직접 통신할 수 없으므로, 블록 합계를 저장할 곳이 필요합니다:

출력 버퍼 끝에 추가 메모리를 할당
각 블록의 마지막 스레드가 최종 합계를 이 추가 공간에 저장
후속 블록이 이 합계를 읽어서 자기 원소에 더함

4. 주요 구현 포인트

레이아웃 차이: 입력과 출력의 형태가 다를 수 있음
경계 처리: 항상 global_i < size로 배열 범위 확인
스레드 역할 분담: 특정 스레드(예: 마지막 스레드)만 블록 합계를 저장
두 커널 간 동기화: 두 번째 커널은 반드시 첫 번째 커널이 완료된 후에 실행되어야 함

5. 디버깅 전략

문제가 발생하면, 1단계 이후의 중간 상태를 시각화해 보세요:

1단계 이후: [0,1,3,6,10,15,21,28, 8,17,27,38,50,63,77, ???,???]

여기서 ???에는 2단계에서 사용될 블록 합계가 들어가야 합니다.

중간 결과를 확인하려면 먼저 디바이스의 작업 완료를 명시적으로 보장해야 한다는 점을 기억하세요.

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p14 --complete

pixi run -e amd p14 --complete

pixi run -e apple p14 --complete

uv run poe p14 --complete

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([0.0, 1.0, 3.0, 6.0, 10.0, 15.0, 21.0, 28.0, 36.0, 45.0, 55.0, 66.0, 78.0, 91.0, 105.0])

솔루션



# Kernel 1: Compute local prefix sums and store block sums in out
def prefix_sum_local_phase(
    output: TileTensor[mut=True, dtype, ExtendedLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, Layout2Type, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    # Load data into shared memory
    # Example with SIZE_2=15, TPB=8, BLOCKS=2:
    # Block 0 shared mem: [0,1,2,3,4,5,6,7]
    # Block 1 shared mem: [8,9,10,11,12,13,14,uninitialized]
    # Note: The last position remains uninitialized since global_i >= size,
    # but this is safe because that thread doesn't participate in computation
    if global_i < size:
        shared[local_i] = a[global_i]

    barrier()

    # Compute local prefix sum using parallel reduction
    # This uses a tree-based algorithm with log(TPB) iterations
    # Iteration 1 (offset=1):
    #   Block 0: [0,0+1,2+1,3+2,4+3,5+4,6+5,7+6] = [0,1,3,5,7,9,11,13]
    # Iteration 2 (offset=2):
    #   Block 0: [0,1,3+0,5+1,7+3,9+5,11+7,13+9] = [0,1,3,6,10,14,18,22]
    # Iteration 3 (offset=4):
    #   Block 0: [0,1,3,6,10+0,14+1,18+3,22+6] = [0,1,3,6,10,15,21,28]
    #   Block 1 follows same pattern to get [8,17,27,38,50,63,77,???]
    var offset = 1
    for i in range(Int(log2(Scalar[dtype](TPB)))):
        var current_val: output.ElementType = 0
        if local_i >= offset and local_i < TPB:
            current_val = shared[local_i - offset]  # read

        barrier()
        if local_i >= offset and local_i < TPB:
            shared[local_i] += current_val  # write

        barrier()
        offset *= 2

    # Write local results to output
    # Block 0 writes: [0,1,3,6,10,15,21,28]
    # Block 1 writes: [8,17,27,38,50,63,77,???]
    if global_i < size:
        output[global_i] = shared[local_i]

    # Store block sums in auxiliary space
    # Block 0: Thread 7 stores shared[7] == 28 at position size+0 (position 15)
    # Block 1: Thread 7 stores shared[7] == ??? at position size+1 (position 16).  This sum is not needed for the final output.
    # This gives us: [0,1,3,6,10,15,21,28, 8,17,27,38,50,63,77, 28,???]
    #                                                           ↑  ↑
    #                                                     Block sums here
    if local_i == TPB - 1:
        output[size + block_idx.x] = shared[local_i]


# Kernel 2: Add block sums to their respective blocks
def prefix_sum_block_sum_phase(
    output: TileTensor[mut=True, dtype, ExtendedLayout, MutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    # Second pass: add previous block's sum to each element
    # Block 0: No change needed - already correct
    # Block 1: Add Block 0's sum (28) to each element
    #   Before: [8,17,27,38,50,63,77]
    #   After: [36,45,55,66,78,91,105]
    # Final result combines both blocks:
    # [0,1,3,6,10,15,21,28, 36,45,55,66,78,91,105]
    if block_idx.x > 0 and global_i < size:
        var prev_block_sum = output[size + block_idx.x - 1]
        output[global_i] += prev_block_sum

이 솔루션은 여러 스레드 블록에 걸치는 배열을 처리하기 위해 2개의 커널을 사용하는 멀티 블록 누적 합을 구현합니다. 각 부분을 자세히 살펴보겠습니다:

블록 간 통신의 과제

GPU 프로그래밍의 근본적인 제약은 barrier()를 사용한 스레드 동기화가 블록 내부에서만 가능하다는 점입니다. 데이터가 여러 블록에 걸쳐 있을 때 다음과 같은 과제에 직면합니다: 블록이 부분 결과를 다른 블록에 어떻게 전달할 수 있을까?

메모리 레이아웃 시각화

테스트 케이스 SIZE_2 = 15, TPB = 8의 경우:

Input array:  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

Block 0 처리: [0, 1, 2, 3, 4, 5, 6, 7]
Block 1 처리: [8, 9, 10, 11, 12, 13, 14] (유효 원소 7개)

블록 합계를 위한 공간을 포함하도록 출력 버퍼를 확장합니다:

확장 버퍼: [데이터 값 (15개)] + [블록 합계 (2개)]
           [0...14] + [block0_sum, block1_sum]

이 확장 버퍼의 크기: EXTENDED_SIZE = SIZE_2 + num_blocks = 15 + 2 = 17

1단계 커널: 로컬 누적 합

로컬 단계에서의 경쟁 상태 방지

로컬 단계는 기본 버전과 동일한 명시적 동기화 패턴을 사용하여 읽기-쓰기 충돌을 방지합니다:

읽기 단계: 모든 스레드가 먼저 필요한 값을 로컬 변수 current_val에 읽어둠
동기화: barrier()로 모든 읽기가 완료된 후에야 쓰기가 시작되도록 보장
쓰기 단계: 모든 스레드가 계산된 값을 안전하게 공유 메모리에 기록

이를 통해 병렬 리덕션 중 여러 스레드가 동시에 같은 공유 메모리 위치에 접근할 때 발생할 수 있는 경쟁 상태를 방지합니다.

Block 0 단계별 실행

공유 메모리에 값 로드:
```
shared = [0, 1, 2, 3, 4, 5, 6, 7]
```

병렬 리덕션 반복 ($\log_2(TPB) = 3$회 반복):

반복 1 (offset=1):

읽기 단계: 각 활성 스레드가 필요한 값을 읽음:

T₁ reads shared[0] = 0    T₅ reads shared[4] = 4
T₂ reads shared[1] = 1    T₆ reads shared[5] = 5
T₃ reads shared[2] = 2    T₇ reads shared[6] = 6
T₄ reads shared[3] = 3

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 더함:

shared[0] = 0              (변경 없음)
shared[1] = 1 + 0 = 1
shared[2] = 2 + 1 = 3
shared[3] = 3 + 2 = 5
shared[4] = 4 + 3 = 7
shared[5] = 5 + 4 = 9
shared[6] = 6 + 5 = 11
shared[7] = 7 + 6 = 13

배리어 후: shared = [0, 1, 3, 5, 7, 9, 11, 13]

반복 2 (offset=2):

읽기 단계: 각 활성 스레드가 필요한 값을 읽음:

T₂ reads shared[0] = 0    T₅ reads shared[3] = 5
T₃ reads shared[1] = 1    T₆ reads shared[4] = 7
T₄ reads shared[2] = 3    T₇ reads shared[5] = 9

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 더함:

shared[0] = 0              (변경 없음)
shared[1] = 1              (변경 없음)
shared[2] = 3 + 0 = 3      (변경 없음)
shared[3] = 5 + 1 = 6
shared[4] = 7 + 3 = 10
shared[5] = 9 + 5 = 14
shared[6] = 11 + 7 = 18
shared[7] = 13 + 9 = 22

배리어 후: shared = [0, 1, 3, 6, 10, 14, 18, 22]

반복 3 (offset=4):

읽기 단계: 각 활성 스레드가 필요한 값을 읽음:

T₄ reads shared[0] = 0    T₆ reads shared[2] = 3
T₅ reads shared[1] = 1    T₇ reads shared[3] = 6

동기화: barrier()로 모든 읽기 완료를 보장

쓰기 단계: 각 스레드가 읽은 값을 더함:

shared[0] = 0              (변경 없음)
shared[1] = 1              (변경 없음)
shared[2] = 3              (변경 없음)
shared[3] = 6              (변경 없음)
shared[4] = 10 + 0 = 10    (변경 없음)
shared[5] = 14 + 1 = 15
shared[6] = 18 + 3 = 21
shared[7] = 22 + 6 = 28

배리어 후: shared = [0, 1, 3, 6, 10, 15, 21, 28]

로컬 결과를 전역 메모리에 기록:

output[0...7] = [0, 1, 3, 6, 10, 15, 21, 28]

블록 합계를 보조 공간에 저장 (마지막 스레드만):
```
output[15] = 28  // 위치: size + block_idx.x = 15 + 0
```

Block 1 단계별 실행

공유 메모리에 값 로드:
```
shared = [8, 9, 10, 11, 12, 13, 14, 미초기화]
```
참고: 스레드 7은 global_i = 15 >= SIZE_2이므로 아무것도 로드하지 않아 shared[7]이 미초기화 상태로 남습니다. 스레드 7은 최종 출력에 참여하지 않으므로 안전합니다.
병렬 리덕션 반복 ($\log_2(TPB) = 3$회 반복):

실제로 연산에 참여하는 것은 처음 7개 스레드뿐입니다. 세 번의 반복을 거치면:
```
shared = [8, 17, 27, 38, 50, 63, 77, 미초기화]
```

로컬 결과를 전역 메모리에 기록:

output[8...14] = [8, 17, 27, 38, 50, 63, 77]  // 유효 출력 7개만

블록 합계를 보조 공간에 저장 (블록의 마지막 스레드만):
```
output[16] = shared[7]  // 스레드 7 (TPB-1)이 shared[7]의 값을 저장
```
참고: 스레드 7은 유효한 입력을 로드하지 않았지만, 블록 내 누적 합 연산에는 그대로 참여합니다. shared[7]은 병렬 리덕션을 거치며 갱신되지만, 미초기화 상태에서 시작했기 때문에 최종 값을 예측할 수 없습니다. 다만 Block 1이 마지막 블록이므로 이 블록 합계는 2단계에서 사용되지 않아 정확성에는 영향이 없습니다.

1단계 이후 출력 버퍼의 내용:

[0, 1, 3, 6, 10, 15, 21, 28, 8, 17, 27, 38, 50, 63, 77, 28, ???]
                                                        ^   ^
                                                블록 합계가 여기에 저장됨

참고: 마지막 블록 합계 (???) 는 미초기화 메모리에 기반하므로 예측할 수 없지만, 최종 결과에는 영향을 주지 않습니다.

호스트-디바이스 동기화: 실제로 필요한 시점

두 커널 단계는 명시적 동기화 없이 순차적으로 실행됩니다:

# 1단계: 로컬 누적 합
ctx.enqueue_function[prefix_sum_local_phase[...], prefix_sum_local_phase[...]](...)

# 2단계: 블록 합계 더하기 (자동으로 1단계 완료를 대기)
ctx.enqueue_function[prefix_sum_block_sum_phase[...], prefix_sum_block_sum_phase[...]](...)

핵심 통찰: Mojo의 DeviceContext는 단일 실행 스트림(NVIDIA GPU에서는 CUDA 스트림, AMD ROCm GPU에서는 HIP 스트림)을 사용하므로, 큐에 넣은 커널이 정확히 넣은 순서대로 실행됨을 보장합니다. 커널 간에 명시적 동기화가 필요 없습니다.

ctx.synchronize()가 필요한 시점:

# 두 커널 완료 후, 호스트에서 결과를 읽기 전
ctx.synchronize()  # 호스트가 GPU 완료를 대기

with out.map_to_host() as out_host:  # 이제 GPU 결과를 안전하게 읽을 수 있음
    print("out:", out_host)

ctx.synchronize() 호출의 역할:

호스트-디바이스 동기화: 결과에 접근하기 전에 호스트가 모든 GPU 작업의 완료를 대기하도록 보장
메모리 안전성: 연산이 끝나기 전에 GPU 메모리를 읽는 것을 방지

실행 모델: 블록 내부의 스레드를 동기화하는 barrier()와 달리, 커널 실행 순서는 Mojo의 단일 스트림 실행 모델에서 보장되며, ctx.synchronize()는 호스트-디바이스 간 조율을 담당합니다.

2단계 커널: 블록 합계 더하기

Block 0: 변경 불필요 (이미 올바른 상태).

Block 1: 각 스레드가 Block 0의 합계를 자기 원소에 더함:

prev_block_sum = output[size + block_idx.x - 1] = output[15] = 28
output[global_i] += prev_block_sum

Block 1의 값이 변환됩니다:

Before: [8, 17, 27, 38, 50, 63, 77]
After:  [36, 45, 55, 66, 78, 91, 105]

성능 및 최적화 고려 사항

주요 구현 상세

로컬 단계 동기화 패턴: 블록 내 각 반복은 엄격한 읽기 → 동기화 → 쓰기 패턴을 따릅니다:

var current_val: out.element_type = 0 - 로컬 변수 초기화
current_val = shared[local_i - offset] - 읽기 단계 (조건 충족 시)
barrier() - 경쟁 상태 방지를 위한 명시적 동기화
shared[local_i] += current_val - 쓰기 단계 (조건 충족 시)
barrier() - 다음 반복 전 동기화

블록 간 동기화: 이 알고리즘은 두 단계의 동기화를 사용합니다:

블록 내부: 로컬 누적 합 연산 중 barrier()로 각 블록 내 스레드를 동기화
블록 간: DeviceContext가 큐에 넣은 커널을 순차 실행하여 1단계가 2단계 전에 완료되도록 보장. 결과를 읽기 전에 호스트-디바이스 동기화가 필요하면 ctx.synchronize()를 사용합니다.

경쟁 상태 방지: 로컬 단계에서 읽기와 쓰기를 명시적으로 분리하여, 병렬 리덕션 중 여러 스레드가 같은 공유 메모리 위치에 동시에 접근할 때 생길 수 있는 경쟁 상태를 방지합니다.

작업 효율성: 이 구현의 작업 복잡도는 $O(n \log n)$이며, 순차 알고리즘은 $O(n)$입니다. 병렬 알고리즘에서 전형적인 공간-시간 트레이드오프입니다.
메모리 오버헤드: 블록 합계를 위한 추가 공간은 아주 적습니다 (블록당 원소 하나).

이 2개 커널 접근 방식은 블록 간 통신이 필요한 GPU 알고리즘의 기본 패턴입니다. 기수 정렬, 히스토그램 계산, 리덕션 연산 등 다른 병렬 알고리즘에도 동일한 전략을 적용할 수 있습니다.

Puzzle 15: 축 합계

개요

2D 행렬 a의 각 행에 대해 합계를 계산하여 TileTensor를 사용해 output에 저장하는 커널을 구현하세요.

핵심 개념

이 퍼즐에서 다루는 내용:

TileTensor를 활용한 행렬 차원 방향의 병렬 리덕션
블록 좌표를 이용한 데이터 분할
효율적인 공유 메모리 리덕션 패턴
다차원 텐서 레이아웃 다루기

핵심은 스레드 블록을 행렬의 행에 매핑하고, TileTensor의 차원별 인덱싱을 활용하면서 각 블록 내에서 효율적인 병렬 리덕션을 수행하는 방법을 이해하는 것입니다.

구성

행렬 크기: $\text{BATCH} \times \text{SIZE} = 4 \times 6$
블록당 스레드 수: $\text{TPB} = 8$
그리드 크기: $1 \times \text{BATCH}$
공유 메모리: 블록당 $\text{TPB}$개 원소
입력 레이아웃: row_major[BATCH, SIZE]()
출력 레이아웃: row_major[BATCH, 1]()

행렬 시각화:

Row 0: [0, 1, 2, 3, 4, 5]       → Block(0,0)
Row 1: [6, 7, 8, 9, 10, 11]     → Block(0,1)
Row 2: [12, 13, 14, 15, 16, 17] → Block(0,2)
Row 3: [18, 19, 20, 21, 22, 23] → Block(0,3)

완성할 코드

from std.gpu import thread_idx, block_idx, block_dim, barrier
from std.gpu.memory import AddressSpace
from layout import TileTensor
from layout.tile_layout import row_major
from layout.tile_tensor import stack_allocation


comptime TPB = 8
comptime BATCH = 4
comptime SIZE = 6
comptime BLOCKS_PER_GRID = (1, BATCH)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime in_layout = row_major[BATCH, SIZE]()
comptime InLayout = type_of(in_layout)
comptime out_layout = row_major[BATCH, 1]()
comptime OutLayout = type_of(out_layout)


def axis_sum(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var batch = block_idx.y
    # FILL ME IN (roughly 15 lines)

전체 파일 보기: problems/p15/p15.mojo

팁

batch = block_idx.y로 행 선택
원소 로드: cache[local_i] = a[batch, local_i]
스트라이드를 절반씩 줄이며 병렬 리덕션 수행
스레드 0이 최종 합계를 output[batch]에 기록

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p15

pixi run -e amd p15

pixi run -e apple p15

uv run poe p15

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: DeviceBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([15.0, 51.0, 87.0, 123.0])

솔루션

def axis_sum(
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var batch = block_idx.y
    var cache = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    # Visualize:
    # Block(0,0): [T0,T1,T2,T3,T4,T5,T6,T7] -> Row 0: [0,1,2,3,4,5]
    # Block(0,1): [T0,T1,T2,T3,T4,T5,T6,T7] -> Row 1: [6,7,8,9,10,11]
    # Block(0,2): [T0,T1,T2,T3,T4,T5,T6,T7] -> Row 2: [12,13,14,15,16,17]
    # Block(0,3): [T0,T1,T2,T3,T4,T5,T6,T7] -> Row 3: [18,19,20,21,22,23]

    # each row is handled by each block bc we have grid_dim=(1, BATCH)

    if local_i < size:
        cache[local_i] = a[batch, local_i]
    else:
        # Add zero-initialize padding elements for later reduction
        cache[local_i] = 0

    barrier()

    # do reduction sum per each block
    var stride = TPB // 2
    while stride > 0:
        # Read phase: all threads read the values they need first to avoid race conditions
        var temp_val: output.ElementType = 0
        if local_i < stride:
            temp_val = cache[local_i + stride]

        barrier()

        # Write phase: all threads safely write their computed values
        if local_i < stride:
            cache[local_i] += temp_val

        barrier()
        stride //= 2

    # writing with local thread = 0 that has the sum for each batch
    if local_i == 0:
        output[batch, 0] = cache[0]

TileTensor를 활용해 2D 행렬의 행 방향 합계를 병렬로 구하는 리덕션 구현입니다. 단계별로 살펴보겠습니다:

행렬 레이아웃과 블록 매핑

Input Matrix (4×6) with TileTensor:                Block Assignment:
[[ a[0,0]  a[0,1]  a[0,2]  a[0,3]  a[0,4]  a[0,5] ] → Block(0,0)
 [ a[1,0]  a[1,1]  a[1,2]  a[1,3]  a[1,4]  a[1,5] ] → Block(0,1)
 [ a[2,0]  a[2,1]  a[2,2]  a[2,3]  a[2,4]  a[2,5] ] → Block(0,2)
 [ a[3,0]  a[3,1]  a[3,2]  a[3,3]  a[3,4]  a[3,5] ] → Block(0,3)

병렬 리덕션 과정

초기 데이터 로딩:

Block(0,0): cache = [a[0,0] a[0,1] a[0,2] a[0,3] a[0,4] a[0,5] * *]  // * = 패딩
Block(0,1): cache = [a[1,0] a[1,1] a[1,2] a[1,3] a[1,4] a[1,5] * *]
Block(0,2): cache = [a[2,0] a[2,1] a[2,2] a[2,3] a[2,4] a[2,5] * *]
Block(0,3): cache = [a[3,0] a[3,1] a[3,2] a[3,3] a[3,4] a[3,5] * *]

리덕션 단계 (Block 0,0 기준):

Initial:  [0  1  2  3  4  5  *  *]
Stride 4: [4  5  6  7  4  5  *  *]
Stride 2: [10 12 6  7  4  5  *  *]
Stride 1: [15 12 6  7  4  5  *  *]

주요 구현 특징

레이아웃 구성:
- 입력: 행 우선(row-major) 레이아웃 (BATCH × SIZE)
- 출력: 행 우선 레이아웃 (BATCH × 1)
- 각 블록이 하나의 행 전체를 처리
메모리 접근 패턴:
- 입력에 TileTensor 2D 인덱싱 사용: a[batch, local_i]
- 효율적인 리덕션을 위한 공유 메모리 활용
- 출력에 TileTensor 2D 인덱싱 사용: output[batch, 0]

병렬 리덕션 로직:

stride = TPB // 2
while stride > 0:
    if local_i < stride:
        cache[local_i] += cache[local_i + stride]
    barrier()
    stride //= 2

참고: 이 구현에서는 같은 반복 내에서 스레드들이 공유 메모리를 동시에 읽고 쓰기 때문에 잠재적인 경쟁 상태가 발생할 수 있습니다. 더 안전한 방법은 읽기와 쓰기 단계를 분리하는 것입니다:

stride = TPB // 2
while stride > 0:
    var temp_val: output.element_type = 0
    if local_i < stride:
        temp_val = cache[local_i + stride]  # 읽기 단계
    barrier()
    if local_i < stride:
        cache[local_i] += temp_val  # 쓰기 단계
    barrier()
    stride //= 2

출력 기록:

if local_i == 0:
    output[batch, 0] = cache[0]  --> 배치당 결과 하나

성능 최적화

메모리 효율성:
- TileTensor를 통한 병합 메모리 접근
- 빠른 리덕션을 위한 공유 메모리 활용
- 행 결과당 한 번의 쓰기
스레드 활용:
- 행 간 완벽한 부하 균형
- 주요 연산에서 스레드 분기 없음
- 효율적인 병렬 리덕션 패턴
동기화:
- 최소한의 배리어 (리덕션 중에만 사용)
- 행 간 독립적인 처리
- 블록 간 통신 불필요
- 경쟁 상태 고려사항: 현재 구현에서는 병렬 리덕션 중에 읽기-쓰기 충돌이 발생할 수 있으며, 명시적인 읽기-쓰기 단계 분리로 해결할 수 있습니다

복잡도 분석

시간: 행당 $O(\log n)$, n은 행의 길이
공간: 블록당 $O(TPB)$ 공유 메모리
전체 병렬 시간: 스레드가 충분할 때 $O(\log n)$

Puzzle 16: 행렬 곱셈 (MatMul)

개요

행렬 곱셈은 과학 계산, 머신 러닝, 그래픽스에서 가장 기본이 되는 연산입니다. 두 행렬 $A$와 $B$가 주어졌을 때, 이들의 곱 $C = A \times B$ 를 구하고자 합니다.

행렬 $A_{m\times k}$와 $B_{k\times n}$에 대해, 결과 $C_{m\times n}$의 각 원소는 다음과 같이 계산됩니다:

\[\Large C_{ij} = \sum_{l=0}^{k-1} A_{il} \cdot B_{lj} \]

이 퍼즐에서는 GPU에서 행렬 곱셈을 구현하는 여러 접근법을 살펴봅니다. 각 버전은 서로 다른 성능 특성을 가지고 있습니다:

전역 메모리를 사용한 기본 버전 각 스레드가 출력 행렬의 원소 하나를 계산하는 직관적인 구현입니다. 이해하기 쉽지만, 중복된 메모리 접근이 많다는 단점이 있습니다.
공유 메모리 버전 입력 행렬의 블록을 빠른 공유 메모리에 올려 전역 메모리 접근을 줄입니다. 각 스레드가 출력 원소 하나를 계산하는 것은 같지만, 데이터를 공유 메모리에서 읽습니다.
타일링 버전 연산을 타일 단위로 나누어 스레드들이 출력 행렬의 블록을 함께 로드하고 계산합니다. 메모리 계층 구조와 스레드 협력을 한층 효과적으로 활용하는 방식입니다.

각 버전은 이전 버전 위에 쌓아 올리면서 GPU 프로그래밍에서 자주 사용되는 새로운 최적화 기법을 소개합니다. 서로 다른 메모리 접근 패턴과 스레드 협력 전략이 성능에 어떤 영향을 미치는지 배울 수 있습니다.

이 단계적 진행 과정은 GPU 최적화의 대표적인 패턴을 보여줍니다:

정확하지만 단순한 기본 구현에서 출발
공유 메모리로 전역 메모리 접근 줄이기
타일링으로 데이터 지역성과 스레드 협력 개선
고수준 추상화를 활용하면서도 성능 유지

원하는 버전을 골라 행렬 곱셈 여정을 시작해 보세요!

전역 메모리를 사용한 기본 버전

개요

정방 행렬 $A$와 $B$를 곱하여 결과를 $\text{output}$에 저장하는 커널을 구현하세요. 각 스레드가 출력 행렬의 원소 하나를 계산하는 가장 기본적인 구현입니다.

핵심 개념

이 퍼즐에서 다루는 내용:

행렬 연산을 위한 2D 스레드 구성
전역 메모리 접근 패턴
행 우선(row-major) 레이아웃에서의 행렬 인덱싱
스레드와 출력 원소 간 매핑

핵심은 2D 스레드 인덱스를 행렬 원소에 매핑하고, 내적을 병렬로 계산하는 방법을 이해하는 것입니다.

구성

행렬 크기: $\text{SIZE} \times \text{SIZE} = 2 \times 2$
블록당 스레드 수: $\text{TPB} \times \text{TPB} = 3 \times 3$
그리드 차원: $1 \times 1$

레이아웃 구성:

입력 A: row_major[SIZE, SIZE]()
입력 B: row_major[SIZE, SIZE]()
출력: row_major[SIZE, SIZE]()

완성할 코드

from std.gpu import thread_idx, block_idx, block_dim, barrier
from std.gpu.memory import AddressSpace
from layout import TileTensor
from layout.tile_layout import row_major
from layout.tile_tensor import stack_allocation


comptime TPB = 3
comptime SIZE = 2
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (TPB, TPB)
comptime dtype = DType.float32
comptime layout = row_major[SIZE, SIZE]()
comptime LayoutType = type_of(layout)


def naive_matmul(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x
    # FILL ME IN (roughly 6 lines)

전체 파일 보기: problems/p16/p16.mojo

팁

스레드 인덱스로 row와 col 계산
인덱스가 size 범위 안에 있는지 확인
로컬 변수에 곱의 합 누적
최종 합을 올바른 출력 위치에 기록

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p16 --naive

pixi run -e amd p16 --naive

pixi run -e apple p16 --naive

uv run poe p16 --naive

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([4.0, 6.0, 12.0, 22.0])

솔루션

def naive_matmul[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x

    if row < size and col < size:
        var acc: output.ElementType = 0

        comptime for k in range(size):
            acc += a[row, k] * b[k, col]

        output[row, col] = acc

TileTensor를 활용한 기본 행렬 곱셈은 다음과 같은 접근 방식을 따릅니다:

행렬 레이아웃 (2×2 예시)

Matrix A:          Matrix B:                   Output C:
[a[0,0] a[0,1]]    [b[0,0] b[0,1]]             [c[0,0] c[0,1]]
[a[1,0] a[1,1]]    [b[1,0] b[1,1]]             [c[1,0] c[1,1]]

구현 상세

스레드 매핑:

row = block_dim.y * block_idx.y + thread_idx.y
col = block_dim.x * block_idx.x + thread_idx.x

메모리 접근 패턴:
- 직접 2D 인덱싱: a[row, k]
- 전치 접근: b[k, col]
- 출력 기록: output[row, col]

연산 흐름:

# var로 가변 누적 변수를 선언하고 텐서의 원소 타입을 사용
var acc: output.element_type = 0

# @parameter로 컴파일 타임 루프 전개
@parameter
for k in range(size):
    acc += a[row, k] * b[k, col]

주요 언어 기능

변수 선언:
- var acc: output.element_type = 0에서 var로 가변 변수를 선언하고, output.element_type으로 출력 텐서와 동일한 타입을 지정합니다
- 누적 연산 전에 0으로 초기화
루프 최적화:
- @parameter 데코레이터로 컴파일 타임에 루프 전개
- 크기가 작고 미리 알려진 행렬에서 성능 향상
- 더 나은 명령어 스케줄링 가능

성능 특성

메모리 접근:
- 각 스레드가 2 x SIZE회 전역 메모리를 읽음
- 스레드당 전역 메모리 쓰기 1회
- 스레드 간 데이터 재사용 없음
연산 효율:
- 단순한 구현이지만 성능은 최적이 아님
- 전역 메모리를 중복으로 많이 읽음
- 빠른 공유 메모리를 활용하지 않음
한계:
- 전역 메모리 대역폭을 많이 소모
- 낮은 데이터 지역성
- 큰 행렬로 갈수록 확장성 부족

이 기본 구현은 GPU 행렬 곱셈을 이해하기 위한 기준점으로, 메모리 접근 패턴을 최적화해야 하는 이유를 보여줍니다.

GPU 성능 이해하기: 루프라인 모델

기본 행렬 곱셈을 구현했으니, 이런 궁금증이 생길 수 있습니다: 우리 커널은 실제로 얼마나 잘 동작하고 있을까? GPU의 연산 능력에 의해 제한되는 걸까, 아니면 다른 무언가가 발목을 잡고 있는 걸까?

루프라인 모델(역주: 루프라인은 “상한선“이라는 뜻으로, 성능이 넘을 수 없는 한계를 지붕 선에 비유한 이름입니다)은 GPU 최적화의 나침반입니다. 커널의 성능을 제한하는 하드웨어 병목이 무엇인지 알려주고, 가장 효과적인 최적화 방향으로 안내합니다. 감으로 개선하는 대신, 루프라인 모델이 정확히 어디에 집중해야 하는지 보여줍니다.

1. 모든 GPU 커널의 두 가지 성능 상한

모든 GPU 커널은 두 가지 근본적인 제약 아래에서 동작합니다:

연산 상한(compute ceiling) – 코어가 부동소수점 연산을 얼마나 빠르게 수행할 수 있는가 (최대 FLOPs/s)
메모리 상한(memory ceiling) – 메모리 시스템이 코어에 데이터를 얼마나 빠르게 공급할 수 있는가 (최대 bytes/s)

어떤 상한이 커널을 제약하는지 파악하는 것이 최적화 전략의 핵심입니다. 루프라인 모델은 두 가지 핵심 지표를 그래프로 표현하여 이 관계를 시각화합니다:

X축: 산술 강도(Arithmetic Intensity) – 데이터 1바이트당 수행하는 연산량

\[\Large I = \frac{\text{Total FLOPs}}{\text{Total Bytes from Memory}} \quad [\text{FLOP/B}]\]

Y축: 실측 성능(Sustained Performance) – 커널이 실제로 달성하는 속도

\[\Large P_{\text{sustained}} = \frac{\text{Total FLOPs}}{\text{Elapsed Time}} \quad [\text{GFLOP/s}]\]

두 개의 “상한(roof)“이 달성 가능한 성능의 상한을 정합니다:

상한	수식	의미
메모리 상한	$P = B_{\text{peak}} \cdot I$	기울어진 직선. 메모리 대역폭에 의해 성능이 제한됨
연산 상한	$P = P_{\text{peak}}$	수평선. 연산 처리량에 의해 성능이 제한됨

임계 강도(critical intensity)

\[\Large I^* = \frac{P_{\text{peak}}}{B_{\text{peak}}}\]

는 커널이 메모리 바운드($I < I^\ast$ )에서 연산 바운드($I > I^\ast$ )로 전환되는 지점입니다.

2. 하드웨어 예시: NVIDIA A100 사양

이론을 NVIDIA A100의 구체적인 숫자로 확인해 보겠습니다:

최대 FP32 처리량 \[\Large P_{\text{peak}} = 19.5 \text{ TFLOP/s} = 19{,}500 \text{ GFLOP/s}\]

최대 HBM2 대역폭 \[\Large B_{\text{peak}} = 1{,}555 \text{ GB/s}\]

임계 강도 \[\Large I^* = \frac{19{,}500}{1{,}555} \approx 12.5 \text{ FLOP/B}\]

출처: NVIDIA A100 Tensor Core GPU Architecture

이는 산술 강도가 12.5 FLOP/B 미만인 커널은 메모리 바운드, 그 이상인 커널은 연산 바운드임을 뜻합니다.

3. 행렬 곱셈 구현의 시각화

아래 애니메이션은 이 퍼즐의 구현들이 A100의 루프라인 모델에 어떻게 대응하는지 보여줍니다:

루프라인 모델 시각화

이 시각화는 이 퍼즐에서 거치게 될 최적화 과정을 보여줍니다:

하드웨어 제약 – 빨간색 메모리 상한과 파란색 연산 상한이 성능 한계를 정의
출발점 – 기본 구현(주황색 점)이 메모리 상한 위에 위치
최적화 목표 – 공유 메모리 버전(청록색 점)으로 산술 강도가 개선됨
궁극적 목표 – 금색 화살표는 커널이 연산 바운드가 되는 임계 강도 지점을 가리킴

4. 기본 구현 분석

이전 섹션의 기본 커널이 왜 이런 성능을 보이는지 살펴보겠습니다. $2 \times 2$ 행렬 곱셈의 경우:

출력 원소당 연산량: $\text{SIZE} + (\text{SIZE}-1) = 3 \text{ FLOPs }$

각 원소에는 $\text{SIZE}$ 회의 곱셈과 $\text{SIZE} - 1$ 회의 덧셈이 필요합니다: \[C_{00} = A_{00} \cdot B_{00} + A_{01} \cdot B_{10}\] $\text{SIZE} = 2$ 일 때 곱셈 2회 + 덧셈 1회 = 3 FLOPs

출력 원소당 메모리 접근:

행렬 A의 행: $2 \times 4 = 8$ bytes (FP32)
행렬 B의 열: $2 \times 4 = 8$ bytes (FP32)
합계: 출력 원소당 $16$ bytes

산술 강도: \[\Large I_{\text{naive}} = \frac{3 \text{ FLOPs}}{16 \text{ bytes}} = 0.1875 \text{ FLOP/B}\]

이 산술 강도는 A100의 임계 강도에 한참 못 미치므로, 기본 커널은 심각한 메모리 바운드 상태입니다.

\[\Large I_{\text{naive}} = 0.1875 \ll I^* = 12.5\]

예상 성능: \[\Large P \approx B_{\text{peak}} \times I_{\text{naive}} = 1{,}555 \times 0.1875 \approx 292 \text{ GFLOP/s}\]

이는 GPU 연산 잠재력의 $\frac{292}{19{,}500} \approx 1.5\%$ 에 불과합니다! 시각화에서 노란색 점이 메모리 상한 위에 놓인 것이 이를 잘 보여줍니다 — 연산 상한에는 한참 미치지 못하는 수준입니다.

5. 다음 단계: 공유 메모리 최적화

루프라인 모델이 알려주는 최적화 전략은 명확합니다: 중복 메모리 접근을 줄여 산술 강도를 높이는 것입니다. 공유 메모리 접근법이 바로 이를 달성합니다:

공유 메모리의 이점:

협력적 로딩: 스레드들이 함께 행렬 블록을 빠른 공유 메모리에 로드
데이터 재사용: 로드한 원소 하나를 여러 연산에 활용
전역 메모리 트래픽 감소: 느린 전역 메모리에 대한 접근 횟수 감소

산술 강도 개선 예상치: \[\Large I_{\text{shared}} = \frac{12 \text{ FLOPs}}{32 \text{ bytes}} = 0.375 \text{ FLOP/B}\]

작은 $2 \times 2$ 규모에서는 여전히 메모리 바운드이지만, 이 2배의 산술 강도 향상은 공유 메모리 타일을 훨씬 더 많이 재사용할 수 있는 큰 행렬에서 극적인 효과를 발휘합니다.

6. 루프라인이 알려주는 최적화 전략

루프라인 모델은 현재 성능을 진단할 뿐 아니라, 최적화 방향까지 알려줍니다. 이후 퍼즐에서 살펴볼 핵심 기법은 다음과 같습니다:

기법	루프라인 효과	구현 방법
공유 메모리 타일링	데이터 재사용으로 산술 강도 ↑	협력적 로딩, 블록 단위 연산
레지스터 블로킹	레지스터 누적으로 메모리 트래픽 감소	레지스터 변수와 루프 전개
커널 퓨전	연산 결합으로 바이트당 FLOPs 증가	단일 커널에서 여러 연산 단계 처리
메모리 병합(coalescing)	실효 대역폭 활용 극대화	구조화된 접근 패턴, 적절한 스레드 구성
비동기 메모리 복사	전용 복사 엔진으로 연산-메모리 중첩	`copy_dram_to_sram_async`와 연산 중첩
혼합 정밀도	작은 데이터 타입으로 메모리 부하 감소	FP16/BF16 입력 + FP32 누적

각 기법은 커널을 루프라인 위에서 이동시킵니다 — 메모리 상한을 따라 위로(대역폭 활용 개선), 또는 오른쪽 연산 상한을 향해(산술 강도 향상).

비동기 연산에 대한 참고: 표준 GPU 메모리 로드(ld.global)는 이미 비동기입니다 — 워프는 로드한 데이터가 실제로 필요해질 때까지 계속 실행됩니다. cp.async(CUDA)나 copy_dram_to_sram_async(Mojo) 같은 전용 비동기 복사 명령은 여기서 한 걸음 더 나아가, 전용 복사 엔진을 사용하고 레지스터를 우회하여 자원 활용을 높입니다. 단순히 동기 연산을 비동기로 바꾸는 것과는 다릅니다.

7. 단순한 루프라인을 넘어서

다단계 메모리: 고급 루프라인은 L2 캐시, 공유 메모리, 레지스터 대역폭에 대해 별도의 상한을 포함하여 어떤 메모리 계층이 성능을 제약하는지 식별합니다.

통신 루프라인: 멀티 GPU 애플리케이션에서는 메모리 대역폭 대신 인터커넥트 대역폭(NVLink, InfiniBand)을 사용하여 스케일링 효율을 분석합니다.

전용 유닛: 최신 GPU는 고유한 성능 특성을 가진 텐서 코어를 포함하며, 별도의 루프라인 분석이 필요합니다.

8. 실전에서 루프라인 활용하기

커널 프로파일링: Nsight Compute 같은 도구로 실제 FLOPs와 메모리 트래픽 측정
데이터 포인트 표시: 산술 강도와 실측 성능 계산
병목 식별: 메모리 바운드 커널은 메모리 상한 위에, 연산 바운드 커널은 연산 상한에 근접
최적화 선택: 메모리 바운드 커널에는 대역폭 개선에, 연산 바운드 커널에는 알고리즘 변경에 집중
측정과 반복: 최적화가 커널을 기대한 방향으로 이동시키는지 검증

공유 메모리 퍼즐과의 연결

다음 섹션에서는 커널을 루프라인 위로 끌어올리기 시작하는 공유 메모리 최적화를 구현합니다. 시각화에서 볼 수 있듯이, 주황색 점(기본)에서 청록색 점(공유 메모리)으로 이동하게 됩니다 — 데이터 재사용 개선을 통한 확실한 성능 향상입니다.

$2 \times 2$ 예제에서는 연산 상한에 도달하지 못하지만, 공유 메모리가 성능에 결정적인 역할을 하는 큰 행렬에서 동일한 원리가 어떻게 확장되는지 확인할 수 있습니다. 루프라인 모델은 공유 메모리가 왜 도움이 되고 얼마나 개선을 기대할 수 있는지 이해하기 위한 이론적 토대를 제공합니다.

루프라인 모델을 이해하면 GPU 최적화가 추측에서 체계적인 엔지니어링으로 바뀝니다. 이 책의 모든 최적화 기법은 이 단순하지만 강력한 성능 모델에 대한 효과로 이해할 수 있습니다.

공유 메모리 버전

개요

정방 행렬 $A$ 와 $B$ 의 행렬 곱셈을 구현하고 결과를 $\text{output}$에 저장하는 퍼즐입니다. 공유 메모리를 활용하여 메모리 접근 패턴을 최적화합니다. 연산 전에 행렬 블록을 공유 메모리에 미리 로드하는 방식입니다.

핵심 개념

이 퍼즐에서 다루는 내용:

TileTensor를 사용한 블록 로컬 메모리 관리
스레드 동기화 패턴
공유 메모리를 활용한 메모리 접근 최적화
2D 인덱싱을 사용한 협력적 데이터 로딩
행렬 연산에 TileTensor를 효율적으로 활용하기

핵심은 TileTensor를 통해 빠른 공유 메모리를 활용하여 비용이 큰 전역 메모리 접근을 최소화하는 것입니다.

구성

행렬 크기: $\text{SIZE} \times \text{SIZE} = 2 \times 2$
블록당 스레드 수: $\text{TPB} \times \text{TPB} = 3 \times 3$
그리드 차원: $1 \times 1$

레이아웃 구성:

입력 A: row_major[SIZE, SIZE]()
입력 B: row_major[SIZE, SIZE]()
출력: row_major[SIZE, SIZE]()
공유 메모리: TPB × TPB 크기의 TileTensor 2개

메모리 구성:

Global Memory (TileTensor):          Shared Memory (TileTensor):
A[i,j]: Direct access                  a_shared[local_row, local_col]
B[i,j]: Direct access                  b_shared[local_row, local_col]

완성할 코드

def single_block_matmul(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x
    var local_row = thread_idx.y
    var local_col = thread_idx.x
    # FILL ME IN (roughly 12 lines)

전체 파일 보기: problems/p16/p16.mojo

팁

전역 인덱스와 로컬 인덱스를 사용하여 행렬을 공유 메모리에 로드
로드 후 barrier() 호출
공유 메모리 인덱스를 사용하여 내적 계산
모든 연산에서 배열 경계 검사

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p16 --single-block

pixi run -e amd p16 --single-block

pixi run -e apple p16 --single-block

uv run poe p16 --single-block

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([4.0, 6.0, 12.0, 22.0])

솔루션

def single_block_matmul[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    var row = block_dim.y * block_idx.y + thread_idx.y
    var col = block_dim.x * block_idx.x + thread_idx.x
    var local_row = thread_idx.y
    var local_col = thread_idx.x

    var a_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())
    var b_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())

    if row < size and col < size:
        a_shared[local_row, local_col] = a[row, col]
        b_shared[local_row, local_col] = b[row, col]

    barrier()

    if row < size and col < size:
        var acc: output.ElementType = 0

        comptime for k in range(size):
            acc += a_shared[local_row, k] * b_shared[k, local_col]

        output[row, col] = acc

TileTensor를 활용한 공유 메모리 구현은 효율적인 메모리 접근 패턴을 통해 성능을 향상시킵니다:

메모리 구성

Input Tensors (2×2):                Shared Memory (3×3):
Matrix A:                           a_shared:
 [a[0,0] a[0,1]]                     [s[0,0] s[0,1] s[0,2]]
 [a[1,0] a[1,1]]                     [s[1,0] s[1,1] s[1,2]]
                                     [s[2,0] s[2,1] s[2,2]]
Matrix B:                           b_shared: (비슷한 레이아웃)
 [b[0,0] b[0,1]]                     [t[0,0] t[0,1] t[0,2]]
 [b[1,0] b[1,1]]                     [t[1,0] t[1,1] t[1,2]]
                                     [t[2,0] t[2,1] t[2,2]]

구현 단계

공유 메모리 설정:

# address_space를 지정한 TileTensor로 2D 공유 메모리 텐서 생성
a_shared = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB, TPB]())
b_shared = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB, TPB]())

스레드 인덱싱:

# 행렬 접근을 위한 전역 인덱스
row = block_dim.y * block_idx.y + thread_idx.y
col = block_dim.x * block_idx.x + thread_idx.x

# 공유 메모리용 로컬 인덱스
local_row = thread_idx.y
local_col = thread_idx.x

데이터 로딩:

# TileTensor 인덱싱으로 데이터를 공유 메모리에 로드
if row < size and col < size:
    a_shared[local_row, local_col] = a[row, col]
    b_shared[local_row, local_col] = b[row, col]

공유 메모리를 사용한 연산:
```
# 가드로 유효한 행렬 원소만 계산
if row < size and col < size:
    # 출력 텐서의 타입으로 누적 변수 초기화
    var acc: output.element_type = 0

    # 컴파일 타임에 전개되는 행렬 곱셈 루프
    @parameter
    for k in range(size):
        acc += a_shared[local_row, k] * b_shared[k, local_col]

    # 행렬 경계 내의 스레드만 결과 기록
    output[row, col] = acc
```
주요 포인트:
- 경계 검사: if row < size and col < size
  - 범위 밖 연산 방지
  - 유효한 스레드만 작업 수행
  - TPB (3×3) > SIZE (2×2)이므로 필수
- 누적 변수 타입: var acc: output.element_type
  - 출력 텐서의 원소 타입으로 타입 안전성 확보
  - 일관된 수치 정밀도 보장
  - 누적 전에 0으로 초기화
- 루프 최적화: @parameter for k in range(size)
  - 컴파일 타임에 루프 전개
  - 더 나은 명령어 스케줄링 가능
  - 크기가 작고 미리 알려진 행렬에 효과적
- 결과 기록: output[row, col] = acc
  - 동일한 가드 조건으로 보호
  - 유효한 스레드만 결과 기록
  - 행렬 경계 안전성 유지

스레드 안전성과 동기화

가드 조건:
- 입력 로딩: if row < size and col < size
- 연산: 동일한 가드로 스레드 안전성 보장
- 출력 기록: 같은 조건으로 보호
- 잘못된 메모리 접근과 경쟁 상태 방지
메모리 접근 안전성:
- 공유 메모리: TPB 범위 내에서만 접근
- 전역 메모리: 크기 검사로 보호
- 출력: 가드된 쓰기로 데이터 손상 방지

주요 언어 기능

TileTensor의 장점:
- 직접 2D 인덱싱으로 코드 단순화
- element_type을 통한 타입 안전성
- 효율적인 메모리 레이아웃 처리
공유 메모리 할당:
- address_space를 지정한 TileTensor로 구조화된 할당
- 입력 텐서와 동일한 행 우선 레이아웃
- 효율적 접근을 위한 적절한 메모리 정렬
동기화:
- barrier()로 공유 메모리 일관성 보장
- 로드와 연산 간 적절한 동기화
- 블록 내 스레드 간 협력

성능 최적화

메모리 접근 효율:
- 원소당 전역 메모리 로드 1회
- 공유 메모리를 통한 다중 재사용
- 병합된(coalesced) 메모리 접근 패턴
스레드 협력:
- 협력적 데이터 로딩
- 공유 데이터 재사용
- 효율적인 스레드 동기화
연산 이점:
- 전역 메모리 트래픽 감소
- 캐시 활용도 향상
- 명령어 처리량 개선

이 구현은 다음을 통해 기본 버전 대비 성능을 크게 향상시킵니다:

전역 메모리 접근 횟수 감소
공유 메모리를 통한 데이터 재사용
TileTensor의 효율적인 2D 인덱싱 활용
적절한 스레드 동기화 유지

타일링 버전

개요

TileTensor를 사용한 타일링 행렬 곱셈으로 정방 행렬 $A$ 와 $B$ 를 곱하는 커널을 구현하세요. 큰 행렬을 작은 조각(타일)으로 나누어 처리하는 방식입니다.

핵심 개념

TileTensor를 사용한 행렬 타일링으로 효율적인 연산
적절한 레이아웃을 사용한 멀티 블록 조율
TensorBuilder를 통한 효율적인 공유 메모리 활용
TileTensor 인덱싱을 사용한 타일 경계 처리

구성

행렬 크기: $\text{SIZE_TILED} = 9$
블록당 스레드 수: $\text{TPB} \times \text{TPB} = 3 \times 3$
그리드 차원: $3 \times 3$ 블록
공유 메모리: 블록당 $\text{TPB} \times \text{TPB}$ TileTensor 2개

레이아웃 구성:

입력 A: row_major[SIZE_TILED, SIZE_TILED]()
입력 B: row_major[SIZE_TILED, SIZE_TILED]()
출력: row_major[SIZE_TILED, SIZE_TILED]()
공유 메모리: TensorBuilder를 사용한 TPB × TPB TileTensor 2개

타일링 전략

블록 구성

Grid Layout (3×3):           Thread Layout per Block (3×3):
[B00][B01][B02]               [T00 T01 T02]
[B10][B11][B12]               [T10 T11 T12]
[B20][B21][B22]               [T20 T21 T22]

각 블록은 TileTensor 인덱싱을 사용하여 하나의 타일을 처리

타일 처리 단계

스레드 위치에 대한 전역 인덱스와 로컬 인덱스 계산
A와 B 타일을 위한 공유 메모리 할당
각 타일에 대해:
- 행렬 A와 B에서 타일 로드
- 부분 곱 계산
- 레지스터에 결과 누적
최종 누적 결과 기록

메모리 접근 패턴

Matrix A (8×8)                 Matrix B (8×8)               Matrix C (8×8)
+---+---+---+                  +---+---+---+                +---+---+---+
|T00|T01|T02| ...              |T00|T01|T02| ...            |T00|T01|T02| ...
+---+---+---+                  +---+---+---+                +---+---+---+
|T10|T11|T12|                  |T10|T11|T12|                |T10|T11|T12|
+---+---+---+                  +---+---+---+                +---+---+---+
|T20|T21|T22|                  |T20|T21|T22|                |T20|T21|T22|
+---+---+---+                  +---+---+---+                +---+---+---+
  ...                            ...                          ...

타일 처리 과정 (C[T11] 계산 예시):
1. A와 B에서 타일 로드:
   +---+      +---+
   |A11| ×    |B11|     각 단계 k에 대해:
   +---+      +---+     C[T11] += A[row, k] × B[k, col]

2. 타일 이동:
   단계 1      단계 2      단계 3
   A: [T10]    A: [T11]    A: [T12]
   B: [T01]    B: [T11]    B: [T21]

3. 타일 내 각 스레드 (i,j)의 연산:
   C[i,j] = Σ (A[i,k] × B[k,j]), k는 타일 너비 범위

동기화 필요 시점:
* 타일을 공유 메모리에 로드한 후
* 각 단계의 연산이 끝난 후

완성할 코드

comptime SIZE_TILED = 9
comptime BLOCKS_PER_GRID_TILED = (3, 3)  # each block convers 3x3 elements
comptime THREADS_PER_BLOCK_TILED = (TPB, TPB)
comptime layout_tiled = row_major[SIZE_TILED, SIZE_TILED]()
comptime LayoutTiledType = type_of(layout_tiled)


def matmul_tiled(
    output: TileTensor[mut=True, dtype, LayoutTiledType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
):
    var local_row = thread_idx.y
    var local_col = thread_idx.x
    var tiled_row = block_idx.y * TPB + thread_idx.y
    var tiled_col = block_idx.x * TPB + thread_idx.x
    # FILL ME IN (roughly 20 lines)

전체 파일 보기: problems/p16/p16.mojo

팁

표준 인덱싱 규칙을 사용하세요: local_row = thread_idx.y, local_col = thread_idx.x

전역 위치 계산:

global_row = block_idx.y * TPB + local_row

그리고

global_col = block_idx.x * TPB + local_col

전역 인덱싱 공식 이해하기:

각 블록은 행렬의 TPB × TPB 타일을 처리합니다
block_idx.y는 현재 몇 번째 블록 행인지를 나타냅니다 (0, 1, 2…)
block_idx.y * TPB는 해당 블록 타일의 시작 행입니다
local_row (0~TPB-1)은 블록 내 스레드의 오프셋입니다

둘을 더하면 전체 행렬에서의 실제 행 위치가 됩니다

TPB=3 예시:

Block Layout:        Global Matrix (9×9):
[B00][B01][B02]      [0 1 2 | 3 4 5 | 6 7 8]
[B10][B11][B12]  →   [9 A B | C D E | F G H]
[B20][B21][B22]      [I J K | L M N | O P Q]
                    ——————————————————————
                    [R S T | U V W | X Y Z]
                    [a b c | d e f | g h i]
                    [j k l | m n o | p q r]
                    ——————————————————————
                    [s t u | v w x | y z α]
                    [β γ δ | ε ζ η | θ ι κ]
                    [λ μ ν | ξ ο π | ρ σ τ]

Thread(1,2) in Block(1,0):
- block_idx.y = 1, local_row = 1
- global_row = 1 * 3 + 1 = 4
- 이 스레드는 행렬의 4번째 행을 담당

```text

공유 메모리 할당 (.fill(0)으로 사전 초기화됨)
9×9 완벽한 타일링이므로 경계 검사가 불필요!
적절한 동기화와 함께 타일 간 결과를 누적

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p16 --tiled

pixi run -e amd p16 --tiled

pixi run -e apple p16 --tiled

uv run poe p16 --tiled

퍼즐을 아직 풀지 않았다면 출력은 다음과 같습니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([3672.0, 3744.0, 3816.0, 3888.0, 3960.0, 4032.0, 4104.0, 4176.0, 4248.0, 9504.0, 9738.0, 9972.0, 10206.0, 10440.0, 10674.0, 10908.0, 11142.0, 11376.0, 15336.0, 15732.0, 16128.0, 16524.0, 16920.0, 17316.0, 17712.0, 18108.0, 18504.0, 21168.0, 21726.0, 22284.0, 22842.0, 23400.0, 23958.0, 24516.0, 25074.0, 25632.0, 27000.0, 27720.0, 28440.0, 29160.0, 29880.0, 30600.0, 31320.0, 32040.0, 32760.0, 32832.0, 33714.0, 34596.0, 35478.0, 36360.0, 37242.0, 38124.0, 39006.0, 39888.0, 38664.0, 39708.0, 40752.0, 41796.0, 42840.0, 43884.0, 44928.0, 45972.0, 47016.0, 44496.0, 45702.0, 46908.0, 48114.0, 49320.0, 50526.0, 51732.0, 52938.0, 54144.0, 50328.0, 51696.0, 53064.0, 54432.0, 55800.0, 57168.0, 58536.0, 59904.0, 61272.0])

솔루션: 수동 타일링

def matmul_tiled[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutTiledType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
):
    var local_row = thread_idx.y
    var local_col = thread_idx.x
    var tiled_row = block_idx.y * TPB + local_row
    var tiled_col = block_idx.x * TPB + local_col

    var a_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())
    var b_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())

    var acc: output.ElementType = 0

    # Iterate over tiles to compute matrix product
    comptime for tile in range((size + TPB - 1) // TPB):
        # Load A tile - global row stays the same, col determined by tile
        if tiled_row < size and (tile * TPB + local_col) < size:
            a_shared[local_row, local_col] = a[
                tiled_row, tile * TPB + local_col
            ]

        # Load B tile - row determined by tile, global col stays the same
        if (tile * TPB + local_row) < size and tiled_col < size:
            b_shared[local_row, local_col] = b[
                tile * TPB + local_row, tiled_col
            ]

        barrier()

        # Matrix multiplication within the tile
        if tiled_row < size and tiled_col < size:
            comptime for k in range(min(Int(TPB), Int(size - tile * TPB))):
                acc += a_shared[local_row, k] * b_shared[k, local_col]

        barrier()

    # Write out final result
    if tiled_row < size and tiled_col < size:
        output[tiled_row, tiled_col] = acc

타일링 행렬 곱셈 구현은 작은 타일 $(3 \times 3)$ 을 사용하여 큰 행렬 $(9 \times 9)$ 을 효율적으로 처리하는 방법을 보여줍니다. 동작 방식은 다음과 같습니다:

공유 메모리 할당

Input matrices (9×9) - (3×3) 타일링에 딱 맞는 크기:
A = [0  1  2  3  4  5  6  7  8 ]    B = [0  2  4  6  8  10 12 14 16]
    [9  10 11 12 13 14 15 16 17]        [18 20 22 24 26 28 30 32 34]
    [18 19 20 21 22 23 24 25 26]        [36 38 40 42 44 46 48 50 52]
    [27 28 29 30 31 32 33 34 35]        [54 56 58 60 62 64 66 68 70]
    [36 37 38 39 40 41 42 43 44]        [72 74 76 78 80 82 84 86 88]
    [45 46 47 48 49 50 51 52 53]        [90 92 94 96 98 100 102 104 106]
    [54 55 56 57 58 59 60 61 62]        [108 110 112 114 116 118 120 122 124]
    [63 64 65 66 67 68 69 70 71]        [126 128 130 132 134 136 138 140 142]
    [72 73 74 75 76 77 78 79 80]        [144 146 148 150 152 154 156 158 160]

블록당 공유 메모리 (3×3):
a_shared[TPB, TPB]  b_shared[TPB, TPB]

타일 처리 루프

타일 수 = 9 // 3 = 3개 (나머지 없이 딱 나눠짐!)

각 타일에 대해:
1. A와 B에서 타일 로드
2. 부분 곱 계산
3. 레지스터에 누적

메모리 로딩 패턴

$(9 \times 9)$ 이 딱 나눠지므로 경계 검사가 기술적으로는 불필요하지만, 방어적 프로그래밍과 다른 행렬 크기에도 대응할 수 있도록 포함합니다.

   # A 타일 로드 - 전역 행은 그대로, 열은 타일에 의해 결정
   if tiled_row < size and (tile * TPB + local_col) < size:
       a_shared[local_row, local_col] = a[
           tiled_row, tile * TPB + local_col
       ]

   # B 타일 로드 - 행은 타일에 의해 결정, 전역 열은 그대로
   if (tile * TPB + local_row) < size and tiled_col < size:
       b_shared[local_row, local_col] = b[
           tile * TPB + local_row, tiled_col
       ]

타일 내 연산
```
for k in range(min(TPB, size - tile * TPB)):
    acc += a_shared[local_row, k] * b_shared[k, local_col]
```
- 공유 메모리 뱅크 충돌 회피:
```
Bank Conflict Free (Good):        Bank Conflicts (Bad):
Thread0: a_shared[0,k] b_shared[k,0]  Thread0: a_shared[k,0] b_shared[0,k]
Thread1: a_shared[0,k] b_shared[k,1]  Thread1: a_shared[k,0] b_shared[1,k]
Thread2: a_shared[0,k] b_shared[k,2]  Thread2: a_shared[k,0] b_shared[2,k]
↓                                     ↓
서로 다른 뱅크에 병렬 접근             b_shared가 열 우선이었다면
(a_shared는 broadcast)               같은 뱅크에 직렬 접근
```
  공유 메모리 뱅크 충돌 설명:
  - 왼쪽 (Good): b_shared[k,threadIdx.x]는 서로 다른 뱅크에 접근하고, a_shared[0,k]는 모든 스레드에 브로드캐스트 됩니다
  - 오른쪽 (Bad): b_shared가 열 우선이었다면 스레드들이 동시에 같은 뱅크에 접근하게 됩니다
  - 핵심: 이것은 전역 메모리 병합이 아닌 공유 메모리 접근 패턴에 관한 것입니다
  - 뱅크 구조: 공유 메모리는 32개 뱅크로 구성되어 있으며, 여러 스레드가 동시에 같은 뱅크의 다른 주소에 접근할 때 충돌이 발생합니다

동기화 지점

barrier() 호출 시점:
1. 타일 로딩 후
2. 타일 연산 후

주요 성능 특성:

$(3 \times 3)$ 타일로 $(9 \times 9)$ 행렬 처리 (딱 맞는 크기!)
공유 메모리로 빠른 타일 접근
병합된 메모리 접근으로 전역 메모리 트랜잭션 최소화
뱅크 충돌을 피하도록 최적화된 공유 메모리 레이아웃과 접근 패턴

결과 기록:
```
if tiled_row < size and tiled_col < size:
   output[tiled_row, tiled_col] = acc
```
- 다른 행렬 크기와 타일링 전략을 위한 방어적 경계 검사 포함
- 출력 행렬에 직접 대입
- 모든 스레드가 유효한 결과를 기록

주요 최적화

레이아웃 최적화:
- 모든 텐서에 행 우선 레이아웃
- 효율적인 2D 인덱싱
메모리 접근:
- 병합된 전역 메모리 로드
- 효율적인 공유 메모리 활용
연산:
- 레지스터 기반 누적, 즉 var acc: output.element_type = 0
- @parameter를 통한 컴파일 타임 루프 전개

이 구현은 다음을 통해 높은 성능을 달성합니다:

TileTensor를 활용한 효율적인 메모리 접근
최적의 타일링 전략
적절한 스레드 동기화
세심한 경계 처리

솔루션: 관용적 TileTensor 타일링

from std.gpu.memory import async_copy_wait_all
from layout.layout_tensor import copy_dram_to_sram_async
from layout import Layout as IntTupleLayout

comptime NUM_THREADS = TPB * TPB
comptime BLOCK_DIM_COUNT = 2


def matmul_idiomatic_tiled[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutTiledType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutTiledType, ImmutAnyOrigin],
):
    var local_row = thread_idx.y
    var local_col = thread_idx.x
    var tiled_row = block_idx.y * TPB + local_row
    var tiled_col = block_idx.x * TPB + local_col

    # Get the tile of the output matrix that this thread block is responsible for
    var out_tile = output.tile[TPB, TPB](block_idx.y, block_idx.x)
    var a_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())
    var b_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB, TPB]())

    var acc: output.ElementType = 0

    comptime load_a_layout = IntTupleLayout.row_major(
        1, TPB
    )  # Coalesced loading
    comptime load_b_layout = IntTupleLayout.row_major(
        1, TPB
    )  # Coalesced loading
    # Note: Both matrices stored in same orientation for correct matrix multiplication
    # Transposed loading would be useful if B were pre-transposed in global memory

    comptime for idx in range(
        size // TPB
    ):  # Perfect division: 9 // 3 = 3 tiles
        # Get tiles from A and B matrices
        var a_tile = a.tile[TPB, TPB](block_idx.y, Int(idx))
        var b_tile = b.tile[TPB, TPB](Int(idx), block_idx.x)

        # Asynchronously copy tiles to shared memory with consistent orientation
        copy_dram_to_sram_async[
            thread_layout=load_a_layout,
            num_threads=NUM_THREADS,
            block_dim_count=BLOCK_DIM_COUNT,
        ](a_shared.to_layout_tensor(), a_tile.to_layout_tensor())
        copy_dram_to_sram_async[
            thread_layout=load_b_layout,
            num_threads=NUM_THREADS,
            block_dim_count=BLOCK_DIM_COUNT,
        ](b_shared.to_layout_tensor(), b_tile.to_layout_tensor())

        # Wait for all async copies to complete
        async_copy_wait_all()
        barrier()

        # Compute partial matrix multiplication for this tile
        comptime for k in range(TPB):
            acc += a_shared[local_row, k] * b_shared[k, local_col]

        barrier()

    # Write final result to output tile
    if tiled_row < size and tiled_col < size:
        out_tile[local_row, local_col] = acc

관용적 타일링 행렬 곱셈은 Mojo의 TileTensor API와 비동기 메모리 연산을 활용하여 깔끔한 구현을 제공합니다.

핵심 포인트: 이 구현은 두 행렬 모두 병합 로딩을 사용하여 표준 A × B 행렬 곱셈을 수행합니다.

이 구현이 하는 것:

행렬 연산: 표준 $A \times B$ 곱셈 ($A \times B^T$ 가 아님)
로딩 패턴: 두 행렬 모두 row_major[1, TPB]()로 병합 접근
연산: acc += a_shared[local_row, k] * b_shared[k, local_col]
데이터 레이아웃: 로딩 시 전치 없음 - 두 행렬을 같은 방향으로 로드

이 구현이 하지 않는 것:

$A \times B^T$ 곱셈을 수행하지 않음
전치 로딩 패턴을 사용하지 않음
복사 과정에서 데이터를 전치하지 않음

$(9 \times 9)$ 행렬 크기에서는 완벽한 타일링이 이루어져 모든 경계 검사가 불필요합니다:

TileTensor 타일 API
```
out_tile = output.tile[TPB, TPB](block_idx.y, block_idx.x)
a_tile = a.tile[TPB, TPB](block_idx.y, idx)
b_tile = b.tile[TPB, TPB](idx, block_idx.x)
```
수동 좌표 계산 없이 “(block_idx.y, block_idx.x) 위치의 타일을 가져온다“를 직접 표현합니다. 자세한 내용은 문서를 참고하세요.
비동기 메모리 연산
```
copy_dram_to_sram_async[
   thread_layout = load_a_layout,
   num_threads = NUM_THREADS,
   block_dim_count = BLOCK_DIM_COUNT
](a_shared,a_tile)
copy_dram_to_sram_async[
   thread_layout = load_b_layout,
   num_threads = NUM_THREADS,
   block_dim_count = BLOCK_DIM_COUNT
](b_shared, b_tile)
async_copy_wait_all()
```
이 연산들은:
- 레지스터를 우회하는 전용 복사 엔진을 사용하여 연산과 메모리 전송의 중첩을 가능하게 합니다 (copy_dram_to_sram_async 참고)
- 최적의 메모리 접근 패턴을 위한 특화된 스레드 레이아웃을 사용합니다
- 수동 메모리 초기화가 불필요합니다
- 중요:
  - 표준 GPU 로드는 이미 비동기적입니다. 이 함수들은 더 나은 리소스 활용과 레지스터 우회를 제공합니다
  - copy_dram_to_sram_async는 기본적으로 1D 스레드 블록(block_dim.y == block_dim.z == 1)을 가정하며, 별도 지정이 없으면 스레드 블록의 모든 스레드가 복사에 참여합니다. 다음을 지정하여 이 동작을 변경할 수 있습니다:
    - block_dim_count: 스레드 블록의 차원 수 (2D 스레드 블록 THREADS_PER_BLOCK_TILED = (TPB, TPB)의 경우 2)
    - num_threads: 스레드 블록의 스레드 수 (TPB*TPB == 9)
최적화된 메모리 접근 레이아웃
```
comptime load_a_layout = row_major[1, TPB]()    # 병합 로딩
comptime load_b_layout = row_major[1, TPB]()    # 병합 로딩
# 참고: 표준 A × B 곱셈에서 두 행렬 모두 같은 레이아웃을 사용
```
현재 구현의 메모리 접근 분석:

두 행렬 모두 전역 메모리에서 병합 로딩을 위해 row_major[1, TPB]()를 사용합니다:
- load_a_layout: 스레드들이 협력하여 행렬 A 행의 연속 원소를 로드
- load_b_layout: 스레드들이 협력하여 행렬 B 행의 연속 원소를 로드
- 핵심: 스레드 레이아웃은 복사 시 스레드 간 협력 방식을 결정하며, 최종 데이터 레이아웃과는 별개입니다
실제 연산 패턴 (A × B임을 증명):
```
# 현재 구현의 실제 연산
acc += a_shared[local_row, k] * b_shared[k, local_col]

# 이것은 C[i,j] = Σ(A[i,k] * B[k,j])에 해당
# 즉, 표준 행렬 곱셈 A × B
```
두 행렬이 같은 병합 로딩 패턴을 사용하는 이유:
```
전역 메모리에서 타일 로딩:
- Matrix A 타일: 스레드들이 A[block_row, k], A[block_row, k+1], A[block_row, k+2]... 로드 (연속)
- Matrix B 타일: 스레드들이 B[k, block_col], B[k, block_col+1], B[k, block_col+2]... 로드 (연속)

row_major[1, TPB]()로 두 패턴 모두 병합
```
세 가지 별개의 메모리 고려사항:
1. 전역→공유 병합: row_major[1, TPB]()로 병합 전역 메모리 접근 보장
2. 공유 메모리 연산: a_shared[local_row, k] * b_shared[k, local_col]로 뱅크 충돌 회피
3. 행렬 연산: 연산 패턴이 A × B를 결정 (A × B^T가 아님)
완벽한 타일링으로 경계 검사 불필요
```
@parameter
for idx in range(size // TPB):  # 나머지 없는 나눗셈: 9 // 3 = 3
```
$(9 \times 9)$ 행렬과 $(3 \times 3)$ 타일에서는 모든 타일이 정확히 꽉 차기 때문에 경계 검사가 필요 없습니다!
방어적 경계 검사를 포함한 깔끔한 타일 처리
```
# 완벽한 타일링에서도 방어적 경계 검사 포함
if tiled_row < size and tiled_col < size:
    out_tile[local_row, local_col] = acc
```
$(9 \times 9)$ 의 완벽한 타일링에서는 이 경계 검사가 기술적으로 불필요하지만, 방어적 프로그래밍과 다른 행렬 크기와의 일관성을 위해 포함합니다.

성능 고려사항

관용적 구현은 타일링의 성능 이점을 유지하면서 더 깔끔한 추상화를 제공합니다:

메모리 지역성: 타일링을 통해 공간적, 시간적 지역성을 활용
병합 접근: 특화된 로드 레이아웃으로 병합 메모리 접근 패턴 보장
연산-메모리 중첩: 비동기 메모리 연산을 통한 중첩 가능
공유 메모리 효율: 불필요한 공유 메모리 초기화 없음
레지스터 압력: 최적의 연산 처리량을 위한 누적 레지스터 사용

이 구현은 고수준 추상화로도 성능 저하 없이 복잡한 GPU 알고리즘을 표현할 수 있음을 보여줍니다. 고수준의 표현력과 저수준의 성능 제어를 결합하는 Mojo의 철학을 잘 보여주는 예시입니다.

수동 타일링과의 주요 차이점

기능	수동 Tiling	관용적 Tiling
메모리 접근	경계 검사가 있는 직접 인덱싱	TileTensor 타일 API
타일 로딩	원소별 명시적 복사	전용 복사 엔진의 벌크 전송
공유 메모리	수동 초기화 (방어적)	복사 함수가 관리
코드 복잡도	명시적 인덱싱으로 다소 장황	고수준 API로 더 간결
경계 검사	로딩과 연산 중 다수의 검사	최종 기록 시 단일 방어적 검사
행렬 방향	A와 B 모두 같은 방향 (표준 A × B)	A와 B 모두 같은 방향 (표준 A × B)
성능	메모리 패턴의 명시적 제어	레지스터 우회를 포함한 최적화된 레이아웃

관용적 접근 방식은 단순히 더 깔끔할 뿐 아니라, 특화된 메모리 레이아웃과 비동기 연산 덕분에 성능도 더 좋을 수 있습니다.

참고: 전치 로딩은 언제 유용할까?

현재 구현은 전치 로딩을 사용하지 않습니다. 이 섹션은 레이아웃 시스템으로 할 수 있는 것을 보여주기 위한 교육적 내용입니다.

현재 구현 요약:

두 행렬 모두 row_major[1, TPB]() 사용
표준 A × B 곱셈 수행
복사 중 데이터 전치 없음

전치 로딩을 사용하는 교육적 시나리오:

이 퍼즐은 두 행렬 모두 표준 병합 로딩을 사용하지만, 레이아웃 시스템의 유연성은 다른 시나리오에서 강력한 최적화를 가능하게 합니다:

# 예시: A × B를 계산하기 위해 사전 전치된 행렬 B^T를 로드
# (현재 구현에서는 이렇게 하지 않음)
comptime load_b_layout = row_major[TPB, 1]()   # B^T를 병합 접근으로 로드
comptime store_b_layout = row_major[1, TPB]()  # 공유 메모리에 B로 저장
copy_dram_to_sram_async[src_thread_layout=load_b_layout, dst_thread_layout=store_b_layout](b_shared, b_tile)

전치 로딩의 활용 사례 (이 퍼즐에서는 사용하지 않음):

이미 전치된 입력 행렬: $B$ 가 전역 메모리에 전치 상태로 저장되어 있는 경우
다른 알고리즘: $A^T \times B$, $A \times B^T$, 또는 $A^T \times B^T$ 계산
메모리 레이아웃 변환: 행 우선과 열 우선 레이아웃 간 변환
별도 전치 연산 없이 로드: 필요한 방향으로 데이터를 직접 로드

핵심 구분:

현재 구현: 두 행렬 모두 표준 $A \times B$ 곱셈에 row_major[1, TPB]() 사용
전치 로딩 예시: 이미 전치된 데이터나 다른 행렬 연산을 처리할 때 다른 레이아웃 사용

이것은 Mojo의 철학을 보여줍니다: 일반적인 경우에 고수준 추상화를 유지하면서도, 필요할 때 저수준 제어를 제공합니다.

요약: 핵심 정리

관용적 타일링 구현이 실제로 하는 것:

행렬 연산: 표준 A × B 곱셈
메모리 로딩: 두 행렬 모두 row_major[1, TPB]()로 병합 접근
연산 패턴: acc += a_shared[local_row, k] * b_shared[k, local_col]
데이터 레이아웃: 로딩 시 전치 없음

이것이 최적인 이유:

병합 전역 메모리 접근: row_major[1, TPB]()로 효율적인 로딩 보장
뱅크 충돌 회피: 공유 메모리 접근 패턴이 충돌을 방지
표준 알고리즘: 가장 일반적인 행렬 곱셈 패턴을 구현

Puzzle 17: 1D 합성곱 Op

MAX 그래프로 파이썬 연동하기

GPU 퍼즐 여정의 Part IV에 진입했습니다: MAX 그래프 커스텀 Op으로 파이썬 연동하기.

이전 퍼즐들에서는 Mojo로 효율적인 GPU 커널을 작성하는 방법을 배웠습니다. 이제부터는 다음을 알아봅니다:

커널을 파이썬에서 호출할 수 있는 커스텀 연산으로 패키징하기

MAX 그래프 시스템과 통합하여 머신러닝을 가속하기

하이레벨 파이썬 API와 로우레벨 GPU 코드 사이의 간극 메우기

이를 통해 익숙한 파이썬 환경에서 작업하면서도 Mojo GPU 커널의 성능을 활용할 수 있습니다.

개요

Puzzle 13: 1D 합성곱에서 GPU에서 효율적으로 동작하는 1D 합성곱 커널을 구현했습니다. 이번에는 이 커널을 MAX 그래프를 통해 파이썬에서 직접 호출할 수 있는 커스텀 연산으로 변환합니다.

사용할 1D 합성곱 커널은 이미 구현되어 있습니다:

comptime TPB = 15
comptime BLOCKS_PER_GRID = (2, 1)


def conv1d_kernel[
    input_size: Int,
    conv_size: Int,
    OutLayout: TensorLayout,
    InLayout: TensorLayout,
    ConvLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    kernel: TileTensor[mut=False, dtype, ConvLayout, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    # first: need to account for padding
    var shared_a = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB + conv_size - 1]())
    var shared_b = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[conv_size]())
    if global_i < input_size:
        shared_a[local_i] = input[global_i]

    # second: load elements needed for convolution at block boundary
    if local_i < conv_size - 1:
        # indices from next block
        var next_idx = global_i + TPB
        if next_idx < input_size:
            shared_a[TPB + local_i] = input[next_idx]
        else:
            shared_a[TPB + local_i] = 0

    if local_i < conv_size:
        shared_b[local_i] = kernel[local_i]

    barrier()

    if global_i < input_size:
        var local_sum: output.ElementType = 0

        comptime for j in range(conv_size):
            if local_i + j < TPB + conv_size - 1:
                local_sum += shared_a[local_i + j] * shared_b[j]

        output[global_i] = local_sum

이 퍼즐의 핵심 요소는 다음과 같습니다:

커스텀 op 등록: @compiler.register 데코레이터를 통해 Mojo 함수를 파이썬에 노출하는 방법 이해하기
커스텀 op 패키징: Mojo 코드를 MAX 그래프에서 사용할 수 있도록 패키징하는 방법 익히기
파이썬 통합: MAX 그래프를 통해 파이썬에서 커스텀 연산 호출하기
크로스 언어 데이터 흐름: 파이썬과 GPU 사이의 데이터 타입과 메모리 관리하기

이 커스텀 연산은 다음과 같은 일을 수행합니다:

파이썬에서 NumPy 배열을 입력으로 받기
이 데이터를 GPU로 전송하기
최적화된 합성곱 커널 실행하기
결과를 파이썬으로 반환하기

이 퍼즐을 완성하면 파이썬의 풍부한 생태계와 Mojo의 강력한 GPU 성능을 잇는 매끄러운 다리를 만들게 됩니다.

완성할 코드

이 퍼즐을 완성하려면 conv1d.mojo에서 conv1d_kernel을 호출하는 한 줄만 채우면 됩니다:

import compiler
from std.runtime.asyncrt import DeviceContextPtr
from tensor import InputTensor, OutputTensor
from std.memory import UnsafePointer
from std.gpu.host import DeviceBuffer


@compiler.register("conv1d")
struct Conv1DCustomOp:
    @staticmethod
    def execute[
        # The kind of device this will be run on: "cpu" or "gpu"
        target: StaticString,
        input_size: Int,
        conv_size: Int,
        dtype: DType = DType.float32,
    ](
        output: OutputTensor[rank=1, static_spec=_],
        input: InputTensor[rank=output.rank, static_spec=_],
        kernel: InputTensor[rank=output.rank, static_spec=_],
        # the context is needed for some GPU calls
        ctx: DeviceContextPtr,
    ) raises:
        var output_tensor = output.to_layout_tensor()
        var input_tensor = input.to_layout_tensor()
        var kernel_tensor = kernel.to_layout_tensor()

        comptime if target == "gpu":
            var gpu_ctx = ctx.get_device_context()
            # making sure the output tensor is zeroed out before the kernel is called
            gpu_ctx.enqueue_memset(
                DeviceBuffer[output_tensor.dtype](
                    gpu_ctx,
                    output_tensor.ptr,
                    input_size,
                    owning=False,
                ),
                0,
            )

            # FILL ME IN with 1 line calling our conv1d_kernel

        elif target == "cpu":
            # we can fallback to CPU
            pass
        else:
            raise Error("Unsupported target: " + target)

전체 파일 보기: problems/p17/op/conv1d.mojo

다음 명령으로 퍼즐을 실행할 수 있습니다:

pixi run p17

pixi run -e amd p17

pixi run -e apple p17

uv run poe p17

성공하면 다음과 비슷한 출력을 볼 수 있습니다:

Input array: [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14.]
Convolution kernel: [0. 1. 2. 3.]
Expected result (NumPy calculation): [14. 20. 26. 32. 38. 44. 50. 56. 62. 68. 74. 80. 41. 14.  0.]
Compiling 1D convolution graph...
Executing 1D convolution...
1D Convolution result (custom Mojo kernel): [14. 20. 26. 32. 38. 44. 50. 56. 62. 68. 74. 80. 41. 14.  0.]
Verification passed: Custom kernel results match NumPy calculation

이 출력은 커스텀 MAX 그래프 연산이 1D 합성곱 알고리즘을 올바르게 구현했음을 나타냅니다.

솔루션

이 퍼즐을 풀려면 1D 합성곱 커널을 MAX 그래프 시스템과 통합해야 합니다. 핵심은 Conv1DCustomOp 구조체의 execute 메서드에서 커널을 올바르게 호출하는 것입니다.

풀이는 다음과 같습니다:

            comptime kernel = conv1d_kernel[
                input_size, conv_size, OutLayout, OutLayout, ConvLayout
            ]
            gpu_ctx.enqueue_function[kernel, kernel](
                output_tensor,
                input_tensor,
                kernel_tensor,
                grid_dim=BLOCKS_PER_GRID,
                block_dim=(TPB, 1),
            )

이 한 줄이 수행하는 중요한 작업들은 다음과 같습니다:

GPU 컨텍스트(gpu_ctx의 타입은 DeviceContext)에서 enqueue_function을 호출하여 커널 실행 예약
필요한 레이아웃과 크기 정보를 컴파일 타임 파라미터로 전달
출력, 입력, 커널 텐서를 런타임 인자로 제공
적절한 차원으로 실행 그리드 구성

전체 맥락에서 어떻게 동작하는지 살펴보겠습니다:

파이썬-Mojo 통합 흐름

파이썬 쪽 (problems/p17/p17.py):
- 입력과 커널용 NumPy 배열 생성
- MAX 그래프로 연산을 감싸는 conv_1d() 함수 호출
- NumPy 배열을 Buffer.from_numpy(input).to(device)로 MAX driver Buffer로 변환
- custom_extensions=[mojo_kernels]로 커스텀 연산 패키지 로드
그래프 구축:
- TensorType으로 입력 및 출력 텐서 타입 정의
- parameters={...}를 통해 연산의 파라미터 지정
- Graph("conv_1d_graph", ...)로 연산 그래프 생성
- ops.custom(name="conv1d", ...)로 커스텀 연산 호출
커스텀 op 등록:
- @compiler.register("conv1d") 데코레이터가 연산을 MAX 그래프에 노출. @compiler.register 참고
- execute 메서드의 파라미터가 인터페이스(입력, 출력, 컨텍스트) 정의
- 입출력 텐서가 커널에서 사용할 수 있도록 TileTensor로 변환
- Device context가 GPU 메모리 할당과 커널 실행 관리
커널 실행:
- model.execute(...)가 호출되면 conv1d_kernel이 데이터 수신
- grid_dim과 block_dim으로 GPU 스레드 구성 설정
- result.to(CPU())로 결과를 CPU로 전송
- NumPy 검증으로 기대 출력과 결과 비교

핵심 구성 요소 상세

커스텀 Op 구조체:

@compiler.register("conv1d")
struct Conv1DCustomOp:
    @staticmethod
    def execute[target: StaticString, input_size: Int, conv_size: Int, dtype: DType = DType.float32](
        output: OutputTensor[rank=1],
        input: InputTensor[dtype = output.dtype, rank = output.rank],
        kernel: InputTensor[dtype = output.dtype, rank = output.rank],
        ctx: DeviceContextPtr,
    ) raises:
        # 구현

target은 디바이스 타입(“gpu” 또는 “cpu”)을 나타냄
input_size와 conv_size는 파이썬에서 전달되는 파라미터
텐서 타입이 올바른 shape과 타입 검사 보장
반환 타입은 적절한 오류 처리 위해 raises

텐서 변환:
```
output_tensor = output.to_layout_tensor()
input_tensor = input.to_layout_tensor()
kernel_tensor = kernel.to_layout_tensor()
```
- MAX 그래프 텐서를 Mojo TileTensor로 변환
- 커널이 텐서를 직접 다룰 수 있게 해줌
- 컴파일 타임 최적화를 위해 레이아웃 추출
Device Context 사용:
```
gpu_ctx = ctx.get_device_context()
gpu_ctx.enqueue_memset(...)  # 출력 버퍼 초기화
gpu_ctx.enqueue_function[..., ...](...) # 커널 예약
```
- 디바이스 컨텍스트가 GPU 리소스를 관리
- 메모리 연산으로 올바른 버퍼 상태를 보장
- 함수를 큐에 등록하여 커널 실행을 예약

이 풀이는 파이썬 데이터가 MAX 그래프를 거쳐 GPU에서 실행되고 다시 돌아오는 전체 흐름을 보여줍니다. Mojo의 강력한 타입 시스템과 매개변수화 함수를 활용하여 효율적이고 타입 안전한 가속 연산을 만들어냅니다.

MAX 그래프 커스텀 op 이해하기

더 자세한 내용은 아래 튜토리얼을 참고하세요:

Get started with MAX Graph in Python

MAX Graph custom op for GPUs

커스텀 op 등록

커스텀 연산을 만드는 핵심은 @compiler.register 데코레이터와 관련 구조체입니다:

@compiler.register("conv1d")
struct Conv1DCustomOp:
    @staticmethod
    def execute[...](
        output: OutputTensor[rank=1],
        input: InputTensor[dtype = output.dtype, rank = output.rank],
        kernel: InputTensor[type = output.dtype, rank = output.rank],
        ctx: DeviceContextPtr,
    ) raises:
        # 구현

등록의 핵심 구성 요소:

데코레이터에 전달하는 이름("conv1d")이 파이썬 코드에서 이 연산을 호출할 때 사용하는 이름
구조체에는 올바른 시그니처를 가진 execute 메서드가 있어야 함
OutputTensor와 InputTensor 타입이 파이썬 데이터와의 인터페이스를 정의
DeviceContextPtr이 실행 환경에 대한 접근을 제공

커스텀 op 패키징

커스텀 연산을 파이썬에서 사용하려면 먼저 패키징해야 합니다:

mojo package op -o op.mojopkg

이 명령은:

Mojo 코드를 배포 가능한 패키지로 컴파일
MAX 그래프가 연산을 이해하는 데 필요한 메타데이터 생성
파이썬에서 로드할 수 있는 바이너리 아티팩트(op.mojopkg)를 생성

패키지는 MAX 그래프가 찾을 수 있는 위치에 배치해야 하며, 보통 파이썬 코드에서 접근 가능한 디렉토리에 둡니다.

파이썬 통합

파이썬 쪽에서 커스텀 연산을 사용하는 방법은 다음과 같습니다:

# Mojo 연산이 포함된 디렉토리 경로
mojo_kernels = Path(__file__).parent / "op"

# 커스텀 conv1d 연산으로 그래프 구성
with Graph(
    "conv_1d_graph",
    input_types=[...],
    custom_extensions=[mojo_kernels],  # 커스텀 op 패키지 로드
) as graph:
    # 그래프의 입력 정의
    input_value, kernel_value = graph.inputs

    # 이름으로 커스텀 연산 사용
    output = ops.custom(
        name="conv1d",  # @compiler.register의 이름과 일치해야 함
        values=[input_value, kernel_value],
        out_types=[...],
        parameters={
            "input_size": input_tensor.shape[0],
            "conv_size": kernel_tensor.shape[0],
            "dtype": dtype,
        },
    )[0].tensor

핵심 요소는 다음과 같습니다:

custom_extensions로 커스텀 연산의 경로 지정
등록된 연산 이름으로 ops.custom 호출
연산의 시그니처에 맞는 입력 값과 파라미터 전달

Puzzle 18: 소프트맥스 Op

개요

이 퍼즐에서는 소프트맥스 함수를 커스텀 MAX 그래프 연산으로 구현합니다. 소프트맥스는 실수 벡터를 받아 확률 분포로 정규화하는 함수입니다.

소프트맥스 함수는 두 가지 주요 단계로 동작합니다:

지수 함수 적용: 입력 벡터의 각 요소에 지수 함수를 적용합니다. 이를 통해 모든 값이 양수가 되고 값 사이의 차이가 증폭됩니다. 큰 입력값은 훨씬 큰 지수 출력을 만들고, 작거나 음수인 값은 0에 가까운 출력을 만들어냅니다.
정규화: 각 지수 값을 모든 지수 값의 합으로 나눕니다. 이 정규화 단계를 통해 결과값이 유효한 확률 분포가 됩니다. 즉, 모든 값이 0과 1 사이이고 합이 정확히 1이 됩니다.

수학적으로 소프트맥스 함수는 다음과 같이 정의됩니다:

$$\Large \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$$

여기서:

$x_i$는 입력 벡터의 $i$번째 요소
$n$은 입력 벡터의 길이

그러나 이 직접적인 구현은 값이 클 때 수치 오버플로우 문제를 일으킬 수 있습니다. 이를 해결하기 위해 수치적으로 더 안정적인 버전을 사용합니다:

$$\Large \text{softmax}(x_i) = \frac{e^{x_i - \max(x)}}{\sum_{j=1}^{n} e^{x_j - \max(x)}}$$

GPU 구현에서는 최댓값 찾기와 지수 합 계산 모두에 병렬 리덕션을 사용하여 큰 벡터에서도 높은 효율을 달성합니다.

핵심 개념

효율적인 최댓값 및 합계 계산을 위한 병렬 리덕션
최댓값 차감 기법을 통한 수치 안정성
스레드 간 통신을 위한 공유 메모리 활용
커스텀 MAX 그래프 연산의 파이썬 통합
배리어를 통한 스레드 동기화

설정

벡터 크기: SIZE = 128
블록당 스레드 수: BLOCK_DIM_X = 1 << log2_ceil(SIZE). 트리 기반 리덕션이 올바르게 동작하려면 BLOCK_DIM_X가 SIZE 이상인 가장 작은 2의 거듭제곱이어야 합니다.
그리드 차원: $1 \times 1$ 블록
공유 메모리: 최댓값과 합계를 위한 두 개의 공유 변수

레이아웃 설정:

입력 텐서: row_major[SIZE]()
출력 텐서: row_major[SIZE]()
커스텀 op 파라미터: {"input_size": input_tensor.shape[0]}

이 퍼즐의 핵심 요소는 다음과 같습니다:

수치 안정성: 잠재적인 수치 문제를 처리하는 방법 이해하기
병렬 리덕션: 공유 메모리를 사용한 효율적인 최댓값 및 합계 계산
커스텀 op 통합: Mojo GPU 커널을 위한 파이썬 인터페이스 완성하기
테스트와 검증: 구현이 기대 결과와 일치하는지 확인하기

소프트맥스 커스텀 연산은 다음과 같은 일을 수행합니다:

파이썬에서 NumPy 배열을 입력으로 받기
GPU에서 효율적으로 처리하기
정규화된 확률 분포를 반환하기
SciPy의 소프트맥스 구현 결과와 일치시키기

완성할 코드

이 퍼즐을 완성하려면 Mojo 파일에서 GPU와 CPU 커널을 모두 구현하고, 파이썬 코드에서 그래프 정의를 완성해야 합니다.

1. `softmax.mojo`에서 GPU 커널 구현하기

from std.gpu import thread_idx, block_idx, block_dim, barrier
from std.gpu.host import DeviceContext, HostBuffer, DeviceBuffer
from std.gpu.memory import AddressSpace
from layout import TileTensor
from layout.tile_layout import row_major
from layout.tile_tensor import stack_allocation
from std.math import exp
from std.bit import log2_ceil
from std.utils.numerics import max_finite, min_finite


comptime SIZE = 128  # This must be equal to INPUT_SIZE in p18.py
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)
comptime GRID_DIM_X = 1
# Tree-based reduction require the number of threads to be the next power of two >= SIZE for correctness.
comptime BLOCK_DIM_X = 1 << log2_ceil(SIZE)


def softmax_gpu_kernel[
    input_size: Int,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    comptime assert (
        dtype.is_floating_point()
    ), "dtype must be a floating-point type"
    # FILL IN (roughly 31 lines)
    ...

전체 파일 보기: problems/p18/op/softmax.mojo

팁

모든 스레드가 접근할 수 있도록 최댓값과 합계 모두에 공유 메모리를 사용하세요
스레드를 동기화하기 위해 적절한 지점에서 barrier()를 호출하는 것을 잊지 마세요
각 스레드가 입력 배열의 일부를 처리하도록 병렬 리덕션을 구현하세요
스레드 분기를 최소화하기 위해 트리 기반 리덕션 패턴을 사용하세요
특히 큰 입력에서 범위를 벗어난 접근을 주의 깊게 처리하세요
수치 안정성을 위해 $e^{x_i}$ 대신 $e^{x_i - max}$를 계산하세요

2. `softmax.mojo`에서 CPU 커널 구현하기

def softmax_cpu_kernel[
    input_size: Int,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    comptime assert (
        dtype.is_floating_point()
    ), "dtype must be a floating-point type"
    # FILL IN (roughly 10 lines)
    ...

전체 파일 보기: problems/p18/op/softmax.mojo

팁

GPU 버전과 동일한 수학적 단계를 따르는 순차적 구현을 작성하세요
먼저 모든 입력에서 최댓값을 찾으세요
그다음 각 요소에 대해 $e^{x_i - max}$를 계산하고 합계를 누적하세요
마지막으로 각 요소를 합계로 나눠 정규화하세요
CPU 구현에는 병렬 스레드가 없으므로 스칼라 연산을 사용하세요

CPU와 GPU 커널 테스트

uv run poe p18-test-kernels

pixi run p18-test-kernels

올바르게 구현하면 다음과 같이 출력됩니다:

Total Discovered Tests: 1

Passed : 1 (100.00%)
Failed : 0 (0.00%)
Skipped: 0 (0.00%)

3. `p18.py`에서 그래프 정의 완성하기

from pathlib import Path

import numpy as np
from max.driver import CPU, Accelerator, Buffer, Device
from max.dtype import DType
from max.engine import InferenceSession
from max.graph import DeviceRef, Graph, TensorType
from numpy.typing import NDArray
from scipy.special import softmax as scipy_softmax


def softmax(
    input: NDArray[np.float32],
    session: InferenceSession,
    device: Device,
) -> Buffer:
    dtype = DType.float32
    input_tensor = Buffer.from_numpy(input).to(device)
    mojo_kernels = Path(__file__).parent / "op"

    with Graph(
        "softmax_graph",
        input_types=[
            TensorType(
                dtype,
                shape=input_tensor.shape,
                device=DeviceRef.from_device(device),
            ),
        ],
        custom_extensions=[mojo_kernels],
    ) as graph:
        # FILL IN (roughly 4 unformatted lines)
        pass

전체 파일 보기: problems/p18/p18.py

팁

graph.inputs[0]으로 그래프에 전달된 입력 텐서에 접근하세요
등록한 커스텀 op 이름(“softmax”)으로 ops.custom()을 호출하세요
입력 텐서를 커스텀 연산의 값으로 전달하세요
입력 shape과 일치하는 출력 타입을 지정하세요
커널에 필요한 “input_size” 파라미터를 포함하세요
graph.outputs를 연산의 출력 텐서가 담긴 리스트로 설정하세요

다음 명령으로 퍼즐을 실행할 수 있습니다:

pixi run p18

pixi run -e amd p18

pixi run -e apple p18

uv run poe p18

성공하면 CPU와 GPU에서 다음과 비슷한 출력을 볼 수 있습니다:

Input shape: (128,)
First few random input values: [ 1.1810775   0.60472375  0.5718309   0.6644599  -0.08899796]
Compiling softmax graph on Device(type=cpu,id=0)
Executing softmax on Device(type=cpu,id=0)
====================================================================================================
Compiling softmax graph on Device(type=gpu,id=0)
Executing softmax on Device(type=gpu,id=0)
====================================================================================================
First few softmax results on CPU (custom Mojo kernel): [0.01718348 0.00965615 0.0093437  0.01025055 0.0048253 ]
First few softmax results on GPU (custom Mojo kernel): [0.01718348 0.00965615 0.0093437  0.01025055 0.0048253 ]
First few expected results (SciPy calculation): [0.01718348 0.00965615 0.0093437  0.01025055 0.0048253 ]
Verification passed: Custom kernel results match SciPy calculation
Sum of all probabilities on CPU: 1.0
Sum of all probabilities on GPU: 1.0

이 출력은 커스텀 MAX 그래프 연산이 소프트맥스 알고리즘을 올바르게 구현하여 유효한 확률 분포를 생성했음을 보여줍니다.

솔루션

이 퍼즐을 풀려면 Mojo 커널(GPU와 CPU)과 파이썬 그래프 정의를 모두 구현해야 합니다. Puzzle 17: 1D 합성곱 Op에서 했던 것처럼, 파이썬의 생태계와 Mojo의 GPU 가속 컴퓨팅 역량을 잇는 다리를 만듭니다.

구현할 소프트맥스 연산은 수학적으로 다음과 같이 정의됩니다:

$$\Large \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$$

하지만 수치 오버플로우를 방지하기 위해 더 안정적인 형태를 사용합니다:

$$\Large \text{softmax}(x_i) = \frac{e^{x_i - \max(x)}}{\sum_{j=1}^{n} e^{x_j - \max(x)}}$$

GPU 커널 구현

def softmax_gpu_kernel[
    input_size: Int,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
):
    comptime assert (
        dtype.is_floating_point()
    ), "dtype must be a floating-point type"
    var shared_max = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[BLOCK_DIM_X]())
    var shared_sum = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[BLOCK_DIM_X]())
    var global_i = thread_idx.x

    # Initialize out-of-bounds (shared_max[local_i], global_i >= input_size) shared memory addresses to the minimum
    # finite value for dtype, ensuring that if these elements are accessed in the parallel max reduction below they
    # do not influence the result (max(min_finite, x) == x for any x).
    var val: Scalar[dtype] = min_finite[dtype]()
    if global_i < input_size:
        val = rebind[Scalar[dtype]](input[global_i])
    shared_max[global_i] = val

    barrier()

    # Parallel reduction to find max similar to reduction we saw before
    var stride = BLOCK_DIM_X // 2
    while stride > 0:
        if global_i < stride:
            shared_max[global_i] = max(
                shared_max[global_i], shared_max[global_i + stride]
            )
        barrier()
        stride = stride // 2

    var block_max = shared_max[0]

    # Initialize out-of-bounds (shared_max[global_i], global_i >= input_size) shared memory addresses to 0.0,
    # ensuring that if these elements are accessed in the parallel sum reduction below they
    # do not influence the result (adding 0.0 does not change the sum).
    var exp_val: Scalar[dtype] = 0.0
    if global_i < input_size:
        exp_val = rebind[Scalar[dtype]](exp(val - block_max))
    shared_sum[global_i] = exp_val
    barrier()

    # Parallel reduction for sum similar to reduction we saw before
    stride = BLOCK_DIM_X // 2
    while stride > 0:
        if global_i < stride:
            shared_sum[global_i] += shared_sum[global_i + stride]
        barrier()
        stride = stride // 2

    var block_sum = shared_sum[0]

    # Normalize by sum
    if global_i < input_size:
        output[global_i] = exp_val / block_sum

GPU 커널은 고도로 최적화된 병렬 리덕션 기법을 사용하여 수치적으로 안정적인 소프트맥스 알고리즘을 구현합니다. 커널을 상세히 분석해 보겠습니다:

커널 시그니처와 메모리 관리

def softmax_gpu_kernel[
    layout: Layout,
    input_size: Int,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, layout],
    input: TileTensor[mut=False, dtype, layout],
)

커널의 파라미터 구성:

입출력 텐서에 공통으로 사용되는 레이아웃 파라미터
정수 파라미터로 지정되는 벡터 크기
기본값이 float32인 설정 가능한 데이터 타입
연산 결과를 직접 저장하는 변경 가능한(mutable) 출력 텐서
변경 불가능한(mut=False) 입력 텐서

공유 메모리 할당

shared_max = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[BLOCK_DIM_X]())
shared_sum = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[BLOCK_DIM_X]())

커널은 두 개의 공유 메모리 버퍼를 할당합니다:

shared_max: 병렬 최댓값 탐색 리덕션용
shared_sum: 병렬 합계 연산용
둘 다 BLOCK_DIM_X = 128 크기를 사용
공유 메모리는 블록 내 모든 스레드에 빠른 접근을 제공

스레드 인덱싱

global_i = thread_idx.x

이 소프트맥스 구현은 단일 1D 스레드 블록에서 동작합니다. 즉, 전역 인덱스와 로컬 인덱스가 동일합니다.

최댓값 탐색 단계

var val: Scalar[dtype] = min_finite[dtype]()
if global_i < input_size:
    val = rebind[Scalar[dtype]](input[global_i])

shared_max[local_i] = val
barrier()

각 스레드를 다음과 같이 초기화합니다:

유효 범위를 벗어난 요소에는 최소 유한(finite) 값 할당
유효한 요소에 매핑되는 스레드에는 실제 입력값 할당
리덕션 과정을 위해 공유 메모리에 저장
모든 스레드의 메모리 쓰기가 완료되도록 배리어 동기화

병렬 max 리덕션

stride = BLOCK_DIM_X // 2
while stride > 0:
    if local_i < stride:
        shared_max[local_i] = max(shared_max[local_i], shared_max[local_i + stride])
    barrier()
    stride = stride // 2

병렬 트리 리덕션 패턴을 구현합니다:

stride = 64(BLOCK_DIM_X의 절반)로 시작
각 활성 스레드가 stride만큼 떨어진 두 값 비교
더 작은 인덱스에 최댓값 저장
배리어로 모든 스레드 동기화
Stride를 절반으로 줄이고 반복
$\log_2(BLOCK\_DIM\_X)~$ 단계 후 shared_max[0]에 전체 최댓값이 담김

이 로그 리덕션은 대규모 입력에서 선형 스캔보다 훨씬 빠릅니다.

수치적으로 안정적인 지수 함수 적용

block_max = shared_max[0]

var exp_val: Scalar[dtype] = 0.0
if global_i < input_size:
    exp_val = rebind[Scalar[dtype]](exp(val - block_max))

각 스레드가 수행하는 작업:

공유 메모리에서 전체 최댓값 읽음
지수 함수를 적용하기 전에 입력값에서 최댓값 차감
이 차감이 수치 안정성의 핵심 — 오버플로우 방지
가장 큰 지수가 $e^0 = 1$이 되고, 나머지는 모두 $e^{음수} < 1$

병렬 sum 리덕션

shared_sum[local_i] = exp_val
barrier()

stride = BLOCK_DIM_X // 2
while stride > 0:
    if local_i < stride:
        shared_sum[local_i] += shared_sum[local_i + stride]
    barrier()
    stride = stride // 2

두 번째 리덕션 단계:

모든 지수 값을 공유 메모리에 저장
max와 동일한 트리 기반 리덕션 패턴 사용
단, 최댓값 비교 대신 덧셈 수행
$\log_2(BLOCK\_DIM\_X)~$ 단계 후 shared_sum[0]에 모든 지수 값의 총합이 담김

최종 정규화

block_sum = shared_sum[0]

if global_i < input_size:
    output[global_i] = exp_val / block_sum

각 스레드가 수행하는 작업:

공유 메모리에서 총합을 읽음
자신의 지수 값을 이 총합으로 나눔
정규화된 확률을 출력 버퍼에 기록
합이 1인 유효한 확률 분포 생성

성능 특성

이 구현은 뛰어난 성능 특성을 갖습니다:

복잡도: 순차적 접근의 $O(n)$에 비해 max와 sum 계산 모두 $O(\log n)$
메모리 효율: 공유 메모리를 $2 \times BLOCK\_DIM\_X~$ 요소만 사용
작업 효율: 각 스레드가 약 $2 \times \log_2(BLOCK\_DIM\_X)~$ 회 연산 수행
부하 분산: 각 스레드가 동일한 양의 작업 처리
동기화: 필요한 곳에서만 최소한의 배리어 사용
메모리 접근: 최적 대역폭을 위한 병합된 전역 메모리 접근 패턴

이 알고리즘은 수치적으로도 견고합니다. 최댓값 차감 기법을 적용하여 신경망 활성화에서 흔한 넓은 범위의 값에서도 정밀도를 유지하며, 오버플로우/언더플로우 가능성을 처리합니다.

CPU 폴백 구현

def softmax_cpu_kernel[
    input_size: Int,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
):
    comptime assert (
        dtype.is_floating_point()
    ), "dtype must be a floating-point type"
    var max_val: Scalar[dtype] = min_finite[dtype]()
    for i in range(input_size):
        max_val = max(max_val, rebind[Scalar[dtype]](input[i]))

    var sum_exp: Scalar[dtype] = 0.0
    for i in range(input_size):
        var exp_val = rebind[Scalar[dtype]](exp(input[i] - max_val))
        output[i] = exp_val
        sum_exp += exp_val

    for i in range(input_size):
        output[i] = output[i] / sum_exp

CPU 구현은 같은 수학적 접근 방식을 따르되 단일 스레드 실행에 최적화된 순차적 폴백을 제공합니다. 각 단계를 분석해 보겠습니다:

최댓값 탐색:
```
var max_val: Scalar[dtype] = min_finite[dtype]()
for i in range(input_size):
    max_val = max(max_val, rebind[Scalar[dtype]](input[i]))
```
최소 유한값으로 초기화하고 배열을 선형 스캔하며 만난 최댓값을 추적합니다. $O(n)$ 복잡도이지만, 병렬화할 코어가 많지 않은 CPU에서는 효율적으로 동작합니다.
지수 함수 적용과 합산:
```
var sum_exp: Scalar[dtype] = 0.0
for i in range(input_size):
    var exp_val = rebind[Scalar[dtype]](exp(input[i] - max_val))
    output[i] = exp_val
    sum_exp += exp_val
```
각 요소에 대해 $e^{x_i - max}$를 계산하고 결과를 출력 버퍼에 저장하면서 합계 $\sum_{j=1}^{n} e^{x_j - max}$를 한 번의 순회로 누적합니다. 별도의 반복문을 사용하는 것에 비해 메모리 연산을 최소화합니다.
정규화:
```
for i in range(input_size):
    output[i] = output[i] / sum_exp
```
마지막으로 각 요소를 합계로 나눠 소프트맥스 공식에 따른 올바른 확률 분포를 생성합니다:

$$\Large \text{softmax}(x_i) = \frac{e^{x_i - \max(x)}}{\sum_{j=1}^{n} e^{x_j - \max(x)}}$$

CPU 구현은 동일한 수치 안정성 기법(최댓값 차감)을 사용하되, 병렬이 아닌 순차적 연산으로 처리합니다. 공유 메모리나 스레드 동기화를 다룰 필요가 없어 GPU 버전보다 단순하지만, 대규모 입력에서는 효율이 떨어집니다.

두 구현 모두 @compiler.register("softmax") 데코레이터를 통해 MAX 그래프의 커스텀 연산 시스템에 등록되므로, 가용 여부에 따라 어느 디바이스에서든 매끄럽게 실행됩니다.

파이썬 통합

    with Graph(
        "softmax_graph",
        input_types=[
            TensorType(
                dtype,
                shape=input_tensor.shape,
                device=DeviceRef.from_device(device),
            ),
        ],
        custom_extensions=[mojo_kernels],
    ) as graph:
        input_value = graph.inputs[0]

        # The output shape is the same as the input for softmax
        # Note: the name must match the name used in `@compiler.register("softmax")` in op/softmax.mojo
        output = ops.custom(
            name="softmax",
            values=[input_value],
            device=DeviceRef.from_device(device),
            out_types=[
                TensorType(
                    dtype=input_value.tensor.dtype,
                    shape=input_value.tensor.shape,
                    device=DeviceRef.from_device(device),
                )
            ],
            parameters={
                "target": "gpu" if device == Accelerator() else "cpu",
                "input_size": input_tensor.shape[0],
                "dtype": dtype,
            },
        )[0].tensor
        graph.output(output)

파이썬 통합은 NumPy 배열과 최적화된 Mojo GPU 커널 사이에 매끄러운 다리를 만듭니다. 구현은 여러 핵심 구성 요소로 이뤄져 있습니다:

그래프 설정과 구성:
```
with Graph(
    "softmax_graph",
    input_types=[
        TensorType(
            dtype,
            shape=input_tensor.shape,
            device=DeviceRef.from_device(device),
        ),
    ],
    custom_extensions=[mojo_kernels],
) as graph:
```
“softmax_graph“라는 이름의 연산 그래프를 생성합니다:
- 적절한 dtype과 shape으로 입력 텐서 타입 정의
- 텐서를 대상 디바이스(CPU 또는 GPU)에 매핑
- 지정된 디렉토리에서 커스텀 Mojo 연산 로드
- custom_extensions 파라미터가 Mojo 구현과의 연결 핵심

커스텀 연산 구성:

output = ops.custom(
    name="softmax",
    values=[input_value],
    out_types=[
        TensorType(
            dtype=input_value.tensor.dtype,
            shape=input_value.tensor.shape,
            device=DeviceRef.from_device(device),
        )
    ],
    parameters={
        "target": "gpu" if device == Accelerator() else "cpu",
        "input_size": input_tensor.shape[0],
        "dtype": dtype,
    },
)[0].tensor

커스텀 연산을 다음과 같이 설정합니다:

Mojo 코드의 @compiler.register("softmax")와 일치하는 이름
리스트로 전달되는 입력 값
입력 shape과 타입에 맞는 출력 타입 정의
대상 디바이스, 벡터 크기, 데이터 타입을 포함한 커널 필수 파라미터
[0].tensor로 첫 번째 반환 요소에서 텐서 추출

그래프 출력 정의:
```
graph.output(output)
```
연산의 결과를 그래프의 출력으로 등록합니다.

메인 스크립트는 다음과 같은 꼼꼼한 검증을 포함합니다:

랜덤 입력 데이터 생성: np.random.randn(INPUT_SIZE).astype(np.float32)
SciPy로 기대 결과 계산: scipy_softmax(input_array)
수치 정확도 검증: np.testing.assert_allclose(..., rtol=1e-5)
출력이 유효한 확률 분포인지 확인: np.sum(result.to_numpy())

이 구현은 고성능 Mojo 커널과 파이썬의 과학 컴퓨팅 생태계를 통합하는 MAX 그래프의 강력한 역량을 보여주며, 효율성과 사용 편의성을 동시에 제공합니다.

Puzzle 19: 어텐션 Op

개요

이 퍼즐에서는 어텐션 메커니즘을 커스텀 MAX 그래프 연산으로 구현합니다. 어텐션은 트랜스포머와 함께 널리 알려진 현대 신경망의 핵심 요소로, 모델이 예측할 때 입력에서 관련된 부분에 집중할 수 있게 해줍니다.

수학적으로 어텐션 함수는 다음과 같이 정의됩니다:

$$\Large \text{Attention}(Q, K, V) = \text{softmax}(Q \cdot K^T) \cdot V$$

여기서:

$Q$는 $(d,)~$ 형태의 쿼리 벡터 - 찾으려는 대상을 나타냅니다
$K$는 $(\text{seq_len}, d)~$ 형태의 키 행렬 - 매칭할 수 있는 대상을 나타냅니다
$V$는 $(\text{seq_len}, d)~$ 형태의 값 행렬 - 검색할 정보를 나타냅니다
출력은 $(d,)$ 형태의 가중합 벡터입니다

연산은 세 가지 주요 단계로 이루어집니다:

어텐션 점수: $Q \cdot K^T$를 계산하여 쿼리가 각 키 벡터와 얼마나 잘 매칭되는지 측정합니다
어텐션 가중치: 소프트맥스를 적용하여 점수를 확률 분포로 변환합니다 (가중치의 합 = 1)
가중 합: 어텐션 가중치를 사용하여 값 벡터들을 결합해 최종 출력을 생성합니다

어텐션 이해하기: 단계별 분석

어텐션을 스마트 검색 메커니즘으로 생각해 보세요. 쿼리(찾고자 하는 것)가 주어지면, 어텐션은 키-값 쌍의 모음에서 가장 관련성 높은 정보를 찾아냅니다:

1단계 - 유사도 매칭: 쿼리 $Q$를 모든 키 $K$와 비교하여 유사도 점수를 구합니다
- $Q \cdot K^T$를 계산하여 $Q$가 각 키 벡터와 얼마나 잘 매칭되는지 측정합니다
- 높은 점수 = 더 좋은 매칭
2단계 - 확률 분포: 원시 점수를 정규화된 가중치로 변환합니다
- 소프트맥스를 적용하여 모든 가중치의 합이 1.0이 되도록 합니다
- 어떤 값에 집중할지에 대한 확률 분포를 만듭니다
3단계 - 가중 검색: 어텐션 가중치를 사용하여 값들을 결합합니다
- 각 값 벡터에 해당하는 가중치를 곱합니다
- 모든 것을 더해 최종 출력을 구합니다

실생활 비유: 도서관에서 검색하는 것을 상상해 보세요. 쿼리는 찾고 싶은 것이고, 책 제목은 키이며, 책 내용은 값입니다. 어텐션은 각 책이 쿼리와 얼마나 관련 있는지 계산한 다음, 관련도에 따라 가중 요약을 제공합니다.

연산 흐름 시각화

Input:  Q(16,)    K(16,16)    V(16,16)
         ↓           ↓           ↓
Step 1: Q(1,16) @ K^T(16,16) → Scores(1,16)
         ↓
Step 2: softmax(Scores) → Weights(1,16)  [sum = 1.0]
         ↓
Step 3: Weights(1,16) @ V(16,16) → Output(1,16) → reshape → Output(16,)

핵심 아이디어: 쿼리 벡터 $Q$를 $(16,)$에서 $(1,16)$으로 변환하면, 내적 대신 행렬 곱셈을 사용할 수 있습니다. 덕분에 Puzzle 18의 고도로 최적화된 타일링 matmul 커널을 그대로 활용할 수 있습니다!

GPU 구현은 이전 퍼즐에서 최적화된 커널들을 재사용하고 결합합니다:

Puzzle 16의 타일링 행렬 곱셈 — 효율적인 $Q \cdot K^T$ 및 $\text{weights} \cdot V$ 연산에 사용
공유 메모리 전치 — $K^T$를 효율적으로 계산
Puzzle 18의 병렬 소프트맥스 — 수치적으로 안정적인 어텐션 가중치 계산에 사용

🔄 커널 재사용 전략: 이 퍼즐은 이전 퍼즐에서 검증된 최적화 커널들을 결합하여 복잡한 연산을 구축하는 방법을 보여줍니다. 모든 것을 처음부터 작성하는 대신, Puzzle 16의 matmul_idiomatic_tiled과 Puzzle 18의 softmax_kernel을 활용하여 모듈형 GPU 커널 설계의 강력함을 보여줍니다.

핵심 개념

시퀀스 처리를 위한 벡터 어텐션 메커니즘
커널 재사용: Puzzle 16과 Puzzle 18의 검증된 구현 활용
공유 메모리 tiling을 활용한 효율적인 행렬 곱셈
버퍼 할당을 최소화하는 메모리 최적화 텐서 형태 변환
여러 최적화 커널을 단일 연산으로 통합
다중 입력을 지원하는 커스텀 MAX 그래프 연산
호환성을 위한 CPU 폴백 구현

설정

시퀀스 길이: $\text{SEQ_LEN} = 16~$ - 시퀀스 내 키/값 벡터의 수
모델 차원: $\text{D} = 16~$ - 각 벡터(쿼리, 키, 값)의 차원
블록당 스레드 수: 각 커널에 맞게 개별 최적화
그리드 차원: 다양한 행렬 크기를 효율적으로 처리하도록 동적으로 계산
공유 메모리: 전치, matmul, 소프트맥스 커널에서 성능을 위해 활용

레이아웃 설정:

쿼리 텐서: row_major[d]()
키 텐서: row_major[seq_len, d]()
값 텐서: row_major[seq_len, d]()
출력 텐서: row_major[d]()
커스텀 op 파라미터: {"seq_len": seq_len, "d": d, "dtype": dtype}

이 퍼즐의 핵심 요소는 다음과 같습니다:

다중 커널 오케스트레이션: 전치, matmul, 소프트맥스 연산의 결합
메모리 최적화: 형태 변환 연산과 버퍼 재사용으로 메모리 할당 최소화
수치 안정성: Puzzle 18의 검증된 소프트맥스 구현 활용
성능 최적화: 모든 행렬 연산에 Puzzle 16의 타일링 알고리즘 사용
다중 입력 연산: 단일 커스텀 op에서 세 개의 입력 텐서(Q, K, V) 처리

어텐션 커스텀 연산은 다음과 같은 일을 수행합니다:

파이썬에서 쿼리, 키, 값 텐서를 입력으로 받기
최적화된 커널을 사용하여 GPU에서 효율적으로 처리
어텐션 가중 출력 벡터 반환
NumPy 참조 구현 결과와 일치

완성할 코드

이 퍼즐을 완성하려면 Puzzle 16의 타일링 matmul 커널과 Puzzle 18의 소프트맥스 커널을 활용합니다. 공유 메모리를 사용하여 Mojo 파일에서 전치 커널만 구현하면 됩니다.

1. 전치 커널 구현하기

def transpose_kernel[
    rows: Int,
    cols: Int,
    OutLayout: TensorLayout,
    InLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    inp: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
):
    # FILL ME IN (roughly 18 lines)
    ...

전체 파일 보기: problems/p19/op/attention.mojo

팁

전치 커널 구현 가이드:

공유 메모리 설정: stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TRANSPOSE_BLOCK_DIM_XY, TRANSPOSE_BLOCK_DIM_XY]())을 사용하여 TRANSPOSE_BLOCK_DIM_XY × TRANSPOSE_BLOCK_DIM_XY 크기의 정사각형 공유 메모리 타일을 생성합니다. 이를 통해 스레드 간 효율적인 데이터 교환이 가능합니다.
스레드 인덱싱: 스레드를 행렬 요소에 매핑합니다:
- local_row = thread_idx.y, local_col = thread_idx.x (블록 내 위치)
- global_row = block_idx.y * TRANSPOSE_BLOCK_DIM_XY + local_row (전체 행렬에서의 위치)
2단계 연산:
- 1단계: 전역 메모리에서 공유 메모리로 일반 인덱싱으로 데이터를 로드합니다
- 2단계: 공유 메모리에서 전역 메모리로 뒤바꾼 인덱싱으로 데이터를 저장합니다
필수 동기화: 로드와 저장 사이에 barrier()를 호출하여 모든 스레드가 로드를 완료한 후에야 저장을 시작하도록 보장합니다
전치의 핵심: 전치는 뒤바꾼 인덱싱을 통해 이루어집니다: shared_tile[local_row, local_col] 대신 shared_tile[local_col, local_row]를 사용합니다
경계 처리: 전역 메모리 접근 시 경계 검사를 수행하여 TRANSPOSE_BLOCK_DIM_XY x TRANSPOSE_BLOCK_DIM_XY로 정확히 나누어지지 않는 행렬에서 범위를 벗어난 읽기/쓰기를 방지합니다
메모리 병합: 이 패턴은 읽기와 쓰기 모두 병합되도록 보장하여 최적의 메모리 대역폭을 활용합니다

2. 어텐션 오케스트레이션

            var gpu_ctx = rebind[DeviceContext](ctx[])

            # Define layouts for matrix multiplication
            # Q reshaped to (1, d)
            comptime layout_q_2d = row_major[1, d]()
            comptime Q2DLayout = type_of(layout_q_2d)
            # K^T is (d, seq_len)
            comptime layout_k_t = row_major[d, seq_len]()
            comptime KTLayout = type_of(layout_k_t)
            # Scores as (1, seq_len)
            comptime layout_scores_2d = row_major[1, seq_len]()
            comptime Scores2DLayout = type_of(layout_scores_2d)
            # Weights as (1, seq_len)
            comptime layout_weights_2d = row_major[1, seq_len]()
            comptime Weights2DLayout = type_of(layout_weights_2d)
            # Result as (1, d)
            comptime layout_result_2d = row_major[1, d]()
            comptime Result2DLayout = type_of(layout_result_2d)

            # Transpose implementation limited to square (TRANSPOSE_BLOCK_DIM_XY x TRANSPOSE_BLOCK_DIM_XY) thread blocks
            comptime transpose_threads_per_block = (
                TRANSPOSE_BLOCK_DIM_XY,
                TRANSPOSE_BLOCK_DIM_XY,
            )
            # Tile over the K (seq_len, d) matrix
            comptime transpose_blocks_per_grid = (
                (d + TRANSPOSE_BLOCK_DIM_XY - 1) // TRANSPOSE_BLOCK_DIM_XY,
                (seq_len + TRANSPOSE_BLOCK_DIM_XY - 1)
                // TRANSPOSE_BLOCK_DIM_XY,
            )
            # Matmul implementation limited to square (MATMUL_BLOCK_DIM_XY x MATMUL_BLOCK_DIM_XY) thread blocks
            comptime matmul_threads_per_block = (
                MATMUL_BLOCK_DIM_XY,
                MATMUL_BLOCK_DIM_XY,
            )
            # seq_len outputs ( Q @ K^T = (1, d) @ (d, seq_len) -> (1, seq_len) ) with one thread per output
            comptime scores_blocks_per_grid = (
                seq_len + MATMUL_BLOCK_DIM_XY - 1
            ) // MATMUL_BLOCK_DIM_XY
            comptime softmax_threads = SOFTMAX_BLOCK_DIM_X
            comptime softmax_blocks_per_grid = 1
            # d outputs ( weights @ V = (1, seq_len) @ (seq_len, d) -> (1, d) ) with one thread per output
            comptime result_blocks_per_grid = (
                d + MATMUL_BLOCK_DIM_XY - 1
            ) // MATMUL_BLOCK_DIM_XY

            # Allocate minimal temporary buffers - reuse same buffer for different shapes
            var k_t_buf = gpu_ctx.enqueue_create_buffer[dtype](
                seq_len * d
            )  # K^T as (d, seq_len)
            var scores_weights_buf = gpu_ctx.enqueue_create_buffer[dtype](
                seq_len
            )  # Reused for scores and weights

            var k_t = TileTensor(k_t_buf, layout_k_t)

            # Step 1: Reshape Q from (d,) to (1, d) - no buffer needed
            # FILL ME IN 1 line

            # Step 2: Transpose K from (seq_len, d) to K^T (d, seq_len)
            # FILL ME IN 1 function call

            # Step 3: Compute attention scores using matmul: Q @ K^T = (1, d) @ (d, seq_len) -> (1, seq_len)
            # This computes Q · K^T[i] = Q · K[i] for each column i of K^T (which is row i of K)
            # Reuse scores_weights_buf as (1, seq_len) for scores
            # FILL ME IN 2 lines

            # Step 4: Reshape scores from (1, seq_len) to (seq_len,) for softmax
            # FILL ME IN 1 line

            # Step 5: Apply softmax to get attention weights
            # FILL ME IN 1 function call

            # Step 6: Reshape weights from (seq_len,) to (1, seq_len) for final matmul
            # FILL ME IN 1 line

            # Step 7: Compute final result using matmul: weights @ V = (1, seq_len) @ (seq_len, d) -> (1, d)
            # Reuse out_tensor reshaped as (1, d) for result
            # FILL ME IN 2 lines

전체 파일 보기: problems/p19/op/attention.mojo

커널 테스트

pixi run p19

pixi run -e amd p19

pixi run -e apple p19

uv run poe p19

성공하면 CPU와 GPU에서 다음과 비슷한 출력을 볼 수 있습니다:

Input shapes: Q=(16,), K=(16, 16), V=(16, 16)
Sample Q values: [ 0.04967142 -0.01382643  0.06476886  0.15230298 -0.02341534]
Sample K[0] values: [-0.10128311  0.03142473 -0.09080241 -0.14123037  0.14656489]
Sample V[0] values: [ 0.11631638  0.00102331 -0.09815087  0.04621035  0.01990597]

================================================================================
STEP-BY-STEP VECTOR ATTENTION COMPUTATION DEBUG
================================================================================

1. INPUT SHAPES:
   Q shape: (16,) (query vector)
   K shape: (16, 16) (key matrix)
   V shape: (16, 16) (value matrix)
   Q[:5]: [ 0.04967142 -0.01382643  0.06476886  0.15230298 -0.02341534]

2. ATTENTION SCORES (K[i] · Q):
   Scores shape: (16,)
   Scores[:5]: [-0.03479404 -0.01563787  0.04834607  0.06764711  0.04001468]
   Min: -0.061636, Max: 0.067647
   Manual verification:
     Q · K[0] = K[0] · Q = -0.034794 (computed: -0.034794)
     Q · K[1] = K[1] · Q = -0.015638 (computed: -0.015638)
     Q · K[2] = K[2] · Q = 0.048346 (computed: 0.048346)

3. SOFTMAX:
   Max score: 0.067647
   Attention weights shape: (16,)
   Attention weights[:5]: [0.05981331 0.06097015 0.06499878 0.0662655  0.06445949]
   Sum: 1.000000 (should be 1.0)

4. WEIGHTED SUM OF VALUES:
   Output shape: (16,)
   Output[:5]: [-0.00935538 -0.0243433   0.00306551  0.02346884  0.019306  ]
   Output norm: 0.092764
   Manual output[:5]: [-0.00935538 -0.0243433   0.00306551  0.02346884  0.019306  ]
   Match: True

================================================================================
TESTING INDIVIDUAL OPERATIONS
================================================================================

Test 1: Vector Dot Product
a · b = 3.000000

Test 2: Matrix-Vector Multiplication
M @ v = [ 3.  7. 11.]

Test 3: Softmax
Input: [1. 2. 3. 4.]
Softmax: [0.0320586  0.08714432 0.2368828  0.6439143 ]
Sum: 1.000000

================================================================================
TESTING FULL ATTENTION
================================================================================
Compiling attention graph on Device(type=cpu,id=0)
Executing attention on Device(type=cpu,id=0)
====================================================================================================

CPU attention output[:5]: [-0.00935538 -0.02434331  0.00306551  0.02346884  0.019306  ]
CPU matches NumPy: True
Compiling attention graph on Device(type=gpu,id=0)
Executing attention on Device(type=gpu,id=0)
====================================================================================================

GPU attention output[:5]: [-0.00935538 -0.0243433   0.00306551  0.02346884  0.019306  ]
Expected output[:5]: [-0.00935538 -0.0243433   0.00306551  0.02346884  0.019306  ]
GPU matches NumPy: True

================================================================================
FINAL VERIFICATION
================================================================================
✓ CPU implementation PASSED
✓ GPU implementation PASSED

Output vector norms:
  CPU: 0.092764
  GPU: 0.092764
  Expected: 0.092764

이 출력은 커스텀 MAX 그래프 연산이 어텐션 알고리즘을 올바르게 구현하여 NumPy 참조 구현과 일치하는 결과를 생성했음을 보여줍니다.

솔루션

이 퍼즐을 풀려면 Mojo에서 전치 커널을 구현하고 어텐션 커스텀 연산을 위한 파이썬 그래프 정의를 완성해야 합니다. 이 퍼즐은 이전 퍼즐의 개념들을 기반으로, Puzzle 16의 타일링 행렬 곱셈과 Puzzle 18의 소프트맥스를 결합하여 완전한 어텐션 메커니즘을 구성합니다.

재사용 커널

구현에서 다음의 검증된 커널들을 직접 활용합니다:

matmul_idiomatic_tiled (Puzzle 16) - $Q \times K^T$와 $\text{weights} \times V$ 연산 모두를 수행
softmax_kernel (Puzzle 18) - 수치적으로 안정적인 어텐션 가중치 계산 제공

이는 모듈형 GPU 아키텍처의 좋은 예시입니다: 단일 구현체가 아닌, 검증된 최적화 컴포넌트를 오케스트레이션하여 복잡한 신경망 연산을 구축합니다.

어텐션 연산은 표준적인 수학적 정의를 따릅니다:

$$\Large \text{Attention}(Q, K, V) = \text{softmax}(Q \cdot K^T) \cdot V$$

수식 분석:

$Q \cdot K^T~$: 쿼리-키 유사도 점수, 형태: $(1, \text{seq_len})$
$\text{softmax}(\cdot)~$: 점수를 확률로 정규화, 형태: $(1, \text{seq_len})$
$\text{weights} \cdot V~$: 값의 가중 결합, 형태: $(1, d)$

이 과정에는 이전 퍼즐의 GPU 커널을 활용하여 최적화하는 여러 연산 단계가 포함됩니다.

1. 전치 커널 구현

def transpose_kernel[
    rows: Int,
    cols: Int,
    OutLayout: TensorLayout,
    InLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    inp: TileTensor[mut=True, dtype, InLayout, MutAnyOrigin],
):
    """Transpose matrix using shared memory tiling for coalesced access."""
    comptime shared_layout = row_major[
        TRANSPOSE_BLOCK_DIM_XY, TRANSPOSE_BLOCK_DIM_XY
    ]()
    var shared_tile = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](shared_layout)

    var local_row = thread_idx.y
    var local_col = thread_idx.x

    var global_row = block_idx.y * TRANSPOSE_BLOCK_DIM_XY + local_row
    var global_col = block_idx.x * TRANSPOSE_BLOCK_DIM_XY + local_col

    var inp_lt = inp.to_layout_tensor()
    var output_lt = output.to_layout_tensor()
    var shared_tile_lt = shared_tile.to_layout_tensor()

    if global_row < rows and global_col < cols:
        shared_tile_lt[local_row, local_col] = inp_lt[global_row, global_col]

    barrier()

    var out_row = block_idx.x * TRANSPOSE_BLOCK_DIM_XY + local_row
    var out_col = block_idx.y * TRANSPOSE_BLOCK_DIM_XY + local_col

    # Store data from shared memory to global memory (coalesced write)
    # Note: we transpose the shared memory access pattern
    if out_row < cols and out_col < rows:
        output_lt[out_row, out_col] = shared_tile_lt[local_col, local_row]

전치 커널은 공유 메모리 tiling을 사용하여 병합 메모리 접근 패턴을 달성합니다. 핵심 구현 내용은 다음과 같습니다:

핵심 전치 패턴

# 일반 인덱싱으로 로드
shared_tile[local_row, local_col] = inp[global_row, global_col]
barrier()
# 뒤바꾼 인덱싱으로 저장하여 전치
output[out_row, out_col] = shared_tile[local_col, local_row]

전치는 공유 메모리 접근에서 뒤바꾼 인덱싱([local_row, local_col] 대신 [local_col, local_row])과 출력 위치 지정을 위한 뒤바꾼 블록 좌표를 통해 이루어집니다. 이를 통해 읽기와 쓰기 모두 병합을 유지하면서 전치 연산을 수행합니다.

2. GPU 커널 오케스트레이션


            # Step 1: Reshape Q from (d,) to (1, d) - no buffer needed
            var q_2d = q_tensor.reshape(layout_q_2d)

            # Step 2: Transpose K from (seq_len, d) to K^T (d, seq_len)\
            comptime kernel = transpose_kernel[
                seq_len, d, KTLayout, KLayout, dtype
            ]
            gpu_ctx.enqueue_function[kernel, kernel](
                k_t,
                k_tensor,
                grid_dim=transpose_blocks_per_grid,
                block_dim=transpose_threads_per_block,
            )

            # Step 3: Compute attention scores using matmul: Q @ K^T = (1, d) @ (d, seq_len) -> (1, seq_len)
            # This computes Q · K^T[i] = Q · K[i] for each column i of K^T (which is row i of K)
            # Reuse scores_weights_buf as (1, seq_len) for scores
            var scores_2d = TileTensor(scores_weights_buf, layout_scores_2d)
            comptime kernel2 = matmul_idiomatic_tiled[
                1,
                seq_len,
                d,
                Scores2DLayout,
                Q2DLayout,
                KTLayout,
                dtype,
            ]
            gpu_ctx.enqueue_function[kernel2, kernel2](
                scores_2d,
                q_2d,
                k_t,
                grid_dim=scores_blocks_per_grid,
                block_dim=matmul_threads_per_block,
            )

            # Step 4: Reshape scores from (1, seq_len) to (seq_len,) for softmax
            var weights = scores_2d.reshape(layout_scores)

            # Step 5: Apply softmax to get attention weights (in-place)
            comptime ScoresLayout = type_of(layout_scores)
            comptime kernel3 = softmax_gpu_kernel[seq_len, ScoresLayout, dtype]
            # Create two TileTensor views from the underlying buffer to avoid aliasing error
            var weights_out = TileTensor[
                mut=True, dtype, ScoresLayout, MutAnyOrigin
            ](scores_weights_buf, layout_scores)
            var weights_in = TileTensor[
                mut=True, dtype, ScoresLayout, MutAnyOrigin
            ](scores_weights_buf, layout_scores)
            gpu_ctx.enqueue_function[kernel3, kernel3](
                weights_out,
                weights_in,
                grid_dim=softmax_blocks_per_grid,
                block_dim=softmax_threads,
            )

            # Step 6: Reshape weights from (seq_len,) to (1, seq_len) for final matmul
            var weights_2d = weights.reshape(layout_weights_2d)

            # Step 7: Compute final result using matmul: weights @ V = (1, seq_len) @ (seq_len, d) -> (1, d)
            # Reuse out_tensor reshaped as (1, d) for result
            var result_2d = output_tensor.reshape(layout_result_2d)
            comptime kernel4 = matmul_idiomatic_tiled[
                1,
                d,
                seq_len,
                Result2DLayout,
                Weights2DLayout,
                VLayout,
                dtype,
            ]
            gpu_ctx.enqueue_function[kernel4, kernel4](
                result_2d,
                weights_2d,
                v_tensor,
                grid_dim=result_blocks_per_grid,
                block_dim=matmul_threads_per_block,
            )

GPU 오케스트레이션은 정교한 커널 체이닝과 제로 카피 메모리 최적화를 보여줍니다:

고급 메모리 최적화 전략

# 제로 카피 reshape - 데이터 이동 없이 텐서 shape만 재해석
q_2d = q_tensor.reshape[layout_q_2d]()
# 적극적인 버퍼 재사용 - 같은 메모리, 다른 해석
weights = scores_2d.reshape[layout_scores]()

구현은 다음을 통해 최대 메모리 효율을 달성합니다:

제로 카피 형태 변환: 메모리에서 데이터를 이동하지 않고 텐서 형태를 재해석
지능적 버퍼 재사용: 동일한 scores_weights_buf가 점수 $(1,\text{seq_len})$와 가중치 $(\text{seq_len},)$ 이중 용도로 활용
최소 할당: 단 2개의 임시 버퍼로 전체 어텐션 연산 수행
메모리 병합: 모든 연산에서 최적의 메모리 접근 패턴 유지

전략적 커널 재사용 패턴

3단계 & 7단계: 둘 다 Puzzle 16의 matmul_idiomatic_tiled 활용
- 3단계: $Q \times K^T$ → 어텐션 점수 계산 $(1,d) \times (d,\text{seq_len}) \rightarrow (1,\text{seq_len})$
- 7단계: $\text{weights} \times V$ → 최종 가중 출력 $(1,\text{seq_len}) \times (\text{seq_len},d) \rightarrow (1,d)$
- 두 연산 모두 다양한 행렬 크기를 안전하게 처리하기 위해 경계 검사 포함
5단계: Puzzle 18의 softmax_kernel 사용
- 원시 점수를 정규화된 확률 분포로 변환
- 최댓값 차감과 병렬 리덕션을 통한 수치 안정성 보장
- $\sum_{i} \text{weights}[i] = 1.0$ 보장

이는 모듈형 GPU 아키텍처의 좋은 예시입니다: 단일 구현체가 아닌, 검증된 최적화 커널들을 오케스트레이션하여 복잡한 신경망 연산을 구축합니다!

핵심 구현 인사이트

메모리 최적화 전략

적극적인 버퍼 재사용으로 메모리 할당을 최소화합니다:

# 전체 연산에 필요한 임시 버퍼는 단 2개
k_t_buf = gpu_ctx.enqueue_create_buffer[dtype](seq_len * d)
scores_weights_buf = gpu_ctx.enqueue_create_buffer[dtype](seq_len)

핵심 최적화 포인트:

동일한 scores_weights_buf가 형태 변환 연산을 통해 어텐션 점수와 가중치 모두에 재사용됩니다
제로 카피 텐서 형태 변환으로 불필요한 데이터 이동을 제거합니다

커널 재사용 아키텍처

이 퍼즐은 세 가지 특화된 커널을 결합하여 모듈형 커널 설계를 보여줍니다:

matmul_idiomatic_tiled (2회 사용) - $Q \times K^T$와 $\text{weights} \times V$ 연산 모두를 수행
softmax_kernel - 병렬 리덕션을 활용하여 수치적으로 안정적인 어텐션 가중치 계산
transpose_kernel - 병합 메모리 접근으로 효율적인 $K^T$ 계산

아키텍처의 장점:

조합 가능성: 검증된 컴포넌트로 복잡한 연산 구축
유지보수성: 각 커널이 명확하게 정의된 단일 역할 수행
성능: 이전 퍼즐의 고도로 최적화된 구현 활용
확장성: 모듈형 설계로 더 큰 어텐션 메커니즘으로 확장 용이

이 구현은 정교한 신경망 연산이 단일 구현체가 아닌, 더 단순하고 잘 검증된 GPU 커널들을 오케스트레이션하여 구축할 수 있음을 보여줍니다.

보너스 챌린지

챌린지 I: 고급 소프트맥스 구현

이 챌린지는 Puzzle 18: 소프트맥스 Op의 확장입니다

소프트맥스 구현을 확장하는 고급 챌린지들입니다:

1. 대규모 소프트맥스: `TPB < SIZE` 처리

입력 크기가 블록당 스레드 수를 초과하면(TPB < SIZE), 단일 블록이 전체 배열을 처리할 수 없어 현재 구현이 동작하지 않습니다. 이를 해결하는 두 가지 접근법이 있습니다:

1.1 버퍼 리덕션

블록 단위 결과(최댓값과 합계)를 디바이스 메모리에 저장합니다
두 번째 커널을 사용하여 이 중간 결과들에 대해 리덕션을 수행합니다
전역 최댓값과 합계를 사용하는 최종 정규화 단계를 구현합니다

1.2 2단계 소프트맥스

1차: 각 블록이 로컬 최댓값을 계산합니다
동기화 후 전역 최댓값을 계산합니다
2차: $e^{x-max}$와 로컬 합계를 계산합니다
동기화 후 전역 합계를 계산합니다
최종: 전역 합계를 사용하여 정규화합니다

2. 배치 소프트맥스

벡터 배치(2D 입력 텐서)에 대한 소프트맥스를 다음 변형으로 구현합니다:

행 단위 소프트맥스: 각 행에 독립적으로 소프트맥스를 적용합니다
열 단위 소프트맥스: 각 열에 독립적으로 소프트맥스를 적용합니다
두 구현 간의 성능 차이를 비교합니다

챌린지 II: 고급 어텐션 메커니즘

이 챌린지는 Puzzle 19: 어텐션 Op의 확장입니다

벡터 어텐션 구현을 기반으로, 어텐션 메커니즘의 한계를 넓혀보는 고급 챌린지들입니다:

1. 더 긴 시퀀스 길이

기존 커널을 사용하여 더 긴 시퀀스를 처리하도록 어텐션 메커니즘을 확장합니다:

1.1 시퀀스 길이 확장

SEQ_LEN = 32와 SEQ_LEN = 64를 처리하도록 어텐션 구현을 수정합니다
TPB(블록당 스레드 수) 파라미터를 그에 맞게 업데이트합니다
전치 커널이 더 큰 행렬 크기를 올바르게 처리하는지 확인합니다

1.2 동적 시퀀스 길이

런타임에 가변 시퀀스 길이를 처리할 수 있는 어텐션을 구현합니다
SEQ_LEN보다 짧은 시퀀스를 처리하기 위해 커널에 경계 검사를 추가합니다
고정 시퀀스 길이 처리와 동적 시퀀스 길이 처리의 성능을 비교합니다

2. 배치 벡터 어텐션

여러 어텐션 연산을 동시에 처리하도록 확장합니다:

2.1 배치 처리

여러 쿼리 벡터를 한 번에 처리하도록 어텐션 연산을 수정합니다
입력 형태: Q(batch_size, d), K(seq_len, d), V(seq_len, d)
출력 형태: (batch_size, d)
적절한 인덱싱으로 기존 커널을 재사용합니다

2.2 배치를 위한 메모리 최적화

배치 요소 간 버퍼를 재사용하여 메모리 할당을 최소화합니다
다양한 배치 크기(2, 4, 8)에서 성능을 비교합니다
메모리 사용 패턴을 분석합니다

Puzzle 20: 1D 합성곱 Op

MAX 그래프에서 PyTorch 커스텀 Op으로

GPU 퍼즐 여정의 Part V에 진입했습니다: PyTorch 커스텀 Op 통합하기.

Puzzle 17: 1D 합성곱 Op에서 MAX 그래프를 사용하여 Mojo GPU 커널을 파이썬과 연동하는 방법을 배웠습니다. 이제부터는 다음을 알아봅니다:

동일한 Mojo 커널을 PyTorch의 CustomOpLibrary로 사용하기

PyTorch의 텐서 시스템 및 오토그래드(autograd)와 통합하기

MAX 그래프와 PyTorch 방식의 커스텀 연산 비교하기

명시적 출력 텐서 할당이라는 핵심 패턴 이해하기

이 전환을 통해 동일한 최적화된 GPU 커널이 서로 다른 파이썬 통합 방식에서 어떻게 동작하는지 확인할 수 있습니다.

개요

이 퍼즐에서는 Puzzle 17: 1D 합성곱 Op의 1D 합성곱(convolution) 커널을 그대로 가져와서, MAX 그래프 대신 CustomOpLibrary를 사용하여 PyTorch와 통합합니다.

여기서 핵심은 동일한 Mojo 커널이 수정 없이 그대로 동작한다는 것입니다. MAX 그래프와 PyTorch 방식 사이에서 달라지는 것은 파이썬 통합 레이어뿐입니다.

완성할 코드

이 퍼즐을 완성하려면 커스텀 연산을 호출하는 한 줄만 채우면 됩니다:

import torch
from max.experimental.torch import CustomOpLibrary


def conv1d_pytorch(
    input_tensor: torch.Tensor, kernel_tensor: torch.Tensor
) -> torch.Tensor:
    """
    1D convolution using our custom PyTorch operation.

    This demonstrates the transition from MAX Graph (p15) to PyTorch CustomOpLibrary.
    Uses the EXACT same Mojo kernel, but different Python integration!
    """
    # Load our custom operations
    mojo_kernels = Path(__file__).parent / "op"
    ops = CustomOpLibrary(mojo_kernels)

    # Create output tensor with same shape as input
    output_tensor = torch.empty_like(input_tensor)

    # Call our custom conv1d operation with explicit output tensor
    # The Mojo signature expects: (out, input, kernel)
    _conv1d = ops.conv1d[
        {
            "input_size": input_tensor.shape[0],
            "conv_size": kernel_tensor.shape[0],
        }
    ]

    # FILL IN with 1 line of code

    return output_tensor

전체 파일 보기: problems/p20/p20.py

다음 명령으로 퍼즐을 실행할 수 있습니다:

pixi run p20

pixi run -e amd p20

uv run poe p20

성공하면 다음과 비슷한 출력을 볼 수 있습니다:

Puzzle 20: From MAX Graph to PyTorch Custom Ops
============================================================
Input array: [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14.]
Convolution kernel: [0. 1. 2. 3.]

NumPy reference result: [14. 20. 26. 32. 38. 44. 50. 56. 62. 68. 74. 80. 41. 14.  0.]

Testing PyTorch Custom Op (device: cuda)
----------------------------------------
PyTorch custom op result: [14. 20. 26. 32. 38. 44. 50. 56. 62. 68. 74. 80. 41. 14.  0.]
✅ PyTorch custom op verification PASSED

Comparing with MAX Graph approach (like p15)
--------------------------------------------
MAX Graph result: [14. 20. 26. 32. 38. 44. 50. 56. 62. 68. 74. 80. 41. 14.  0.]
✅ MAX Graph verification PASSED
✅ PyTorch and MAX Graph results MATCH

솔루션

컴파일된 커스텀 연산을 적절한 인자와 함께 호출하면 됩니다:

    # Call our custom conv1d operation with explicit output tensor
    # The Mojo signature expects: (out, input, kernel)
    conv1d = ops.conv1d[
        {
            "input_size": input_tensor.shape[0],
            "conv_size": kernel_tensor.shape[0],
        }
    ]
    torch.compile(conv1d)(output_tensor, input_tensor, kernel_tensor)

이 풀이는 몇 가지 핵심 개념을 보여줍니다:

1. torch.compile() 통합

torch.compile 통합 방식은 다음과 같습니다:

torch.compile(conv1d)(output_tensor, input_tensor, kernel_tensor)

2. 명시적 출력 텐서 할당

output_tensor = torch.empty_like(input_tensor)

MAX 그래프는 출력 할당을 자동으로 처리하지만
PyTorch CustomOpLibrary는 미리 할당된 출력 텐서가 필요합니다
Mojo 연산 시그니처는 (out, input, kernel) 순서를 기대합니다

3. 파라미터 딕셔너리

ops.conv1d[{"input_size": input_tensor.shape[0], "conv_size": kernel_tensor.shape[0]}]

파라미터는 딕셔너리 형태로 연산에 전달됩니다
이 값들은 Mojo 커널의 컴파일 타임 파라미터가 됩니다
Mojo @staticmethod fn execute 시그니처의 파라미터 이름과 일치해야 합니다

4. 같은 커널, 다른 통합 방식

내부의 Mojo 커널(conv1d_kernel)은 Puzzle 17과 동일합니다:

동일한 GPU 커널 코드
동일한 메모리 접근 패턴
동일한 연산 로직
파이썬 래퍼 레이어만 달라짐

핵심 개념

이 퍼즐은 PyTorch 커스텀 연산의 주요 패턴을 보여줍니다:

개념	MAX 그래프 (p15)	PyTorch CustomOpLibrary (p18)
출력 할당	자동	수동 (`torch.empty_like()`)
연산 호출	`ops.custom(...)`	`torch.compile(op)(...)`
파라미터 전달	`parameters={...}`	`op[{...}]`
디바이스 관리	명시적 device context	PyTorch 텐서의 device
메모리 관리	MAX 그래프 텐서	PyTorch 텐서

핵심 패턴: 명시적 출력 텐서 할당

가장 중요한 차이점은 PyTorch CustomOpLibrary가 명시적 출력 텐서 할당을 요구한다는 것입니다:

# ❌ 동작하지 않음 - 출력 텐서 없음
result = torch.compile(conv1d)(input_tensor, kernel_tensor)

# ✅ 동작함 - 미리 할당된 출력 텐서
output_tensor = torch.empty_like(input_tensor)
torch.compile(conv1d)(output_tensor, input_tensor, kernel_tensor)

이 패턴이 보장하는 것들:

올바른 디바이스에 메모리 할당
출력 텐서의 shape과 dtype이 정확
Mojo 커널이 출력 버퍼에 직접 쓰기 가능

torch.compile() 통합

torch.compile()이 필수적인 이유:

PyTorch와 Mojo 사이의 메모리 레이아웃 변환 처리
디바이스 동기화 관리 (CPU ↔ GPU)
텐서 포맷 변환 최적화
메모리 연산에 대한 적절한 오류 처리 제공

참고: torch.compile() 없이 사용하면 std::bad_alloc 오류가 발생할 수 있습니다. 이는 원시 연산이 PyTorch의 텐서 메모리 관리를 처리하지 못하기 때문입니다.

커스텀 연산 디버깅

자주 발생하는 문제와 해결 방법:

메모리 할당 오류: 항상 torch.compile()을 사용하세요
잘못된 출력 형상: 출력 텐서가 기대하는 차원과 일치하는지 확인하세요
디바이스 불일치: 모든 텐서가 같은 디바이스에 있어야 합니다
파라미터 오류: 파라미터 이름이 Mojo 연산 시그니처와 일치하는지 확인하세요

디버깅 접근법: PyTorch 결과를 동일한 커널을 실행하는 MAX 그래프 레퍼런스 구현과 비교해 보세요.

Puzzle 21: 임베딩 Op

메모리 접근 패턴과 성능

메모리 바운드 연산과 GPU 메모리 접근 최적화에 초점을 맞춰 Part V를 이어갑니다.

Puzzle 20: 1D 합성곱 Op에 이어, 동일한 연산의 서로 다른 커널 구현이 성능에 얼마나 극적인 차이를 가져올 수 있는지 알아봅니다. 배울 내용은 다음과 같습니다:

GPU 메모리 병합이 성능에 미치는 영향

메모리 바운드 연산에서 그리드 구성이 중요한 이유

최적의 메모리 접근 패턴으로 커널을 설계하는 방법

서로 다른 스레딩 전략이 가져오는 성능 차이

이 퍼즐은 어떤 연산을 수행하느냐보다 메모리에 어떻게 접근하느냐가 더 중요할 수 있음을 보여줍니다.

개요

이 퍼즐에서는 신경망의 핵심 구성 요소인 임베딩(embedding) 연산을 위한 두 가지 GPU 커널을 구현합니다. 두 커널 모두 동일한 결과를 생성하지만, 서로 다른 메모리 접근 패턴을 사용하여 상당한 성능 차이를 보입니다.

비교할 두 커널:

1D 병합(coalesced) 커널: 연속적인 메모리 접근으로 메모리 대역폭에 최적화
2D 비병합(non-coalesced) 커널: 비교를 위한 최적화되지 않은 메모리 접근 패턴

이 비교를 통해 GPU 커널 성능에서 메모리 병합이 얼마나 중요한지 체감할 수 있습니다.

배경: 임베딩 연산

임베딩 연산은 이산적인 토큰 인덱스를 밀집 벡터 표현으로 변환합니다:

# Input: token indices
indices = [[1, 5, 2], [7, 1, 9]]           # Shape: [batch_size, seq_len]

# Embedding table (learned parameters)
embedding_table = [                        # Shape: [vocab_size, embed_dim]
    [0.1, 0.2, 0.3, 0.4],  # Token 0
    [0.5, 0.6, 0.7, 0.8],  # Token 1
    [0.9, 1.0, 1.1, 1.2],  # Token 2
    # ... more tokens
]

# Output: embedded vectors
output[0,0] = embedding_table[1]  # [0.5, 0.6, 0.7, 0.8]
output[0,1] = embedding_table[5]  # lookup token 5's embedding
output[0,2] = embedding_table[2]  # [0.9, 1.0, 1.1, 1.2]
# ... and so on

이 연산은 메모리 바운드입니다. 성능은 임베딩 테이블에서 얼마나 효율적으로 읽고 출력 텐서에 쓸 수 있느냐에 달려 있습니다.

학습 경로

이 퍼즐은 체계적인 이해를 위해 두 부분으로 구성되어 있습니다:

병합 vs 비병합 커널

여기서부터 시작하여 실제 퍼즐 코드를 구현하고 커널 구현을 이해합니다.

무엇을 하게 될까요:

두 가지 GPU 임베딩 커널 완성 (1D 병합 vs 2D 비병합)
GPU 프로그래밍의 기본 메모리 접근 패턴 학습
동일한 알고리즘을 서로 다른 스레딩 전략으로 구현하는 사례 확인
Mojo에서의 커스텀 연산 등록 이해

성능 비교

커널 성능이 왜 다른지, 메모리 병합의 이론을 깊이 파고듭니다.

무엇을 배울까요:

GPU 성능에서 메모리 병합이 중요한 이유
스레드 구성이 메모리 대역폭 활용에 미치는 영향
신경망 최적화에 대한 실제 시사점
메모리 바운드 연산을 위한 최적화 전략

시작하기

GPU 메모리 최적화를 탐구할 준비가 되셨나요? 병합 vs 비병합 커널 에서 코드를 구현한 후, 성능 비교 로 넘어가 성능 차이의 원인을 이해해 보세요.

💡 성공 팁: 서로 다른 그리드 구성(1D vs 2D)이 메모리 접근 패턴에 어떤 영향을 미치는지 주의 깊게 살펴보세요. 이 통찰은 임베딩을 넘어 다양한 GPU 프로그래밍 시나리오에 적용됩니다.

임베딩 커널: 병합 vs 비병합

이 퍼즐에서는 동일한 결과를 생성하지만 서로 다른 메모리 접근 패턴을 사용하는 두 가지 GPU 임베딩 커널을 구현합니다. GPU 성능에서 메모리 병합이 얼마나 중요한지 직접 체험할 수 있습니다.

1D 병합 커널 (최적화된 접근법)

이 커널은 각 스레드가 정확히 하나의 출력 요소를 처리하는 단순한 1D 그리드를 사용합니다. 핵심은 연속된 스레드가 연속된 메모리 위치에 접근하여 최적의 메모리 병합을 달성한다는 점입니다.

스레드 구성:

그리드 구성: [total_elements // 256] 블록, 블록당 256 스레드
스레드 매핑: 각 스레드가 하나의 (batch, seq, embed) 위치 처리
메모리 패턴: 연속된 스레드가 연속된 임베딩 차원 접근

구현할 내용:

블록 인덱스와 스레드 인덱스로부터 전역 스레드 인덱스 계산
1차원 인덱스를 3D 좌표 (batch_idx, seq_idx, embed_idx)로 변환
indices 텐서에서 토큰 인덱스 조회
해당하는 임베딩 벡터 요소를 출력에 복사

완성할 코드

두 임베딩 커널의 빈 부분을 완성해야 합니다:

comptime THREADS_PER_BLOCK = 256


def embedding_kernel_coalesced[
    batch_size: Int,
    seq_len: Int,
    vocab_size: Int,
    embed_dim: Int,
    OutLayout: TensorLayout,
    IndicesLayout: TensorLayout,
    WeightsLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    indices: TileTensor[mut=False, DType.int32, IndicesLayout, MutAnyOrigin],
    weights: TileTensor[mut=False, dtype, WeightsLayout, MutAnyOrigin],
):
    """
    Memory-coalescing focused embedding kernel.

    Key insight: The bottleneck is memory access patterns, not computation.
    - Each thread handles one (batch, seq, embed) position
    - Simple 1D grid for maximum simplicity and correctness
    - Focus on getting memory access right first
    """

    # Simple 1D indexing - each thread = one output element
    var global_idx = block_idx.x * block_dim.x + thread_idx.x
    var total_elements = batch_size * seq_len * embed_dim

    if global_idx >= total_elements:
        return

    # Convert to (batch, seq, embed) coordinates
    # FILL IN roughly 4 lines

    # Get token index
    # FILL IN 1 line

    # Simple, correct assignment
    # FILL IN 4 lines

전체 파일 보기: problems/p21/op/embedding.mojo

팁

global_idx = block_idx.x * block_dim.x + thread_idx.x로 시작하세요
나눗셈과 나머지 연산으로 3D 좌표를 구합니다: batch_idx = global_idx // (seq_len * embed_dim)
remaining = global_idx % (seq_len * embed_dim)을 사용하면 이후 계산이 간단해집니다
항상 경계 검사를 하세요: if global_idx >= total_elements: return
유효하지 않은 토큰 인덱스는 출력을 0으로 설정하세요
임베딩 조회: output[batch_idx, seq_idx, embed_idx] = weights[token_idx, embed_idx]

2D 비병합 커널 (비교용 접근법)

이 커널은 X 차원이 (batch × seq) 위치를, Y 차원이 임베딩 차원을 담당하는 2D 그리드를 사용합니다. 이 방식은 메모리 접근이 병합되지 않을 수 있습니다.

스레드 구성:

그리드 구성: [batch x seq // 16, embed_dim // 16] 블록, 16 x 16 스레드
스레드 매핑: thread_idx.x는 batch/sequence에, thread_idx.y는 임베딩 차원에 매핑
메모리 패턴: 워프 내 스레드들이 흩어진 메모리 위치에 접근할 수 있음

구현할 내용:

2D 그리드에서 X, Y 좌표 계산
X 좌표를 batch 인덱스와 sequence 인덱스로 분리
Y 좌표를 임베딩 차원으로 직접 사용
경계 검사와 함께 동일한 임베딩 조회 수행

완성할 코드

두 임베딩 커널의 빈 부분을 완성해야 합니다:

def embedding_kernel_2d[
    batch_size: Int,
    seq_len: Int,
    vocab_size: Int,
    embed_dim: Int,
    OutLayout: TensorLayout,
    IndicesLayout: TensorLayout,
    WeightsLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    indices: TileTensor[mut=False, DType.int32, IndicesLayout, MutAnyOrigin],
    weights: TileTensor[mut=False, dtype, WeightsLayout, MutAnyOrigin],
):
    """
    2D grid non-coalesced embedding kernel.

    Non-optimal approach for comparison:
    - 2D grid: (batch*seq, embed_dim)
    - More complex indexing
    - Potentially worse memory access patterns
    """

    # 2D grid indexing
    var batch_seq_idx = block_idx.x * block_dim.x + thread_idx.x
    var embed_idx = block_idx.y * block_dim.y + thread_idx.y
    var total_positions = batch_size * seq_len

    if batch_seq_idx >= total_positions or embed_idx >= embed_dim:
        return

    # Convert to (batch, seq) coordinates
    # FILL IN 2 lines

    # Get token index
    # FILL IN 1 line

    # Assignment with 2D grid pattern
    # FILL IN 4 lines

전체 파일 보기: problems/p21/op/embedding.mojo

팁

X, Y 스레드 좌표를 모두 사용합니다: batch_seq_idx = block_idx.x * block_dim.x + thread_idx.x
그리고: embed_idx = block_idx.y * block_dim.y + thread_idx.y
batch_seq_idx를 batch와 sequence 인덱스로 분리합니다: batch_idx = batch_seq_idx // seq_len
두 차원 모두 경계 검사를 잊지 마세요: if batch_seq_idx >= total_positions or embed_idx >= embed_dim
토큰 조회는 1D와 동일하지만, 스레드당 하나의 임베딩 차원만 처리합니다
이 커널은 전체 벡터가 아닌 스레드당 하나의 임베딩 차원을 처리합니다

커스텀 op 등록

커널들은 PyTorch와 쉽게 통합할 수 있도록 커스텀 연산으로 래핑됩니다. 등록 패턴은 MAX 그래프 커스텀 op 이해하기에서 설명한 MAX 커스텀 op과 동일합니다:

1D 병합 연산

이 연산은 최적화된 1D 임베딩 커널을 "embedding"으로 등록합니다:

import compiler
from std.runtime.asyncrt import DeviceContextPtr
from tensor import InputTensor, OutputTensor
from std.memory import UnsafePointer
from std.gpu.host import DeviceBuffer


@compiler.register("embedding")
struct EmbeddingCustomOp:
    @staticmethod
    def execute[
        target: StaticString,
        batch_size: Int,
        seq_len: Int,
        vocab_size: Int,
        embed_dim: Int,
    ](
        output: OutputTensor[
            dtype=DType.float32, rank=3, static_spec=_
        ],  # [batch_size, seq_len, embed_dim]
        indices: InputTensor[
            dtype=DType.int32, rank=2, static_spec=_
        ],  # [batch_size, seq_len]
        weights: InputTensor[
            dtype=output.dtype, rank=2, static_spec=_
        ],  # [vocab_size, embed_dim]
        ctx: DeviceContextPtr,
    ) raises:
        comptime out_layout_val = row_major[batch_size, seq_len, embed_dim]()
        comptime OutLayout = type_of(out_layout_val)
        comptime indices_layout_val = row_major[batch_size, seq_len]()
        comptime IndicesLayout = type_of(indices_layout_val)
        comptime weights_layout_val = row_major[vocab_size, embed_dim]()
        comptime WeightsLayout = type_of(weights_layout_val)

        var output_tensor = TileTensor[
            mut=True, output.dtype, OutLayout, MutAnyOrigin
        ](output.unsafe_ptr(), out_layout_val)
        var indices_tensor = TileTensor[
            mut=True, DType.int32, IndicesLayout, MutAnyOrigin
        ](indices.unsafe_ptr(), indices_layout_val)
        var weights_tensor = TileTensor[
            mut=True, output.dtype, WeightsLayout, MutAnyOrigin
        ](weights.unsafe_ptr(), weights_layout_val)

        comptime if target == "gpu":
            var gpu_ctx = ctx.get_device_context()

            # Zero out output tensor
            gpu_ctx.enqueue_memset(
                DeviceBuffer[output.dtype](
                    gpu_ctx,
                    output.unsafe_ptr(),
                    batch_size * seq_len * embed_dim,
                    owning=False,
                ),
                0,
            )

            # Calculate 1D grid dimensions (matching kernel's flat indexing)
            var total_elements = batch_size * seq_len * embed_dim
            var blocks = max(1, ceildiv(total_elements, THREADS_PER_BLOCK))

            # Compile and launch optimized kernel
            comptime kernel = embedding_kernel_coalesced[
                batch_size,
                seq_len,
                vocab_size,
                embed_dim,
                OutLayout,
                IndicesLayout,
                WeightsLayout,
                output.dtype,
            ]
            var compiled_kernel = gpu_ctx.compile_function[kernel, kernel]()

            gpu_ctx.enqueue_function(
                compiled_kernel,
                output_tensor,
                indices_tensor,
                weights_tensor,
                grid_dim=(blocks,),
                block_dim=(THREADS_PER_BLOCK,),
            )

        elif target == "cpu":
            for batch in range(batch_size):
                for seq in range(seq_len):
                    var token_idx_val = Int(indices_tensor[batch, seq])
                    if token_idx_val >= 0 and token_idx_val < vocab_size:
                        for emb in range(embed_dim):
                            output_tensor[batch, seq, emb] = weights_tensor[
                                token_idx_val, emb
                            ]
        else:
            raise Error("Unsupported target: " + target)

등록의 핵심 요소:

단순한 그리드 구성: ceildiv(total_elements, THREADS_PER_BLOCK) 블록으로 직관적인 1D 그리드 사용
메모리 최적화: 단일 enqueue_memset 호출로 출력 버퍼를 효율적으로 초기화
컴파일 타임 파라미터: 모든 텐서 차원을 컴파일 타임 파라미터로 전달하여 최적 성능 달성
디바이스 추상화: GPU 실행과 CPU 폴백을 매끄럽게 처리

2D 비병합 연산

이 연산은 비교용 2D 임베딩 커널을 "embedding_2d"로 등록합니다:

@compiler.register("embedding_2d")
struct Embedding2DCustomOp:
    @staticmethod
    def execute[
        target: StaticString,
        batch_size: Int,
        seq_len: Int,
        vocab_size: Int,
        embed_dim: Int,
    ](
        output: OutputTensor[
            dtype=DType.float32, rank=3, static_spec=_
        ],  # [batch_size, seq_len, embed_dim]
        indices: InputTensor[
            dtype=DType.int32, rank=2, static_spec=_
        ],  # [batch_size, seq_len]
        weights: InputTensor[
            dtype=output.dtype, rank=2, static_spec=_
        ],  # [vocab_size, embed_dim]
        ctx: DeviceContextPtr,
    ) raises:
        comptime out_layout_val = row_major[batch_size, seq_len, embed_dim]()
        comptime OutLayout = type_of(out_layout_val)
        comptime indices_layout_val = row_major[batch_size, seq_len]()
        comptime IndicesLayout = type_of(indices_layout_val)
        comptime weights_layout_val = row_major[vocab_size, embed_dim]()
        comptime WeightsLayout = type_of(weights_layout_val)

        var output_tensor = TileTensor[
            mut=True, output.dtype, OutLayout, MutAnyOrigin
        ](output.unsafe_ptr(), out_layout_val)
        var indices_tensor = TileTensor[
            mut=True, DType.int32, IndicesLayout, MutAnyOrigin
        ](indices.unsafe_ptr(), indices_layout_val)
        var weights_tensor = TileTensor[
            mut=True, output.dtype, WeightsLayout, MutAnyOrigin
        ](weights.unsafe_ptr(), weights_layout_val)

        comptime if target == "gpu":
            var gpu_ctx = ctx.get_device_context()

            # Zero out output tensor
            gpu_ctx.enqueue_memset(
                DeviceBuffer[output.dtype](
                    gpu_ctx,
                    output.unsafe_ptr(),
                    batch_size * seq_len * embed_dim,
                    owning=False,
                ),
                0,
            )

            # Calculate 2D grid dimensions for non-coalesced access
            var total_positions = batch_size * seq_len
            comptime BLOCK_X = 16  # batch*seq dimension
            comptime BLOCK_Y = 16  # embed dimension
            var blocks_x = max(1, ceildiv(total_positions, BLOCK_X))
            var blocks_y = max(1, ceildiv(embed_dim, BLOCK_Y))

            # Compile and launch 2D kernel
            comptime kernel = embedding_kernel_2d[
                batch_size,
                seq_len,
                vocab_size,
                embed_dim,
                OutLayout,
                IndicesLayout,
                WeightsLayout,
                output.dtype,
            ]

            var compiled_kernel = gpu_ctx.compile_function[kernel, kernel]()

            gpu_ctx.enqueue_function(
                compiled_kernel,
                output_tensor,
                indices_tensor,
                weights_tensor,
                grid_dim=(blocks_x, blocks_y),
                block_dim=(BLOCK_X, BLOCK_Y),
            )

        elif target == "cpu":
            # Same CPU fallback as 1D version
            for batch in range(batch_size):
                for seq in range(seq_len):
                    var token_idx_val = Int(indices_tensor[batch, seq])
                    if token_idx_val >= 0 and token_idx_val < vocab_size:
                        for emb in range(embed_dim):
                            output_tensor[batch, seq, emb] = weights_tensor[
                                token_idx_val, emb
                            ]
        else:
            raise Error("Unsupported target: " + target)

1D 연산과의 주요 차이점:

복잡한 그리드 구성: blocks_x와 blocks_y를 별도로 계산하는 2D 그리드 사용
고정 블록 차원: 2D 스레드 구성을 위해 BLOCK_X = 16, BLOCK_Y = 16으로 고정
동일한 메모리 관리: 메모리 초기화와 CPU 폴백 로직은 동일
다른 커널 호출 방식: 2D 그리드 차원 (blocks_x, blocks_y)과 블록 차원 (BLOCK_X, BLOCK_Y) 전달

공통 래퍼 기능

두 커스텀 연산은 다음과 같은 필수 인프라를 제공합니다:

메모리 관리:
- enqueue_memset으로 출력 텐서 0 초기화
- 적절한 버퍼 생성과 메모리 레이아웃 처리
- 자동 정리 및 리소스 관리
디바이스 추상화:
- 최적화된 커널로 GPU 실행
- 호환성과 디버깅을 위한 CPU 폴백
- 실행 대상에 관계없이 일관된 인터페이스
파라미터 전달:
- 커널 최적화를 위한 컴파일 타임 텐서 차원
- 레이아웃 텐서 변환을 통한 런타임 텐서 데이터
- 타입 안전한 파라미터 검증
그리드 구성:
- 최적의 그리드 차원 자동 계산
- 각 커널의 접근 패턴에 최적화된 서로 다른 전략
- 적절한 블록 차원 관리

PyTorch 통합

등록된 연산은 CustomOpLibrary를 통해 파이썬에서 호출할 수 있습니다:

# Load the custom operations
ops = CustomOpLibrary(mojo_kernels)

# Call the 1D coalesced version
result_1d = ops.embedding[{"batch_size": B, "seq_len": L, "vocab_size": V, "embed_dim": E}](
    indices, weights
)

# Call the 2D non-coalesced version
result_2d = ops.embedding_2d[{"batch_size": B, "seq_len": L, "vocab_size": V, "embed_dim": E}](
    indices, weights
)

이 접근법의 장점은 동일한 커널 구현을 다양한 파이썬 프레임워크에서 사용하면서도 최적의 성능 특성을 유지할 수 있다는 것입니다.

코드 실행

다음 명령으로 퍼즐을 실행할 수 있습니다:

pixi run p21

pixi run -e amd p21

uv run poe p21

성공하면 다음과 비슷한 출력을 볼 수 있습니다:

Puzzle 21: Mojo Embedding Kernel Comparison
======================================================================
Configuration: B=8, L=512, V=10000, E=512
------------------------------------------------------------

Testing Correctness...
   1D Coalesced - Max difference: 1.19e-07
   2D Non-coalesced - Max difference: 1.19e-07
   ✅ Both implementations CORRECT

Benchmarking Mojo Kernels...

Performance Results:
   1D Coalesced:     2.145 ms
   2D Non-coalesced: 3.867 ms
   1D is 1.80x faster than 2D

Key Learning Points:
• Compare different GPU kernel implementations
• 1D vs 2D grid patterns have different memory access
• Coalesced memory access should be faster
• Grid configuration affects GPU utilization

솔루션

두 커널의 좌표 변환과 메모리 연산을 구현하면 됩니다:

1D 병합 커널

def embedding_kernel_coalesced[
    batch_size: Int,
    seq_len: Int,
    vocab_size: Int,
    embed_dim: Int,
    OutLayout: TensorLayout,
    IndicesLayout: TensorLayout,
    WeightsLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    indices: TileTensor[mut=True, DType.int32, IndicesLayout, MutAnyOrigin],
    weights: TileTensor[mut=True, dtype, WeightsLayout, MutAnyOrigin],
):
    """
    Memory-coalescing focused embedding kernel.

    Key insight: The bottleneck is memory access patterns, not computation.
    - Each thread handles one (batch, seq, embed) position
    - Simple 1D grid for maximum simplicity and correctness
    - Focus on getting memory access right first
    """

    # Simple 1D indexing - each thread = one output element
    var global_idx = block_idx.x * block_dim.x + thread_idx.x
    var total_elements = batch_size * seq_len * embed_dim

    if global_idx >= total_elements:
        return

    var output_lt = output.to_layout_tensor()
    var indices_lt = indices.to_layout_tensor()
    var weights_lt = weights.to_layout_tensor()

    # Convert to (batch, seq, embed) coordinates
    var batch_idx = global_idx // (seq_len * embed_dim)
    var remaining = global_idx % (seq_len * embed_dim)
    var seq_idx = remaining // embed_dim
    var embed_idx = remaining % embed_dim

    # Get token index
    var token_idx_val = Int(indices_lt[batch_idx, seq_idx])

    # Simple, correct assignment
    if token_idx_val >= 0 and token_idx_val < vocab_size:
        output_lt[batch_idx, seq_idx, embed_idx] = weights_lt[
            token_idx_val, embed_idx
        ]
    else:
        output_lt[batch_idx, seq_idx, embed_idx] = 0

2D 비병합 커널

def embedding_kernel_2d[
    batch_size: Int,
    seq_len: Int,
    vocab_size: Int,
    embed_dim: Int,
    OutLayout: TensorLayout,
    IndicesLayout: TensorLayout,
    WeightsLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    indices: TileTensor[mut=True, DType.int32, IndicesLayout, MutAnyOrigin],
    weights: TileTensor[mut=True, dtype, WeightsLayout, MutAnyOrigin],
):
    """
    2D grid non-coalesced embedding kernel.

    Non-optimal approach for comparison:
    - 2D grid: (batch*seq, embed_dim)
    - More complex indexing
    - Potentially worse memory access patterns
    """

    # 2D grid indexing
    var batch_seq_idx = block_idx.x * block_dim.x + thread_idx.x
    var embed_idx = block_idx.y * block_dim.y + thread_idx.y

    var total_positions = batch_size * seq_len

    # Bounds check
    if batch_seq_idx >= total_positions or embed_idx >= embed_dim:
        return

    var output_lt = output.to_layout_tensor()
    var indices_lt = indices.to_layout_tensor()
    var weights_lt = weights.to_layout_tensor()

    # Convert to (batch, seq) coordinates
    var batch_idx = batch_seq_idx // seq_len
    var seq_idx = batch_seq_idx % seq_len

    # Get token index
    var token_idx_val = Int(indices_lt[batch_idx, seq_idx])

    # Assignment with 2D grid pattern
    if token_idx_val >= 0 and token_idx_val < vocab_size:
        output_lt[batch_idx, seq_idx, embed_idx] = weights_lt[
            token_idx_val, embed_idx
        ]
    else:
        output_lt[batch_idx, seq_idx, embed_idx] = 0

두 풀이 모두 동일한 임베딩 조회 로직을 구현하지만 스레드 구성이 다릅니다:

주요 차이점

스레드 매핑:
- 1D 커널: 출력 요소당 하나의 스레드, 단순한 1차원 인덱싱
- 2D 커널: (batch×seq, embed_dim) 좌표에 대한 2D 그리드 매핑
메모리 접근 패턴:
- 1D 커널: 연속된 스레드가 연속된 임베딩 차원에 접근 → 병합됨
- 2D 커널: 스레드 접근 패턴이 블록 구성에 따라 달라짐 → 병합되지 않을 수 있음
인덱싱 복잡도:
- 1D 커널: 단일 나눗셈/나머지 체인으로 3D 좌표 계산
- 2D 커널: X/Y 좌표를 별도로 계산

성능에 미치는 영향

1D 커널이 일반적으로 더 높은 성능을 보이는 이유:

메모리 병합: 연속된 스레드가 연속된 메모리 주소에 접근
단순한 인덱싱: 좌표 계산의 연산 오버헤드가 낮음
더 나은 캐시 활용: 예측 가능한 메모리 접근 패턴

2D 커널의 성능이 떨어질 수 있는 이유:

흩어진 메모리 접근: 워프 내 스레드들이 서로 다른 임베딩 벡터에 접근할 수 있음
복잡한 그리드 구성: 16×16 블록이 메모리 레이아웃과 최적으로 맞지 않을 수 있음
워프 분기: 서로 다른 스레드가 서로 다른 실행 경로를 따를 수 있음

핵심 개념

개념	1D 병합	2D 비병합
스레드 구성	1D 1차원 인덱싱	2D 그리드 (batch×seq, embed)
메모리 접근	연속된 주소	흩어질 수 있음
그리드 구성	단순: `[total_elements // 256]`	복잡: `[batch×seq // 16, embed // 16]`
성능	메모리 대역폭에 최적화	최적화되지 않은 메모리 패턴
사용 목적	프로덕션 커널	교육용 비교

핵심 교훈: 메모리 병합은 임베딩과 같은 메모리 바운드 연산에서 2~3배의 성능 차이를 가져올 수 있습니다.

성능: 병합 vs 비병합 메모리 접근

메모리 접근 패턴을 이해하는 것은 GPU 성능 최적화의 핵심입니다. 이 섹션에서는 임베딩 조회와 같은 메모리 바운드 연산에서 병합 메모리 접근 패턴이 왜 비병합 패턴보다 뛰어난 성능을 보이는지 설명합니다.

메모리 병합 기초

메모리 병합은 워프 내 연속된 스레드가 연속된 메모리 주소에 접근할 때 발생합니다. GPU는 이러한 개별 메모리 요청을 더 적은 수의 대용량 메모리 트랜잭션으로 결합하여 대역폭 활용도를 크게 향상시킵니다.

병합 vs 비병합 접근

병합 (효율적):

- Thread 0 → Address 0x1000
- Thread 1 → Address 0x1004
- Thread 2 → Address 0x1008
- Thread 3 → Address 0x100C
- ...

결과: 워프 전체(32개 스레드)에 대해 1번의 메모리 트랜잭션

비병합 (비효율적):

- Thread 0 → Address 0x1000
- Thread 1 → Address 0x2000
- Thread 2 → Address 0x3000
- Thread 3 → Address 0x4000
- ...

결과: 최대 32번의 개별 메모리 트랜잭션

임베딩 연산이 메모리 바운드인 이유

임베딩 조회는 다음과 같은 특성 때문에 메모리 바운드입니다:

최소한의 연산: 하는 일이라곤 입력 데이터를 출력으로 복사하는 것뿐
큰 메모리 풋프린트: 임베딩 테이블은 수 기가바이트에 달할 수 있음
높은 메모리 대역폭 요구: 대량의 데이터 전송이 필요

이러한 연산에서는 연산 복잡도보다 메모리 접근 효율이 성능을 결정합니다.

커널 비교

1D 병합 커널

스레드 구성: [total_elements // 256] 블록, 출력 요소당 하나의 스레드
메모리 패턴: 연속된 스레드가 연속된 임베딩 차원에 접근
왜 병합되는가: Thread 0: output[0,0,0], Thread 1: output[0,0,1] → 연속된 주소

2D 비병합 커널

스레드 구성: [batch*seq // 16, embed_dim // 16] 블록, 16×16 스레드
메모리 패턴: 스레드들이 서로 다른 임베딩 벡터에 접근할 수 있음
왜 비병합인가: 스레드 접근 패턴이 메모리 전체에 흩어질 수 있음

성능 결과

일반적인 벤치마크 결과:

Performance Results:
   1D Coalesced:     2.145 ms
   2D Non-coalesced: 3.867 ms
   1D is 1.80x faster than 2D

메모리 접근 시각화

병합 패턴 (1D 커널)

output[0,0,0:32]에 대한 워프 실행:

요소	스레드 ID	메모리 접근	주소 패턴
`output[0,0,0]`	0	`[0,0]`	Base + 0
`output[0,0,1]`	1	`[0,1]`	Base + 4
`output[0,0,2]`	2	`[0,2]`	Base + 8
`output[0,0,3]`	3	`[0,3]`	Base + 12
…	…	…	…
`output[0,0,31]`	31	`[0,31]`	Base + 124

결과: 연속된 주소 → 워프 전체에 대해 1번의 메모리 트랜잭션

비병합 패턴 (2D 커널)

16×16 블록의 워프 실행:

Block organization (16×16):
    X-dim: batch*seq positions (0-15)
    Y-dim: embed dimensions (0-15)

Warp threads might access:
    Thread 0:  batch=0, seq=0, embed=0  → Address A
    Thread 1:  batch=0, seq=1, embed=0  → Address B (different row)
    Thread 2:  batch=0, seq=2, embed=0  → Address C (different row)
    ...
    Thread 31: batch=1, seq=15, embed=0 → Address Z (scattered)

결과: 흩어진 주소 → 여러 번의 메모리 트랜잭션

핵심 최적화 전략

메모리 바운드 연산에서는 가능한 한 1D 인덱싱을 선호하세요
병합에 유리하도록 데이터 구조를 정렬하세요
커널 설계 시 메모리 접근 패턴을 고려하세요
병목 지점을 파악하기 위해 메모리 대역폭을 프로파일링하세요
최적화 효과를 검증하기 위해 메모리 바운드 벤치마크를 활용하세요

핵심 통찰: 특히 임베딩과 같은 메모리 바운드 연산에서는 연산 복잡도보다 메모리 접근 패턴이 GPU 성능을 결정하는 경우가 많습니다.

Puzzle 22: 커널 퓨전과 커스텀 역방향 패스

커널 퓨전과 오토그래드 통합

커널 퓨전 과 오토그래드 통합에 초점을 맞춰 Part V를 이어갑니다.

Puzzle 21: 임베딩 Op에 이어, 여러 연산을 하나의 효율적인 커널로 결합하고 이를 PyTorch의 오토그래드 시스템과 통합하는 방법을 알아봅니다. 배울 내용은 다음과 같습니다:

커널 퓨전이 순방향 패스(forward pass)와 역방향 패스(backward pass) 모두에서 성능을 개선하는 원리

퓨전 연산에 커스텀 역방향 패스가 필수적인 이유

적절한 기울기 흐름을 갖춘 퓨전 커널 설계 방법

서로 다른 퓨전 전략이 가져오는 성능 차이

이 퍼즐은 연산을 어떻게 결합하느냐가 어떻게 구현하느냐만큼 중요할 수 있음을 보여줍니다.

개요

이 퍼즐에서는 순방향 패스와 역방향 패스를 모두 포함하는 퓨전 LayerNorm + Linear 연산을 구현합니다. 퓨전과 언퓨전 구현 모두 동일한 결과를 생성하지만, 서로 다른 전략을 사용하여 상당한 성능 차이를 보입니다.

비교할 내용:

언퓨전 방식: LayerNorm과 Linear를 별도의 커널로 실행
퓨전 커널: 하나의 커널에서 두 연산을 결합하여 실행
커스텀 역방향 패스: 퓨전 연산을 위한 기울기 계산

이 비교를 통해 딥러닝 연산에서 커널 퓨전과 적절한 기울기 계산이 얼마나 중요한지 체감할 수 있습니다.

배경: LayerNorm + Linear 연산

LayerNorm과 Linear는 트랜스포머 아키텍처의 핵심 연산으로, 특히 어텐션 메커니즘과 피드포워드 네트워크에서 빈번하게 사용됩니다. 일반적인 사용 방식은 다음과 같습니다:

import torch
import torch.nn.functional as F

# Input: hidden states
x = torch.randn(batch_size, seq_len, hidden_dim)

# LayerNorm parameters
ln_weight = torch.ones(hidden_dim)  # scale parameter (γ)
ln_bias = torch.zeros(hidden_dim)   # shift parameter (β)

# Linear layer parameters
linear_weight = torch.randn(output_dim, hidden_dim)
linear_bias = torch.zeros(output_dim)

# Unfused operations (with autograd)
ln_output = F.layer_norm(x, [hidden_dim], weight=ln_weight, bias=ln_bias)
output = F.linear(ln_output, linear_weight, linear_bias)

# Fused operation (custom implementation)
# This is what you'll implement in this puzzle
output_fused = fused_layernorm_linear(x, ln_weight, ln_bias, linear_weight, linear_bias)

퓨전 연산으로 결합하면 하나의 효율적인 커널에서 다음과 같은 이점을 얻을 수 있습니다:

메모리 대역폭 사용량 절감
커널 실행 오버헤드 최소화
캐시 활용도 향상
중간 결과 저장을 위한 메모리 할당 제거

실제로 이러한 퓨전은 순방향 패스와 역방향 패스 모두에서 최대 1.5~2배의 속도 향상을 제공할 수 있으며, 이는 트랜스포머 학습 효율에 매우 중요합니다.

커스텀 역방향 패스가 중요한 이유

PyTorch의 오토그래드 시스템은 개별 연산에 대한 기울기를 자동으로 계산하지만, 퓨전 연산에는 다음과 같은 이유로 커스텀 역방향 패스가 필요합니다:

수치 안정성 유지
적절한 기울기 흐름 보장
메모리 접근 패턴 최적화
기울기 누적을 위한 원자적 연산 처리

학습 경로

이 퍼즐은 체계적인 이해를 위해 두 부분으로 구성되어 있습니다:

퓨전 vs 언퓨전 커널

여기서부터 시작하여 퓨전 순방향 커널을 구현하고 커널 퓨전의 이점을 이해합니다.

무엇을 하게 될까요:

언퓨전과 퓨전 순방향 커널 모두 구현
핵심 커널 퓨전 기법 학습
동일한 연산을 서로 다른 전략으로 구현하는 사례 확인
퓨전이 가져오는 성능 차이 이해
최적 성능을 위한 메모리 접근 패턴 학습

오토그래드 통합과 역방향 패스

오토그래드 통합과 기울기 계산을 깊이 파고듭니다.

무엇을 배울까요:

커스텀 역방향 패스 구현 방법
적절한 기울기 흐름이 중요한 이유
학습 효율에 대한 실제 시사점
역방향 연산을 위한 최적화 전략
기울기 계산의 수학적 기초
기울기 누적을 위한 원자적 연산
역방향 패스에서의 수치 안정성

시작하기

커널 퓨전과 오토그래드 통합을 탐구할 준비가 되셨나요? 퓨전 vs 언퓨전 커널 에서 퓨전 커널을 구현한 후, 오토그래드 통합과 역방향 패스 로 넘어가 기울기 계산을 이해해 보세요.

이 퍼즐에는 다음을 검증하는 종합 테스트 프레임워크가 포함되어 있습니다:

순방향 패스와 역방향 패스 모두에서 PyTorch 구현과의 수치적 정확도
CPU와 GPU 구현 간의 성능 비교
모든 파라미터(입력, LayerNorm 가중치/바이어스, Linear 가중치/바이어스)에 대한 기울기 계산 정확도
커널 퓨전을 통한 메모리 사용량 최적화

💡 성공 팁: 서로 다른 구현 방식(퓨전 vs 언퓨전)이 순방향 패스와 역방향 패스 성능 모두에 어떤 영향을 미치는지 주의 깊게 살펴보세요. 이 통찰은 LayerNorm + Linear를 넘어 다양한 딥러닝 연산에 적용됩니다. 특히 역방향 패스 구현은 학습 효율과 수치 안정성에 직접적인 영향을 미치므로 매우 중요합니다.

⚛️ 퓨전 vs 언퓨전 커널

개요

이 퍼즐에서는 LayerNorm과 Linear 연산에 대한 두 가지 접근 방식을 구현하고 비교하며, 커널 퓨전의 성능 이점을 탐구합니다:

언퓨전 방식: LayerNorm과 Linear를 별도의 연산으로 실행
퓨전 커널: LayerNorm과 Linear 연산을 하나의 GPU 커널로 결합

이 비교를 통해 커널 퓨전이 다음과 같은 방법으로 성능을 크게 개선할 수 있음을 보여줍니다:

메모리 대역폭 사용량 절감
커널 실행 오버헤드 최소화
캐시 활용도 향상
중간 결과 저장을 위한 메모리 할당 제거

핵심 개념

이 퍼즐에서 배울 내용:

여러 연산을 결합하는 커널 퓨전 기법
퓨전 연산을 통한 메모리 대역폭 최적화
서로 다른 커널 구현의 성능 벤치마킹
퓨전 연산에서의 수치 안정성
PyTorch 커스텀 연산 통합

결합할 수학적 연산은 다음과 같습니다:

LayerNorm: \[\Large \text{LayerNorm}(x) = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta \]
Linear: \[\Large \text{Linear}(x) = Wx + b \]

퓨전 연산으로 결합하면 다음을 계산합니다: \[\Large \text{Fused}(x) = W(\gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta) + b \]

LayerNorm 이해하기

LayerNorm은 심층 신경망의 학습을 안정화하고 가속하는 정규화 기법입니다. 구성 요소와 파라미터를 하나씩 살펴보겠습니다:

LayerNorm이 하는 일

정규화: LayerNorm은 각 샘플의 특성(은닉 차원, hidden dimension) 전체에 걸쳐 활성화 값을 독립적으로 정규화합니다. 구체적으로:
- 각 시퀀스 위치에서 은닉 차원에 대한 통계량을 계산합니다
- 배치의 각 샘플은 독립적으로 정규화됩니다
- 배치 차원에 대해 정규화하는 BatchNorm과는 다릅니다
파라미터:
- $\gamma$ (scale): 네트워크가 각 특성의 최적 스케일을 학습할 수 있게 하는 학습 가능한 파라미터 벡터
- $\beta$ (shift): 네트워크가 각 특성의 최적 이동량을 학습할 수 있게 하는 학습 가능한 파라미터 벡터
- $\epsilon$: 0으로 나누는 것을 방지하기 위해 분산에 더하는 작은 상수 (1e-5)

LayerNorm의 실제 역할

LayerNorm은 심층 신경망에서 여러 중요한 기능을 수행합니다:

특성 표준화:
- 각 특성을 평균 0, 분산 1로 변환합니다
- 네트워크의 학습 과정을 더 안정적으로 만듭니다
- 학습 중 레이어 입력의 분포가 변하는 “내부 공변량 이동(internal covariate shift)” 문제를 방지합니다
기울기 흐름:
- 네트워크를 통한 기울기 흐름을 개선합니다
- 기울기 소실/폭발 문제를 방지합니다
- 더 높은 학습률을 사용할 수 있어 학습 효율이 향상됩니다
정규화 효과:
- 암묵적인 정규화 역할을 합니다
- 특성 분포를 정규화하여 과적합을 방지합니다
- 입력 변동에 대한 네트워크의 강건성을 높입니다
시퀀스 모델링:
- 트랜스포머 아키텍처에서 특히 효과적입니다
- 서로 다른 시퀀스 길이에서도 일관된 신호 크기를 유지합니다
- 가변 길이 시퀀스를 더 잘 처리할 수 있게 합니다
학습 역학:
- 학습 수렴을 가속합니다
- 세밀한 학습률 조정의 필요성을 줄입니다
- 가중치 초기화에 대한 네트워크의 민감도를 낮춥니다

수학적 구성 요소

평균 계산 ($\mu$): \[\Large \mu = \frac{1}{H} \sum_{i=1}^{H} x_i \]
- 은닉 차원(H)에 걸쳐 평균을 계산합니다
- 각 시퀀스 위치마다 고유한 평균을 가집니다
분산 계산 ($\sigma^2$): \[\Large \sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2 \]
- 은닉 차원에 걸쳐 분산을 계산합니다
- 정규화된 값의 스케일링에 사용됩니다
정규화와 스케일링: \[\Large \text{LayerNorm}(x) = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta \]
- 먼저 입력을 평균 0, 분산 1로 정규화합니다
- 그런 다음 학습 가능한 scale ($\gamma$)과 shift ($\beta$) 파라미터를 적용합니다
- $\odot$ 기호는 요소별 곱셈(아다마르 곱)을 나타냅니다
- 예를 들어, $\gamma = [1.2, 0.8, 1.5]$이고 정규화된 입력이 $[0.5, -0.3, 0.7]$이면, $\gamma \odot x = [0.6, -0.24, 1.05]$입니다

LayerNorm이 중요한 이유

학습 안정성:
- 활성화 값이 너무 크거나 작아지는 것을 방지합니다
- 네트워크 전체에 걸쳐 일관된 신호 크기를 유지합니다
특성 학습:
- scale ($\gamma$)과 shift ($\beta$) 파라미터를 통해 어떤 특성이 중요한지 학습할 수 있습니다
- 특정 특성을 무시하거나 강조하는 것을 효과적으로 학습할 수 있습니다
독립성:
- BatchNorm과 달리, LayerNorm의 통계량은 각 샘플에 대해 독립적으로 계산됩니다
- 가변 길이 시퀀스와 작은 배치 크기에 더 적합합니다

구성

배치 크기: BATCH_SIZE = 4
시퀀스 길이: SEQ_LEN = 4
은닉 차원: HIDDEN_DIM = 8
출력 차원: OUTPUT_DIM = 16
엡실론: EPS = 1e-5
데이터 타입: DType.float32

구현 방식

1. 언퓨전 구현

언퓨전 방식은 여러 커널을 사용하여 연산을 개별적으로 실행합니다. 이전 챕터에서 작성한 커널들을 살펴보겠습니다:

행렬 곱셈 커널

Puzzle 16: 행렬 곱셈 (MatMul)에서 사용한 타일링 행렬 곱셈 커널을 선형 변환에 재사용합니다. 이 커널은 다양한 행렬 크기를 안전하게 처리하기 위한 경계 검사를 포함합니다:

# Idiomatic tiled matmul from p19.mojo
def matmul_idiomatic_tiled[
    rows: Int,
    cols: Int,
    inner: Int,
    OutLayout: TensorLayout,
    ALayout: TensorLayout,
    BLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, ALayout, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, BLayout, MutAnyOrigin],
):
    """Idiomatic tiled matrix multiplication from p19."""
    var local_row = thread_idx.y
    var local_col = thread_idx.x
    var tiled_row = block_idx.y * MATMUL_BLOCK_DIM_XY + local_row
    var tiled_col = block_idx.x * MATMUL_BLOCK_DIM_XY + local_col

    # Get the tile of the output matrix that this thread block is responsible for
    var out_tile = output.tile[MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY](
        block_idx.y, block_idx.x
    )
    comptime shared_layout = row_major[
        MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY
    ]()
    var a_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](shared_layout)
    var b_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](shared_layout)
    var acc: output.ElementType = 0

    comptime load_a_layout = row_major[
        MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY
    ]()  # Coalesced loading
    comptime load_b_layout = row_major[
        MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY
    ]()  # Coalesced loading

    comptime for idx in range(
        (inner + MATMUL_BLOCK_DIM_XY - 1) // MATMUL_BLOCK_DIM_XY
    ):
        # Get tiles from A and B matrices
        var a_tile = a.tile[MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY](
            block_idx.y, idx
        )
        var b_tile = b.tile[MATMUL_BLOCK_DIM_XY, MATMUL_BLOCK_DIM_XY](
            idx, block_idx.x
        )

        # Asynchronously copy tiles to shared memory with consistent orientation
        copy_dram_to_sram_async[
            thread_layout=load_a_layout,
            num_threads=MATMUL_NUM_THREADS,
            block_dim_count=MATMUL_BLOCK_DIM_COUNT,
        ](a_shared, a_tile)
        copy_dram_to_sram_async[
            thread_layout=load_b_layout,
            num_threads=MATMUL_NUM_THREADS,
            block_dim_count=MATMUL_BLOCK_DIM_COUNT,
        ](b_shared, b_tile)

        # Wait for all async copies to complete
        async_copy_wait_all()
        barrier()

        # Compute partial matrix multiplication for this tile
        comptime for k in range(MATMUL_BLOCK_DIM_XY):
            if (
                tiled_row < rows and tiled_col < cols
            ):  # Only perform calculation for valid outputs
                if k < a_tile.dim(
                    1
                ):  # Only perform calculation on valid inputs
                    acc += a_shared[local_row, k] * b_shared[k, local_col]

        barrier()

    # Write final result with bounds checking (needed for variable matrix sizes)
    if tiled_row < rows and tiled_col < cols:
        out_tile[local_row, local_col] = acc

전치 커널

효율적인 메모리 접근 패턴을 위해 공유 메모리 타일링을 사용하는 전치 커널입니다:

def transpose_kernel[
    rows: Int,
    cols: Int,
    OutLayout: TensorLayout,
    InLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    inp: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
):
    """Transpose matrix using shared memory tiling for coalesced access.
    We will learn more about coalesced access in the next part.
    """
    comptime shared_layout = row_major[
        TRANSPOSE_BLOCK_DIM_XY, TRANSPOSE_BLOCK_DIM_XY
    ]()
    var shared_tile = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](shared_layout)

    var local_row = thread_idx.y
    var local_col = thread_idx.x

    var global_row = block_idx.y * TRANSPOSE_BLOCK_DIM_XY + local_row
    var global_col = block_idx.x * TRANSPOSE_BLOCK_DIM_XY + local_col

    if global_row < rows and global_col < cols:
        shared_tile[local_row, local_col] = inp[global_row, global_col]

    barrier()

    var out_row = block_idx.x * TRANSPOSE_BLOCK_DIM_XY + local_row
    var out_col = block_idx.y * TRANSPOSE_BLOCK_DIM_XY + local_col

    # Store data from shared memory to global memory (coalesced write)
    # Note: we transpose the shared memory access pattern
    if out_row < cols and out_col < rows:
        output[out_row, out_col] = shared_tile[local_col, local_row]

Bias 합산 커널

Bias 항을 더하는 간단한 요소별 합산 커널입니다:

def add_bias_kernel[
    batch_size: Int,
    seq_len: Int,
    output_dim: Int,
    OutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    BiasLayout: TensorLayout,
](
    output: TileTensor[mut=True, dtype, OutputLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InputLayout, MutAnyOrigin],
    bias: TileTensor[mut=False, dtype, BiasLayout, ImmutAnyOrigin],
):
    """Simple bias addition."""
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y
    var out_idx = thread_idx.x

    if batch_idx >= batch_size or seq_idx >= seq_len or out_idx >= output_dim:
        return

    output[batch_idx, seq_idx, out_idx] = input[
        batch_idx, seq_idx, out_idx
    ] + rebind[Scalar[dtype]](bias[out_idx])

LayerNorm 커널

이제 이 커널을 완성하여 LayerNorm 연산을 구현합니다. 다음이 필요합니다:

각 시퀀스 위치에 대한 평균 $\mu$과 분산 $\sigma^2$ 계산
이 통계량을 사용하여 입력 정규화
스케일 $\gamma$과 시프트 $\beta$ 파라미터 적용

def layernorm_kernel[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    OutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
](
    output: TileTensor[mut=True, dtype, OutputLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InputLayout, ImmutAnyOrigin],
    ln_weight: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
    ln_bias: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
):
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y
    var hidden_idx = thread_idx.x

    if (
        batch_idx >= batch_size
        or seq_idx >= seq_len
        or hidden_idx >= hidden_dim
    ):
        return

    # Compute statistics for this sequence position (redundant but simple)
    var sum_val: Scalar[dtype] = 0
    var sq_sum: Scalar[dtype] = 0

    # FILL ME IN (roughly 11 lines)

구현 단계:

먼저, 병렬 리덕션을 사용하여 평균과 분산을 계산합니다
그런 다음, 이 통계량으로 입력을 정규화합니다
마지막으로, 스케일과 시프트 파라미터를 적용합니다

언퓨전 방식의 특성:

여러 번의 커널 실행 (LayerNorm → MatMul → Bias)
연산 간 중간 텐서 할당
별도의 패스로 인한 메모리 대역폭 사용량 증가
관심사 분리가 명확한 간결한 구현
각 연산이 격리되어 디버깅이 용이

팁

스레드 구성:
- 시퀀스 위치당 하나의 스레드 블록 사용 (그리드: [batch_size, seq_len])
- 각 스레드가 하나의 은닉 차원 요소를 처리
- 시퀀스당 통계량을 한 번만 계산하여 중복 연산 방지
메모리 접근:
- 입력 텐서: [batch_idx, seq_idx, hidden_idx]로 접근
- 출력 텐서: [batch_idx, seq_idx, hidden_idx]로 접근
- LayerNorm 파라미터: [hidden_idx]로 접근
수치 안정성:
- 제곱근을 취하기 전에 엡실론(1e-5)을 더합니다
- 적절한 타입 캐스팅을 위해 rebind[Scalar[dtype]] 사용
- 분산은 (sq_sum / hidden_dim) - (mean * mean)으로 계산
성능:
- 한 번의 패스로 평균과 분산을 동시에 계산
- 계산된 통계량을 시퀀스 내 모든 요소에 재사용
- 불필요한 메모리 배리어 방지

코드 실행

언퓨전 구현을 테스트하려면 다음을 실행하세요:

pixi run p22 --unfused

pixi run -e amd p22 --unfused

uv run poe p22 --unfused

출력은 다음과 같습니다:

Testing with dimensions: [4, 4, 8] -> [4, 4, 16]
✅ Loaded Mojo operations library
============================================================
   Puzzle 22: UNFUSED Algorithm Test & Benchmark
============================================================

🧪 Correctness Testing for UNFUSED Algorithm
====================================================

Testing Reference PyTorch Implementation
-----------------------------------------------
✅ Reference PyTorch
   Max difference: 0.00e+00
   Result: ✅ CORRECT

Testing CPU Implementation
---------------------------------
✅ Using Mojo fused kernel (CPU)
   Max difference: 1.86e-08
   Result: ✅ CORRECT

Testing GPU Unfused Implementation
-----------------------------------------
✅ Using Mojo unfused kernel (GPU)
   Max difference: 1.86e-08
   Result: ✅ CORRECT

Correctness Summary:
   - Reference:   ✅ CORRECT
   - CPU:         ✅ CORRECT
   - GPU unfused: ✅ CORRECT

   Overall Correctness: ✅ ALL CORRECT

Benchmarking CPU vs GPU UNFUSED
------------------------------------------
   Testing CPU performance...
   CPU: 3173.70ms (50 iterations)
   Testing GPU unfused performance...
   GPU unfused: 3183.57ms (50 iterations)

   GPU unfused vs CPU: 1.00x slower
   CPU wins (GPU overhead > computation benefit)

UNFUSED Algorithm Test Completed!

솔루션

def layernorm_kernel[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    OutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutputLayout, MutAnyOrigin],
    input: TileTensor[mut=True, dtype, InputLayout, MutAnyOrigin],
    ln_weight: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
    ln_bias: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
):
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y
    var hidden_idx = thread_idx.x

    if (
        batch_idx >= batch_size
        or seq_idx >= seq_len
        or hidden_idx >= hidden_dim
    ):
        return

    var output_lt = output.to_layout_tensor()
    var input_lt = input.to_layout_tensor()
    var ln_weight_lt = ln_weight.to_layout_tensor()
    var ln_bias_lt = ln_bias.to_layout_tensor()

    # Compute statistics for this sequence position (redundant but simple)
    var sum_val: Scalar[dtype] = 0
    var sq_sum: Scalar[dtype] = 0

    comptime for h in range(hidden_dim):
        var val = input_lt[batch_idx, seq_idx, h]
        sum_val += rebind[Scalar[dtype]](val)
        sq_sum += rebind[Scalar[dtype]](val * val)

    var mean_val = sum_val / hidden_dim
    var var_val = (sq_sum / hidden_dim) - (mean_val * mean_val)
    var inv_std = 1.0 / sqrt(var_val + 1e-5)

    # Apply LayerNorm to this element
    var input_val = input_lt[batch_idx, seq_idx, hidden_idx]
    var normalized = (input_val - mean_val) * inv_std * rebind[Scalar[dtype]](
        ln_weight_lt[hidden_idx]
    ) + rebind[Scalar[dtype]](ln_bias_lt[hidden_idx])
    output_lt[batch_idx, seq_idx, hidden_idx] = normalized

언퓨전 구현은 각 스레드가 출력 텐서의 하나의 요소를 처리하는 직관적인 방식을 따릅니다. 핵심 구성 요소를 하나씩 살펴보겠습니다:

스레드와 블록 구성:
```
batch_idx = block_idx.x
seq_idx = block_idx.y
hidden_idx = thread_idx.x
```
- 각 스레드 블록이 배치 내 하나의 시퀀스 위치를 처리합니다
- 그리드 차원: [batch_size, seq_len]
- 각 스레드가 은닉 차원의 하나의 요소를 처리합니다
- 인덱스가 범위를 벗어나면 조기 반환합니다:
```
if (batch_idx >= batch_size or seq_idx >= seq_len or hidden_idx >= hidden_dim):
    return
```

통계량 계산:

var sum_val: Scalar[dtype] = 0
var sq_sum: Scalar[dtype] = 0

@parameter
for h in range(hidden_dim):
    val = input[batch_idx, seq_idx, h]
    sum_val += rebind[Scalar[dtype]](val)
    sq_sum += rebind[Scalar[dtype]](val * val)

한 번의 패스로 합계와 제곱합을 동시에 계산합니다
컴파일 타임 루프 전개를 위해 @parameter를 사용합니다
rebind[Scalar[dtype]]로 적절한 타입 캐스팅을 수행합니다

평균과 분산을 계산합니다:

mean_val = sum_val / hidden_dim
var_val = (sq_sum / hidden_dim) - (mean_val * mean_val)
inv_std = 1.0 / sqrt(var_val + 1e-5)

정규화와 스케일링:
```
input_val = input[batch_idx, seq_idx, hidden_idx]
normalized = (input_val - mean_val) * inv_std * rebind[Scalar[dtype]](
    ln_weight[hidden_idx]
) + rebind[Scalar[dtype]](ln_bias[hidden_idx])
output[batch_idx, seq_idx, hidden_idx] = normalized
```
- 정규화를 적용합니다: \[\Large \text{normalized} = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta \]
- 학습 가능한 파라미터 γ (ln_weight)로 스케일링합니다
- 학습 가능한 bias β (ln_bias)를 더합니다
- 결과를 출력 텐서에 저장합니다
성능 특성:
- 각 스레드가 독립적으로 통계량을 계산합니다
- 공유 메모리 사용 없음 (간단하지만 덜 효율적)
- 메모리 접근 패턴:
  - 입력: [batch_idx, seq_idx, h]
  - 출력: [batch_idx, seq_idx, hidden_idx]
  - 파라미터: [hidden_idx]
- 다음을 통해 수치 안정성을 보장합니다:
  - 제곱근 전에 엡실론(1e-5) 추가
  - 적절한 타입 캐스팅 사용
  - 수치적으로 안정적인 방식으로 분산 계산
구현 세부 사항:
- 타입 안전성:
  - 중간 계산에 Scalar[dtype] 사용
  - 적절한 타입 캐스팅을 위해 rebind[Scalar[dtype]] 사용
  - 일관된 부동소수점 정밀도 보장
- 메모리 접근:
  - 입력 텐서에서 병합 읽기
  - 출력 텐서에 병합 쓰기
  - LayerNorm 파라미터에 순차적 접근
- 연산 흐름:
  - 통계량 계산: \[\Large O(H) \text{ operations per thread} \]
  - 정규화: \[\Large O(1) \text{ operations per thread} \]
  - 전체 복잡도: \[\Large O(H) \text{ per output element} \]
- 한계점:
  - 통계량의 중복 계산
  - 중간 결과를 위한 공유 메모리 없음
  - 높은 메모리 대역폭 사용량
  - 여러 번의 커널 실행 필요

이 구현은 정확하지만 성능 면에서 최적이 아니며, 벤치마크 결과에서 CPU 버전보다 약간 느린 것을 확인할 수 있습니다. 퓨전 구현에서는 다음을 통해 이러한 성능 한계를 해결합니다:

시퀀스당 통계량을 한 번만 계산
정규화된 값 재사용
메모리 트래픽 감소
중간 텐서 할당 제거

2. 퓨전 커널 구현

퓨전 커널은 LayerNorm과 Linear 연산을 하나의 GPU 커널로 결합합니다:

def minimal_fused_kernel[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    output_dim: Int,
    OutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
    WeightLayout: TensorLayout,
    BiasLayout: TensorLayout,
](
    output: TileTensor[mut=True, dtype, OutputLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InputLayout, ImmutAnyOrigin],
    ln_weight: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
    ln_bias: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
    linear_weight: TileTensor[mut=False, dtype, WeightLayout, ImmutAnyOrigin],
    linear_bias: TileTensor[mut=False, dtype, BiasLayout, ImmutAnyOrigin],
):
    """Minimal fused kernel - one thread per sequence position to avoid redundancy.
    """
    # Grid: (batch_size, seq_len) - one thread block per sequence position
    # Block: (1,) - single thread per sequence position to avoid redundant computation
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y

    if batch_idx >= batch_size or seq_idx >= seq_len:
        return

    # Step 1: Compute LayerNorm statistics once per sequence position

    # FILL IN roughly 10 lines

    # Step 2: Compute all outputs for this sequence position

    # FILL IN roughly 10 lines

핵심 최적화:

두 번 대신 한 번의 커널 실행
중간 결과를 위한 공유 메모리 활용
병합 메모리 접근 패턴
메모리 대역폭 사용량 절감
중간 텐서 할당 불필요

팁

스레드 구성:
- 시퀀스 위치당 하나의 스레드 블록 (그리드: [batch_size, seq_len])
- 중복을 방지하기 위해 시퀀스 위치당 단일 스레드
- 각 시퀀스 위치의 모든 출력을 하나의 스레드에서 계산
메모리 접근:
- 입력 텐서: [batch_idx, seq_idx, h]로 접근
- 출력 텐서: [batch_idx, seq_idx, out_idx]로 접근
- 가중치: 선형 레이어에서 [out_idx, h]로 접근
연산 흐름:
- 시퀀스당 LayerNorm 통계량을 한 번만 계산
- 모든 출력 차원에 정규화된 값을 재사용
- 정규화와 선형 변환을 결합
성능:
- 통계량의 중복 계산 방지
- 연산을 결합하여 메모리 트래픽 최소화
- rebind[Scalar[dtype]]로 적절한 타입 캐스팅 사용

코드 실행

퓨전 구현을 테스트하려면 다음을 실행하세요:

pixi run p22 --fused

pixi run -e amd p22 --fused

uv run poe p22 --fused

출력은 다음과 같습니다:

Testing with dimensions: [4, 4, 8] -> [4, 4, 16]
✅ Loaded Mojo operations library
============================================================
   Puzzle 22: FUSED Algorithm Test & Benchmark
============================================================

🧪 Correctness Testing for FUSED Algorithm
==================================================

Testing Reference PyTorch Implementation
-----------------------------------------------
✅ Reference PyTorch
   Max difference: 0.00e+00
   Result: ✅ CORRECT

Testing CPU Implementation
---------------------------------
✅ Using Mojo fused kernel (CPU)
   Max difference: 1.86e-08
   Result: ✅ CORRECT

Testing GPU Fused Implementation
---------------------------------------
✅ Using Mojo fused kernel (GPU)
   Max difference: 1.86e-08
   Result: ✅ CORRECT

Correctness Summary:
   - Reference:   ✅ CORRECT
   - CPU:         ✅ CORRECT
   - GPU fused: ✅ CORRECT

   Overall Correctness: ✅ ALL CORRECT

⚡ Benchmarking CPU vs GPU FUSED
----------------------------------------
   Testing CPU performance...
   CPU: 3144.75ms (50 iterations)
   Testing GPU fused performance...
   GPU fused: 3116.11ms (50 iterations)

   GPU fused vs CPU: 1.01x faster
   GPU fused wins!

FUSED Algorithm Test Completed!

솔루션

def minimal_fused_kernel[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    output_dim: Int,
    OutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
    WeightLayout: TensorLayout,
    BiasLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    output: TileTensor[mut=True, dtype, OutputLayout, MutAnyOrigin],
    input: TileTensor[mut=True, dtype, InputLayout, MutAnyOrigin],
    ln_weight: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
    ln_bias: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
    linear_weight: TileTensor[mut=True, dtype, WeightLayout, MutAnyOrigin],
    linear_bias: TileTensor[mut=True, dtype, BiasLayout, MutAnyOrigin],
):
    """Minimal fused kernel - one thread per sequence position to avoid redundancy.
    """
    # Grid: (batch_size, seq_len) - one thread block per sequence position
    # Block: (1,) - single thread per sequence position to avoid redundant computation
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y

    if batch_idx >= batch_size or seq_idx >= seq_len:
        return

    var output_lt = output.to_layout_tensor()
    var input_lt = input.to_layout_tensor()
    var ln_weight_lt = ln_weight.to_layout_tensor()
    var ln_bias_lt = ln_bias.to_layout_tensor()
    var linear_weight_lt = linear_weight.to_layout_tensor()
    var linear_bias_lt = linear_bias.to_layout_tensor()

    # Step 1: Compute LayerNorm statistics once per sequence position
    var sum_val: Scalar[dtype] = 0
    var sq_sum: Scalar[dtype] = 0

    comptime for h in range(hidden_dim):
        var val = input_lt[batch_idx, seq_idx, h]
        sum_val += rebind[Scalar[dtype]](val)
        sq_sum += rebind[Scalar[dtype]](val * val)

    var mean_val = sum_val / hidden_dim
    var var_val = (sq_sum / hidden_dim) - (mean_val * mean_val)
    var inv_std = 1.0 / sqrt(var_val + 1e-5)

    # Step 2: Compute all outputs for this sequence position
    comptime for out_idx in range(output_dim):
        var acc: Scalar[dtype] = 0

        comptime for h in range(hidden_dim):
            var input_val = input_lt[batch_idx, seq_idx, h]
            var normalized = (input_val - mean_val) * inv_std * rebind[
                Scalar[dtype]
            ](ln_weight_lt[h]) + rebind[Scalar[dtype]](ln_bias_lt[h])
            acc += rebind[Scalar[dtype]](
                normalized * linear_weight_lt[out_idx, h]
            )

        output_lt[batch_idx, seq_idx, out_idx] = acc + rebind[Scalar[dtype]](
            linear_bias_lt[out_idx]
        )

퓨전 구현은 연산들을 효율적으로 결합합니다:

스레드 구성:
- 시퀀스 위치당 하나의 스레드 블록 (그리드: [batch_size, seq_len])
- 시퀀스 위치당 단일 스레드
- 스레드 인덱스: batch_idx = block_idx.x, seq_idx = block_idx.y
LayerNorm 단계:
- 시퀀스 위치에 대한 합계와 제곱합 계산
- 평균 계산: \[\Large \mu = \frac{1}{H} \sum_{i=1}^{H} x_i \]
- 분산 계산: \[\Large \sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2 \]
- 역표준편차 계산: \[\Large \text{inv_std} = \frac{1}{\sqrt{\sigma^2 + \epsilon}} \]
Linear 단계:
- 각 출력 차원에 대해:
  - 정규화된 값 계산: \[\Large \text{normalized} = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta \]
  - 선형 가중치와 곱하고 누적: \[\Large \text{acc} = \sum_{h=1}^{H} \text{normalized}h \cdot W{out,h} \]
  - 선형 bias 추가: \[\Large \text{output} = \text{acc} + b_{out} \]
- 결과를 output[batch_idx, seq_idx, out_idx]에 저장
성능 최적화:
- 두 연산을 위한 단일 커널 실행
- 계산된 통계량 재사용
- 메모리 트래픽 최소화
- 중간 텐서 할당 불필요
- 효율적인 메모리 접근 패턴

이 구현은 메모리 대역폭 사용량과 커널 실행 오버헤드를 줄여 언퓨전 버전보다 더 나은 성능을 달성합니다.

커널 퓨전의 장점

이 퍼즐에서 LayerNorm + Linear 연산을 구현하는 두 가지 방식을 살펴보았습니다:

언퓨전 구현:
- LayerNorm과 Linear를 별도의 커널로 실행
- 구현이 간단하지만 덜 효율적
- 높은 메모리 대역폭 사용량
- 여러 번의 커널 실행
- 벤치마크 결과: 3183.57ms (GPU)
퓨전 구현:
- 두 연산을 결합한 단일 커널
- 더 복잡하지만 훨씬 효율적
- 메모리 대역폭 사용량 절감
- 단일 커널 실행
- 벤치마크 결과: 3116.11ms (GPU)

메모리 대역폭 최적화

메모리 트래픽 제거:
- 연산 간 중간 텐서 할당 불필요
- 전역 메모리 읽기/쓰기 감소
- 선형 변환을 위한 정규화된 값 재사용
- 메모리 대역폭 절감률: \[\Large \text{reduction} = \frac{\text{unfused_bandwidth} - \text{fused_bandwidth}}{\text{unfused_bandwidth}}\]
캐시 효율:
- L1/L2 캐시 활용도 향상
- 캐시 미스 감소
- 개선된 메모리 접근 패턴
- 더 높은 산술 강도

오버헤드 감소

커널 실행 최적화:
- 여러 번 대신 단일 커널 실행
- 드라이버 오버헤드 감소
- 동기화 지점 감소
- 메모리 할당 횟수 감소
리소스 관리:
- 연산 간 공유 메모리 재사용
- 레지스터 활용도 향상
- 스레드 점유율 개선
- GPU 활용률 향상

성능 특성

확장성:
- 입력 크기에 따른 성능 확장성 향상
- 메모리 대역폭 병목 감소
- GPU 리소스의 더 효율적인 활용
- 대규모 모델에서 처리량 향상
수치적 효율:
- 수치 안정성 유지
- 반올림 오차 감소
- 중간 결과의 정밀도 향상
- 최적화된 연산 순서

💡 핵심 통찰: 커널 퓨전은 트랜스포머 아키텍처의 LayerNorm + Linear처럼 신경망에서 자주 함께 사용되는 연산에 특히 유리합니다. 입력 크기가 크고 모델이 복잡할수록 성능 이점은 더욱 커집니다.

⛓️ 오토그래드 통합과 역방향 패스

개요

이 퍼즐에서는 퓨전 LayerNorm + Linear 연산의 역방향 패스(backward pass) 구현을 살펴봅니다. 역방향 패스는 다음에 대한 기울기를 계산합니다:

입력 텐서
LayerNorm 스케일 ($\gamma$)과 시프트 ($\beta$) 파라미터
Linear 레이어의 가중치 행렬과 bias

구현할 수학적 연산은 다음과 같습니다:

LayerNorm 역방향 패스 (유도 과정의 상세 내용은 LayerNorm 역방향 패스의 상세 유도 참조): \[\Large \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \odot \gamma \odot \frac{1}{\sqrt{\sigma^2 + \epsilon}} (1 - \frac{1}{H} - \frac{(x - \mu)^2}{H(\sigma^2 + \epsilon)}) \]
Linear 역방향 패스: \[\Large \frac{\partial L}{\partial W} = \frac{\partial L}{\partial y}x^T \] \[\Large \frac{\partial L}{\partial b} = \frac{\partial L}{\partial y} \] \[\Large \frac{\partial L}{\partial x} = W^T\frac{\partial L}{\partial y} \]
퓨전 연산의 연쇄 법칙: \[\Large \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y_{linear}} \frac{\partial y_{linear}}{\partial y_{norm}} \frac{\partial y_{norm}}{\partial x} \] 여기서:

$y_{norm}$은 LayerNorm 출력
$y_{linear}$은 Linear 레이어 출력
연쇄 법칙이 두 연산을 통한 적절한 기울기 흐름을 보장

핵심 개념

스레드 구성:
- 시퀀스 위치당 하나의 스레드 블록 (그리드: [batch_size, seq_len])
- 중복을 방지하기 위해 시퀀스 위치당 단일 스레드
- 각 시퀀스 위치의 모든 기울기를 하나의 스레드에서 계산
- 원자적 연산을 위한 적절한 스레드 동기화 보장
메모리 접근:
- 입력 텐서: [batch_idx, seq_idx, h]로 접근
- 출력 텐서: [batch_idx, seq_idx, out_idx]로 접근
- 가중치: 선형 레이어에서 [out_idx, h]로 접근
- 원자적 연산을 위한 메모리 정렬 보장
- 자주 접근하는 데이터에 공유 메모리 사용
연산 흐름:
- 순방향 패스와 동일한 순서로 LayerNorm 통계량 계산
- 모든 출력 차원에 정규화된 값 재사용
- 정규화와 선형 변환 결합
- 전체 과정에서 수치 안정성 유지
- 엣지 케이스를 적절히 처리
성능:
- 통계량의 중복 계산 방지
- 연산을 결합하여 메모리 트래픽 최소화
- rebind[Scalar[dtype]]로 적절한 타입 캐스팅 사용
- 적절한 메모리 정렬 보장
- 오토그래드 통합에 최적화

구성

배치 크기: BATCH_SIZE = 4
시퀀스 길이: SEQ_LEN = 4
은닉 차원: HIDDEN_DIM = 8
출력 차원: OUTPUT_DIM = 16
엡실론: EPS = 1e-5
데이터 타입: DType.float32

구현 (고급)

퓨전 역방향 패스 커널은 LayerNorm과 Linear의 역방향 패스 연산을 하나의 GPU 커널로 결합합니다. 이 구현은 다음을 신중하게 다뤄야 하는 도전적인 과제입니다:

기울기 누적을 위한 원자적 연산
기울기 계산에서의 수치 안정성
효율적인 GPU 활용을 위한 메모리 접근 패턴
연산 간 적절한 동기화

def minimal_fused_kernel_backward[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    output_dim: Int,
    GradInputLayout: TensorLayout,
    GradLnWeightLayout: TensorLayout,
    GradLnBiasLayout: TensorLayout,
    GradWeightLayout: TensorLayout,
    GradBiasLayout: TensorLayout,
    GradOutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
    WeightLayout: TensorLayout,
](
    grad_input: TileTensor[mut=True, dtype, GradInputLayout, MutAnyOrigin],
    grad_ln_weight: TileTensor[
        mut=True, dtype, GradLnWeightLayout, MutAnyOrigin
    ],
    grad_ln_bias: TileTensor[mut=True, dtype, GradLnBiasLayout, MutAnyOrigin],
    grad_weight: TileTensor[mut=True, dtype, GradWeightLayout, MutAnyOrigin],
    grad_bias: TileTensor[mut=True, dtype, GradBiasLayout, MutAnyOrigin],
    grad_output: TileTensor[mut=False, dtype, GradOutputLayout, ImmutAnyOrigin],
    input: TileTensor[mut=False, dtype, InputLayout, ImmutAnyOrigin],
    ln_weight: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
    ln_bias: TileTensor[mut=False, dtype, LnParamsLayout, ImmutAnyOrigin],
    linear_weight: TileTensor[mut=False, dtype, WeightLayout, ImmutAnyOrigin],
):
    """Fused backward kernel using atomic operations for safe gradient accumulation.
    """
    # Grid: (batch_size, seq_len) - one thread per sequence position
    # Block: (1,) - single thread per sequence position
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y

    if batch_idx >= batch_size or seq_idx >= seq_len:
        return

    # Initialize gradient tensors to zero (block 0,0 only to avoid UB with atomic ops)
    if batch_idx == 0 and seq_idx == 0:
        # Initialize grad_ln_weight and grad_ln_bias
        comptime for h in range(hidden_dim):
            (grad_ln_weight.ptr + h).init_pointee_copy(0)
            (grad_ln_bias.ptr + h).init_pointee_copy(0)

        # Initialize grad_weight and grad_bias
        comptime for out_idx in range(output_dim):
            (grad_bias.ptr + out_idx).init_pointee_copy(0)

            comptime for h in range(hidden_dim):
                (grad_weight.ptr + out_idx * hidden_dim + h).init_pointee_copy(
                    0
                )

    # Note: We cannot use barrier() here as it only synchronizes within a block.
    # The atomic operations will handle synchronization across blocks.

    # Step 1: Recompute forward pass statistics (needed for gradients)
    var sum_val: Scalar[dtype] = 0
    var sq_sum: Scalar[dtype] = 0

    # FILL IN roughly 8 lines

    # Step 2: Atomically accumulate gradients w.r.t. linear bias

    # FILL IN roughly 4 lines

    # Step 3: Atomically accumulate gradients w.r.t. linear weight
    # Make sure to use the correct atomic operation to avoid race conditions

    # FILL IN roughly 10 lines

    # Step 4: Atomically accumulate gradients w.r.t. LayerNorm parameters

    # FILL IN roughly 10 lines

    # Step 5: Compute gradients w.r.t. input (LayerNorm backward)
    # Compute sum terms needed for LayerNorm backward
    # Make sure to use the correct atomic operation to avoid race conditions

    # FILL IN roughly 12 lines

    # Compute actual input gradients (no race conditions here - each thread writes to different positions)

    # FILL IN roughly 10 lines

핵심 최적화:

모든 기울기 계산을 위한 단일 커널 실행
안전한 기울기 누적을 위한 원자적 연산
병합 메모리 접근 패턴
메모리 대역폭 사용량 절감
중간 텐서 할당 불필요

팁

스레드 구성:
- 시퀀스 위치당 하나의 스레드 블록
- 시퀀스 위치당 단일 스레드
- 모든 기울기를 하나의 스레드에서 계산
메모리 접근:
- 입력/출력 텐서에 대한 병합 접근
- 가중치 행렬에 대한 stride 접근
- 원자적 연산을 위한 적절한 정렬
연산 흐름:
- 순방향 패스와 동일한 순서로 통계량 계산
- 정규화된 값 재사용
- 수치 안정성 유지
성능:
- 메모리 트래픽 최소화
- 적절한 타입 캐스팅 사용
- 적절한 정렬 보장

코드 실행

퓨전 역방향 패스 구현을 테스트하려면 다음을 실행하세요:

pixi run p22 --backward

pixi run -e amd p22 --backward

uv run poe p22 --backward

출력은 다음과 같습니다:

Testing with dimensions: [4, 4, 8] -> [4, 4, 16]
✅ Loaded Mojo operations library
============================================================
           Comprehensive Backward Pass Test
           Testing Custom LayerNorm + Linear Gradients
============================================================
Testing with dimensions: [4, 4, 8] -> [4, 4, 16]

Testing CPU Backward Pass:

Testing CPU Backward Implementation - Backward Pass
---------------------------------------------------------
   Computing PyTorch autograd reference...
   Computing Mojo backward implementation (CPU)...
✅ CPU Backward Implementation backward completed
   Forward max difference: 1.49e-08
   grad_input: 2.98e-08 ✅
   grad_ln_weight: 5.96e-08 ✅
   grad_ln_bias: 2.38e-07 ✅
   grad_linear_weight: 9.54e-07 ✅
   grad_linear_bias: 0.00e+00 ✅

   Forward pass: ✅ CORRECT
   Gradients:    ✅ CORRECT
   Overall:      ✅ CORRECT

Testing GPU Backward Pass:

Testing GPU Backward Implementation - Backward Pass
---------------------------------------------------------
   Computing PyTorch autograd reference...
   Computing Mojo backward implementation (GPU)...

✅ GPU Backward Implementation backward completed
   Forward max difference: 1.86e-08
   grad_input: 4.47e-08 ✅
   grad_ln_weight: 5.96e-08 ✅
   grad_ln_bias: 3.58e-07 ✅
   grad_linear_weight: 9.54e-07 ✅
   grad_linear_bias: 0.00e+00 ✅

   Forward pass: ✅ CORRECT
   Gradients:    ✅ CORRECT
   Overall:      ✅ CORRECT

Backward Pass Test Summary:
   - CPU Backward:  ✅ CORRECT
   - GPU Backward:  ✅ CORRECT

   Overall Result: ✅ ALL CORRECT

BACKWARD PASS Test Completed!

솔루션

def minimal_fused_kernel_backward[
    batch_size: Int,
    seq_len: Int,
    hidden_dim: Int,
    output_dim: Int,
    GradInputLayout: TensorLayout,
    GradLnWeightLayout: TensorLayout,
    GradLnBiasLayout: TensorLayout,
    GradWeightLayout: TensorLayout,
    GradBiasLayout: TensorLayout,
    GradOutputLayout: TensorLayout,
    InputLayout: TensorLayout,
    LnParamsLayout: TensorLayout,
    WeightLayout: TensorLayout,
    dtype: DType = DType.float32,
](
    grad_input: TileTensor[mut=True, dtype, GradInputLayout, MutAnyOrigin],
    grad_ln_weight: TileTensor[
        mut=True, dtype, GradLnWeightLayout, MutAnyOrigin
    ],
    grad_ln_bias: TileTensor[mut=True, dtype, GradLnBiasLayout, MutAnyOrigin],
    grad_weight: TileTensor[mut=True, dtype, GradWeightLayout, MutAnyOrigin],
    grad_bias: TileTensor[mut=True, dtype, GradBiasLayout, MutAnyOrigin],
    grad_output: TileTensor[mut=True, dtype, GradOutputLayout, MutAnyOrigin],
    input: TileTensor[mut=True, dtype, InputLayout, MutAnyOrigin],
    ln_weight: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
    ln_bias: TileTensor[mut=True, dtype, LnParamsLayout, MutAnyOrigin],
    linear_weight: TileTensor[mut=True, dtype, WeightLayout, MutAnyOrigin],
):
    """Fused backward kernel using atomic operations for safe gradient accumulation.
    """
    # Grid: (batch_size, seq_len) - one thread per sequence position
    # Block: (1,) - single thread per sequence position
    var batch_idx = block_idx.x
    var seq_idx = block_idx.y

    if batch_idx >= batch_size or seq_idx >= seq_len:
        return

    var grad_input_lt = grad_input.to_layout_tensor()
    var grad_ln_weight_lt = grad_ln_weight.to_layout_tensor()
    var grad_ln_bias_lt = grad_ln_bias.to_layout_tensor()
    var grad_weight_lt = grad_weight.to_layout_tensor()
    var grad_bias_lt = grad_bias.to_layout_tensor()
    var grad_output_lt = grad_output.to_layout_tensor()
    var input_lt = input.to_layout_tensor()
    var ln_weight_lt = ln_weight.to_layout_tensor()
    var ln_bias_lt = ln_bias.to_layout_tensor()
    var linear_weight_lt = linear_weight.to_layout_tensor()

    # Initialize gradient tensors to zero (block 0,0 only to avoid UB with atomic ops)
    if batch_idx == 0 and seq_idx == 0:
        # Initialize grad_ln_weight and grad_ln_bias
        comptime for h in range(hidden_dim):
            (grad_ln_weight.ptr + h).init_pointee_copy(0)
            (grad_ln_bias.ptr + h).init_pointee_copy(0)

        # Initialize grad_weight and grad_bias
        comptime for out_idx in range(output_dim):
            (grad_bias.ptr + out_idx).init_pointee_copy(0)

            comptime for h in range(hidden_dim):
                (grad_weight.ptr + out_idx * hidden_dim + h).init_pointee_copy(
                    0
                )

    # Note: We cannot use barrier() here as it only synchronizes within a block.
    # The atomic operations will handle synchronization across blocks.

    # Step 1: Recompute forward pass statistics (needed for gradients)
    var sum_val: Scalar[dtype] = 0
    var sq_sum: Scalar[dtype] = 0

    comptime for h in range(hidden_dim):
        var val = input_lt[batch_idx, seq_idx, h]
        sum_val += rebind[Scalar[dtype]](val)
        sq_sum += rebind[Scalar[dtype]](val * val)

    var mean_val = sum_val / hidden_dim
    var var_val = (sq_sum / hidden_dim) - (mean_val * mean_val)
    var inv_std = 1.0 / sqrt(var_val + 1e-5)

    # Step 2: Atomically accumulate gradients w.r.t. linear bias
    comptime for out_idx in range(output_dim):
        var grad_bias_ptr = grad_bias.ptr + out_idx
        _ = Atomic[dtype].fetch_add(
            grad_bias_ptr,
            rebind[Scalar[dtype]](grad_output_lt[batch_idx, seq_idx, out_idx]),
        )

    # Step 3: Atomically accumulate gradients w.r.t. linear weight
    comptime for out_idx in range(output_dim):
        comptime for h in range(hidden_dim):
            var input_val = input_lt[batch_idx, seq_idx, h]
            var normalized = (input_val - mean_val) * inv_std
            var ln_output_val = normalized * rebind[Scalar[dtype]](
                ln_weight_lt[h]
            ) + rebind[Scalar[dtype]](ln_bias_lt[h])

            # Atomic gradient accumulation for linear weight
            var grad_w = (
                grad_output_lt[batch_idx, seq_idx, out_idx] * ln_output_val
            )
            var grad_weight_ptr = grad_weight.ptr + out_idx * hidden_dim + h
            _ = Atomic.fetch_add(grad_weight_ptr, rebind[Scalar[dtype]](grad_w))

    # Step 4: Atomically accumulate gradients w.r.t. LayerNorm parameters
    comptime for h in range(hidden_dim):
        input_val = input_lt[batch_idx, seq_idx, h]
        normalized = (input_val - mean_val) * inv_std

        # Compute gradient w.r.t. LayerNorm output for this h
        var grad_ln_out: Scalar[dtype] = 0

        comptime for out_idx in range(output_dim):
            grad_ln_out = grad_ln_out + rebind[Scalar[dtype]](
                grad_output_lt[batch_idx, seq_idx, out_idx]
                * linear_weight_lt[out_idx, h]
            )

        # Atomic accumulation of LayerNorm parameter gradients
        var grad_ln_weight_ptr = grad_ln_weight.ptr + h
        var grad_ln_bias_ptr = grad_ln_bias.ptr + h
        _ = Atomic[dtype].fetch_add(
            grad_ln_weight_ptr, rebind[Scalar[dtype]](grad_ln_out * normalized)
        )
        _ = Atomic[dtype].fetch_add(
            grad_ln_bias_ptr, rebind[Scalar[dtype]](grad_ln_out)
        )

    # Step 5: Compute gradients w.r.t. input (LayerNorm backward)
    # Compute sum terms needed for LayerNorm backward
    var sum_grad_normalized: Scalar[dtype] = 0
    var sum_grad_normalized_times_normalized: Scalar[dtype] = 0

    comptime for h in range(hidden_dim):
        h_input_val = input_lt[batch_idx, seq_idx, h]
        h_normalized = (h_input_val - mean_val) * inv_std

        var h_grad_ln_out: Scalar[dtype] = 0

        comptime for out_idx in range(output_dim):
            h_grad_ln_out = h_grad_ln_out + rebind[Scalar[dtype]](
                grad_output_lt[batch_idx, seq_idx, out_idx]
                * linear_weight_lt[out_idx, h]
            )

        h_grad_norm = h_grad_ln_out * rebind[Scalar[dtype]](ln_weight_lt[h])
        sum_grad_normalized = sum_grad_normalized + rebind[Scalar[dtype]](
            h_grad_norm
        )
        sum_grad_normalized_times_normalized = (
            sum_grad_normalized_times_normalized
            + rebind[Scalar[dtype]](h_grad_norm * h_normalized)
        )

    # Compute actual input gradients (no race conditions here - each thread writes to different positions)
    comptime for h in range(hidden_dim):
        h_input_val = input_lt[batch_idx, seq_idx, h]
        h_normalized = (h_input_val - mean_val) * inv_std

        var h_grad_ln_out: Scalar[dtype] = 0

        comptime for out_idx in range(output_dim):
            h_grad_ln_out = h_grad_ln_out + rebind[Scalar[dtype]](
                grad_output_lt[batch_idx, seq_idx, out_idx]
                * linear_weight_lt[out_idx, h]
            )

        h_grad_norm = h_grad_ln_out * rebind[Scalar[dtype]](ln_weight_lt[h])
        grad_input_lt[batch_idx, seq_idx, h] = inv_std * (
            h_grad_norm
            - (sum_grad_normalized / hidden_dim)
            - (h_normalized * sum_grad_normalized_times_normalized / hidden_dim)
        )

퓨전 역방향 패스 구현은 연산들을 효율적으로 결합합니다:

스레드 구성과 메모리 레이아웃:
- 그리드 차원: [batch_size, seq_len]으로 시퀀스 위치당 하나의 스레드 블록
- 스레드 인덱스: batch_idx = block_idx.x, seq_idx = block_idx.y
- 메모리 레이아웃:
  - 입력 텐서: [batch_size, seq_len, hidden_dim]
  - 출력 텐서: [batch_size, seq_len, output_dim]
  - 가중치 행렬: [output_dim, hidden_dim]
  - 기울기: 입력 기울기용 [batch_size, seq_len, hidden_dim]
  - 파라미터 기울기: LayerNorm용 [hidden_dim], Linear용 [output_dim, hidden_dim]
LayerNorm 역방향 패스 단계:
- 순방향 패스와 동일한 순서로 순방향 패스 통계량을 재계산합니다:
  - 평균: \[\Large \mu = \frac{1}{H} \sum_{i=1}^{H} x_i \]
  - 분산: \[\Large \sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2 \]
  - 역표준편차: \[\Large \text{inv_std} = \frac{1}{\sqrt{\sigma^2 + \epsilon}} \]
- 정규화된 값을 계산합니다: \[\Large \hat{x} = \frac{x - \mu}{\sqrt{\sigma^2
  - \epsilon}} \]
- 기울기를 계산합니다:
  - 입력 기울기: \[\Large \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \odot \gamma \odot \frac{1}{\sqrt{\sigma^2 + \epsilon}} (1
    - \frac{1}{H} - \frac{(x - \mu)^2}{H(\sigma^2 + \epsilon)}) \]
  - 스케일 기울기: \[\Large \frac{\partial L}{\partial \gamma} = \sum_{i=1}^{H} \frac{\partial L}{\partial y_i} \odot \hat{x}_i \]
  - 시프트 기울기: \[\Large \frac{\partial L}{\partial \beta} = \sum_{i=1}^{H} \frac{\partial L}{\partial y_i} \]
Linear 역방향 패스 단계:
- 각 출력 차원에 대해:
  - Bias 기울기: \[\Large \frac{\partial L}{\partial b} = \frac{\partial L}{\partial y} \]
  - 가중치 기울기: \[\Large \frac{\partial L}{\partial W} = \frac{\partial L}{\partial y}x^T \]
  - 입력 기울기: \[\Large \frac{\partial L}{\partial x} = W^T\frac{\partial L}{\partial y} \]
- 기울기 누적을 위한 원자적 연산 사용:
  - Bias 기울기에 적절한 정렬로 atomic_add 사용
  - 가중치 기울기에 적절한 정렬로 atomic_add 사용
  - LayerNorm 파라미터 기울기에 적절한 정렬로 atomic_add 사용
메모리 접근 패턴:
- 입력/출력 텐서에 대한 병합 접근
- 가중치 행렬에 대한 stride 접근
- 기울기 누적을 위한 원자적 연산
- 중간 결과를 위한 공유 메모리
- 자주 접근하는 값을 위한 레지스터 사용
- 모든 연산에 대한 적절한 메모리 정렬
수치 안정성:
- 분모의 엡실론 처리에 주의
- 기울기의 적절한 스케일링
- 안정적인 통계량 계산
- rebind[Scalar[dtype]]로 타입 캐스팅
- 엣지 케이스의 적절한 처리
- 순방향 패스와 동일한 연산 순서 유지
성능 최적화:
- 모든 연산을 위한 단일 커널 실행
- 계산된 통계량 재사용
- 메모리 트래픽 최소화
- 중간 텐서 할당 불필요
- 효율적인 스레드 활용
- 동기화 지점 감소
- 최적화된 메모리 접근 패턴
- 적절한 메모리 정렬
구현 세부 사항:
- 컴파일 타임 상수를 위한 @parameter 사용
- 텐서 차원의 적절한 처리
- 효율적인 타입 캐스팅과 변환
- 공유 메모리의 신중한 관리
- 연산 간 적절한 동기화
- 오류 처리와 경계 검사
- PyTorch 오토그래드 시스템과의 통합

이 구현은 다음을 통해 언퓨전 버전보다 더 나은 성능을 달성합니다:

커널 퓨전을 통한 메모리 대역폭 사용량 절감
커널 실행 오버헤드 최소화
메모리 접근 패턴 최적화
GPU 리소스의 효율적 활용
수치 안정성 유지
기울기 누적의 적절한 처리
적절한 메모리 정렬 보장
효율적인 오토그래드 통합

퓨전 역방향 패스는 LayerNorm + Linear 연산이 자주 함께 사용되는 트랜스포머 아키텍처에서 특히 중요하며, 실제 애플리케이션에서 상당한 성능 이점을 제공합니다.

성능 고려 사항

역방향 패스 구현은 오버헤드를 최소화하기 위해 최적화된 torch.compile을 사용합니다:

# Compilation configuration
torch._dynamo.config.cache_size_limit = 64  # Increase cache
torch._dynamo.config.suppress_errors = True  # Handle errors gracefully
torch._dynamo.config.automatic_dynamic_shapes = True  # Dynamic shapes

이러한 최적화가 역방향 패스에서 특히 중요한 이유는 다음과 같습니다:

작은 텐서 연산은 컴파일 캐싱의 이점을 받습니다
동적 형상은 역방향 패스에서 흔하게 발생합니다
기울기 계산에는 강건한 오류 처리가 필요합니다
캐시 크기는 반복적인 역방향 패스 연산에 도움이 됩니다
적절한 오류 처리는 기울기 계산에 매우 중요합니다
컴파일 오버헤드는 학습 시간에 큰 영향을 줄 수 있습니다

역방향 패스는 정확성을 유지하면서 컴파일 오버헤드를 최소화하기 위해 reduce-overhead 모드로 컴파일됩니다. 이것이 특히 중요한 이유는:

역방향 패스는 학습 중에 빈번하게 호출됩니다
기울기 계산은 수치적으로 안정적이어야 합니다
메모리 접근 패턴이 최적화되어야 합니다
원자적 연산에는 적절한 동기화가 필요합니다
오토그래드 통합이 효율적이어야 합니다

LayerNorm 역방향 패스의 상세 유도

LayerNorm의 역방향 패스 기울기는 연쇄 법칙을 주의 깊게 적용하여 유도됩니다. 단계별 유도 과정은 다음과 같습니다:

순방향 패스 연산

평균: $\mu = \frac{1}{H} \sum_{i=1}^{H} x_i$
분산: $\sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2$
정규화된 값: $\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$
최종 출력: $y = \gamma \odot \hat{x} + \beta$

연쇄 법칙 적용

$\frac{\partial L}{\partial x}$를 계산하기 위해 연쇄 법칙을 적용합니다: \[\Large \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \frac{\partial y}{\partial \hat{x}} \frac{\partial \hat{x}}{\partial x}\]

기울기 구성 요소

출력에서 정규화된 값으로

$\frac{\partial y}{\partial \hat{x}} = \gamma$ (요소별 곱셈)

정규화된 값에서 입력으로

기울기 $\frac{\partial \hat{x}}{\partial x}$에는 세 가지 구성 요소가 있습니다:

분자를 통한 직접적 효과: $\frac{1}{\sqrt{\sigma^2 + \epsilon}}$
평균을 통한 간접적 효과: $-\frac{1}{H} \frac{1}{\sqrt{\sigma^2 + \epsilon}}$
분산을 통한 간접적 효과: $-\frac{(x - \mu)}{H(\sigma^2 + \epsilon)^{3/2}} (x
- \mu)$

항 결합

정규화 항을 통한 기울기는 다음과 같이 정리됩니다: \[\Large \frac{\partial \hat{x}}{\partial x} = \frac{1}{\sqrt{\sigma^2 + \epsilon}} (1 - \frac{1}{H} - \frac{(x - \mu)^2}{H(\sigma^2 + \epsilon)})\]

최종 기울기 표현식

모든 항을 결합하면: \[\Large \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \odot \gamma \odot \frac{1}{\sqrt{\sigma^2 + \epsilon}} (1 - \frac{1}{H} - \frac{(x - \mu)^2}{H(\sigma^2 + \epsilon)})\]

핵심 통찰

연쇄 법칙은 x가 출력에 영향을 미치는 모든 경로를 고려합니다
정규화 항 $\sqrt{\sigma^2 + \epsilon}$은 분자와 분모 모두에 등장합니다
평균과 분산 항은 기울기 흐름의 추가 경로를 생성합니다
최종 표현식은 모든 효과를 하나의 효율적인 계산으로 결합합니다

구현 시 고려 사항

기울기가 $\gamma$의 스케일링 효과를 적절히 반영합니다
평균과 분산의 정규화 효과가 보존됩니다
수치 안정성 항 $\epsilon$이 유지됩니다
기울기가 은닉 차원 H 전체에 걸쳐 적절히 스케일링됩니다
수치 안정성을 위해 연산 순서가 순방향 패스와 일치합니다

이 유도를 통해 역방향 패스가 순방향 패스와 동일한 수치적 특성을 유지하면서 필요한 모든 기울기를 효율적으로 계산할 수 있습니다.

Puzzle 23: GPU 함수형 프로그래밍 패턴

개요

Part VI: 함수형 GPU 프로그래밍에서는 GPU 연산을 위한 Mojo의 고수준 프로그래밍 패턴을 소개합니다. 벡터화, 메모리 최적화, 성능 튜닝을 자동으로 처리하는 함수형 접근 방식을 배우며, 수동 GPU 커널 프로그래밍을 대체합니다.

핵심 통찰: 현대 GPU 프로그래밍은 성능을 위해 우아함을 포기할 필요가 없습니다 - Mojo의 함수형 패턴은 두 가지를 모두 제공합니다.

배울 내용

GPU 실행 계층 구조

GPU 스레드와 SIMD 연산 사이의 근본적인 관계를 이해합니다:

GPU Device
├── Grid (전체 문제)
│   ├── Block 1 (스레드 그룹, 공유 메모리)
│   │   ├── Warp 1 (32개 스레드, 록스텝 실행) --> Part VI에서 학습
│   │   │   ├── Thread 1 → SIMD
│   │   │   ├── Thread 2 → SIMD
│   │   │   └── ... (총 32개 스레드)
│   │   └── Warp 2 (32개 스레드)
│   └── Block 2 (독립적인 그룹)

Mojo가 자동으로 처리하는 것들:

그리드/블록 구성 자동 계산
워프 관리의 투명한 처리
스레드 스케줄링 자동 최적화
메모리 계층 구조 최적화 내장

💡 참고: 이 Part는 함수형 패턴에 초점을 맞추고 있으며, 워프 레벨 프로그래밍과 고급 GPU 메모리 관리는 Part VII 에서 자세히 다룹니다.

네 가지 기본 패턴

GPU 함수형 프로그래밍의 핵심 패턴을 모두 다룹니다:

Elementwise: 자동 SIMD 벡터화를 통한 최대 병렬성
Tiled: 캐시 최적화를 활용한 메모리 효율이 높은 처리
수동 벡터화: SIMD 연산에 대한 전문가 수준의 제어
Mojo vectorize: 경계 검사를 포함한 안전한 자동 벡터화

한눈에 보는 성능 패턴

문제: 1024개 요소의 벡터 두 개 더하기 (SIZE=1024, SIMD_WIDTH=4)

Elementwise:     256 스레드 × 1 SIMD 연산   = 높은 병렬성
Tiled:           32 스레드  × 8 SIMD 연산  = 캐시 최적화
Manual:          8 스레드   × 32 SIMD 연산 = 최대 제어
Mojo vectorize:  32 스레드  × 8 SIMD 연산  = 자동 안전성

📊 실제 성능 분석

실증적 벤치마크 결과를 해석하는 방법을 배웁니다:

벤치마크 결과 (SIZE=1,048,576):
elementwise:        11.34ms  ← 대규모에서 최대 병렬성이 유리
tiled:              12.04ms  ← 지역성과 병렬성의 균형
manual_vectorized:  15.75ms  ← 단순 연산에서 복잡한 인덱싱이 불리
vectorized:         13.38ms  ← 자동 최적화 오버헤드

선수 지식

함수형 패턴을 학습하기 전에 다음 내용에 익숙해야 합니다:

기본 GPU 개념: 메모리 계층 구조, 스레드 실행, SIMD 연산
Mojo 기초: 파라미터 함수, 컴파일 타임 특수화, 캡처 의미론
TileTensor 연산: 로드, 저장, 텐서 조작
GPU 메모리 관리: 버퍼 할당, 호스트-디바이스 동기화

학습 경로

1. Elementwise 연산

→ elementwise - 기본 GPU 함수형 연산

기초부터 시작합니다: 자동 스레드 관리와 SIMD 벡터화.

배울 내용:

elementwise를 활용한 함수형 GPU 프로그래밍
GPU 스레드 내의 자동 SIMD 벡터화
안전한 메모리 접근을 위한 TileTensor 연산
중첩 함수에서의 캡처 의미론

핵심 패턴:

elementwise[add_function, SIMD_WIDTH, target="gpu"](total_size, ctx)

2. 타일링 처리

→ tile - 메모리 효율적인 타일링 처리

elementwise를 기반으로 메모리 최적화 타일링 패턴을 학습합니다.

배울 내용:

캐시 최적화를 위한 타일 기반 메모리 구성
타일 내 순차적 SIMD 처리
메모리 지역성 원칙과 캐시 친화적 접근 패턴
스레드-타일 매핑 vs 스레드-요소 매핑

핵심 통찰: 타일링은 병렬 폭을 메모리 지역성과 교환합니다 - 더 적은 수의 스레드가 더 나은 캐시 활용으로 더 많은 작업을 수행합니다.

3. 고급 벡터화

→ vectorize - SIMD 제어

수동 제어와 자동 벡터화 전략을 탐구합니다.

배울 내용:

명시적 인덱스 관리를 통한 수동 SIMD 연산
안전하고 자동적인 벡터화를 위한 Mojo의 vectorize 함수
최적의 SIMD 정렬을 위한 청크 기반 메모리 구성
수동 제어와 안전성 간의 성능 트레이드오프

두 가지 접근법:

수동: 직접 제어, 최대 성능, 복잡한 인덱싱
Mojo vectorize: 자동 최적화, 내장 안전성, 깔끔한 코드

🧠 4. 스레딩 vs SIMD 개념

→ GPU 스레딩 vs SIMD 개념

병렬성 수준 간의 근본적인 관계를 이해합니다.

배울 내용:

GPU 스레딩 계층 구조와 하드웨어 매핑
GPU 스레드 내의 SIMD 연산
패턴 비교와 스레드-작업 매핑
워크로드에 맞는 올바른 패턴 선택

핵심 통찰: GPU 스레드가 병렬성의 구조를 제공하고, SIMD 연산이 각 스레드 내에서 벡터화를 제공합니다.

📊 5. Mojo 성능 벤치마킹

→ Mojo 벤치마킹

GPU 성능을 과학적으로 측정, 분석, 최적화하는 방법을 배웁니다.

배울 내용:

Mojo의 내장 벤치마킹 프레임워크
GPU 고유의 타이밍 및 동기화 문제
컴파일 타임 특수화를 활용한 파라미터화된 벤치마크 함수
실증적 성능 분석과 패턴 선택

핵심 기법: keep()을 사용하여 벤치마크 코드의 컴파일러 최적화를 방지합니다.

시작하기

Elementwise 패턴부터 시작하여 각 섹션을 체계적으로 학습하세요. 각 퍼즐은 이전 개념을 기반으로 새로운 수준의 정교함을 도입합니다.

💡 성공 팁: 각 패턴의 어떻게뿐만 아니라 왜를 이해하는 데 집중하세요. 여기서 형성하는 개념적 프레임워크는 GPU 프로그래밍 전반에 걸쳐 활용될 것입니다.

학습 목표: Part VI를 마치면, 저수준 GPU 메커니즘 대신 함수형 패턴의 관점에서 사고할 수 있게 되어, 더 유지보수하기 쉽고, 성능이 뛰어나며, 이식성이 높은 GPU 코드를 작성할 수 있습니다.

시작하기: elementwise - 기본 GPU 함수형 연산 에서 함수형 GPU 프로그래밍을 시작하세요.

elementwise - 기본 GPU 함수형 연산

이 퍼즐은 Mojo의 함수형 elementwise 패턴을 사용하여 벡터 덧셈을 구현합니다. 각 스레드가 자동으로 여러 SIMD 요소를 처리하며, 현대 GPU 프로그래밍이 어떻게 저수준 세부 사항을 추상화하면서도 높은 성능을 유지하는지 보여줍니다.

핵심 통찰: elementwise 함수는 스레드 관리, SIMD 벡터화, 메모리 병합을 자동으로 처리합니다.

핵심 개념

이 퍼즐에서 다루는 내용:

elementwise를 활용한 함수형 GPU 프로그래밍
GPU 스레드 내의 자동 SIMD 벡터화
안전한 메모리 접근을 위한 TileTensor 연산
GPU 스레드 계층 구조 vs SIMD 연산
중첩 함수에서의 캡처 의미론

수학적 연산은 단순한 요소별 덧셈입니다: \[\Large \text{output}[i] = a[i] + b[i]\]

이 구현은 Mojo에서의 모든 GPU 함수형 프로그래밍에 적용할 수 있는 기본 패턴을 다룹니다.

설정

벡터 크기: SIZE = 1024
데이터 타입: DType.float32
SIMD 폭: 타겟 의존적 (GPU 아키텍처와 데이터 타입에 따라 결정)
레이아웃: row_major[SIZE]() (1D 행 우선)

완성할 코드

comptime SIZE = 1024
comptime rank = 1
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)
comptime dtype = DType.float32
comptime SIMD_WIDTH = simd_width_of[dtype, target=get_gpu_target()]()


def elementwise_add[
    LayoutT: TensorLayout, dtype: DType, simd_width: Int, rank: Int, size: Int
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def add[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var idx = indices[0]
        print("idx:", idx)
        # FILL IN (2 to 4 lines)

    elementwise[add, SIMD_WIDTH, target="gpu"](size, ctx)

전체 파일 보기: problems/p23/p23.mojo

팁

1. 함수 구조 이해하기

elementwise 함수는 다음과 같은 정확한 시그니처를 가진 중첩 함수를 기대합니다:

@parameter
@always_inline
def your_function[simd_width: Int, rank: Int](indices: IndexList[rank]) capturing -> None:
    # 구현 코드

각 부분이 중요한 이유:

@parameter: 최적의 GPU 코드 생성을 위한 컴파일 타임 특수화를 활성화합니다
@always_inline: GPU 커널에서 함수 호출 오버헤드를 제거하기 위해 인라이닝을 강제합니다
capturing: 외부 스코프의 변수(입출력 텐서)에 접근할 수 있게 합니다
IndexList[rank]: 다차원 인덱싱을 제공합니다 (벡터는 rank=1, 행렬은 rank=2)

2. 인덱스 추출과 SIMD 처리

idx = indices[0]  # 1D 연산을 위한 선형 인덱스 추출

이 idx는 단일 요소가 아닌 SIMD 벡터의 시작 위치를 나타냅니다. SIMD_WIDTH=4 (GPU 의존적)인 경우:

Thread 0은 idx=0부터 시작하여 요소 [0, 1, 2, 3]을 처리
Thread 1은 idx=4부터 시작하여 요소 [4, 5, 6, 7]을 처리
Thread 2는 idx=8부터 시작하여 요소 [8, 9, 10, 11]을 처리
이런 식으로 계속…

3. SIMD 로드 패턴

a_simd = a.aligned_load[simd_width](Index(idx))  # 연속 float 4개 로드 (GPU 의존적)
b_simd = b.aligned_load[simd_width](Index(idx))  # 연속 float 4개 로드 (GPU 의존적)

두 번째 매개변수 0은 차원 오프셋입니다 (1D 벡터에서는 항상 0). 이 연산은 한 번에 벡터화된 청크의 데이터를 로드합니다. 로드되는 정확한 요소 수는 GPU의 SIMD 능력에 따라 달라집니다.

4. 벡터 연산

result = a_simd + b_simd  # 4개 요소의 SIMD 덧셈을 동시에 수행 (GPU 의존적)

전체 SIMD 벡터에 걸쳐 요소별 덧셈을 병렬로 수행합니다 - 4개의 개별 스칼라 덧셈보다 훨씬 빠릅니다.

5. SIMD 저장

output.store[simd_width](idx, 0, result)  # 4개 결과를 한 번에 저장 (GPU 의존적)

전체 SIMD 벡터를 한 번의 연산으로 메모리에 다시 기록합니다.

6. elementwise 함수 호출

elementwise[your_function, SIMD_WIDTH, target="gpu"](total_size, ctx)

total_size는 모든 요소를 처리하기 위해 a.size()로 설정해야 합니다
GPU는 실행할 스레드 수를 자동으로 결정합니다: total_size // SIMD_WIDTH

7. 디버깅 핵심 포인트

템플릿에 있는 print("idx:", idx)에 주목하세요. 실행하면 다음과 같이 출력됩니다:

idx: 0, idx: 4, idx: 8, idx: 12, ...

각 스레드가 서로 다른 SIMD 청크를 처리하며, SIMD_WIDTH (GPU 의존적) 간격으로 자동 배치됨을 보여줍니다.

코드 실행

풀이를 테스트하려면 터미널에서 다음 명령을 실행하세요:

pixi run p23 --elementwise

pixi run -e amd p23 --elementwise

pixi run -e apple p23 --elementwise

uv run poe p23 --elementwise

퍼즐이 아직 풀리지 않은 경우 다음과 같이 출력됩니다:

SIZE: 1024
simd_width: 4
...
idx: 404
idx: 408
idx: 412
idx: 416
...

out: HostBuffer([0.0, 0.0, 0.0, ..., 0.0, 0.0, 0.0])
expected: HostBuffer([1.0, 5.0, 9.0, ..., 4085.0, 4089.0, 4093.0])

솔루션

def elementwise_add[
    LayoutT: TensorLayout, dtype: DType, simd_width: Int, rank: Int, size: Int
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def add[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var idx = indices[0]
        # Convert inside GPU kernel to avoid host-captured LayoutTensor issues
        var a_lt = a.to_layout_tensor()
        var b_lt = b.to_layout_tensor()
        var out_lt = output.to_layout_tensor()
        # Note: This is thread-local SIMD - each thread processes its own vector of data
        # we'll later better see this hierarchy in Mojo:
        # SIMD within threads, warp across threads, block across warps
        var a_simd = a_lt.aligned_load[width=simd_width](Index(idx))
        var b_simd = b_lt.aligned_load[width=simd_width](Index(idx))
        var ret = a_simd + b_simd
        out_lt.store[simd_width](Index(idx), ret)

    elementwise[add, SIMD_WIDTH, target="gpu"](size, ctx)

Mojo의 elementwise 함수형 패턴은 현대 GPU 프로그래밍을 위한 몇 가지 기본 개념을 소개합니다:

1. 함수형 추상화 철학

elementwise 함수는 기존 GPU 프로그래밍에서의 패러다임 전환을 나타냅니다:

전통적인 CUDA/HIP 방식:

# 수동 스레드 관리
idx = thread_idx.x + block_idx.x * block_dim.x
if idx < size:
    output[idx] = a[idx] + b[idx];  // 스칼라 연산

Mojo 함수형 방식:

# 자동 관리 + SIMD 벡터화
elementwise[add_function, simd_width, target="gpu"](size, ctx)

elementwise가 추상화하는 것들:

스레드 그리드 구성: 블록/그리드 차원을 계산할 필요 없음
경계 검사: 배열 경계를 자동으로 처리
메모리 병합: 최적의 메모리 접근 패턴이 내장
SIMD 오케스트레이션: 벡터화를 투명하게 처리
GPU 타겟 선택: 다양한 GPU 아키텍처에서 동작

2. 심층 분석: 중첩 함수 아키텍처

@parameter
@always_inline
def add[simd_width: Int, rank: Int](indices: IndexList[rank]) capturing -> None:

매개변수 분석:

@parameter: 이 데코레이터는 컴파일 타임 특수화를 제공합니다. 각 고유한 simd_width와 rank에 대해 함수가 별도로 생성되어 적극적인 최적화가 가능합니다.
@always_inline: GPU 성능에 매우 중요합니다 - 코드를 커널에 직접 내장하여 함수 호출 오버헤드를 제거합니다.
capturing: 렉시컬 스코핑을 활성화합니다 - 내부 함수가 명시적 매개변수 전달 없이 외부 스코프의 변수에 접근할 수 있습니다.
IndexList[rank]: 차원 무관 인덱싱을 제공합니다 - 동일한 패턴이 1D 벡터, 2D 행렬, 3D 텐서 등에서 작동합니다.

3. SIMD 실행 모델 심층 분석

idx = indices[0]                                    # 선형 인덱스: 0, 4, 8, 12... (GPU 의존적 간격)
a_simd = a.aligned_load[simd_width](Index(idx))     # 로드: [a[0:4], a[4:8], a[8:12]...] (로드당 4개 요소)
b_simd = b.aligned_load[simd_width](Index(idx))     # 로드: [b[0:4], b[4:8], b[8:12]...] (로드당 4개 요소)
ret = a_simd + b_simd                               # SIMD: 4개 덧셈을 병렬 수행 (GPU 의존적)
output.store[simd_width](Index(global_start), ret)  # 저장: 4개 결과를 동시 저장 (GPU 의존적)

실행 계층 구조 시각화:

GPU 아키텍처:
├── Grid (전체 문제)
│   ├── Block 1 (여러 Warp)
│   │   ├── Warp 1 (32개 스레드) --> Warp는 다음 Part VI에서 학습
│   │   │   ├── Thread 1 → SIMD[4개 요소]  ← 현재 초점 (GPU 의존적 폭)
│   │   │   ├── Thread 2 → SIMD[4개 요소]
│   │   │   └── ...
│   │   └── Warp 2 (32개 스레드)
│   └── Block 2 (여러 Warp)

SIMD_WIDTH=4인 1024개 요소 벡터의 경우 (GPU 예시):

필요한 총 SIMD 연산 수: 1024 ÷ 4 = 256
GPU 실행: 256개 스레드 (1024 ÷ 4)
각 스레드가 처리하는 양: 정확히 4개의 연속 요소
메모리 대역폭: 스칼라 연산 대비 SIMD_WIDTH배 향상

참고: SIMD 폭은 GPU 아키텍처에 따라 다릅니다 (예: 일부 GPU는 4, RTX 4090은 8, A100은 16).

4. 메모리 접근 패턴 분석

a.aligned_load[simd_width](Index(idx))  // 병합 메모리 접근

메모리 병합의 이점:

순차적 접근: 스레드들이 연속적인 메모리 위치에 접근
캐시 최적화: L1/L2 캐시 히트율 극대화
대역폭 활용: 이론적 메모리 대역폭에 근접하는 성능 달성
하드웨어 효율: GPU 메모리 컨트롤러가 이 패턴에 최적화되어 있음

SIMD_WIDTH=4 (GPU 의존적) 예시:

Thread 0: a[0:4] 로드   → 메모리 뱅크 0-3
Thread 1: a[4:8] 로드   → 메모리 뱅크 4-7
Thread 2: a[8:12] 로드  → 메모리 뱅크 8-11
...
결과: 최적의 메모리 컨트롤러 활용

5. 성능 특성 및 최적화

산술 강도 분석 (SIMD_WIDTH=4 기준):

산술 연산: 4개 요소당 1회 SIMD 덧셈
메모리 연산: 4개 요소당 2회 SIMD 로드 + 1회 SIMD 저장
산술 강도: 1 덧셈 ÷ 3 메모리 연산 = 0.33 (메모리 바운드)

이것이 메모리 바운드인 이유:

단순 연산에서는 메모리 대역폭 >>> 연산 능력

최적화 시사점:

산술 최적화보다 메모리 접근 패턴에 집중해야 함
SIMD 벡터화가 주요 성능 이점을 제공
메모리 병합이 성능에 매우 중요
연산 복잡도보다 캐시 지역성이 더 중요

6. 확장성과 적응성

자동 하드웨어 적응:

comptime SIMD_WIDTH = simd_width_of[dtype, target = _get_gpu_target()]()

GPU별 최적화: SIMD 폭이 하드웨어에 맞게 조정됨 (예: 일부 카드는 4, RTX 4090은 8, A100은 16)
데이터 타입 인식: float32와 float16에 대해 서로 다른 SIMD 폭 적용
컴파일 타임 최적화: 하드웨어 감지에 대한 런타임 오버헤드 없음

확장성 특성:

스레드 수: 문제 크기에 따라 자동 확장
메모리 사용량: 입력 크기에 비례하여 선형 확장
성능: 메모리 대역폭 포화 시점까지 거의 선형적인 속도 향상

7. 고급 인사이트: 이 패턴이 중요한 이유

복잡한 연산의 기초: 이 elementwise 패턴은 다음 연산들의 기반이 됩니다:

리덕션 연산: 대규모 배열에서의 합계, 최댓값, 최솟값
브로드캐스트 연산: 스칼라-벡터 연산
복잡한 변환: 활성화 함수, 정규화
다차원 연산: 행렬 연산, 합성곱

전통적인 방식과의 비교:

// 전통적: 오류 발생 가능, 장황함, 하드웨어 종속적
__global__ void add_kernel(float* output, float* a, float* b, int size) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        output[idx] = a[idx] + b[idx];  // 벡터화 없음
    }
}

// Mojo: 안전, 간결, 자동 벡터화
elementwise[add, SIMD_WIDTH, target="gpu"](size, ctx)

함수형 접근법의 이점:

안전성: 자동 경계 검사로 버퍼 오버플로우 방지
이식성: 동일한 코드가 다양한 GPU 벤더/세대에서 동작
성능: 컴파일러 최적화가 수동 튜닝 코드를 종종 능가
유지보수성: 깔끔한 추상화로 디버깅 복잡도 감소
조합성: 다른 함수형 연산과 쉽게 결합 가능

이 패턴은 GPU 프로그래밍의 미래를 나타냅니다 - 성능을 희생하지 않는 고수준 추상화로, 최적의 효율성을 유지하면서 GPU 컴퓨팅을 더 쉽게 접근할 수 있게 합니다.

다음 단계

Elementwise 연산을 학습했다면 다음으로 넘어갈 준비가 되었습니다:

tile - 메모리 효율적인 타일링 처리: 메모리 효율적인 타일링 처리 패턴
vectorize - SIMD 제어: 세밀한 SIMD 제어
🧠 GPU 스레딩 vs SIMD 개념: 실행 계층 구조 이해
📊 Mojo 벤치마킹: 성능 분석과 최적화

💡 핵심 요약: elementwise 패턴은 Mojo가 함수형 프로그래밍의 우아함과 GPU 성능을 어떻게 결합하는지 보여줍니다. 연산에 대한 완전한 제어를 유지하면서 벡터화와 스레드 관리를 자동으로 처리합니다.

tile - 메모리 효율적인 타일링 처리

개요

elementwise 패턴을 기반으로, 이 퍼즐에서는 타일링 처리를 소개합니다. 이는 GPU에서 메모리 접근 패턴과 캐시 활용을 최적화하는 핵심 기법입니다. 각 스레드가 전체 배열에 걸쳐 개별 SIMD 벡터를 처리하는 대신, 타일링은 데이터를 캐시 메모리에 더 잘 맞는 작고 관리 가능한 청크로 구성합니다.

Puzzle 16의 타일링 행렬 곱셈 에서 이미 타일링을 경험한 바 있습니다. 거기서는 타일을 사용해 대규모 행렬을 효율적으로 처리했습니다. 여기서는 동일한 타일링 원칙을 벡터 연산에 적용하여, 이 기법이 2D 행렬에서 1D 배열까지 어떻게 확장되는지 보여줍니다.

Mojo의 타일링 방식을 사용하여 동일한 벡터 덧셈 연산을 구현합니다. 각 GPU 스레드가 데이터의 타일 전체를 순차적으로 처리하며, 메모리 지역성이 특정 워크로드에서 어떻게 성능을 향상시킬 수 있는지 보여줍니다.

핵심 통찰: 타일링은 병렬 폭을 메모리 지역성과 교환합니다 - 더 적은 수의 스레드가 더 나은 캐시 활용으로 더 많은 작업을 수행합니다.

핵심 개념

이 퍼즐에서 배울 내용:

캐시 최적화를 위한 타일 기반 메모리 구성
타일 내의 순차적 SIMD 처리
메모리 지역성 원칙과 캐시 친화적 접근 패턴
스레드-타일 매핑 vs 스레드-요소 매핑
병렬성과 메모리 효율 간의 성능 트레이드오프

요소별 방식과 동일한 수학적 연산: \[\Large \text{output}[i] = a[i] + b[i]\]

하지만 메모리 계층 구조에 최적화된 완전히 다른 실행 전략을 사용합니다.

설정

벡터 크기: SIZE = 1024
타일 크기: TILE_SIZE = 32
데이터 타입: DType.float32
SIMD 폭: GPU 의존적 (타일 내 연산용)
레이아웃: row_major[SIZE]() (1D 행 우선)

완성할 코드

comptime TILE_SIZE = 32


def tiled_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def process_tiles[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]
        print("tile_id:", tile_id)
        var output_tile = output.tile[tile_size](tile_id)
        var a_tile = a.tile[tile_size](tile_id)
        var b_tile = b.tile[tile_size](tile_id)

        # FILL IN (6 lines at most)

    var num_tiles = (size + tile_size - 1) // tile_size
    elementwise[process_tiles, 1, target="gpu"](num_tiles, ctx)

전체 파일 보기: problems/p23/p23.mojo

팁

1. 타일 구성 이해하기

타일링 방식은 데이터를 고정 크기의 청크로 나눕니다:

num_tiles = (size + tile_size - 1) // tile_size  # 올림 나눗셈

TILE_SIZE=32인 1024개 요소 벡터의 경우: 1024 ÷ 32 = 32개 타일이 정확히 생깁니다.

2. 타일 추출 패턴

TileTensor .tile 문서를 참고하세요.

tile_id = indices[0]  # 각 스레드가 처리할 타일 하나를 받음
out_tile = output.tile[tile_size](tile_id)
a_tile = a.tile[tile_size](tile_id)
b_tile = b.tile[tile_size](tile_id)

tile[size](id) 메서드는 id × size 위치부터 시작하는 size개의 연속 요소에 대한 뷰를 생성합니다.

3. 타일 내 순차 처리

요소별 방식과 달리, 타일을 순차적으로 처리합니다:

@parameter
for i in range(tile_size):
    # 현재 타일 내의 요소 i를 처리

이 @parameter 루프는 최적의 성능을 위해 컴파일 타임에 전개됩니다.

4. 타일 요소 내 SIMD 연산

a_vec = a_tile.load[simd_width](i, 0)  # 타일 내 위치 i에서 로드
b_vec = b_tile.load[simd_width](i, 0)  # 타일 내 위치 i에서 로드
result = a_vec + b_vec                 # SIMD 덧셈 (GPU 의존적 폭)
out_tile.store[simd_width](i, 0, result)  # 타일 내 위치 i에 저장

5. 스레드 구성의 차이점

elementwise[process_tiles, 1, target="gpu"](num_tiles, ctx)

SIMD_WIDTH 대신 1을 사용합니다 - 각 스레드가 하나의 타일 전체를 순차적으로 처리합니다.

6. 메모리 접근 패턴 인사이트

각 스레드는 연속적인 메모리 블록(타일)에 접근한 다음, 다음 타일로 이동합니다. 이렇게 하면 각 스레드의 실행 내에서 우수한 공간 지역성이 만들어집니다.

7. 디버깅 핵심 포인트

타일링을 사용하면 스레드 실행 수는 줄어들지만 각 스레드가 더 많은 작업을 수행합니다:

요소별: ~256개 스레드 (SIMD_WIDTH=4 기준), 각각 4개 요소 처리
Tiled: ~32개 스레드, 각각 32개 요소를 순차적으로 처리

코드 실행

풀이를 테스트하려면 터미널에서 다음 명령을 실행하세요:

pixi run p23 --tiled

pixi run -e amd p23 --tiled

pixi run -e apple p23 --tiled

uv run poe p23 --tiled

퍼즐이 아직 풀리지 않은 경우 다음과 같이 출력됩니다:

SIZE: 1024
simd_width: 4
tile size: 32
tile_id: 0
tile_id: 1
tile_id: 2
tile_id: 3
...
tile_id: 29
tile_id: 30
tile_id: 31
out: HostBuffer([0.0, 0.0, 0.0, ..., 0.0, 0.0, 0.0])
expected: HostBuffer([1.0, 5.0, 9.0, ..., 4085.0, 4089.0, 4093.0])

솔루션

comptime TILE_SIZE = 32


def tiled_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def process_tiles[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]

        var output_tile = output.tile[tile_size](tile_id).to_layout_tensor()
        var a_tile = a.tile[tile_size](tile_id).to_layout_tensor()
        var b_tile = b.tile[tile_size](tile_id).to_layout_tensor()

        comptime for i in range(tile_size):
            var a_vec = a_tile.aligned_load[width=simd_width](Index(i))
            var b_vec = b_tile.aligned_load[width=simd_width](Index(i))
            var ret = a_vec + b_vec
            output_tile.store[simd_width](Index(i), ret)

    var num_tiles = (size + tile_size - 1) // tile_size
    elementwise[process_tiles, 1, target="gpu"](num_tiles, ctx)

타일링 처리 패턴은 GPU 프로그래밍을 위한 고급 메모리 최적화 기법을 보여줍니다:

1. 타일링 철학과 메모리 계층 구조

타일링은 병렬 처리에 대한 사고 방식의 근본적인 전환을 나타냅니다:

요소별 방식:

넓은 병렬성: 많은 스레드가 각각 최소한의 작업 수행
전역 메모리 부하: 스레드들이 전체 배열에 분산
캐시 미스: 스레드 경계를 넘나드는 낮은 공간 지역성

타일링 방식:

깊은 병렬성: 더 적은 스레드가 각각 상당한 작업 수행
지역화된 메모리 접근: 각 스레드가 연속적인 데이터에서 작업
캐시 최적화: 우수한 공간 및 시간 지역성

2. 타일 구성과 인덱싱

tile_id = indices[0]
out_tile = output.tile[tile_size](tile_id)
a_tile = a.tile[tile_size](tile_id)
b_tile = b.tile[tile_size](tile_id)

타일 매핑 시각화 (TILE_SIZE=32):

원본 배열: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ..., 1023]

Tile 0 (thread 0): [0, 1, 2, ..., 31]      ← 요소 0-31
Tile 1 (thread 1): [32, 33, 34, ..., 63]   ← 요소 32-63
Tile 2 (thread 2): [64, 65, 66, ..., 95]   ← 요소 64-95
...
Tile 31 (thread 31): [992, 993, ..., 1023] ← 요소 992-1023

핵심 인사이트:

tile[size](id)는 원본 텐서에 대한 뷰를 생성합니다
뷰는 제로 카피로 동작합니다 - 데이터를 복사하지 않고 포인터 연산만 수행
타일 경계는 항상 tile_size 단위로 정렬됩니다

3. 순차 처리 심층 분석

@parameter
for i in range(tile_size):
    a_vec = a_tile.load[simd_width](i, 0)
    b_vec = b_tile.load[simd_width](i, 0)
    ret = a_vec + b_vec
    out_tile.store[simd_width](i, 0, ret)

왜 순차 처리인가?

캐시 최적화: 연속적인 메모리 접근이 캐시 히트율을 극대화
컴파일러 최적화: @parameter 루프가 컴파일 타임에 완전히 전개됨
메모리 대역폭: 순차 접근이 메모리 컨트롤러 설계에 부합
조정 비용 감소: SIMD 그룹 간 동기화가 불필요

하나의 타일 내 실행 패턴 (TILE_SIZE=32, SIMD_WIDTH=4):

스레드가 타일을 순차 처리:
Step 0: 요소 [0:4]를 SIMD로 처리
Step 1: 요소 [4:8]를 SIMD로 처리
Step 2: 요소 [8:12]를 SIMD로 처리
...
Step 7: 요소 [28:32]를 SIMD로 처리
합계: 스레드당 8회 SIMD 연산 (32 ÷ 4 = 8)

4. 메모리 접근 패턴 분석

캐시 동작 비교:

요소별 패턴:

Thread 0: 글로벌 위치 [0, 4, 8, 12, ...] 접근    ← Stride = SIMD_WIDTH
Thread 1: 글로벌 위치 [4, 8, 12, 16, ...] 접근   ← Stride = SIMD_WIDTH
...
결과: 메모리 접근이 전체 배열에 분산

Tiled 패턴:

Thread 0: 위치 [0:32]를 순차 접근               ← 연속적인 32개 요소 블록
Thread 1: 위치 [32:64]를 순차 접근             ← 다음 연속적인 32개 요소 블록
...
결과: 각 스레드 내에서 완벽한 공간 지역성

캐시 효율 시사점:

L1 캐시: 작은 타일이 L1 캐시에 더 잘 맞아 캐시 미스 감소
메모리 대역폭: 순차 접근이 유효 대역폭을 극대화
TLB 효율: TLB 미스 감소 (역주: TLB(Translation Lookaside Buffer)는 가상 주소를 물리 주소로 변환하는 캐시로, 미스가 줄면 메모리 접근이 빨라집니다)
프리페칭: 하드웨어 프리페처가 순차 패턴에서 최적으로 동작

5. 스레드 구성 전략

elementwise[process_tiles, 1, target="gpu"](num_tiles, ctx)

왜 SIMD_WIDTH 대신 1인가?

스레드 수: num_tiles × SIMD_WIDTH가 아닌 정확히 num_tiles개의 스레드만 실행
작업 분배: 각 스레드가 하나의 완전한 타일을 처리
로드 밸런싱: 스레드당 더 많은 작업, 전체적으로 더 적은 스레드
메모리 지역성: 각 스레드의 작업이 공간적으로 지역화

성능 트레이드오프:

더 적은 논리적 스레드: 낮은 점유율에서 모든 GPU 코어를 활용하지 못할 수 있음
스레드당 더 많은 작업: 더 나은 캐시 활용과 조정 오버헤드 감소
순차 접근: 각 스레드 내에서 최적의 메모리 대역폭 활용
오버헤드 감소: 스레드 실행 및 조정 오버헤드 감소

중요 참고: “더 적은 스레드“는 논리적 프로그래밍 모델을 의미합니다. GPU 스케줄러는 여러 워프를 실행하고 메모리 지연 시 효율적으로 전환하여 높은 하드웨어 활용률을 달성할 수 있습니다.

6. 성능 특성

타일링이 도움이 되는 경우:

메모리 바운드 연산: 메모리 대역폭이 병목인 경우
캐시 민감 워크로드: 데이터 재사용의 이점이 있는 연산
복잡한 연산: 요소당 연산량이 많은 경우
제한된 병렬성: GPU 코어보다 스레드가 적은 경우

타일링이 불리한 경우:

고도로 병렬적인 워크로드: 최대 스레드 활용이 필요한 경우
단순한 연산: 메모리 접근이 연산보다 지배적인 경우
불규칙적 접근 패턴: 타일링이 지역성을 개선하지 못하는 경우

단순 덧셈 예시 (TILE_SIZE=32):

스레드 수: 256개 대신 32개 (8배 적음)
스레드당 작업량: 4개 대신 32개 요소 (8배 많음)
메모리 패턴: 순차 vs 스트라이드 접근
캐시 활용: 훨씬 나은 공간 지역성

7. 고급 타일링 고려 사항

타일 크기 선택:

너무 작으면: 캐시 활용이 떨어지고, 오버헤드가 증가
너무 크면: 캐시에 맞지 않을 수 있고, 병렬성이 감소
최적 지점: L1 캐시 최적화를 위해 보통 16-64개 요소
현재 선택: 32개 요소로 캐시 활용과 병렬성의 균형 달성

하드웨어 고려 사항:

캐시 크기: 가능하면 타일이 L1 캐시에 맞아야 함
메모리 대역폭: 메모리 컨트롤러 폭을 고려
코어 수: 모든 코어를 활용하기에 충분한 타일 확보
SIMD 폭: 타일 크기는 SIMD 폭의 배수여야 함

비교 요약:

Elementwise: 높은 병렬성, 분산된 메모리 접근
Tiled:       적당한 병렬성, 지역화된 메모리 접근

요소별 패턴과 타일링 패턴 간의 선택은 특정 워크로드 특성, 데이터 접근 패턴, 대상 하드웨어 능력에 따라 달라집니다.

다음 단계

요소별 패턴과 타일링 패턴을 모두 이해했다면:

vectorize - SIMD 제어: SIMD 연산에 대한 세밀한 제어
🧠 GPU 스레딩 vs SIMD 개념: 실행 계층 구조 이해
📊 Mojo 벤치마킹: 성능 분석과 최적화

💡 핵심 요약: 타일링은 메모리 접근 패턴이 원시 연산 처리량보다 더 중요할 수 있음을 보여줍니다. 최고의 GPU 코드는 병렬성과 메모리 계층 구조 최적화의 균형을 맞춥니다.

vectorize - SIMD 제어

개요

이 퍼즐에서는 수동 벡터화와 vectorize를 사용하여 GPU 커널 내에서 SIMD 연산을 정밀하게 제어하는 고급 벡터화 기법을 탐구합니다. 벡터화된 연산에 대해 두 가지 다른 접근법을 구현합니다:

수동 벡터화: 명시적 인덱스 계산을 통한 직접적인 SIMD 제어
Mojo의 vectorize 함수: 자동 경계 검사를 포함한 고수준 벡터화

두 접근법 모두 타일링 개념을 기반으로 하지만, 제어, 안전성, 성능 최적화 간의 트레이드오프가 다릅니다.

핵심 통찰: 벡터화 전략은 성능 요구 사항과 복잡도 수준에 따라 달리 선택해야 합니다.

핵심 개념

이 퍼즐에서 배울 내용:

명시적 인덱스 관리를 통한 수동 SIMD 연산
안전하고 자동적인 벡터화를 위한 Mojo의 vectorize 함수
최적의 SIMD 정렬을 위한 청크 기반 메모리 구성
경계 조건을 위한 경계 검사 전략
수동 제어와 안전성 간의 성능 트레이드오프

이전과 동일한 수학적 연산: \[\Large \text{output}[i] = a[i] + b[i]\]

하지만 최대 성능을 위한 정교한 벡터화 전략을 사용합니다.

설정

벡터 크기: SIZE = 1024
타일 크기: TILE_SIZE = 32
데이터 타입: DType.float32
SIMD 폭: GPU 의존적
레이아웃: row_major[SIZE]() (1D 행 우선)

1. 수동 벡터화 방식

완성할 코드

def manual_vectorized_tiled_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    num_threads_per_tile: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    # Each tile contains tile_size groups of simd_width elements
    comptime chunk_size = tile_size * simd_width

    @parameter
    @always_inline
    def process_manual_vectorized_tiles[
        num_threads_per_tile: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]
        print("tile_id:", tile_id)
        var output_tile = output.tile[chunk_size](tile_id)
        var a_tile = a.tile[chunk_size](tile_id)
        var b_tile = b.tile[chunk_size](tile_id)

        # FILL IN (7 lines at most)

    # Number of tiles needed: each tile processes chunk_size elements
    var num_tiles = (size + chunk_size - 1) // chunk_size
    elementwise[
        process_manual_vectorized_tiles, num_threads_per_tile, target="gpu"
    ](num_tiles, ctx)

전체 파일 보기: problems/p23/p23.mojo

팁

1. 청크 구성 이해하기

comptime chunk_size = tile_size * simd_width  # 32 * 4 = 청크당 128개 요소

각 타일은 이제 단순한 순차 요소가 아닌 여러 SIMD 그룹을 포함합니다.

2. 전역 인덱스 계산

global_start = tile_id * chunk_size + i * simd_width

청크 내 각 SIMD 벡터의 정확한 전역 위치를 계산합니다.

3. 텐서 직접 접근

a_vec = a.load[simd_width](global_start, 0)     # 전역 텐서에서 로드
output.store[simd_width](global_start, 0, ret)  # 전역 텐서에 저장

참고: 타일 뷰가 아닌 원본 텐서에 접근합니다.

4. 주요 특성

더 많은 제어, 더 많은 복잡성, 전역 텐서 접근
하드웨어에 대한 완벽한 SIMD 정렬
수동 경계 검사 필요

수동 벡터화 실행

pixi run p23 --manual-vectorized

pixi run -e amd p23 --manual-vectorized

pixi run -e apple p23 --manual-vectorized

uv run poe p23 --manual-vectorized

퍼즐이 아직 풀리지 않은 경우 다음과 같이 출력됩니다:

SIZE: 1024
simd_width: 4
tile size: 32
tile_id: 0
tile_id: 1
tile_id: 2
tile_id: 3
tile_id: 4
tile_id: 5
tile_id: 6
tile_id: 7
out: HostBuffer([0.0, 0.0, 0.0, ..., 0.0, 0.0, 0.0])
expected: HostBuffer([1.0, 5.0, 9.0, ..., 4085.0, 4089.0, 4093.0])

수동 벡터화 풀이

def manual_vectorized_tiled_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    num_threads_per_tile: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    # Each tile contains tile_size groups of simd_width elements
    comptime chunk_size = tile_size * simd_width

    @parameter
    @always_inline
    def process_manual_vectorized_tiles[
        num_threads_per_tile: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]
        # Convert inside GPU kernel to avoid host-captured LayoutTensor issues
        var a_lt = a.to_layout_tensor()
        var b_lt = b.to_layout_tensor()
        var out_lt = output.to_layout_tensor()

        comptime for i in range(tile_size):
            var global_start = tile_id * chunk_size + i * simd_width

            var a_vec = a_lt.aligned_load[width=simd_width](Index(global_start))
            var b_vec = b_lt.aligned_load[width=simd_width](Index(global_start))
            var ret = a_vec + b_vec
            out_lt.store[simd_width](Index(global_start), ret)

    # Number of tiles needed: each tile processes chunk_size elements
    var num_tiles = (size + chunk_size - 1) // chunk_size
    elementwise[
        process_manual_vectorized_tiles, num_threads_per_tile, target="gpu"
    ](num_tiles, ctx)

수동 벡터화 심층 분석

수동 벡터화는 명시적 인덱스 계산을 통해 SIMD 연산에 대한 직접적인 제어를 제공합니다:

청크 기반 구성: chunk_size = tile_size * simd_width
전역 인덱싱: 메모리 위치의 직접 계산
수동 경계 관리: 경계 조건을 직접 처리

아키텍처와 메모리 레이아웃:

comptime chunk_size = tile_size * simd_width  # 32 * 4 = 128

청크 구성 시각화 (TILE_SIZE=32, SIMD_WIDTH=4):

원본 배열: [0, 1, 2, 3, ..., 1023]

청크 0 (thread 0): [0:128]    ← 128개 요소 = 4개씩 32개 SIMD 그룹
청크 1 (thread 1): [128:256]  ← 다음 128개 요소
청크 2 (thread 2): [256:384]  ← 다음 128개 요소
...
청크 7 (thread 7): [896:1024] ← 마지막 128개 요소

하나의 청크 내 처리:

@parameter
for i in range(tile_size):  # i = 0, 1, 2, ..., 31
    global_start = tile_id * chunk_size + i * simd_width
    # tile_id=0일 때: global_start = 0, 4, 8, 12, ..., 124
    # tile_id=1일 때: global_start = 128, 132, 136, 140, ..., 252

성능 특성:

스레드 수: 8개 스레드 (1024 ÷ 128 = 8)
스레드당 작업량: 128개 요소 (각 4개 요소의 SIMD 연산 32회)
메모리 패턴: 완벽한 SIMD 정렬을 갖춘 대형 청크
오버헤드: 최소 - 하드웨어에 직접 매핑
안전성: 수동 경계 검사 필요

주요 장점:

예측 가능한 인덱싱: 메모리 접근 패턴에 대한 정확한 제어
최적의 정렬: SIMD 연산이 하드웨어에 완벽히 정렬
최대 처리량: 안전성 검사로 인한 오버헤드 없음
하드웨어 최적화: GPU SIMD 유닛에 직접 매핑

주요 과제:

인덱스 복잡성: 전역 위치의 수동 계산
경계 처리 책임: 경계 조건을 직접 처리해야 함
디버깅 난이도: 정확성 검증이 더 복잡

2. Mojo vectorize 방식

완성할 코드

def vectorize_within_tiles_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    num_threads_per_tile: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    # Each tile contains tile_size elements (not SIMD groups)
    @parameter
    @always_inline
    def process_tile_with_vectorize[
        num_threads_per_tile: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]
        var tile_start = tile_id * tile_size
        var tile_end = min(tile_start + tile_size, size)
        var actual_tile_size = tile_end - tile_start
        print(
            "tile_id:",
            tile_id,
            "tile_start:",
            tile_start,
            "tile_end:",
            tile_end,
            "actual_tile_size:",
            actual_tile_size,
        )

        # FILL IN (9 lines at most)

    var num_tiles = (size + tile_size - 1) // tile_size
    elementwise[
        process_tile_with_vectorize, num_threads_per_tile, target="gpu"
    ](num_tiles, ctx)

전체 파일 보기: problems/p23/p23.mojo

팁

1. 타일 경계 계산

tile_start = tile_id * tile_size
tile_end = min(tile_start + tile_size, size)
actual_tile_size = tile_end - tile_start

마지막 타일이 tile_size보다 작을 수 있는 경우를 처리합니다.

2. 벡터화 함수 패턴

def vectorized_add[
  width: Int
](i: Int) unified {read tile_start, read a, read b, mut output}:
    global_idx = tile_start + i
    if global_idx + width <= size:  # 경계 검사
        # SIMD 연산 코드

width 매개변수는 vectorize 함수에 의해 자동으로 결정됩니다.

3. vectorize 호출

vectorize[simd_width](actual_tile_size, vectorized_add)

제공된 SIMD 폭으로 벡터화 루프를 자동 처리합니다.

4. 주요 특성

자동 나머지 처리, 내장 안전성, 타일 기반 접근
명시적 SIMD 폭 매개변수 사용
내장 경계 검사와 자동 나머지 요소 처리

Mojo vectorize 실행

uv run poe p23 --vectorized

pixi run p23 --vectorized

퍼즐이 아직 풀리지 않은 경우 다음과 같이 출력됩니다:

SIZE: 1024
simd_width: 4
tile size: 32
tile_id: 0 tile_start: 0 tile_end: 32 actual_tile_size: 32
tile_id: 1 tile_start: 32 tile_end: 64 actual_tile_size: 32
tile_id: 2 tile_start: 64 tile_end: 96 actual_tile_size: 32
tile_id: 3 tile_start: 96 tile_end: 128 actual_tile_size: 32
...
tile_id: 29 tile_start: 928 tile_end: 960 actual_tile_size: 32
tile_id: 30 tile_start: 960 tile_end: 992 actual_tile_size: 32
tile_id: 31 tile_start: 992 tile_end: 1024 actual_tile_size: 32
out: HostBuffer([0.0, 0.0, 0.0, ..., 0.0, 0.0, 0.0])
expected: HostBuffer([1.0, 5.0, 9.0, ..., 4085.0, 4089.0, 4093.0])

Mojo vectorize 풀이

def vectorize_within_tiles_elementwise_add[
    LayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    num_threads_per_tile: Int,
    rank: Int,
    size: Int,
    tile_size: Int,
](
    output: TileTensor[mut=True, dtype, LayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    # Each tile contains tile_size elements (not SIMD groups)
    @parameter
    @always_inline
    def process_tile_with_vectorize[
        num_threads_per_tile: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var tile_id = indices[0]
        var tile_start = tile_id * tile_size
        var tile_end = min(tile_start + tile_size, size)
        var actual_tile_size = tile_end - tile_start
        # Convert inside GPU kernel to avoid host-captured LayoutTensor issues
        var a_lt = a.to_layout_tensor()
        var b_lt = b.to_layout_tensor()
        var out_lt = output.to_layout_tensor()

        def vectorized_add[
            width: Int
        ](i: Int) {read tile_start, read a_lt, read b_lt, mut out_lt}:
            var global_idx = tile_start + i
            if global_idx + width <= size:
                var a_vec = a_lt.aligned_load[width](Index(global_idx))
                var b_vec = b_lt.aligned_load[width](Index(global_idx))
                var result = a_vec + b_vec
                out_lt.store[width](Index(global_idx), result)

        # Use vectorize within each tile
        vectorize[simd_width](actual_tile_size, vectorized_add)

    var num_tiles = (size + tile_size - 1) // tile_size
    elementwise[
        process_tile_with_vectorize, num_threads_per_tile, target="gpu"
    ](num_tiles, ctx)

Mojo vectorize 심층 분석

Mojo의 vectorize 함수는 내장 안전성과 함께 자동 벡터화를 제공합니다:

명시적 SIMD 폭 매개변수: 사용할 simd_width를 직접 지정
내장 경계 검사: 버퍼 오버플로우를 자동으로 방지
자동 나머지 처리: 남은 요소를 자동으로 처리
중첩 함수 패턴: 벡터화 로직의 깔끔한 분리

타일 기반 구성:

tile_start = tile_id * tile_size    # 0, 32, 64, 96, ...
tile_end = min(tile_start + tile_size, size)
actual_tile_size = tile_end - tile_start

자동 벡터화 메커니즘:

def vectorized_add[
  width: Int
](i: Int) unified {read tile_start, read a, read b, mut output}:
    global_idx = tile_start + i
    if global_idx + width <= size:
        # 자동 SIMD 최적화

vectorize의 동작 방식:

자동 청크 분할: actual_tile_size를 지정한 simd_width의 청크로 분할
나머지 처리: 남은 요소를 더 작은 폭으로 자동 처리
경계 안전성: 버퍼 오버플로우를 자동으로 방지
루프 관리: 벡터화 루프를 자동으로 처리

실행 시각화 (TILE_SIZE=32, SIMD_WIDTH=4):

Tile 0 처리:
  vectorize 호출 0: 요소 [0:4]를 SIMD_WIDTH=4로 처리
  vectorize 호출 1: 요소 [4:8]를 SIMD_WIDTH=4로 처리
  ...
  vectorize 호출 7: 요소 [28:32]를 SIMD_WIDTH=4로 처리
  합계: 8회 자동 SIMD 연산

성능 특성:

스레드 수: 32개 스레드 (1024 ÷ 32 = 32)
스레드당 작업량: 32개 요소 (자동 SIMD 청크 분할)
메모리 패턴: 자동 벡터화를 갖춘 작은 타일
오버헤드: 약간 - 자동 최적화 및 경계 검사
안전성: 내장 경계 검사와 경계 조건 처리

성능 비교와 모범 사례

각 접근법의 선택 기준

수동 벡터화를 선택할 때:

최대 성능이 중요한 경우
예측 가능하고 정렬된 데이터 패턴이 있는 경우
메모리 접근에 대한 전문가 수준의 제어가 필요한 경우
수동으로 경계 안전성을 보장할 수 있는 경우
하드웨어별 최적화가 필요한 경우

Mojo vectorize를 선택할 때:

개발 속도와 안전성이 우선인 경우
불규칙하거나 동적인 데이터 크기를 다루는 경우
수동 경계 조건 관리 대신 자동 나머지 처리를 원하는 경우
경계 검사 복잡도가 오류를 유발할 수 있는 경우
수동 루프 관리보다 깔끔한 벡터화 패턴을 선호하는 경우

고급 최적화 인사이트

메모리 대역폭 활용:

수동:      8 스레드 × 32 SIMD 연산 = 총 256회 SIMD 연산
vectorize: 32 스레드 × 8 SIMD 연산 = 총 256회 SIMD 연산

둘 다 비슷한 총 처리량을 달성하지만, 병렬성 전략이 다릅니다.

캐시 동작:

수동: 대형 청크가 L1 캐시를 초과할 수 있지만, 완벽한 순차 접근
vectorize: 작은 타일이 캐시에 더 잘 맞고, 자동 나머지 처리

하드웨어 매핑:

수동: 워프 활용과 SIMD 유닛 매핑에 대한 직접 제어
vectorize: 자동 루프 및 나머지 관리를 통한 간소화된 벡터화

모범 사례 요약

수동 벡터화 모범 사례:

인덱스 계산을 항상 신중하게 검증
가능하면 chunk_size에 컴파일 타임 상수 사용
캐시 최적화를 위해 메모리 접근 패턴 프로파일링
최적의 SIMD 성능을 위한 정렬 요구 사항 고려

Mojo vectorize 모범 사례:

데이터와 하드웨어에 적합한 SIMD 폭 선택
미세 최적화보다 알고리즘의 명확성에 집중
깔끔한 벡터화 로직을 위해 중첩 파라미터 함수 사용
경계 조건에는 자동 경계 검사와 나머지 처리 신뢰

두 접근법 모두 GPU 성능 최적화 도구 모음에서 유효한 전략입니다. 수동 벡터화는 최대한의 제어를, Mojo의 vectorize는 안전성과 자동 나머지 처리를 제공합니다.

다음 단계

세 가지 기본 패턴을 모두 이해했다면:

🧠 GPU 스레딩 vs SIMD 개념: 실행 계층 구조 이해
📊 Mojo 벤치마킹: 성능 분석과 최적화

💡 핵심 요약: 벡터화 전략은 성능 요구 사항에 따라 달리 선택해야 합니다. 수동 벡터화는 최대한의 제어를, Mojo의 vectorize 함수는 안전성과 자동 나머지 처리를 제공합니다. 구체적인 성능 요구 사항과 개발 제약 조건에 따라 선택하세요.

🧠 GPU 스레딩 vs SIMD - 실행 계층 구조 이해하기

개요

요소별, 타일링, 벡터화 패턴을 탐구하면서 GPU 연산을 구성하는 다양한 방법을 살펴보았습니다. 이 섹션에서는 GPU 스레드와 SIMD 연산 사이의 근본적인 관계를 명확히 합니다. 이 둘은 서로 다르지만 상호 보완적인 병렬성 수준으로, 최적의 성능을 위해 함께 동작합니다.

핵심 통찰: GPU 스레드가 병렬성의 구조를 제공하고, SIMD 연산이 각 스레드 내에서 벡터화를 제공합니다.

핵심 개념

GPU 스레딩 계층 구조

GPU 실행은 하드웨어의 복잡성을 추상화하는 잘 정의된 계층 구조를 따릅니다:

GPU Device
├── Grid (전체 문제)
│   ├── Block 1 (스레드 그룹, 공유 메모리)
│   │   ├── 워프 1 (32개 스레드, 록스텝 실행)
│   │   │   ├── Thread 1 → SIMD 연산
│   │   │   ├── Thread 2 → SIMD 연산
│   │   │   └── ... (총 32개 스레드)
│   │   └── 워프 2 (32개 스레드)
│   └── Block 2 (독립적인 그룹)

💡 참고: 이 Part는 함수형 패턴에 초점을 맞추고 있으며, 워프 레벨 프로그래밍과 고급 GPU 메모리 관리는 Part VII 에서 자세히 다룹니다.

Mojo가 자동으로 처리하는 것들:

그리드/블록 구성: 문제 크기에 따라 자동 계산
워프 관리: 하드웨어가 32개 스레드 그룹을 투명하게 처리
스레드 스케줄링: GPU 스케줄러가 실행을 자동 관리
메모리 계층 구조: 함수형 연산에 최적의 접근 패턴 내장

GPU 스레드 내의 SIMD

각 GPU 스레드는 SIMD (Single Instruction, Multiple Data) 연산을 사용하여 여러 데이터 요소를 동시에 처리할 수 있습니다:

# 하나의 GPU 스레드 내부:
a_simd = a.load[simd_width](idx, 0)      # float 4개를 동시에 로드
b_simd = b.load[simd_width](idx, 0)      # float 4개를 동시에 로드
result = a_simd + b_simd                 # 4쌍을 동시에 덧셈
output.store[simd_width](idx, 0, result) # 결과 4개를 동시에 저장

패턴 비교와 스레드-작업 매핑

핵심 인사이트: 모든 패턴은 동일한 총 작업량 - SIMD_WIDTH=4로 1024개 요소에 대해 256회의 SIMD 연산 - 을 수행합니다. 차이점은 이 작업이 GPU 스레드에 어떻게 분배되느냐에 있습니다.

스레드 구성 비교 (`SIZE=1024`, `SIMD_WIDTH=4`)

패턴	스레드 수	스레드당 SIMD 연산	메모리 패턴	트레이드오프
요소별	256	1	분산 접근	최대 병렬성, 낮은 지역성
타일링	32	8	소형 블록	병렬성 + 지역성 균형
수동 벡터화	8	32	대형 청크	높은 대역폭, 적은 스레드
Mojo vectorize	32	8	스마트 블록	자동 최적화

상세 실행 패턴

요소별 패턴:

Thread 0: [0,1,2,3] → Thread 1: [4,5,6,7] → ... → Thread 255: [1020,1021,1022,1023]
256 스레드 × 1 SIMD 연산 = 총 256회 SIMD 연산

타일링 패턴:

Thread 0: [0:32] (8 SIMD) → Thread 1: [32:64] (8 SIMD) → ... → Thread 31: [992:1024] (8 SIMD)
32 스레드 × 8 SIMD 연산 = 총 256회 SIMD 연산

수동 벡터화 패턴:

Thread 0: [0:128] (32 SIMD) → Thread 1: [128:256] (32 SIMD) → ... → Thread 7: [896:1024] (32 SIMD)
8 스레드 × 32 SIMD 연산 = 총 256회 SIMD 연산

Mojo vectorize 패턴:

Thread 0: [0:32] 자동 벡터화 → Thread 1: [32:64] 자동 벡터화 → ... → Thread 31: [992:1024] 자동 벡터화
32 스레드 × 8 SIMD 연산 = 총 256회 SIMD 연산

성능 특성과 트레이드오프

핵심 트레이드오프 요약

측면	스레드 많음 (요소별)	스레드 중간 (타일링/vectorize)	스레드 적음 (수동)
병렬성	최대 지연 시간 은닉	균형 잡힌 접근	최소한의 병렬성
캐시 지역성	스레드 간 낮음	타일 내에서 양호	순차 접근으로 우수
메모리 대역폭	양호한 병합	양호 + 캐시 재사용	이론적 최댓값
복잡도	가장 단순	보통	가장 복잡

각 패턴의 선택 기준

요소별 패턴을 사용할 때:

요소당 연산량이 적은 단순한 연산
지연 시간 은닉을 위해 최대 병렬성이 필요한 경우
다양한 문제 크기에 대한 확장성이 중요한 경우

타일링/vectorize를 사용할 때:

데이터 재사용의 이점이 있는 캐시 민감 연산
성능과 유지보수성의 균형이 필요한 경우
자동 최적화(vectorize)가 선호되는 경우

수동 벡터화를 사용할 때:

메모리 패턴에 대한 전문가 수준의 제어가 필요한 경우
최대 메모리 대역폭 활용이 중요한 경우
개발 복잡도를 감수할 수 있는 경우

하드웨어 고려 사항

현대 GPU 아키텍처에는 Mojo가 추상화하는 여러 수준이 있습니다:

하드웨어 실제 구조:

워프: 32개 스레드가 록스텝으로 실행
Streaming Multiprocessor (SM): 여러 워프가 동시에 실행
SIMD 유닛: 각 SM 내의 벡터 처리 유닛
메모리 계층 구조: L1/L2 캐시, 공유 메모리, 전역 메모리

Mojo 추상화의 이점:

워프 정렬과 스케줄링을 자동으로 처리
메모리 접근 패턴을 투명하게 최적화
SM 간 리소스 할당을 관리
GPU 벤더 간 이식 가능한 성능 제공

성능에 대한 사고 모델

GPU 프로그래밍을 두 가지 상호 보완적인 병렬성 유형을 관리하는 것으로 생각하세요:

스레드 수준 병렬성:

병렬 구조를 제공 (실행 유닛의 수)
동시 실행을 통한 지연 시간 은닉 가능
GPU 스케줄러가 자동으로 관리

SIMD 수준 병렬성:

각 스레드 내에서 벡터화를 제공
스레드당 산술 처리량을 극대화
벡터 처리 유닛을 효율적으로 활용

최적 성능 공식:

성능 = (지연 시간 은닉을 위한 충분한 스레드) ×
       (효율적인 SIMD 활용) ×
       (최적의 메모리 접근 패턴)

확장성 고려 사항

문제 크기	최적 패턴	근거
소규모 (< 1K)	타일링/vectorize	낮은 실행 오버헤드
중규모 (1K-1M)	모든 패턴	유사한 성능
대규모 (> 1M)	보통 요소별	병렬성이 지배적

최적의 선택은 특정 하드웨어, 워크로드 복잡도, 개발 제약 조건에 따라 달라집니다.

다음 단계

GPU 스레딩 vs SIMD 개념을 확실히 이해했다면:

📊 Mojo 벤치마킹: 실제 성능을 측정하고 비교

💡 핵심 요약: GPU 스레드와 SIMD 연산은 상호 보완적인 병렬성 수준으로 함께 동작합니다. 이 둘의 관계를 이해하면 구체적인 성능 요구 사항과 제약 조건에 맞는 올바른 패턴을 선택할 수 있습니다.

📊 Mojo 벤치마킹 - 성능 분석과 최적화

개요

요소별, 타일링, 수동 벡터화, Mojo vectorize 패턴을 학습한 후, 이제 실제 성능을 측정할 차례입니다. p21.mojo에 내장된 벤치마킹 시스템을 사용하여 이러한 접근법을 과학적으로 비교하고 성능 특성을 이해하는 방법을 알아봅니다.

핵심 통찰: 이론적 분석은 가치 있지만, 실증적 벤치마킹이 특정 하드웨어에서의 실제 성능을 보여줍니다.

벤치마크 실행

전체 벤치마크를 실행하려면:

pixi run p23 --benchmark

pixi run -e amd p23 --benchmark

pixi run -e apple p23 --benchmark

uv run poe p23 --benchmark

각 패턴에 대한 성능 측정 결과가 출력됩니다:

SIZE: 1024
simd_width: 4
Running P21 GPU Benchmarks...
SIMD width: 4
--------------------------------------------------------------------------------
Testing SIZE=16, TILE=4
Running elementwise_16_4
Running tiled_16_4
Running manual_vectorized_16_4
Running vectorized_16_4
--------------------------------------------------------------------------------
Testing SIZE=128, TILE=16
Running elementwise_128_16
Running tiled_128_16
Running manual_vectorized_128_16
--------------------------------------------------------------------------------
Testing SIZE=128, TILE=16, Vectorize within tiles
Running vectorized_128_16
--------------------------------------------------------------------------------
Testing SIZE=1048576 (1M), TILE=1024
Running elementwise_1M_1024
Running tiled_1M_1024
Running manual_vectorized_1M_1024
Running vectorized_1M_1024
| name                      | met (ms)              | iters |
| ------------------------- | --------------------- | ----- |
| elementwise_16_4          | 0.0033248             | 100   |
| tiled_16_4                | 0.00327392            | 100   |
| manual_vectorized_16_4    | 0.0036169600000000002 | 100   |
| vectorized_16_4           | 0.0037209599999999997 | 100   |
| elementwise_128_16        | 0.00351999            | 100   |
| tiled_128_16              | 0.00370431            | 100   |
| manual_vectorized_128_16  | 0.0043696             | 100   |
| vectorized_128_16         | 0.00378048            | 100   |
| elementwise_1M_1024       | 0.03130143            | 100   |
| tiled_1M_1024             | 0.6892189000000001    | 100   |
| manual_vectorized_1M_1024 | 0.5923888             | 100   |
| vectorized_1M_1024        | 0.1876688             | 100   |

Benchmarks completed!

벤치마크 설정

벤치마킹 시스템은 Mojo의 내장 benchmark 모듈을 사용합니다:

from benchmark import Bench, BenchConfig, Bencher, BenchId, keep
bench_config = BenchConfig(max_iters=10, num_warmup_iters=1)

max_iters=10: 통계적 신뢰성을 위해 최대 10회 반복
num_warmup_iters=1: 측정 전 GPU 워밍업
Benchmark 문서를 참고하세요

벤치마킹 구현의 핵심

핵심 워크플로우 패턴

각 벤치마크는 다음과 같은 간결한 패턴을 따릅니다:

@parameter
def benchmark_pattern_parameterized[test_size: Int, tile_size: Int](mut b: Bencher) raises:
    bench_ctx = DeviceContext()
    # 셋업: 버퍼 생성 및 데이터 초기화
    @parameter
    def pattern_workflow(ctx: DeviceContext) raises:
      # 연산: 측정 대상 알고리즘 실행

    b.iter_custom[pattern_workflow](bench_ctx)
    # 최적화 방지: keep(out.unsafe_ptr())
    # 동기화: ctx.synchronize()

주요 단계:

셋업: 버퍼 할당 및 데이터 초기화
연산: 벤치마크 대상 알고리즘 실행
최적화 방지: 정확한 측정을 위해 필수
동기화: GPU 작업 완료 확인

중요: keep() 함수 keep(out.unsafe_ptr())는 컴파일러가 연산 결과를 “사용되지 않는 코드“로 최적화하여 제거하는 것을 방지합니다. 이것이 없으면 알고리즘 대신 아무것도 측정하지 못할 수 있습니다! GPU 커널은 비동기적으로 실행되기 때문에 정확한 GPU 벤치마킹에 필수적입니다.

커스텀 반복이 GPU에 필요한 이유

일반적인 벤치마킹은 CPU 스타일의 동기 실행을 가정합니다. GPU 커널은 비동기적으로 실행되므로 다음이 필요합니다:

GPU 컨텍스트 관리: 적절한 DeviceContext 생명주기
메모리 관리: 반복 간 버퍼 정리
동기화 처리: 비동기 연산의 정확한 타이밍
오버헤드 분리: 셋업 비용과 연산 비용의 분리

테스트 시나리오와 스레드 분석

벤치마크 모음은 성능 특성을 파악하기 위해 세 가지 시나리오를 테스트합니다:

스레드 활용 요약

문제 크기	패턴	스레드 수	스레드당 SIMD 연산	총 SIMD 연산
SIZE=16	요소별	4	1	4
	타일링	4	1	4
	수동	1	4	4
	vectorize	4	1	4
SIZE=128	요소별	32	1	32
	타일링	8	4	32
	수동	2	16	32
	vectorize	8	4	32
SIZE=1M	요소별	262,144	1	262,144
	타일링	1,024	256	262,144
	수동	256	1,024	262,144
	vectorize	1,024	256	262,144

문제 크기별 성능 특성

소규모 문제 (SIZE=16):

실행 오버헤드가 지배적 (~0.003ms 기준선)
스레드 수 차이는 거의 무의미
타일링/vectorize가 약간 낮은 오버헤드를 보임

중규모 문제 (SIZE=128):

여전히 오버헤드가 지배적 (~0.003ms 전 패턴)
성능 차이가 거의 사라짐
오버헤드 지배에서 연산 지배로의 전환 구간

대규모 문제 (SIZE=1M):

실질적인 알고리즘 차이가 드러남
비병합 로드의 영향이 명확해짐
뚜렷한 성능 순위가 나타남

데이터가 보여주는 것

다양한 하드웨어에서의 실증적 벤치마크 결과를 기반으로:

성능 순위 (대규모 문제)

순위	패턴	소요 시간	핵심 인사이트
🥇	요소별	~0.03ms	병합 메모리 접근이 메모리 바운드 연산에서 승리
🥈	Mojo vectorize	~0.19ms	비병합 메모리 접근이 성능을 저하
🥉	수동 벡터화	~0.59ms	비병합 메모리 접근과 수동 최적화가 성능 감소
4위	타일링	~0.69ms	비병합 메모리 접근, SIMD 로드 없는 수동 최적화가 성능을 더 저하

핵심 성능 인사이트

단순 메모리 바운드 연산의 경우: 최대 병렬성(elementwise)이 대규모에서 복잡한 메모리 최적화보다 우수합니다.

요소별 패턴이 승리하는 이유:

262,144개 스레드가 우수한 지연 시간 은닉을 제공
단순한 메모리 패턴이 좋은 병합을 달성
스레드당 최소한의 오버헤드
GPU 코어 수에 따라 자연스럽게 확장

타일링과 vectorize가 경쟁력 있는 이유:

병렬성과 메모리 지역성 사이의 균형 잡힌 접근
자동 최적화(vectorize)가 수동 타일링과 거의 동등한 성능
과도한 복잡도 없이 양호한 스레드 활용

수동 벡터화가 고전하는 이유:

256개 스레드만으로는 병렬성이 제한적
복잡한 인덱싱이 연산 오버헤드를 추가
스레드당 대형 청크로 인한 캐시 부담
단순 산술에서 효과 체감

프레임워크 자동화 기능:

자동 반복 횟수 조정 (91-100회 반복)
서로 다른 실행 시간에 걸친 통계적 신뢰성
발열 제한과 시스템 변동에 대응

결과 해석하기

출력 테이블 읽기

| name                     | met (ms)           | iters |
| elementwise_1M_1024      | 0.03130143         | 100   |

met (ms): 단일 반복의 실행 시간
iters: 수행된 반복 횟수
동일 문제 크기 내에서 비교: 같은 크기끼리 비교하는 것이 가장 의미 있음

최적화 의사결정

실증적 증거를 기반으로 패턴을 선택하세요:

프로덕션 워크로드의 경우:

대규모 데이터셋 (>100K 요소): 요소별 패턴이 일반적으로 최적
소규모/시작 데이터셋 (<1K 요소): 낮은 오버헤드를 위해 타일링 또는 vectorize
개발 속도 우선: 자동 최적화를 위한 Mojo vectorize
수동 벡터화 지양: 단순 연산에서는 복잡도가 성능으로 보상되는 경우가 드묾

성능 최적화 워크플로우:

먼저 프로파일링: 최적화하기 전에 측정
대규모에서 테스트: 소규모 문제는 실제 성능에 대해 오해를 줄 수 있음
총비용 고려: 개발 및 유지보수 노력을 포함
개선 사항 검증: 대상 하드웨어에서 벤치마크로 확인

고급 벤치마킹 기법

커스텀 테스트 시나리오

매개변수를 수정하여 다양한 조건을 테스트할 수 있습니다:

# 다양한 문제 크기
benchmark_elementwise_parameterized[1024, 32]  # 대규모 문제
benchmark_elementwise_parameterized[64, 8]     # 소규모 문제

# 다양한 타일 크기
benchmark_tiled_parameterized[256, 8]   # 작은 타일
benchmark_tiled_parameterized[256, 64]  # 큰 타일

하드웨어 고려 사항

결과는 다음에 따라 달라집니다:

GPU 아키텍처: SIMD 폭, 코어 수, 메모리 대역폭
시스템 구성: PCIe 대역폭, CPU 성능
열 상태: GPU 부스트 클럭 vs 지속 성능
동시 워크로드: GPU 활용에 영향을 주는 다른 프로세스

모범 사례 요약

벤치마킹 워크플로우:

중요한 측정 전에 GPU 워밍업
통계적 유의성을 위해 여러 번 반복 실행
확장 특성을 이해하기 위해 다양한 문제 크기 테스트
최적화 아티팩트를 방지하기 위해 keep()을 일관되게 사용
동일 조건에서 비교 (같은 문제 크기, 같은 하드웨어)

성능 의사결정 프레임워크:

단순하게 시작: 메모리 바운드 연산에는 요소별 패턴부터
추측하지 말고 측정: 이론적 분석은 방향을, 실증적 데이터가 결정을
규모가 중요: 소규모 문제의 성능이 대규모 문제의 동작을 예측하지 못함
총비용 최적화: 개발 시간 vs 런타임 성능의 균형

다음 단계

벤치마킹 기술을 갖추었다면:

실제 애플리케이션 프로파일링: 이 패턴들을 실제 워크로드에 적용
고급 GPU 패턴: 리덕션, 합성곱, 행렬 연산 탐구
멀티 GPU 확장: 분산 GPU 컴퓨팅 패턴 이해
메모리 최적화: 공유 메모리와 고급 캐싱을 더 깊이 탐구

💡 핵심 요약: 벤치마킹은 이론적 이해를 실질적인 성능 최적화로 전환합니다. 실증적 데이터를 사용하여 특정 하드웨어와 워크로드 특성에 가장 적합한 패턴을 선택하세요.

앞으로의 방향: 더 많은 제어가 필요할 때

Part VI의 함수형 패턴은 대부분의 워크로드에서 우수한 성능을 제공하지만, 일부 알고리즘은 직접적인 스레드 간 통신이 필요합니다:

워프 프로그래밍이 유용한 알고리즘:

리덕션: 스레드 그룹에 걸친 합계, 최댓값, 최솟값 연산
누적 연산: 누적 합, 이동 최댓값
데이터 셔플: 스레드 간 데이터 재배치
협력 알고리즘: 스레드 간 긴밀한 조정이 필요한 경우

성능 미리보기:

Part VII에서는 Part III의 여러 알고리즘을 다시 살펴보며 워프 연산이 어떻게:

코드를 간소화하는지: 복잡한 공유 메모리 패턴을 단일 함수 호출로 대체
성능을 향상시키는지: 배리어를 제거하고 메모리 트래픽을 감소
새로운 알고리즘을 가능하게 하는지: 순수 함수형 접근으로는 불가능한 패턴을 구현

다음 내용: Part VII: 워프 레벨 프로그래밍 - Puzzle 14의 누적 합을 완전히 새롭게 구현하는 것부터 시작합니다.

Puzzle 24: 워프 기초

개요

Part VII: 워프 레벨 프로그래밍에서는 GPU의 워프 레벨 기본 요소 - 워프 내 동기화된 스레드 실행을 활용하는 하드웨어 가속 연산을 소개합니다. 복잡한 공유 메모리 패턴을 간단하고 효율적인 함수 호출로 대체하는 내장 워프 연산을 배웁니다.

목표: 복잡한 공유 메모리 + 배리어 + 트리 리덕션 패턴을 하드웨어 동기화를 활용하는 효율적인 워프 기본 요소 호출로 대체합니다.

핵심 통찰: GPU 워프는 록스텝(lockstep)으로 실행됩니다 - Mojo의 워프 연산은 이 동기화를 활용하여 명시적 동기화 없이 강력한 병렬 기본 요소를 제공합니다.

배울 내용

GPU 워프 실행 모델

GPU 병렬성의 기본 하드웨어 단위를 이해합니다:

GPU 블록 (예: 256 스레드)
├── 워프 0 (32 스레드, SIMT 록스텝 실행)
│   ├── 레인 0  ─┐
│   ├── 레인 1   │ 모든 스레드가 같은 명령을
│   ├── 레인 2   │ 동시에 실행 (SIMT)
│   │   ...      │
│   └── 레인 31 ─┘
├── 워프 1 (32 스레드, 독립적)
├── 워프 2 (32 스레드, 독립적)
└── ...

하드웨어 현실:

NVIDIA GPU에서 워프당 32 스레드 (WARP_SIZE=32)
AMD GPU에서 워프당 32 또는 64 스레드 (WARP_SIZE=32 or 64)
록스텝 실행: 워프 내 모든 스레드가 동일한 명령을 동시에 실행합니다
동기화 비용 제로: 워프 연산은 각 워프 내에서 즉시 수행됩니다

Mojo에서 사용 가능한 워프 연산

gpu.primitives.warp의 핵심 워프 기본 요소를 배웁니다:

sum(value): 워프의 모든 레인에서 값을 합산
shuffle_idx(value, lane): 특정 레인에서 값을 가져오기
shuffle_down(value, delta): lane+delta 위치의 값을 가져오기
prefix_sum(value): 레인 전체에 걸쳐 누적 합 계산
lane_id(): 현재 스레드의 레인 번호 반환 (0-31 또는 0-63)

성능 변환 예시

# 1. 공유 메모리를 통한 리덕션
# 앞서 살펴본 복잡한 패턴 (p12.mojo):
shared = TileTensor[
    dtype,
    row_major[WARP_SIZE](),
    MutAnyOrigin,
    address_space = AddressSpace.SHARED,
].stack_allocation()
shared[local_i] = partial_product
barrier()

# 공유 메모리를 통한 안전한 트리 리덕션은 각 단계마다 배리어가 필요합니다:
stride = WARP_SIZE // 2
while stride > 0:
    if local_i < stride:
        shared[local_i] += shared[local_i + stride]

    barrier()
    stride //= 2

# 2. 워프 기본 요소를 활용한 리덕션
# 워프 기본 요소를 사용한 안전한 트리 리덕션은 공유 메모리나 각 단계의 배리어가
# 필요하지 않습니다.
# Mojo의 워프 레벨 sum 연산은 내부적으로 워프 기본 요소를 사용하여 이 모든 복잡성을
# 숨깁니다:
total = sum(partial_product)  # 내부적으로 배리어도, 경쟁 상태도 없습니다!

워프 연산이 빛나는 순간

성능 특성을 이해합니다:

문제 규모              기존 방식        워프 연산
단일 워프 (32)         빠름            가장 빠름 (배리어 없음)
소수 워프 (128)        좋음            우수 (오버헤드 최소)
다수 워프 (1024+)      좋음            뛰어남 (선형 확장)
대규모 (16K+)          병목 발생        메모리 대역폭 제한

선수 지식

워프 프로그래밍에 들어가기 전에 다음 내용에 익숙해야 합니다:

Part VI 함수형 패턴: elementwise, tiled, vectorize 접근 방식
GPU 스레드 계층 구조: 블록, 워프, 스레드에 대한 이해
TileTensor 연산: 로드, 저장, 텐서 조작
공유 메모리 개념: 배리어와 트리 리덕션이 왜 복잡한지

학습 경로

1. SIMT 실행 모델

→ 워프 레인과 SIMT 실행

워프 연산을 가능하게 하는 하드웨어 기반을 이해합니다.

배울 내용:

SIMT(Single Instruction, Multiple Thread) 실행 모델
워프 분기와 수렴 패턴
워프 내 레인 동기화
하드웨어 vs 소프트웨어 스레드 관리

핵심 통찰: 워프는 GPU 실행의 기본 단위입니다 - SIMT를 이해하면 워프 프로그래밍의 문이 열립니다.

2. 워프 sum 기초

→ warp.sum()의 핵심

내적 구현을 통해 가장 중요한 워프 연산을 배웁니다.

배울 내용:

공유 메모리 + 배리어를 sum()으로 대체
GPU 아키텍처 간 호환성 (WARP_SIZE)
워프를 활용한 커널 vs 함수형 프로그래밍 패턴
기존 방식과의 성능 비교

핵심 패턴:

partial_result = compute_per_lane_value()
total = sum(partial_result)  # 마법이 일어나는 곳!
if lane_id() == 0:
    output[0] = total

3. 언제 워프 프로그래밍을 사용할까

→ 언제 워프 프로그래밍을 사용할까

대안 대비 워프 연산을 선택하기 위한 의사결정 프레임워크를 배웁니다.

배울 내용:

워프 연산에 유리한 문제 특성
워프 수에 따른 성능 확장 패턴
메모리 대역폭 vs 연산량 트레이드오프
워프 연산 선택 가이드라인

의사결정 프레임워크: 리덕션 연산이 병목이 될 때, 워프 기본 요소가 돌파구를 제공하는 경우가 많습니다.

핵심 개념

하드웨어-소프트웨어 정렬

Mojo 워프 연산이 GPU 하드웨어에 매핑되는 방식을 이해합니다:

SIMT 실행: 모든 레인이 동일한 명령을 동시에 실행합니다
내장 동기화: 워프 내에서 명시적 배리어가 필요하지 않습니다
크로스 아키텍처 지원: WARP_SIZE가 NVIDIA와 AMD의 차이를 처리합니다

패턴 변환

복잡한 병렬 패턴을 워프 기본 요소로 변환합니다:

트리 리덕션 → sum()
누적 합 연산 → prefix_sum()
데이터 셔플 → shuffle_idx(), shuffle_down()

성능 특성

워프 연산이 이점을 제공하는 경우를 파악합니다:

소~중규모 문제: 배리어 오버헤드를 제거합니다
대규모 문제: 메모리 트래픽을 줄이고 캐시 활용을 개선합니다
규칙적인 패턴: 예측 가능한 접근 패턴에서 워프 연산이 탁월합니다

시작하기

SIMT 실행 모델을 이해하는 것으로 시작하여, 실용적인 warp.sum 구현을 다루고, 전략적 의사결정 프레임워크로 마무리합니다.

💡 성공 팁: 워프를 독립적인 스레드가 아닌 동기화된 벡터 유닛으로 생각하세요. 이 멘탈 모델이 효과적인 워프 프로그래밍 패턴으로 안내할 것입니다.

학습 목표: Part VII을 마치면, 워프 연산이 복잡한 동기화 패턴을 대체할 수 있는 상황을 인식하여 더 간단하고 빠른 GPU 코드를 작성할 수 있게 됩니다.

시작하기: 워프 레인과 SIMT 실행 에서 워프 레벨 프로그래밍의 힘을 만나보세요!

🧠 워프 레인과 SIMT 실행

워프 프로그래밍 vs SIMD 멘탈 모델

워프란 무엇인가?

워프는 32개(또는 64개)의 GPU 스레드가 서로 다른 데이터에 대해 동일한 명령을 동시에 실행하는 그룹입니다. 각 스레드가 벡터 프로세서의 “레인” 역할을 하는 동기화된 벡터 유닛이라고 생각하면 됩니다.

간단한 예시:

from gpu.primitives.warp import sum
# 워프 내 32개 스레드가 동시에 실행:
var my_value = input[my_thread_id]     # 각 스레드가 서로 다른 데이터를 가져옴
var warp_total = sum(my_value)         # 모든 스레드가 하나의 합계에 기여

무슨 일이 일어난 걸까요? 32개의 개별 스레드가 복잡한 조율을 하는 대신, 워프가 자동으로 동기화하여 하나의 결과를 만들어냈습니다. 이것이 바로 SIMT(Single Instruction, Multiple Thread) 실행입니다.

SIMT vs SIMD 비교

CPU 벡터 프로그래밍(SIMD)에 익숙하다면, GPU 워프는 비슷하지만 핵심적인 차이가 있습니다:

관점	CPU SIMD (예: AVX)	GPU 워프 (SIMT)
프로그래밍 모델	명시적 벡터 연산	스레드 기반 프로그래밍
데이터 폭	고정 (256/512 비트)	유연 (32/64 스레드)
동기화	명령 내 암시적	워프 내 암시적
통신	메모리/레지스터 경유	셔플 연산 경유
분기 처리	해당 없음	하드웨어 마스킹
예시	`a + b`	`sum(thread_value)`

CPU SIMD 방식 (C++ intrinsics):

// 명시적 벡터 연산 - 8개의 float를 병렬로
__m256 result = _mm256_add_ps(a, b);   // 8쌍을 동시에 덧셈

CPU SIMD 방식 (Mojo):

# Mojo에서 SIMD는 일급 시민 타입이므로 a, b가 SIMD 타입이면
# 덧셈이 병렬로 수행됩니다
var result = a + b # 8쌍을 동시에 덧셈

GPU SIMT 방식 (Mojo):

# 스레드 기반 코드가 벡터 연산으로 변환됩니다
from gpu.primitives.warp import sum

var my_data = input[thread_id]         # 각 스레드가 자기 요소를 가져옴
var partial = my_data * coefficient    # 모든 스레드가 동시에 계산
var total = sum(partial)               # 하드웨어가 합산을 조율

워프를 강력하게 만드는 핵심 개념

1. 레인 식별: 각 스레드는 사실상 비용 없이 접근할 수 있는 “레인 ID” (0~31)를 갖습니다

var my_lane = lane_id()  # 하드웨어 레지스터를 읽을 뿐

2. 암시적 동기화: 워프 내에서 배리어가 필요 없습니다

# 그냥 동작 - 모든 스레드가 자동으로 동기화
var sum = sum(my_contribution)

3. 효율적인 통신: 메모리 없이도 스레드 간 데이터 공유가 가능합니다

# 레인 0의 값을 다른 모든 레인으로 전달
var broadcasted = shuffle_idx(my_value, 0)

핵심 통찰: SIMT를 사용하면 자연스러운 스레드 코드를 작성하면서도 효율적인 벡터 연산으로 실행할 수 있어, 스레드 프로그래밍의 편리함과 벡터 처리의 성능을 모두 얻을 수 있습니다.

GPU 실행 계층 구조에서 워프의 위치

워프가 전체 GPU 실행 모델과 어떻게 연결되는지 자세히 알아보려면 GPU 스레딩 vs SIMD 개념을 참고하세요. 워프의 위치는 다음과 같습니다:

GPU 디바이스
├── 그리드 (전체 문제)
│   ├── 블록 1 (스레드 그룹, 공유 메모리)
│   │   ├── 워프 1 (32 스레드, 록스텝 실행) ← 이 레벨
│   │   │   ├── 스레드 1 → SIMD 연산
│   │   │   ├── 스레드 2 → SIMD 연산
│   │   │   └── ... (총 32개 스레드)
│   │   └── 워프 2 (32 스레드)
│   └── 블록 2 (독립적인 그룹)

워프 프로그래밍은 “워프 레벨“에서 동작합니다 - 단일 워프 내의 32개 스레드를 모두 조율하는 연산을 다루며, 그렇지 않으면 복잡한 공유 메모리 조율이 필요한 sum() 같은 강력한 기본 요소를 사용할 수 있습니다.

이 멘탈 모델은 문제가 워프 연산에 자연스럽게 매핑되는 경우와 기존의 공유 메모리 방식이 필요한 경우를 구분하는 데 도움이 됩니다.

워프 프로그래밍의 하드웨어 기반

Single Instruction, Multiple Thread(SIMT) 실행을 이해하는 것은 효과적인 워프 프로그래밍에 필수적입니다. 이것은 단순한 소프트웨어 추상화가 아니라, GPU 하드웨어가 실리콘 수준에서 실제로 작동하는 방식입니다.

SIMT 실행이란?

SIMT란 워프 내에서 모든 스레드가 서로 다른 데이터에 대해 같은 명령을 동시에 실행한다는 뜻입니다. 이는 완전히 다른 명령을 독립적으로 실행할 수 있는 CPU 스레드와 근본적으로 다릅니다.

CPU vs GPU 실행 모델

관점	CPU (MIMD)	GPU 워프 (SIMT)
명령 모델	Multiple Instructions, Multiple Data	Single Instruction, Multiple Thread
Core 1	`add r1, r2`	`add r1, r2`
Core 2	`load r3, [mem]`	`add r1, r2` (동일 명령)
Core 3	`branch loop`	`add r1, r2` (동일 명령)
… Core 32	`다른 명령`	`add r1, r2` (동일 명령)
실행 방식	독립적, 비동기	동기화, 록스텝
스케줄링	복잡, OS 관리	단순, 하드웨어 관리
데이터	독립적인 데이터 세트	서로 다른 데이터, 같은 연산

GPU 워프 실행 패턴:

명령: 32개 레인 모두 동일: add r1, r2
레인 0: Data0에 연산 → Result0
레인 1: Data1에 연산 → Result1
레인 2: Data2에 연산 → Result2
… (모든 레인이 동시에 실행)
레인 31: Data31에 연산 → Result31

핵심 통찰: 모든 레인이 서로 다른 데이터에 대해 같은 명령을 동시에 실행합니다.

SIMT가 GPU에 적합한 이유

GPU는 지연 시간이 아닌 처리량에 최적화되어 있습니다. SIMT가 가능하게 하는 것들:

하드웨어 단순화: 하나의 명령 디코더가 32개 또는 64개 스레드를 처리
실행 효율성: 워프 내 스레드 간 복잡한 스케줄링 불필요
메모리 대역폭: 병합된 메모리 접근 패턴
전력 효율성: 레인 전체에 걸쳐 제어 로직 공유

워프 실행 메커니즘

레인 번호와 식별

워프 내 각 스레드는 0부터 WARP_SIZE-1까지의 레인 ID를 갖습니다:

from gpu import lane_id
from gpu.primitives.warp import WARP_SIZE

# 커널 함수 내에서:
my_lane = lane_id()  # 0-31 (NVIDIA/RDNA) 또는 0-63 (CDNA) 반환

핵심 통찰: lane_id()는 비용이 없습니다 - 값을 계산하는 것이 아니라 하드웨어 레지스터를 읽을 뿐입니다.

워프 내 동기화

SIMT의 가장 강력한 측면: 암시적 동기화.

# thread_idx.x < WARP_SIZE인 경우의 예시

# 1. 기존 공유 메모리 방식:
shared[thread_idx.x] = partial_result
barrier()  # 명시적 동기화 필요
var total = shared[0] + shared[1] + ... + shared[WARP_SIZE] # 합산 리덕션

# 2. 워프 방식:
from gpu.primitives.warp import sum

var total = sum(partial_result)  # 암시적 동기화!

왜 배리어가 필요 없을까요? 모든 레인이 각 명령을 정확히 같은 시점에 실행하기 때문입니다. sum()이 시작될 때, 모든 레인은 이미 partial_result 계산을 마친 상태입니다.

워프 분기와 수렴

조건 코드에서 무슨 일이 일어날까?

if lane_id() % 2 == 0:
    # 짝수 레인이 이 경로를 실행
    result = compute_even()
else:
    # 홀수 레인이 이 경로를 실행
    result = compute_odd()
# 모든 레인이 여기서 수렴

하드웨어 동작 단계:

단계	페이즈	활성 레인	대기 레인	효율	성능 비용
1	조건 평가	32개 레인 전부	없음	100%	정상 속도
2	짝수 레인 분기	레인 0,2,4…30 (16개)	레인 1,3,5…31 (16개)	50%	2배 느림
3	홀수 레인 분기	레인 1,3,5…31 (16개)	레인 0,2,4…30 (16개)	50%	2배 느림
4	수렴	32개 레인 전부	없음	100%	정상 속도 복귀

예시 분석:

2단계: 짝수 레인만 compute_even()을 실행하고 홀수 레인은 대기
3단계: 홀수 레인만 compute_odd()를 실행하고 짝수 레인은 대기
총 소요 시간: time(compute_even) + time(compute_odd) (순차 실행)
분기 없는 경우: max(time(compute_even), time(compute_odd)) (병렬 실행)

성능 영향:

분기: 워프가 실행을 분리 - 일부 레인은 활성, 나머지는 대기
순차 실행: 서로 다른 경로가 병렬이 아닌 순차적으로 실행
수렴: 모든 레인이 다시 합류하여 함께 진행
비용: 분기가 있는 워프는 통합 실행 대비 2배 이상의 시간 소요

워프 효율을 위한 모범 사례

워프 효율 패턴

✅ 우수: 균일 실행 (100% 효율)

# 모든 레인이 같은 작업 수행 - 분기 없음
var partial = a[global_i] * b[global_i]
var total = sum(partial)

성능: 32개 레인 모두 동시 활성

⚠️ 허용: 예측 가능한 분기 (~95% 효율)

# lane_id() 기반 분기 - 하드웨어 최적화됨
if lane_id() == 0:
    output[block_idx] = sum(partial)

성능: 단일 레인의 짧은 연산, 예측 가능한 패턴

🔶 주의: 구조화된 분기 (~50-75% 효율)

# 규칙적인 패턴은 컴파일러가 최적화 가능
if (global_i / 4) % 2 == 0:
    result = method_a()
else:
    result = method_b()

성능: 예측 가능한 그룹, 일부 최적화 가능

❌ 회피: 데이터 의존적 분기 (~25-50% 효율)

# 데이터에 따라 레인마다 다른 경로를 탈 수 있음
if input[global_i] > threshold:  # 예측 불가능한 분기
    result = expensive_computation()
else:
    result = simple_computation()

성능: 무작위 분기가 워프 효율을 떨어뜨림

💀 최악: 중첩된 데이터 의존적 분기 (~10-25% 효율)

# 예측 불가능한 분기의 다단계 중첩
if input[global_i] > threshold1:
    if input[global_i] > threshold2:
        result = very_expensive()
    else:
        result = expensive()
else:
    result = simple()

성능: 워프 효율이 사실상 무너짐

크로스 아키텍처 호환성

NVIDIA vs AMD 워프 크기

from gpu.primitives.warp import WARP_SIZE

# NVIDIA GPUs:     WARP_SIZE = 32
# AMD RDNA GPUs:   WARP_SIZE = 32 (wavefront32 모드)
# AMD CDNA GPUs:   WARP_SIZE = 64 (전통적인 wavefront64)

왜 중요할까요:

메모리 패턴: 병합된 접근이 워프 크기에 의존
알고리즘 설계: 리덕션 트리가 워프 크기를 고려해야 함
성능 확장: AMD에서 워프당 레인이 2배

이식 가능한 워프 코드 작성

아키텍처 적응 전략

✅ 이식 가능: 항상 WARP_SIZE 사용

comptime THREADS_PER_BLOCK = (WARP_SIZE, 1)  # 자동으로 적응
comptime ELEMENTS_PER_WARP = WARP_SIZE       # 하드웨어에 맞게 확장

결과: NVIDIA/AMD (32)와 AMD (64) 모두에서 최적으로 동작

❌ 잘못된 방식: 워프 크기를 하드코딩하지 마세요

comptime THREADS_PER_BLOCK = (32, 1)  # AMD GPU에서 동작 안 함!
comptime REDUCTION_SIZE = 32          # AMD에서 잘못된 값!

결과: AMD에서 성능 저하, 정확성 문제 가능

실제 하드웨어 영향

GPU 아키텍처	WARP_SIZE	워프당 메모리	리덕션 단계	레인 패턴
NVIDIA/AMD RDNA	32	128 bytes (4×32)	5단계: 32→16→8→4→2→1	레인 0-31
AMD CDNA	64	256 bytes (4×64)	6단계: 64→32→16→8→4→2→1	레인 0-63

64 vs 32의 성능 차이:

CDNA 장점: 워프당 2배의 메모리 대역폭
CDNA 장점: 워프당 2배의 연산량
NVIDIA/RDNA 장점: 블록당 더 많은 워프 (더 높은 점유율)
코드 이식성: 같은 소스 코드로 양쪽 모두 최적 성능

워프와 메모리 접근 패턴

병합된 메모리 접근 패턴

✅ 완벽: 병합된 접근 (100% 대역폭 활용)

# 인접 레인 → 인접 메모리 주소
var value = input[global_i]  # 레인 0→input[0], 레인 1→input[1], 등

메모리 접근 패턴:

접근 패턴	NVIDIA/RDNA (32 레인)	CDNA (64 레인)	대역폭 활용	성능
✅ 병합	레인 N → 주소 4×N	레인 N → 주소 4×N	100%	최적
	1회 트랜잭션: 128 bytes	1회 트랜잭션: 256 bytes	전체 버스 폭	빠름
❌ 분산	레인 N → 임의 주소	레인 N → 임의 주소	~6%	최악
	32회 개별 트랜잭션	64회 개별 트랜잭션	대부분 유휴 버스	32배 느림

주소 예시:

병합: 레인 0→0, 레인 1→4, 레인 2→8, 레인 3→12, …
분산: 레인 0→1000, 레인 1→52, 레인 2→997, 레인 3→8, …

공유 메모리 뱅크 충돌

뱅크 충돌이란?

GPU 공유 메모리가 동시 접근이 가능한 32개의 독립적인 뱅크로 나뉘어 있다고 가정합니다. 뱅크 충돌은 워프 내 여러 스레드가 같은 뱅크의 서로 다른 주소에 동시에 접근하려 할 때 발생합니다. 이 경우 하드웨어가 접근을 직렬화해야 하므로, 단일 사이클이어야 할 연산이 여러 사이클로 늘어납니다.

핵심 개념:

충돌 없음: 각 스레드가 서로 다른 뱅크에 접근 → 모든 접근이 동시에 발생 (1 사이클)
뱅크 충돌: 여러 스레드가 같은 뱅크에 접근 → 접근이 순차적으로 발생 (N개 스레드에 N 사이클)
브로드캐스트: 모든 스레드가 같은 주소에 접근 → 하드웨어가 1 사이클로 최적화

공유 메모리 뱅크 구성:

뱅크	주소 (바이트 오프셋)	예시 데이터 (float32)
뱅크 0	0, 128, 256, 384, …	`shared[0]`, `shared[32]`, `shared[64]`, …
뱅크 1	4, 132, 260, 388, …	`shared[1]`, `shared[33]`, `shared[65]`, …
뱅크 2	8, 136, 264, 392, …	`shared[2]`, `shared[34]`, `shared[66]`, …
…	…	…
뱅크 31	124, 252, 380, 508, …	`shared[31]`, `shared[63]`, `shared[95]`, …

뱅크 충돌 예시:

접근 패턴	뱅크 사용	사이클	성능	설명
✅ 순차적	`shared[thread_idx.x]`	1 사이클	100%	각 레인이 다른 뱅크 접근
	레인 0→뱅크 0, 레인 1→뱅크 1, …		최적	충돌 없음
✅ 동일 인덱스	`shared[0]`	1 사이클	100%	모든 레인이 같은 주소에서 브로드캐스트
	32개 레인 전부→뱅크 0 (같은 주소)		최적	충돌 없음
❌ 스트라이드 2	`shared[thread_idx.x * 2]`	2 사이클	50%	뱅크당 2개 레인
	레인 0,16→뱅크 0; 레인 1,17→뱅크 1		2배 느림	직렬화된 접근
💀 스트라이드 32	`shared[thread_idx.x * 32]`	32 사이클	3%	모든 레인이 같은 뱅크 접근
	32개 레인 전부→뱅크 0 (다른 주소)		32배 느림	완전히 직렬화

워프 프로그래밍의 실전 활용

워프 연산이 가장 효과적인 경우

리덕션 연산: sum(), max() 등
브로드캐스트 연산: shuffle_idx()로 값 공유
이웃 통신: shuffle_down()으로 슬라이딩 윈도우
누적 합 연산: prefix_sum()으로 scan 알고리즘

성능 특성

연산 유형	기존 방식	워프 연산
리덕션 (32개 요소)	~20개 명령	10개 명령
메모리 트래픽	높음	최소
동기화 비용	비용 높음	무료
코드 복잡도	높음	낮음

다음 단계

SIMT의 기반을 이해했으니, 이 개념이 어떻게 강력한 워프 연산을 가능하게 하는지 알아볼 차례입니다. 다음 섹션에서는 sum()이 복잡한 리덕션 패턴을 간단하고 효율적인 함수 호출로 어떻게 변환하는지 보여줍니다.

→ 다음: warp.sum()의 핵심

warp.sum()의 핵심 - 워프 레벨 내적

Puzzle 12에서 살펴본 내적을 Mojo의 워프 연산으로 구현합니다. 복잡한 공유 메모리 패턴을 간단한 함수 호출로 대체합니다. 각 워프 레인이 하나의 요소를 처리하고 warp.sum()으로 결과를 자동으로 합산하여, 워프 프로그래밍이 GPU 동기화를 어떻게 변환하는지 보여줍니다.

핵심 통찰: warp.sum() 연산은 SIMT 실행을 활용하여 공유 메모리 + 배리어 + 트리 리덕션을 단일 하드웨어 가속 명령으로 대체합니다.

핵심 개념

이 퍼즐에서 배울 내용:

warp.sum()을 활용한 워프 레벨 리덕션
SIMT 실행 모델과 레인 동기화
WARP_SIZE를 활용한 크로스 아키텍처 호환성
복잡한 패턴에서 간단한 패턴으로의 성능 변환
레인 ID 관리와 조건부 쓰기

수학적 연산은 내적입니다: \[\Large \text{output}[0] = \sum_{i=0}^{N-1} a[i] \times b[i]\]

하지만 구현 과정에서 Mojo의 모든 워프 레벨 GPU 프로그래밍에 적용되는 기본 패턴을 배웁니다.

구성

벡터 크기: SIZE = WARP_SIZE (GPU 아키텍처에 따라 32 또는 64)
데이터 타입: DType.float32
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수
그리드 구성: (1, 1) 그리드당 블록 수
레이아웃: row_major[SIZE]() (1D 행 우선)

기존 방식의 복잡성 (Puzzle 12에서)

solutions/p12/p12.mojo의 복잡한 방식을 떠올려 봅시다. 공유 메모리, 배리어, 트리 리덕션이 필요했습니다:

comptime SIZE = WARP_SIZE
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (WARP_SIZE, 1)
comptime dtype = DType.float32
comptime SIMD_WIDTH = simd_width_of[dtype]()
comptime in_layout = row_major[SIZE]()
comptime InLayoutType = type_of(in_layout)
comptime out_layout = row_major[1]()
comptime OutLayoutType = type_of(out_layout)


def traditional_dot_product_p12_style[
    size: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
):
    """
    This is the complex approach from p12_layout_tensor.mojo - kept for comparison.
    """
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[WARP_SIZE]())
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    if global_i < size:
        shared[local_i] = (a[global_i] * b[global_i]).reduce_add()
    else:
        shared[local_i] = 0.0

    barrier()

    var stride = WARP_SIZE // 2
    while stride > 0:
        if local_i < stride:
            shared[local_i] += shared[local_i + stride]
        barrier()
        stride //= 2

    if local_i == 0:
        output[global_i // WARP_SIZE] = shared[0]

이 방식이 복잡한 이유:

공유 메모리 할당: 블록 내에서 수동으로 메모리를 관리
명시적 배리어: 스레드 동기화를 위한 barrier() 호출
트리 리덕션: 스트라이드 기반 인덱싱을 사용하는 복잡한 루프
조건부 쓰기: 스레드 0만 최종 결과를 기록

동작은 하지만, 코드가 장황하고 오류가 발생하기 쉬우며 GPU 동기화에 대한 깊은 이해가 필요합니다.

기존 방식 테스트:

pixi run p24 --traditional

pixi run -e amd p24 --traditional

pixi run -e apple p24 --traditional

uv run poe p24 --traditional

완성할 코드

1. 간단한 워프 커널 방식

복잡한 기존 방식을 warp_sum()을 사용하는 간단한 워프 커널로 변환합니다:

def simple_warp_dot_product[
    size: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    # FILL IN (6 lines at most)

전체 파일 보기: problems/p24/p24.mojo

팁

1. 간단한 워프 커널 구조 이해하기

simple_warp_dot_product 함수를 6줄 이내로 완성해야 합니다:

def simple_warp_dot_product[...](output, a, b):
    global_i = block_dim.x * block_idx.x + thread_idx.x
    # 여기를 채우세요 (최대 6줄)

따라야 할 패턴:

이 스레드의 요소에 대한 부분곱 계산
warp_sum()으로 모든 워프 레인의 값을 합산
레인 0이 최종 결과를 기록

2. 부분곱 계산하기

var partial_product: Scalar[dtype] = 0
if global_i < size:
    partial_product = (a[global_i] * b[global_i]).reduce_add()

.reduce_add()가 필요한 이유: Mojo의 값은 SIMD 기반이므로 a[global_i] * b[global_i]는 SIMD 벡터를 반환합니다. .reduce_add()로 벡터를 스칼라 값으로 합산합니다.

경계 검사: 모든 스레드가 유효한 데이터를 가지고 있지 않을 수 있으므로 필수적입니다.

3. 워프 리덕션의 마법

total = warp_sum(partial_product)

warp_sum()이 하는 일:

각 레인의 partial_product 값을 가져옴
워프 내 모든 레인의 값을 합산 (하드웨어 가속)
모든 레인에 같은 합계를 반환 (레인 0만이 아님)
명시적 동기화가 전혀 필요 없음 (SIMT가 처리)

4. 결과 기록하기

if lane_id() == 0:
    output[global_i // WARP_SIZE] = total

왜 레인 0만? warp_sum() 이후 모든 레인이 같은 total 값을 갖지만, 경쟁 상태를 피하기 위해 한 번만 기록합니다.

왜 output[0]에 직접 쓰지 않을까? 유연성을 위해서입니다. 이 함수는 워프가 여러 개인 경우에도 사용할 수 있으며, 각 워프의 결과가 global_i // WARP_SIZE 위치에 기록됩니다.

lane_id(): 0-31 (NVIDIA) 또는 0-63 (AMD)을 반환 - 워프 내에서 어느 레인인지 식별합니다.

간단한 워프 커널 테스트:

uv run poe p24 --kernel

pixi run p24 --kernel

풀었을 때의 예상 출력:

SIZE: 32
WARP_SIZE: 32
SIMD_WIDTH: 8
=== RESULT ===
out: 10416.0
expected: 10416.0
🚀 Notice how simple the warp version is compared to p12.mojo!
   Same kernel structure, but warp_sum() replaces all the complexity!

풀이

def simple_warp_dot_product[
    InLayoutT: TensorLayout, OutLayoutT: TensorLayout, size: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
):
    var a_lt = a.to_layout_tensor()
    var b_lt = b.to_layout_tensor()
    var out_lt = output.to_layout_tensor()
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    # Each thread computes one partial product using vectorized approach as values in Mojo are SIMD based
    var partial_product: Scalar[dtype] = 0
    if global_i < size:
        partial_product = rebind[Scalar[dtype]](a_lt[global_i]) * rebind[
            Scalar[dtype]
        ](b_lt[global_i])

    # warp_sum() replaces all the shared memory + barriers + tree reduction
    var total = warp_sum(partial_product)

    # Only lane 0 writes the result (all lanes have the same total)
    if lane_id() == 0:
        out_lt.store[1](Index(global_i // WARP_SIZE), total)

간단한 워프 커널은 복잡한 동기화에서 하드웨어 가속 기본 요소로의 근본적인 변환을 보여줍니다:

기존 방식에서 사라진 것들:

15줄 이상 → 6줄: 획기적인 코드 축소
공유 메모리 할당: 메모리 관리 불필요
3회 이상의 barrier() 호출: 명시적 동기화 제로
복잡한 트리 리덕션: 단일 함수 호출로 대체
스트라이드 기반 인덱싱: 완전히 제거

SIMT 실행 모델:

워프 레인 (SIMT 실행):
레인 0: partial_product = a[0] * b[0]    = 0.0
레인 1: partial_product = a[1] * b[1]    = 4.0
레인 2: partial_product = a[2] * b[2]    = 16.0
...
레인 31: partial_product = a[31] * b[31] = 3844.0

warp_sum() 하드웨어 연산:
모든 레인 → 0.0 + 4.0 + 16.0 + ... + 3844.0 = 10416.0
모든 레인이 수신 → total = 10416.0 (브로드캐스트 결과)

배리어 없이 동작하는 이유:

SIMT 실행: 모든 레인이 각 명령 동시 실행
하드웨어 동기화: warp_sum()이 시작될 때 모든 레인이 이미 partial_product 계산 완료
내장 통신: GPU 하드웨어가 리덕션 연산 처리
브로드캐스트 결과: 모든 레인이 같은 total 값 수신

2. 함수형 방식

이번에는 Mojo의 함수형 프로그래밍 패턴을 사용하여 같은 워프 내적을 구현합니다:

def functional_warp_dot_product[
    dtype: DType,
    simd_width: Int,
    rank: Int,
    size: Int,
](
    output: TileTensor[mut=True, dtype, OutLayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutType, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutType, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def compute_dot_product[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var idx = indices[0]
        print("idx:", idx)
        # FILL IN (10 lines at most)

    # Launch exactly size == WARP_SIZE threads (one warp) to process all elements
    elementwise[compute_dot_product, 1, target="gpu"](size, ctx)

팁

1. 함수형 방식의 구조 이해하기

compute_dot_product 함수를 10줄 이내로 완성해야 합니다:

@parameter
@always_inline
def compute_dot_product[simd_width: Int, rank: Int](indices: IndexList[rank]) capturing -> None:
    idx = indices[0]
    # 여기를 채우세요 (최대 10줄)

함수형 패턴의 차이점:

elementwise를 사용하여 정확히 WARP_SIZE개의 스레드 실행
각 스레드가 idx를 기반으로 하나의 요소 처리
같은 워프 연산, 다른 실행 메커니즘

2. 부분곱 계산하기

var partial_product: Scalar[dtype] = 0.0
if idx < size:
    a_val = a.load[1](idx, 0)
    b_val = b.load[1](idx, 0)
    partial_product = (a_val * b_val).reduce_add()
else:
    partial_product = 0.0

로딩 패턴: a.load[1](idx, 0)은 위치 idx에서 정확히 1개 요소를 로드합니다 (SIMD 벡터화 없음).

경계 처리: 범위를 벗어난 스레드의 partial_product를 0.0으로 설정하여 합산에 기여하지 않도록 합니다.

3. 워프 연산과 저장

total = warp_sum(partial_product)

if lane_id() == 0:
    output.store[1](Index(idx // WARP_SIZE), total)

저장 패턴: output.store[1](Index(idx // WARP_SIZE), 0, total)은 출력 텐서의 위치 (idx // WARP_SIZE, 0)에 1개 요소를 저장합니다.

동일한 워프 로직: warp_sum()과 레인 0의 기록 로직은 함수형 방식에서도 동일하게 동작합니다.

4. import에서 사용 가능한 함수들

from gpu import lane_id
from gpu.primitives.warp import sum as warp_sum, WARP_SIZE

# 함수 내에서:
my_lane = lane_id()           # 0 ~ WARP_SIZE-1
total = warp_sum(my_value)    # 하드웨어 가속 리덕션
warp_size = WARP_SIZE         # 32 (NVIDIA) 또는 64 (AMD)

함수형 방식 테스트:

uv run poe p24 --functional

pixi run p24 --functional

풀었을 때의 예상 출력:

SIZE: 32
WARP_SIZE: 32
SIMD_WIDTH: 8
=== RESULT ===
out: 10416.0
expected: 10416.0
🔧 Functional approach shows modern Mojo style with warp operations!
   Clean, composable, and still leverages warp hardware primitives!

풀이

def functional_warp_dot_product[
    InLayoutT: TensorLayout,
    OutLayoutT: TensorLayout,
    dtype: DType,
    simd_width: Int,
    rank: Int,
    size: Int,
](
    output: TileTensor[mut=True, dtype, OutLayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
    ctx: DeviceContext,
) raises:
    @parameter
    @always_inline
    def compute_dot_product[
        simd_width: Int, rank: Int, alignment: Int = align_of[dtype]()
    ](indices: IndexList[rank]) capturing -> None:
        var idx = indices[0]
        # Convert inside GPU kernel to avoid host-captured LayoutTensor issues
        var a_lt = a.to_layout_tensor()
        var b_lt = b.to_layout_tensor()
        var out_lt = output.to_layout_tensor()

        # Each thread computes one partial product
        var partial_product: Scalar[dtype] = 0.0
        if idx < size:
            var a_val = a_lt.load[1](Index(idx))
            var b_val = b_lt.load[1](Index(idx))
            partial_product = rebind[Scalar[dtype]](a_val) * rebind[
                Scalar[dtype]
            ](b_val)
        else:
            partial_product = 0.0

        # Warp magic - combines all WARP_SIZE partial products!
        var total = warp_sum(partial_product)

        # Only lane 0 writes the result (all lanes have the same total)
        if lane_id() == 0:
            out_lt.store[1](Index(idx // WARP_SIZE), total)

    # Launch exactly size == WARP_SIZE threads (one warp) to process all elements
    elementwise[compute_dot_product, 1, target="gpu"](size, ctx)

함수형 워프 방식은 워프 연산을 활용한 현대적인 Mojo 프로그래밍 패턴을 보여줍니다:

함수형 방식의 특징:

elementwise[compute_dot_product, 1, target="gpu"](size, ctx)

장점:

타입 안전성: 컴파일 타임 텐서 레이아웃 검사
조합 가능성: 다른 함수형 연산과 쉽게 통합
현대적 패턴: Mojo의 함수형 프로그래밍 기능 활용
자동 최적화: 컴파일러가 고수준 최적화를 적용 가능

커널 방식과의 주요 차이:

실행 메커니즘: enqueue_function 대신 elementwise 사용
메모리 접근: .load[1]()과 .store[1]() 패턴 사용
통합성: 다른 함수형 연산과 자연스럽게 결합

동일한 워프의 이점:

동기화 제로: warp_sum()이 동일하게 동작
하드웨어 가속: 커널 방식과 같은 성능
크로스 아키텍처: WARP_SIZE가 자동으로 적응

벤치마크를 통한 성능 비교

종합 벤치마크를 실행하여 워프 연산의 확장성을 확인합니다:

uv run poe p24 --benchmark

pixi run p24 --benchmark

전체 벤치마크 실행 결과의 예시입니다:

SIZE: 32
WARP_SIZE: 32
SIMD_WIDTH: 8
--------------------------------------------------------------------------------
Testing SIZE=1 x WARP_SIZE, BLOCKS=1
Running traditional_1x
Running simple_warp_1x
Running functional_warp_1x
--------------------------------------------------------------------------------
Testing SIZE=4 x WARP_SIZE, BLOCKS=4
Running traditional_4x
Running simple_warp_4x
Running functional_warp_4x
--------------------------------------------------------------------------------
Testing SIZE=32 x WARP_SIZE, BLOCKS=32
Running traditional_32x
Running simple_warp_32x
Running functional_warp_32x
--------------------------------------------------------------------------------
Testing SIZE=256 x WARP_SIZE, BLOCKS=256
Running traditional_256x
Running simple_warp_256x
Running functional_warp_256x
--------------------------------------------------------------------------------
Testing SIZE=2048 x WARP_SIZE, BLOCKS=2048
Running traditional_2048x
Running simple_warp_2048x
Running functional_warp_2048x
--------------------------------------------------------------------------------
Testing SIZE=16384 x WARP_SIZE, BLOCKS=16384 (Large Scale)
Running traditional_16384x
Running simple_warp_16384x
Running functional_warp_16384x
--------------------------------------------------------------------------------
Testing SIZE=65536 x WARP_SIZE, BLOCKS=65536 (Massive Scale)
Running traditional_65536x
Running simple_warp_65536x
Running functional_warp_65536x
| name                   | met (ms)              | iters |
| ---------------------- | --------------------- | ----- |
| traditional_1x         | 0.00460128            | 100   |
| simple_warp_1x         | 0.00574047            | 100   |
| functional_warp_1x     | 0.00484192            | 100   |
| traditional_4x         | 0.00492671            | 100   |
| simple_warp_4x         | 0.00485247            | 100   |
| functional_warp_4x     | 0.00587679            | 100   |
| traditional_32x        | 0.0062406399999999996 | 100   |
| simple_warp_32x        | 0.0054918400000000004 | 100   |
| functional_warp_32x    | 0.00552447            | 100   |
| traditional_256x       | 0.0050614300000000004 | 100   |
| simple_warp_256x       | 0.00488768            | 100   |
| functional_warp_256x   | 0.00461472            | 100   |
| traditional_2048x      | 0.01120031            | 100   |
| simple_warp_2048x      | 0.00884383            | 100   |
| functional_warp_2048x  | 0.007038720000000001  | 100   |
| traditional_16384x     | 0.038533750000000005  | 100   |
| simple_warp_16384x     | 0.0323264             | 100   |
| functional_warp_16384x | 0.01674271            | 100   |
| traditional_65536x     | 0.19784991999999998   | 100   |
| simple_warp_65536x     | 0.12870176            | 100   |
| functional_warp_65536x | 0.048680310000000004  | 100   |

Benchmarks completed!

WARP OPERATIONS PERFORMANCE ANALYSIS:
   GPU Architecture: NVIDIA (WARP_SIZE=32) vs AMD (WARP_SIZE=64)
   - 1,...,256 x WARP_SIZE: Grid size too small to benchmark
   - 2048 x WARP_SIZE: Warp primative benefits emerge
   - 16384 x WARP_SIZE: Large scale (512K-1M elements)
   - 65536 x WARP_SIZE: Massive scale (2M-4M elements)

   Expected Results at Large Scales:
   • Traditional: Slower due to more barrier overhead
   • Warp operations: Faster, scale better with problem size
   • Memory bandwidth becomes the limiting factor

이 예시에서 얻을 수 있는 성능 인사이트:

소규모 (1x-4x): 워프 연산이 소폭의 개선을 보임 (~10-15% 빠름)
중규모 (32x-256x): 함수형 방식이 가장 좋은 성능을 보이는 경우가 많음
대규모 (16K-65K): 메모리 대역폭이 지배적이 되면서 모든 방식의 성능이 수렴
변동성: 성능은 특정 GPU 아키텍처와 메모리 서브시스템에 크게 의존

참고: 하드웨어(GPU 모델, 메모리 대역폭, WARP_SIZE)에 따라 결과가 크게 달라집니다. 핵심은 절대적인 수치보다 상대적인 성능 추세를 관찰하는 것입니다.

다음 단계

warp.sum 연산을 배웠으니, 다음으로 진행할 수 있습니다:

언제 워프 프로그래밍을 사용할까: 워프 vs 기존 방식에 대한 전략적 의사결정 프레임워크
고급 워프 연산: 복잡한 통신 패턴을 위한 shuffle_idx(), shuffle_down(), prefix_sum()
멀티 워프 알고리즘: 워프 연산과 블록 레벨 동기화의 결합
메모리 병합 최적화: 최대 대역폭을 위한 메모리 접근 패턴 최적화

💡 핵심 요점: 워프 연산은 복잡한 동기화 패턴을 하드웨어 가속 기본 요소로 대체하여 GPU 프로그래밍을 변환합니다. 실행 모델을 이해하면 성능을 희생하지 않고도 획기적인 단순화가 가능합니다.

언제 워프 프로그래밍을 사용할까

빠른 판단 가이드

✅ 워프 연산을 사용할 때:

32개 이상의 요소에 대한 리덕션 연산 (sum, max, min)
규칙적인 메모리 접근 패턴 (인접 레인 → 인접 주소)
크로스 아키텍처 이식성이 필요한 경우 (NVIDIA/RDNA 32 vs CDNA 64 스레드)
더 간단하고 유지보수하기 쉬운 코드를 원할 때

❌ 기존 방식을 사용할 때:

복잡한 워프 간 동기화가 필요한 경우
불규칙하거나 산발적인 메모리 접근 패턴
스레드별 작업량이 다른 경우 (워프 분기 발생)
문제 크기가 size < WARP_SIZE인 경우

성능 특성

문제 크기별 확장성

요소 수	워프 이점	비고
< 32	없음	기존 방식이 유리
32-1K	1.2-1.5배	이점이 나타나기 시작
1K-32K	1.5-2.5배	워프 연산이 탁월
> 32K	메모리 바운드	양쪽 모두 대역폭에 의해 제한

워프의 핵심 이점

동기화 오버헤드 제로: 배리어 비용 제거
최소한의 메모리 사용: 공유 메모리 할당 불필요
우수한 확장성: 워프 수가 늘어날수록 성능 향상
간결한 코드: 더 적은 줄 수, 더 적은 오류 가능성

알고리즘별 가이드

알고리즘	권장 사항	이유
내적	워프 연산 (1K+ 요소)	단일 리덕션, 규칙적 접근
행렬 행/열 합계	워프 연산	자연스러운 리덕션 패턴
누적 합	항상 `prefix_sum()` 사용	하드웨어 최적화된 기본 요소
풀링 (max/min)	워프 연산 (규칙적 윈도우)	효율적인 윈도우 리덕션
구간이 많은 히스토그램	기존 방식	불규칙한 쓰기, 원자적 업데이트

코드 예시

✅ 워프에 적합한 경우

# 리덕션 연산
from gpu.primitives.warp import sum, max
var total = sum(partial_values)
var maximum = max(partial_values)

# 통신 패턴
from gpu.primitives.warp import shuffle_idx, prefix_sum
var broadcast = shuffle_idx(my_value, 0)
var running_sum = prefix_sum(my_value)

❌ 기존 방식이 나은 경우

# 복잡한 다단계 동기화
stage1_compute()
barrier()  # 모든 스레드가 완료될 때까지 대기
stage2_depends_on_stage1()

# 불규칙한 메모리 접근
var value = input[random_indices[global_i]]  # 산발적 읽기

# 데이터 의존적 작업
if input[global_i] > threshold:
    result = expensive_computation()  # 워프 분기 발생

성능 측정

# 항상 양쪽 방식을 벤치마크하세요
mojo p22.mojo --benchmark

# 확장 패턴을 확인하세요:
# traditional_1x:  X.XX ms
# warp_1x:         Y.YY ms  # 더 빨라야 함
# warp_32x:        Z.ZZ ms  # 이점이 커져야 함

요약

워프 연산으로 시작하세요:

규칙적인 접근 패턴을 가진 리덕션
문제 ≥ 1 워프 크기
크로스 플랫폼 호환성이 필요한 경우

기존 방식을 사용하세요:

복잡한 동기화가 필요한 경우
불규칙한 메모리 패턴
작은 문제 또는 심한 분기

판단이 어려울 때: 양쪽 모두 구현하고 벤치마크하세요. 성능 차이를 보면 답이 나옵니다.

Puzzle 25: 워프 통신

개요

Puzzle 25: 워프 통신 기본 요소에서는 고급 GPU 워프 레벨 통신 연산 - 워프 내에서 효율적인 데이터 교환과 조정 패턴을 가능하게 하는 하드웨어 가속 기본 요소를 소개합니다. shuffle_down과 broadcast를 사용하여 복잡한 공유 메모리 패턴 없이 이웃 통신과 집합 조정을 구현하는 방법을 배웁니다.

Part VII: GPU 워프 통신에서는 스레드 그룹 내 워프 레벨 데이터 이동 연산을 다룹니다. 복잡한 공유 메모리 + 인덱싱 + 경계 검사 패턴을 하드웨어 최적화된 데이터 이동을 활용하는 효율적인 워프 통신 호출로 대체하는 방법을 배웁니다.

핵심 통찰: GPU 워프는 록스텝으로 실행됩니다 - Mojo의 워프 통신 연산은 이 동기화를 활용하여 자동 경계 처리와 명시적 동기화 없이 효율적인 데이터 교환 기본 요소를 제공합니다.

배울 내용

워프 통신 모델

GPU 워프 내 기본 통신 패턴을 이해합니다:

GPU 워프 (32 스레드, SIMT 록스텝 실행)
├── 레인 0  ──shuffle_down──> 레인 1  ──shuffle_down──> 레인 2
├── 레인 1  ──shuffle_down──> 레인 2  ──shuffle_down──> 레인 3
├── 레인 2  ──shuffle_down──> 레인 3  ──shuffle_down──> 레인 4
│   ...
└── 레인 31 ──shuffle_down──> undefined (경계)

브로드캐스트 패턴:
레인 0 ──broadcast──> 모든 레인 (0, 1, 2, ..., 31)

하드웨어 현실:

레지스터 간 직접 통신: 데이터가 스레드 레지스터 사이를 직접 이동합니다
메모리 오버헤드 제로: 공유 메모리 할당이 필요하지 않습니다
자동 경계 처리: 하드웨어가 워프 경계의 예외 상황을 관리합니다
단일 사이클 연산: 하나의 명령 사이클에서 통신이 완료됩니다

Mojo의 워프 통신 연산

gpu.primitives.warp의 핵심 통신 기본 요소를 배웁니다:

shuffle_down(value, offset): 더 높은 인덱스의 레인에서 값을 가져오기 (이웃 접근)
broadcast(value): 레인 0의 값을 모든 레인에 공유 (일대다)
shuffle_idx(value, lane): 특정 레인에서 값을 가져오기 (임의 접근)
shuffle_up(value, offset): 더 낮은 인덱스의 레인에서 값을 가져오기 (역방향 이웃)

참고: 이 퍼즐은 가장 많이 사용되는 통신 패턴인 shuffle_down()과 broadcast()에 초점을 맞춥니다. 모든 워프 연산에 대한 전체 내용은 Mojo GPU 워프 문서를 참고하세요.

성능 변환 예시

# 복잡한 이웃 접근 패턴 (기존 방식):
shared = TileTensor[
    dtype,
    row_major[WARP_SIZE](),
    MutAnyOrigin,
    address_space = AddressSpace.SHARED,
].stack_allocation()
shared[local_i] = input[global_i]
barrier()
if local_i < WARP_SIZE - 1:
    next_value = shared[local_i + 1]  # 이웃 접근
    result = next_value - shared[local_i]
else:
    result = 0  # 경계 처리
barrier()

# 워프 통신은 이 모든 복잡성을 제거합니다:
current_val = input[global_i]
next_val = shuffle_down(current_val, 1)  # 이웃에 직접 접근
if lane < WARP_SIZE - 1:
    result = next_val - current_val
else:
    result = 0

워프 통신이 빛나는 순간

성능 특성을 이해합니다:

통신 패턴	기존 방식	워프 연산
이웃 접근	공유 메모리	레지스터 간 직접 통신
스텐실 연산	복잡한 인덱싱	간단한 셔플 패턴
블록 조정	배리어 + 공유 메모리	단일 브로드캐스트
경계 처리	수동 검사	하드웨어 자동 처리

선수 지식

워프 통신에 들어가기 전에 다음 내용에 익숙해야 합니다:

Part VII 워프 기초: SIMT 실행과 기본 워프 연산에 대한 이해 (Puzzle 24: 워프 기초 참고)
GPU 스레드 계층 구조: 블록, 워프, 레인 번호 매기기
TileTensor 연산: 로드, 저장, 텐서 조작
경계 조건 처리: 병렬 알고리즘의 가장자리 케이스 관리

학습 경로

1. shuffle_down을 이용한 이웃 통신

→ warp.shuffle_down()

스텐실 연산과 유한 차분을 위한 이웃 기반 통신 패턴을 배웁니다.

배울 내용:

shuffle_down()으로 인접 레인 데이터 접근하기
유한 차분과 이동 평균 구현
워프 경계 자동 처리
확장된 이웃 접근을 위한 다중 오프셋 셔플

핵심 패턴:

current_val = input[global_i]
next_val = shuffle_down(current_val, 1)
if lane < WARP_SIZE - 1:
    result = compute_with_neighbors(current_val, next_val)

2. 브로드캐스트를 이용한 집합 조정

→ warp.broadcast()

블록 레벨 조정과 집합적 의사결정을 위한 일대다 통신 패턴을 배웁니다.

배울 내용:

broadcast()로 계산된 값을 모든 레인에 공유
블록 레벨 통계와 집합적 의사결정 구현
브로드캐스트와 조건부 로직 결합
고급 브로드캐스트-셔플 조정 패턴

핵심 패턴:

var shared_value = 0.0
if lane == 0:
    shared_value = compute_block_statistic()
shared_value = broadcast(shared_value)
result = use_shared_value(shared_value, local_data)

핵심 개념

통신 패턴

워프 통신의 기본 패러다임을 이해합니다:

이웃 통신: 레인 간 인접 데이터 교환
집합 조정: 하나의 레인에서 모든 레인으로 정보 공유
스텐실 연산: 고정된 패턴으로 이웃 데이터 접근
경계 처리: 워프 가장자리에서의 통신 관리

하드웨어 최적화

워프 통신이 GPU 하드웨어에 매핑되는 방식을 이해합니다:

레지스터 파일 통신: 스레드 간 레지스터 직접 접근
SIMT 실행: 모든 레인이 통신을 동시에 실행합니다
제로 지연 시간: 실행 유닛 내에서 통신이 완료됩니다
자동 동기화: 명시적 배리어가 필요하지 않습니다

알고리즘 변환

기존 병렬 패턴을 워프 통신으로 변환합니다:

배열 이웃 접근 → shuffle_down()
공유 메모리 조정 → broadcast()
복잡한 경계 로직 → 하드웨어 자동 처리
다단계 동기화 → 단일 통신 연산

시작하기

이웃 기반 셔플 연산으로 기초를 다진 다음, 고급 조정을 위한 집합 브로드캐스트 패턴으로 나아갑니다.

💡 성공 팁: 워프 통신을 같은 워프 내 스레드 간의 하드웨어 가속 메시지 패싱으로 생각하세요. 이 멘탈 모델이 GPU의 SIMT 아키텍처를 활용하는 효율적인 통신 패턴으로 안내할 것입니다.

학습 목표: Puzzle 25를 마치면, 워프 통신이 복잡한 공유 메모리 패턴을 대체할 수 있는 상황을 인식하여 더 간단하고 빠른 이웃 기반 알고리즘과 조정 알고리즘을 작성할 수 있게 됩니다.

시작하기: warp.shuffle_down() 에서 이웃 통신을 배운 다음, warp.broadcast() 에서 집합 조정 패턴으로 나아가세요.

`warp.shuffle_down()` 일대일 통신

워프 레벨 이웃 통신에서는 shuffle_down()을 사용하여 워프 내 인접 레인의 데이터에 접근할 수 있습니다. 이 강력한 기본 요소를 통해 공유 메모리나 명시적 동기화 없이 유한 차분, 이동 평균, 이웃 기반 계산을 효율적으로 수행할 수 있습니다.

핵심 통찰: shuffle_down() 연산은 SIMT 실행을 활용하여 각 레인이 같은 워프 내 이웃의 데이터에 접근할 수 있게 하며, 효율적인 스텐실 패턴과 슬라이딩 윈도우 연산을 가능하게 합니다.

스텐실 연산이란? 스텐실 연산은 각 출력 요소가 이웃 입력 요소의 고정된 패턴에 의존하는 계산입니다. 대표적인 예로 유한 차분(도함수), 합성곱, 이동 평균이 있습니다. “스텐실“은 이웃 접근 패턴을 가리킵니다 - 예를 들어 [i-1, i, i+1]을 읽는 3점 스텐실이나 [i-2, i-1, i, i+1, i+2]를 읽는 5점 스텐실이 있습니다.

핵심 개념

이 퍼즐에서 배울 내용:

shuffle_down()을 활용한 워프 레벨 데이터 셔플
스텐실 계산을 위한 이웃 접근 패턴
워프 가장자리에서의 경계 처리
확장된 이웃 접근을 위한 다중 오프셋 셔플
멀티 블록 시나리오에서의 워프 간 조정

shuffle_down 연산은 각 레인이 더 높은 인덱스의 레인에서 데이터를 가져올 수 있게 합니다: \[\Large \text{shuffle_down}(\text{value}, \text{offset}) = \text{value_from_lane}(\text{lane_id} + \text{offset})\]

이를 통해 복잡한 이웃 접근 패턴이 간단한 워프 레벨 연산으로 변환되어, 명시적 메모리 인덱싱 없이 효율적인 스텐실 계산이 가능합니다.

1. 기본 이웃 차분

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수
데이터 타입: DType.float32
레이아웃: row_major[SIZE]() (1D row-major)

shuffle_down 개념

기존 이웃 접근 방식은 복잡한 인덱싱과 경계 검사가 필요합니다:

# 기존 방식 - 복잡하고 오류가 발생하기 쉬움
if global_i < size - 1:
    next_value = input[global_i + 1]  # 범위 초과 가능성
    result = next_value - current_value

기존 방식의 문제점:

경계 검사: 배열 경계를 수동으로 확인해야 함
메모리 접근: 별도의 메모리 로드가 필요
동기화: 공유 메모리 패턴에서 배리어가 필요할 수 있음
복잡한 로직: 경계의 예외 상황 처리가 장황해짐

shuffle_down()을 사용하면 이웃 접근이 간결해집니다:

# 워프 셔플 방식 - 간단하고 안전
current_val = input[global_i]
next_val = shuffle_down(current_val, 1)  # lane+1에서 값 가져오기
if lane < WARP_SIZE - 1:
    result = next_val - current_val

shuffle_down의 장점:

메모리 오버헤드 제로: 추가 메모리 접근 불필요
자동 경계 처리: 하드웨어가 워프 경계를 관리
동기화 불필요: SIMT 실행이 정확성을 보장
조합 가능: 다른 워프 연산과 쉽게 결합

완성할 코드

shuffle_down()으로 다음 요소에 접근하여 유한 차분을 구현합니다.

수학적 연산: 각 요소의 이산 도함수(유한 차분)를 계산합니다: \[\Large \text{output}[i] = \text{input}[i+1] - \text{input}[i]\]

입력 데이터 [0, 1, 4, 9, 16, 25, ...] (제곱수: i * i)를 차분값 [1, 3, 5, 7, 9, ...] (홀수)로 변환하여, 이차 함수의 이산 도함수를 효과적으로 계산합니다.

comptime SIZE = WARP_SIZE
comptime BLOCKS_PER_GRID = (1, 1)
comptime THREADS_PER_BLOCK = (WARP_SIZE, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)


def neighbor_difference[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Compute finite differences: output[i] = input[i+1] - input[i]
    Uses shuffle_down(val, 1) to get the next neighbor's value.
    Works across multiple blocks, each processing one warp worth of data.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    # FILL IN (roughly 7 lines)

전체 파일 보기: problems/p25/p25.mojo

팁

1. shuffle_down 이해하기

shuffle_down(value, offset) 연산은 각 레인이 더 높은 인덱스의 레인에서 데이터를 받을 수 있게 합니다. 명시적 메모리 로드 없이 이웃 요소에 접근하는 방법을 살펴보세요.

shuffle_down(val, 1)이 하는 일:

레인 0이 레인 1의 값을 받음
레인 1이 레인 2의 값을 받음
…
레인 30이 레인 31의 값을 받음
레인 31은 미정의 값을 받음 (경계 검사로 처리)

2. 워프 경계 고려사항

워프의 가장자리에서 어떤 일이 일어나는지 생각해 보세요. 일부 레인은 셔플 연산으로 접근할 유효한 이웃이 없을 수 있습니다.

과제: 워프 경계에서 셔플 연산이 미정의 데이터를 반환할 수 있는 경우를 처리하도록 알고리즘을 설계하세요.

WARP_SIZE = 32에서의 이웃 차분:

유효한 차분 (lane < WARP_SIZE - 1): 레인 0-30 (31개 레인)
- 조건: $\text{lane_id}() \in {0, 1, \cdots, 30}$
- 이유: shuffle_down(current_val, 1)이 다음 이웃의 값을 성공적으로 가져옴
- 결과: output[i] = input[i+1] - input[i] (유한 차분)
경계 케이스 (else): 레인 31 (1개 레인)
- 조건: $\text{lane_id}() = 31$
- 이유: shuffle_down(current_val, 1)이 미정의 데이터를 반환 (레인 32가 없음)
- 결과: output[i] = 0 (차분 계산 불가)

3. 레인 식별

lane = lane_id()  # 0부터 WARP_SIZE-1까지 반환

레인 번호 매기기: 각 워프 내에서 레인은 0, 1, 2,…, WARP_SIZE-1로 번호가 매겨집니다

이웃 차분 테스트:

pixi run p25 --neighbor

pixi run -e amd p25 --neighbor

pixi run -e apple p25 --neighbor

uv run poe p25 --neighbor

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: [1.0, 3.0, 5.0, 7.0, 9.0, 11.0, 13.0, 15.0, 17.0, 19.0, 21.0, 23.0, 25.0, 27.0, 29.0, 31.0, 33.0, 35.0, 37.0, 39.0, 41.0, 43.0, 45.0, 47.0, 49.0, 51.0, 53.0, 55.0, 57.0, 59.0, 61.0, 0.0]
expected: [1.0, 3.0, 5.0, 7.0, 9.0, 11.0, 13.0, 15.0, 17.0, 19.0, 21.0, 23.0, 25.0, 27.0, 29.0, 31.0, 33.0, 35.0, 37.0, 39.0, 41.0, 43.0, 45.0, 47.0, 49.0, 51.0, 53.0, 55.0, 57.0, 59.0, 61.0, 0.0]
✅ Basic neighbor difference test passed!

솔루션

def neighbor_difference[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
):
    """
    Compute finite differences: output[i] = input[i+1] - input[i]
    Uses shuffle_down(val, 1) to get the next neighbor's value.
    Works across multiple blocks, each processing one warp worth of data.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    if global_i < size:
        # Get current value
        var current_val = input[global_i]

        # Get next neighbor's value using shuffle_down
        var next_val = shuffle_down(current_val, 1)

        # Compute difference - valid within warp boundaries
        # Last lane of each warp has no valid neighbor within the warp
        # Note there's only one warp in this test, so we don't need to check global_i < size - 1
        # We'll see how this works with multiple blocks in the next tests
        if lane < WARP_SIZE - 1:
            output[global_i] = next_val - current_val
        else:
            # Last thread in warp or last thread overall, set to 0
            output[global_i] = 0

이 솔루션은 shuffle_down()이 기존 배열 인덱싱을 효율적인 워프 레벨 통신으로 어떻게 변환하는지 보여줍니다.

알고리즘 분석:

if global_i < size:
    current_val = input[global_i]           # 각 레인이 자신의 요소를 읽음
    next_val = shuffle_down(current_val, 1) # 하드웨어가 데이터를 오른쪽으로 이동

    if lane < WARP_SIZE - 1:
        output[global_i] = next_val - current_val  # 차분 계산
    else:
        output[global_i] = 0                       # 경계 처리

SIMT 실행 상세 분석:

사이클 1: 모든 레인이 동시에 값을 로드
  레인 0: current_val = input[0] = 0
  레인 1: current_val = input[1] = 1
  레인 2: current_val = input[2] = 4
  ...
  레인 31: current_val = input[31] = 961

사이클 2: shuffle_down(current_val, 1)이 모든 레인에서 실행
  레인 0: 레인 1에서 current_val 수신 → next_val = 1
  레인 1: 레인 2에서 current_val 수신 → next_val = 4
  레인 2: 레인 3에서 current_val 수신 → next_val = 9
  ...
  레인 30: 레인 31에서 current_val 수신 → next_val = 961
  레인 31: 미정의 수신 (레인 32 없음) → next_val = ?

사이클 3: 차분 계산 (레인 0-30만 해당)
  레인 0: output[0] = 1 - 0 = 1
  레인 1: output[1] = 4 - 1 = 3
  레인 2: output[2] = 9 - 4 = 5
  ...
  레인 31: output[31] = 0 (경계 조건)

수학적 통찰: 이산 도함수 연산자 $D$를 구현합니다: \[\Large D\lbrack f\rbrack(i) = f(i+1) - f(i)\]

이차 입력 $f(i) = i^2$에 대해: \[\Large D[i^2] = (i+1)^2 - i^2 = i^2 + 2i + 1 - i^2 = 2i + 1\]

shuffle_down이 우월한 이유:

메모리 효율성: 기존 방식은 input[global_i + 1] 로드가 필요하여 캐시 미스를 유발할 수 있음
경계 안전성: 범위 초과 접근 위험이 없음 - 하드웨어가 워프 경계를 처리
SIMT 최적화: 단일 명령이 모든 레인을 동시에 처리
레지스터 통신: 데이터가 메모리 계층 구조가 아닌 레지스터 사이를 이동

성능 특성:

지연 시간: 1 사이클 (메모리 접근의 100+ 사이클 대비)
대역폭: 0 바이트 (기존 방식의 스레드당 4바이트 대비)
병렬성: 32개 레인 모두 동시에 처리

2. 다중 오프셋 이동 평균

구성

벡터 크기: SIZE_2 = 64 (멀티 블록 시나리오)
그리드 구성: BLOCKS_PER_GRID = (2, 1) 그리드당 블록 수
블록 구성: THREADS_PER_BLOCK = (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

여러 shuffle_down 연산을 사용하여 3점 이동 평균을 구현합니다.

수학적 연산: 세 개의 연속 요소를 사용하여 슬라이딩 윈도우 평균을 계산합니다: \[\Large \text{output}[i] = \frac{1}{3}\left(\text{input}[i] + \text{input}[i+1] + \text{input}[i+2]\right)\]

경계 처리: 워프 경계에서 알고리즘이 우아하게 적응합니다:

3점 전체 윈도우: $\text{output}[i] = \frac{1}{3}\sum_{k=0}^{2} \text{input}[i+k]$ - 모든 이웃이 사용 가능할 때
2점 윈도우: $\text{output}[i] = \frac{1}{2}\sum_{k=0}^{1} \text{input}[i+k]$ - 다음 이웃만 사용 가능할 때
1점 윈도우: $\text{output}[i] = \text{input}[i]$ - 이웃이 사용 불가할 때

이는 shuffle_down()이 워프 범위 내에서 자동 경계 처리와 함께 효율적인 스텐실 연산을 가능하게 하는 방법을 보여줍니다.

comptime SIZE_2 = 64
comptime BLOCKS_PER_GRID_2 = (2, 1)
comptime THREADS_PER_BLOCK_2 = (WARP_SIZE, 1)
comptime layout_2 = row_major[SIZE_2]()
comptime LayoutType_2 = type_of(layout_2)


def moving_average_3[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType_2, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType_2, ImmutAnyOrigin],
):
    """
    Compute 3-point moving average: output[i] = (input[i] + input[i+1] + input[i+2]) / 3
    Uses shuffle_down with offsets 1 and 2 to access neighbors.
    Works within warp boundaries across multiple blocks.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    # FILL IN (roughly 10 lines)

팁

1. 다중 오프셋 셔플 패턴

이 퍼즐은 여러 이웃에 동시에 접근해야 합니다. 서로 다른 오프셋으로 셔플 연산을 사용해야 합니다.

핵심 질문:

input[i+1]과 input[i+2]를 셔플 연산으로 어떻게 가져올 수 있을까요?
셔플 오프셋과 이웃 거리의 관계는 무엇일까요?
같은 소스 값에 대해 여러 번 셔플을 수행할 수 있을까요?

시각화 개념:

현재 레인이 필요한 값: current_val, next_val, next_next_val
셔플 오프셋:        0 (직접),    1,        2

생각해 보세요: 몇 번의 셔플 연산이 필요하고, 어떤 오프셋을 사용해야 할까요?

2. 단계적 경계 처리

단순한 이웃 차분과 달리, 이 퍼즐은 2개의 이웃에 접근해야 하므로 여러 경계 시나리오가 있습니다.

고려할 경계 시나리오:

전체 윈도우: 레인이 두 이웃 모두 접근 가능 → 3개 값 모두 사용
부분 윈도우: 레인이 1개 이웃만 접근 가능 → 2개 값 사용
윈도우 없음: 레인이 이웃에 접근 불가 → 1개 값 사용

비판적 사고:

어떤 레인이 각 카테고리에 해당할까요?
값이 적을 때 평균의 가중치를 어떻게 조정해야 할까요?
어떤 경계 조건을 검사해야 할까요?

고려할 패턴:

if (두 이웃 모두 접근 가능):
    # 3점 평균
elif (한 이웃만 접근 가능):
    # 2점 평균
else:
    # 1점 (평균 없음)

3. 멀티 블록 조정

이 퍼즐은 여러 블록을 사용하며, 각 블록이 데이터의 다른 영역을 처리합니다.

중요한 고려사항:

각 블록은 레인 0부터 WARP_SIZE-1까지의 자체 워프를 가짐
경계 조건은 각 워프 내에서 독립적으로 적용
블록마다 레인 번호가 초기화됨

생각해 볼 질문:

경계 로직이 블록 0과 블록 1 모두에서 올바르게 동작하나요?
레인 경계와 전역 배열 경계를 모두 검사하고 있나요?
서로 다른 블록에서 global_i와 lane_id()의 관계는 어떻게 될까요?

디버깅 팁: 각 블록의 경계 레인에서 어떤 일이 일어나는지 추적하여 로직을 테스트하세요.

이동 평균 테스트:

pixi run p25 --average

pixi run -e amd p25 --average

uv run poe p25 --average

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE_2:  64
output: HostBuffer([3.3333333, 6.3333335, 10.333333, 15.333333, 21.333334, 28.333334, 36.333332, 45.333332, 55.333332, 66.333336, 78.333336, 91.333336, 105.333336, 120.333336, 136.33333, 153.33333, 171.33333, 190.33333, 210.33333, 231.33333, 253.33333, 276.33334, 300.33334, 325.33334, 351.33334, 378.33334, 406.33334, 435.33334, 465.33334, 496.33334, 512.0, 528.0, 595.3333, 630.3333, 666.3333, 703.3333, 741.3333, 780.3333, 820.3333, 861.3333, 903.3333, 946.3333, 990.3333, 1035.3334, 1081.3334, 1128.3334, 1176.3334, 1225.3334, 1275.3334, 1326.3334, 1378.3334, 1431.3334, 1485.3334, 1540.3334, 1596.3334, 1653.3334, 1711.3334, 1770.3334, 1830.3334, 1891.3334, 1953.3334, 2016.3334, 2048.0, 2080.0])
expected: HostBuffer([3.3333333, 6.3333335, 10.333333, 15.333333, 21.333334, 28.333334, 36.333332, 45.333332, 55.333332, 66.333336, 78.333336, 91.333336, 105.333336, 120.333336, 136.33333, 153.33333, 171.33333, 190.33333, 210.33333, 231.33333, 253.33333, 276.33334, 300.33334, 325.33334, 351.33334, 378.33334, 406.33334, 435.33334, 465.33334, 496.33334, 512.0, 528.0, 595.3333, 630.3333, 666.3333, 703.3333, 741.3333, 780.3333, 820.3333, 861.3333, 903.3333, 946.3333, 990.3333, 1035.3334, 1081.3334, 1128.3334, 1176.3334, 1225.3334, 1275.3334, 1326.3334, 1378.3334, 1431.3334, 1485.3334, 1540.3334, 1596.3334, 1653.3334, 1711.3334, 1770.3334, 1830.3334, 1891.3334, 1953.3334, 2016.3334, 2048.0, 2080.0])
✅ Moving average test passed!

솔루션

def moving_average_3[
    size: Int
](
    output: TileTensor[mut=True, dtype, Layout2Type, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, Layout2Type, MutAnyOrigin],
):
    """
    Compute 3-point moving average: output[i] = (input[i] + input[i+1] + input[i+2]) / 3
    Uses shuffle_down with offsets 1 and 2 to access neighbors.
    Works within warp boundaries across multiple blocks.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    if global_i < size:
        # Get current, next, and next+1 values
        var current_val = input[global_i]
        var next_val = shuffle_down(current_val, 1)
        var next_next_val = shuffle_down(current_val, 2)

        # Compute 3-point average - valid within warp boundaries
        if lane < WARP_SIZE - 2 and global_i < size - 2:
            output[global_i] = (current_val + next_val + next_next_val) / 3.0
        elif lane < WARP_SIZE - 1 and global_i < size - 1:
            # Second-to-last in warp: only current + next available
            output[global_i] = (current_val + next_val) / 2.0
        else:
            # Last thread in warp or boundary cases: only current available
            output[global_i] = current_val

이 솔루션은 복잡한 스텐실 연산을 위한 고급 다중 오프셋 셔플을 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    # 단계 1: 여러 셔플로 필요한 데이터 모두 확보
    current_val = input[global_i]                   # 직접 접근
    next_val = shuffle_down(current_val, 1)         # 오른쪽 이웃
    next_next_val = shuffle_down(current_val, 2)    # 오른쪽+1 이웃

    # 단계 2: 사용 가능한 데이터에 따른 적응형 계산
    if lane < WARP_SIZE - 2 and global_i < size - 2:
        # 3점 스텐실 전체 사용 가능
        output[global_i] = (current_val + next_val + next_next_val) / 3.0
    elif lane < WARP_SIZE - 1 and global_i < size - 1:
        # 2점 스텐실만 사용 가능 (워프 경계 근처)
        output[global_i] = (current_val + next_val) / 2.0
    else:
        # 스텐실 사용 불가 (워프 경계)
        output[global_i] = current_val

다중 오프셋 실행 추적 (WARP_SIZE = 32):

초기 상태 (블록 0, 요소 0-31):
  레인 0: current_val = input[0] = 1
  레인 1: current_val = input[1] = 2
  레인 2: current_val = input[2] = 4
  ...
  레인 31: current_val = input[31] = X

첫 번째 셔플: shuffle_down(current_val, 1)
  레인 0: next_val = input[1] = 2
  레인 1: next_val = input[2] = 4
  레인 2: next_val = input[3] = 7
  ...
  레인 30: next_val = input[31] = X
  레인 31: next_val = 미정의

두 번째 셔플: shuffle_down(current_val, 2)
  레인 0: next_next_val = input[2] = 4
  레인 1: next_next_val = input[3] = 7
  레인 2: next_next_val = input[4] = 11
  ...
  레인 29: next_next_val = input[31] = X
  레인 30: next_next_val = 미정의
  레인 31: next_next_val = 미정의

계산 단계:
  레인 0-29: 3점 전체 평균 → (current + next + next_next) / 3
  레인 30:   2점 평균 → (current + next) / 2
  레인 31:   1점 평균 → current (그대로 전달)

수학적 기반: 가변 폭 이산 합성곱을 구현합니다: \[\Large h[i] = \sum_{k=0}^{K(i)-1} w_k^{(i)} \cdot f[i+k]\]

위치에 따라 커널이 적응합니다:

내부 점: $K(i) = 3$, $\mathbf{w}^{(i)} = [\frac{1}{3}, \frac{1}{3}, \frac{1}{3}]$
경계 근처: $K(i) = 2$, $\mathbf{w}^{(i)} = [\frac{1}{2}, \frac{1}{2}]$
경계: $K(i) = 1$, $\mathbf{w}^{(i)} = [1]$

멀티 블록 조정: SIZE_2 = 64와 2개 블록:

블록 0 (전역 인덱스 0-31):
  전역 인덱스 29, 30, 31에 레인 경계 적용

블록 1 (전역 인덱스 32-63):
  전역 인덱스 61, 62, 63에 레인 경계 적용
  레인 번호 초기화: global_i=32 → lane=0, global_i=63 → lane=31

성능 최적화:

병렬 데이터 확보: 두 셔플 연산이 동시에 실행
조건부 분기: GPU가 프레디케이션을 통해 분기 레인을 효율적으로 처리
메모리 병합: 순차적 전역 메모리 접근 패턴이 GPU에 최적
레지스터 재사용: 모든 중간 값이 레지스터에 유지

신호 처리 관점: 이것은 임펄스 응답 $h[n] = \frac{1}{3}[\delta[n] + \delta[n-1] + \delta[n-2]]$를 가진 인과 FIR 필터로, 차단 주파수 $f_c \approx 0.25f_s$에서 스무딩을 제공합니다.

요약

이 섹션의 핵심 패턴은 다음과 같습니다

current_val = input[global_i]
neighbor_val = shuffle_down(current_val, offset)
if lane < WARP_SIZE - offset:
    result = compute(current_val, neighbor_val)

핵심 장점:

하드웨어 효율성: 레지스터 간 직접 통신
경계 안전성: 자동 워프 범위 처리
SIMT 최적화: 단일 명령, 모든 레인 병렬 처리

활용 분야: 유한 차분, 스텐실 연산, 이동 평균, 합성곱.

`warp.broadcast()` 일대다 통신

워프 레벨 조정에서는 broadcast()를 사용하여 하나의 레인에서 워프 내 다른 모든 레인으로 데이터를 공유할 수 있습니다. 이 강력한 기본 요소를 통해 공유 메모리나 명시적 동기화 없이 블록 레벨 계산, 조건부 로직 조정, 일대다 통신 패턴을 효율적으로 수행할 수 있습니다.

핵심 통찰: broadcast() 연산은 SIMT 실행을 활용하여 하나의 레인(보통 레인 0)이 계산한 값을 같은 워프의 모든 레인에 전달하며, 효율적인 조정 패턴과 집합적 의사결정을 가능하게 합니다.

브로드캐스트 연산이란? 브로드캐스트 연산은 하나의 스레드가 값을 계산하고 그룹 내 다른 모든 스레드와 공유하는 통신 패턴입니다. 블록 레벨 통계 계산, 집합적 의사결정, 워프 내 모든 스레드에 설정 파라미터 전달 등의 조정 작업에 필수적입니다.

핵심 개념

이 퍼즐에서 배울 내용:

broadcast()를 활용한 워프 레벨 브로드캐스트
일대다 통신 패턴
집합 계산 전략
레인 간 조건부 조정
브로드캐스트-shuffle 결합 연산

broadcast() 연산은 하나의 레인(기본적으로 레인 0)이 자신의 값을 다른 모든 레인과 공유할 수 있게 합니다: \[\Large \text{broadcast}(\text{value}) = \text{value_from_lane_0_to_all_lanes}\]

이를 통해 복잡한 조정 패턴이 간단한 워프 레벨 연산으로 변환되어, 명시적 동기화 없이 효율적인 집합 계산이 가능합니다.

브로드캐스트 개념

기존 조정 방식은 복잡한 공유 메모리 패턴이 필요합니다:

# 기존 방식 - 복잡하고 오류가 발생하기 쉬움
shared_memory[lane] = local_computation()
sync_threads()  # 비용이 큰 동기화
if lane == 0:
    result = compute_from_shared_memory()
sync_threads()  # 또 다른 비용이 큰 동기화
final_result = shared_memory[0]  # 모든 스레드가 읽음

기존 방식의 문제점:

메모리 오버헤드: 공유 메모리 할당이 필요
동기화: 비용이 큰 배리어 연산이 여러 번 필요
복잡한 로직: 공유 메모리 인덱스와 접근 패턴 관리
오류 발생 가능성: 경쟁 상태가 쉽게 발생

broadcast()를 사용하면 조정이 간결해집니다:

# 워프 브로드캐스트 방식 - 간단하고 안전
collective_value = 0
if lane == 0:
    collective_value = compute_block_statistic()
collective_value = broadcast(collective_value)  # 모든 레인과 공유
result = use_collective_value(collective_value)

브로드캐스트의 장점:

메모리 오버헤드 제로: 공유 메모리 불필요
자동 동기화: SIMT 실행이 정확성을 보장
간단한 패턴: 하나의 레인이 계산하고 모든 레인이 수신
조합 가능: 다른 워프 연산과 쉽게 결합

1. 기본 브로드캐스트

레인 0이 블록 레벨 통계를 계산하고 모든 레인과 공유하는 기본 브로드캐스트 패턴을 구현합니다.

요구사항:

레인 0이 현재 블록의 처음 4개 요소의 합을 계산해야 합니다
이 계산된 값을 broadcast()를 사용하여 워프의 다른 모든 레인과 공유해야 합니다
각 레인은 이 공유된 값을 자신의 입력 요소에 더해야 합니다

테스트 데이터: 입력 [1, 2, 3, 4, 5, 6, 7, 8, ...]은 출력 [11, 12, 13, 14, 15, 16, 17, 18, ...]을 생성해야 합니다

과제: 하나의 레인만 블록 레벨 계산을 수행하되, 모든 레인이 그 결과를 자신의 개별 연산에 사용하려면 어떻게 조정해야 할까요?

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수
데이터 타입: DType.float32
레이아웃: row_major[SIZE]() (1D row-major)

완성할 코드

def basic_broadcast[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Basic broadcast: Lane 0 computes a block-local value, broadcasts it to all lanes.
    Each lane then uses this broadcast value in its own computation.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())
    if global_i < size:
        var broadcast_value: output.ElementType = 0.0

        # FILL IN (roughly 10 lines)

전체 파일 보기: problems/p25/p25.mojo

팁

1. 브로드캐스트 동작 방식 이해하기

broadcast(value) 연산은 레인 0의 값을 가져와 워프의 모든 레인에 전달합니다.

핵심 통찰: 브로드캐스트에서는 레인 0의 값만 의미가 있습니다. 다른 레인의 값은 무시되지만, 모든 레인이 레인 0의 값을 수신합니다.

시각화:

브로드캐스트 전: 레인 0은 val₀, 레인 1은 val₁, 레인 2는 val₂, ...
브로드캐스트 후: 레인 0은 val₀, 레인 1은 val₀, 레인 2는 val₀, ...

생각해 보세요: 레인 0만 브로드캐스트하려는 값을 계산하도록 하려면 어떻게 해야 할까요?

2. 레인별 계산

레인 0이 특별한 계산을 수행하고 다른 레인은 대기하도록 알고리즘을 설계합니다.

고려할 패턴:

var shared_value = 초기값
if lane == 0:
    # 레인 0만 계산
    shared_value = 특별한_계산()
# 모든 레인이 브로드캐스트에 참여
shared_value = broadcast(shared_value)

핵심 질문:

브로드캐스트 전에 다른 레인의 값은 어떤 상태여야 할까요?
레인 0이 브로드캐스트할 올바른 값을 갖도록 하려면 어떻게 해야 할까요?

3. 집합적 활용

브로드캐스트 후 모든 레인이 같은 값을 갖게 되며, 이를 각자의 개별 계산에 활용할 수 있습니다.

생각해 보세요: 각 레인이 브로드캐스트 값과 자신의 로컬 데이터를 어떻게 결합할까요?

기본 브로드캐스트 테스트:

pixi run p25 --broadcast-basic

pixi run -e amd p25 --broadcast-basic

pixi run -e apple p25 --broadcast-basic

uv run poe p25 --broadcast-basic

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: HostBuffer([11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0])
expected: HostBuffer([11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0])
✅ Basic broadcast test passed!

솔루션

def basic_broadcast[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
):
    """
    Basic broadcast: Lane 0 computes a block-local value, broadcasts it to all lanes.
    Each lane then uses this broadcast value in its own computation.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    if global_i < size:
        # Step 1: Lane 0 computes special value (sum of first 4 elements in this block)
        var broadcast_value: output.ElementType = 0.0
        if lane == 0:
            var block_start = block_idx.x * block_dim.x
            var sum: output.ElementType = 0.0
            for i in range(4):
                if block_start + i < size:
                    sum += input[block_start + i]
            broadcast_value = sum

        # Step 2: Broadcast lane 0's value to all lanes in this warp
        broadcast_value = broadcast(broadcast_value)

        # Step 3: All lanes use broadcast value in their computation
        output[global_i] = broadcast_value + input[global_i]

이 솔루션은 워프 레벨 조정을 위한 기본 브로드캐스트 패턴을 보여줍니다.

알고리즘 분석:

if global_i < size:
    # 단계 1: 레인 0이 특별한 값을 계산
    var broadcast_value: output.element_type = 0.0
    if lane == 0:
        # 레인 0만 이 계산을 수행
        block_start = block_idx.x * block_dim.x
        var sum: output.element_type = 0.0
        for i in range(4):
            if block_start + i < size:
                sum += input[block_start + i]
        broadcast_value = sum

    # 단계 2: 레인 0의 값을 모든 레인과 공유
    broadcast_value = broadcast(broadcast_value)

    # 단계 3: 모든 레인이 브로드캐스트 값을 활용
    output[global_i] = broadcast_value + input[global_i]

SIMT 실행 추적:

사이클 1: 레인별 계산
  레인 0: input[0] + input[1] + input[2] + input[3] = 1+2+3+4 = 10을 계산
  레인 1: broadcast_value는 0.0 유지 (레인 0이 아님)
  레인 2: broadcast_value는 0.0 유지 (레인 0이 아님)
  ...
  레인 31: broadcast_value는 0.0 유지 (레인 0이 아님)

사이클 2: broadcast(broadcast_value) 실행
  레인 0: 자신의 값 유지 → broadcast_value = 10.0
  레인 1: 레인 0의 값 수신 → broadcast_value = 10.0
  레인 2: 레인 0의 값 수신 → broadcast_value = 10.0
  ...
  레인 31: 레인 0의 값 수신 → broadcast_value = 10.0

사이클 3: 브로드캐스트 값을 활용한 개별 계산
  레인 0: output[0] = 10.0 + input[0] = 10.0 + 1.0 = 11.0
  레인 1: output[1] = 10.0 + input[1] = 10.0 + 2.0 = 12.0
  레인 2: output[2] = 10.0 + input[2] = 10.0 + 3.0 = 13.0
  ...
  레인 31: output[31] = 10.0 + input[31] = 10.0 + 32.0 = 42.0

브로드캐스트가 우월한 이유:

조정 효율성: 단일 연산으로 모든 레인을 조정
메모리 효율성: 공유 메모리 할당 불필요
동기화 불필요: SIMT 실행이 자동으로 조정을 처리
확장 가능한 패턴: 워프 크기와 무관하게 동일하게 동작

성능 특성:

지연 시간: 브로드캐스트 연산 1 사이클
대역폭: 0 바이트 (레지스터 간 직접 통신)
조정: 32개 레인 모두 자동 동기화

2. 조건부 브로드캐스트

레인 0이 블록 데이터를 분석하고 모든 레인에 영향을 미치는 결정을 내리는 조건부 조정을 구현합니다.

요구사항:

레인 0이 현재 블록의 처음 8개 요소를 분석하고 최댓값을 찾아야 합니다
이 최댓값을 broadcast()를 사용하여 다른 모든 레인에 전달해야 합니다
각 레인은 조건부 로직을 적용합니다: 자신의 요소가 최댓값의 절반보다 크면 2배로, 그렇지 않으면 절반으로 만듭니다

테스트 데이터: 입력 [3, 1, 7, 2, 9, 4, 6, 8, ...] (반복 패턴)은 출력 [1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, ...]을 생성해야 합니다

과제: 블록 레벨 분석과 요소별 조건부 변환을 모든 레인에 걸쳐 어떻게 조정할까요?

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

def conditional_broadcast[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Conditional broadcast: Lane 0 makes a decision based on block-local data, broadcasts it to all lanes.
    All lanes apply different logic based on the broadcast decision.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())
    if global_i < size:
        var decision_value: output.ElementType = 0.0

        # FILL IN (roughly 10 lines)

        var current_input = input[global_i]
        var threshold = decision_value / 2.0
        if current_input >= threshold:
            output[global_i] = current_input * 2.0  # Double if >= threshold
        else:
            output[global_i] = current_input / 2.0  # Halve if < threshold

팁

1. 분석과 의사결정

레인 0이 여러 데이터 포인트를 분석하고 다른 모든 레인의 동작을 안내할 결정을 내려야 합니다.

핵심 질문:

레인 0이 여러 요소를 효율적으로 분석하려면 어떻게 해야 할까요?
레인의 동작을 조정하기 위해 어떤 종류의 결정을 브로드캐스트해야 할까요?
데이터를 분석할 때 경계 조건은 어떻게 처리할까요?

고려할 패턴:

var decision = 기본값
if lane == 0:
    # 블록 로컬 데이터 분석
    decision = 분석_후_결정()
decision = broadcast(decision)

2. 조건부 실행 조정

브로드캐스트된 결정을 수신한 후, 모든 레인이 그 결정에 기반하여 서로 다른 로직을 적용해야 합니다.

생각해 보세요:

레인이 브로드캐스트 값을 사용하여 로컬 결정을 내리는 방법은?
각 조건부 분기에서 어떤 연산을 적용해야 할까요?
모든 레인에서 일관된 동작을 보장하려면 어떻게 해야 할까요?

조건부 패턴:

if (로컬_데이터가 broadcast_기준을 충족):
    # 하나의 변환 적용
else:
    # 다른 변환 적용

3. 데이터 분석 전략

레인 0이 여러 데이터 포인트를 효율적으로 분석하는 방법을 고려하세요.

고려할 접근법:

최댓값/최솟값 찾기
평균이나 합계 계산
패턴이나 임계값 감지
데이터 특성에 기반한 이진 결정

조건부 브로드캐스트 테스트:

pixi run p25 --broadcast-conditional

pixi run -e amd p25 --broadcast-conditional

uv run poe p25 --broadcast-conditional

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: HostBuffer([1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0])
expected: HostBuffer([1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0, 1.5, 0.5, 14.0, 1.0, 18.0, 2.0, 12.0, 16.0])
✅ Conditional broadcast test passed!

솔루션

def conditional_broadcast[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
):
    """
    Conditional broadcast: Lane 0 makes a decision based on block-local data, broadcasts it to all lanes.
    All lanes apply different logic based on the broadcast decision.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    if global_i < size:
        # Step 1: Lane 0 analyzes block-local data and makes decision (find max of first 8 in block)
        var decision_value: output.ElementType = 0.0
        if lane == 0:
            var block_start = block_idx.x * block_dim.x
            decision_value = input[block_start] if block_start < size else 0.0
            for i in range(1, min(8, min(WARP_SIZE, size - block_start))):
                if block_start + i < size:
                    var current_val = input[block_start + i]
                    if current_val > decision_value:
                        decision_value = current_val

        # Step 2: Broadcast decision to all lanes in this warp
        decision_value = broadcast(decision_value)

        # Step 3: All lanes apply conditional logic based on broadcast decision
        var current_input = input[global_i]
        var threshold = decision_value / 2.0
        if current_input >= threshold:
            output[global_i] = current_input * 2.0  # Double if >= threshold
        else:
            output[global_i] = current_input / 2.0  # Halve if < threshold

이 솔루션은 레인 간 조건부 조정을 위한 고급 브로드캐스트 패턴을 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    # 단계 1: 레인 0이 블록 데이터를 분석하고 결정을 내림
    var decision_value: output.element_type = 0.0
    if lane == 0:
        # 블록의 처음 8개 요소 중 최댓값 찾기
        block_start = block_idx.x * block_dim.x
        decision_value = input[block_start] if block_start < size else 0.0
        for i in range(1, min(8, min(WARP_SIZE, size - block_start))):
            if block_start + i < size:
                current_val = input[block_start + i]
                if current_val > decision_value:
                    decision_value = current_val

    # 단계 2: 결정을 broadcast하여 모든 레인을 조정
    decision_value = broadcast(decision_value)

    # 단계 3: 모든 레인이 브로드캐스트에 기반한 조건부 로직을 적용
    current_input = input[global_i]
    threshold = decision_value / 2.0
    if current_input >= threshold:
        output[global_i] = current_input * 2.0  # 임계값 이상이면 2배
    else:
        output[global_i] = current_input / 2.0  # 임계값 미만이면 절반

의사결정 실행 추적:

입력 데이터: [3.0, 1.0, 7.0, 2.0, 9.0, 4.0, 6.0, 8.0, ...]

단계 1: 레인 0이 처음 8개 요소의 최댓값을 찾음
  레인 0 분석:
    input[0] = 3.0으로 시작
    input[1] = 1.0과 비교 → 3.0 유지
    input[2] = 7.0과 비교 → 7.0으로 갱신
    input[3] = 2.0과 비교 → 7.0 유지
    input[4] = 9.0과 비교 → 9.0으로 갱신
    input[5] = 4.0과 비교 → 9.0 유지
    input[6] = 6.0과 비교 → 9.0 유지
    input[7] = 8.0과 비교 → 9.0 유지
    최종 decision_value = 9.0

단계 2: decision_value = 9.0을 모든 레인에 broadcast
  모든 레인: decision_value = 9.0, threshold = 4.5

단계 3: 레인별 조건부 실행
  레인 0: input[0] = 3.0 < 4.5 → output[0] = 3.0 / 2.0 = 1.5
  레인 1: input[1] = 1.0 < 4.5 → output[1] = 1.0 / 2.0 = 0.5
  레인 2: input[2] = 7.0 ≥ 4.5 → output[2] = 7.0 * 2.0 = 14.0
  레인 3: input[3] = 2.0 < 4.5 → output[3] = 2.0 / 2.0 = 1.0
  레인 4: input[4] = 9.0 ≥ 4.5 → output[4] = 9.0 * 2.0 = 18.0
  레인 5: input[5] = 4.0 < 4.5 → output[5] = 4.0 / 2.0 = 2.0
  레인 6: input[6] = 6.0 ≥ 4.5 → output[6] = 6.0 * 2.0 = 12.0
  레인 7: input[7] = 8.0 ≥ 4.5 → output[7] = 8.0 * 2.0 = 16.0
  ...나머지 레인에 패턴 반복

수학적 기반: 임계값 기반 변환을 구현합니다: \[\Large f(x) = \begin{cases} 2x & \text{if } x \geq \tau \\ \frac{x}{2} & \text{if } x < \tau \end{cases}\]

여기서 $\tau = \frac{\max(\text{block_data})}{2}$는 브로드캐스트된 임계값입니다.

조정 패턴의 장점:

중앙화된 분석: 하나의 레인이 분석하고 모든 레인이 혜택을 받음
일관된 결정: 모든 레인이 같은 임계값을 사용
적응형 동작: 임계값이 블록 로컬 데이터 특성에 따라 적응
효율적 조정: 단일 브로드캐스트로 복잡한 조건부 로직을 조정

활용 분야:

적응형 알고리즘: 로컬 데이터 특성에 따라 파라미터 조정
품질 관리: 데이터 품질 지표에 따라 다른 처리 적용
부하 분산: 블록 로컬 복잡도 분석에 기반한 작업 분배

3. 브로드캐스트-shuffle 조정

broadcast()와 shuffle_down()을 모두 결합한 고급 조정을 구현합니다.

요구사항:

레인 0이 블록의 처음 4개 요소의 평균을 계산하고 이 스케일링 팩터를 모든 레인에 브로드캐스트해야 합니다
각 레인은 shuffle_down(offset=1)을 사용하여 다음 이웃의 값을 가져와야 합니다
대부분의 레인: 스케일링 팩터에 (현재_값 + 다음_이웃_값)을 곱합니다
워프의 마지막 레인: 스케일링 팩터에 현재_값만 곱합니다 (유효한 이웃 없음)

테스트 데이터: 입력은 [2, 4, 6, 8, 1, 3, 5, 7, ...] 패턴을 따릅니다 (처음 4개 요소: 2,4,6,8 이후 1,3,5,7 반복)

레인 0이 스케일링 팩터를 계산: (2+4+6+8)/4 = 5.0
예상 출력: [30.0, 50.0, 70.0, 45.0, 20.0, 40.0, 60.0, 40.0, ...]

과제: 하나의 레인의 계산이 모든 레인에 영향을 미치면서, 각 레인이 자신의 이웃 데이터에도 접근해야 하는 상황에서 여러 워프 기본 요소를 어떻게 조정할까요?

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

def broadcast_shuffle_coordination[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Combine broadcast() and shuffle_down() for advanced warp coordination.
    Lane 0 computes block-local scaling factor, broadcasts it to all lanes in the warp.
    Each lane uses shuffle_down() for neighbor access and applies broadcast factor.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())
    if global_i < size:
        var scale_factor: output.ElementType = 0.0

        # FILL IN (roughly 14 lines)

팁

1. 다중 기본 요소 조정

이 퍼즐은 broadcast와 셔플 연산을 순서대로 조율해야 합니다.

흐름을 생각해 보세요:

하나의 레인이 전체 워프를 위한 값을 계산
이 값이 모든 레인에 broadcast됨
각 레인이 셔플로 이웃 데이터에 접근
브로드캐스트 값이 이웃 데이터의 처리 방식에 영향

조정 패턴:

# 단계 1: 브로드캐스트 조정
var shared_param = lane_0이면_계산()
shared_param = broadcast(shared_param)

# 단계 2: 셔플 이웃 접근
current_val = input[global_i]
neighbor_val = shuffle_down(current_val, offset)

# 단계 3: 결합 계산
result = 결합(current_val, neighbor_val, shared_param)

2. 파라미터 계산 전략

이웃 연산을 스케일링하는 데 유용한 블록 레벨 파라미터가 무엇일지 고려하세요.

탐구할 질문:

레인 0이 블록 데이터에서 어떤 통계를 계산해야 할까요?
이 파라미터가 이웃 기반 계산에 어떤 영향을 미쳐야 할까요?
셔플 연산이 포함될 때 워프 경계에서 무슨 일이 일어날까요?

3. 결합 연산 설계

브로드캐스트 파라미터와 셔플 기반 이웃 접근을 의미 있게 결합하는 방법을 생각하세요.

패턴 고려사항:

브로드캐스트 파라미터가 입력, 출력, 또는 계산을 스케일링해야 할까요?
셔플이 미정의 데이터를 반환하는 경계 케이스를 어떻게 처리할까요?
가장 효율적인 연산 순서는 무엇일까요?

브로드캐스트-shuffle 조정 테스트:

pixi run p25 --broadcast-shuffle-coordination

pixi run -e amd p25 --broadcast-shuffle-coordination

uv run poe p25 --broadcast-shuffle-coordination

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: HostBuffer([30.0, 50.0, 70.0, 45.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 35.0])
expected: HostBuffer([30.0, 50.0, 70.0, 45.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 40.0, 20.0, 40.0, 60.0, 35.0])
✅ 브로드캐스트 + 셔플 coordination test passed!

솔루션

def broadcast_shuffle_coordination[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
):
    """
    Combine broadcast() and shuffle_down() for advanced warp coordination.
    Lane 0 computes block-local scaling factor, broadcasts it to all lanes in the warp.
    Each lane uses shuffle_down() for neighbor access and applies broadcast factor.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = Int(lane_id())

    if global_i < size:
        # Step 1: Lane 0 computes block-local scaling factor
        var scale_factor: output.ElementType = 0.0
        if lane == 0:
            # Compute average of first 4 elements in this block's data
            var block_start = block_idx.x * block_dim.x
            var sum: output.ElementType = 0.0
            for i in range(4):
                if block_start + i < size:
                    sum += input[block_start + i]
            scale_factor = sum / 4.0

        # Step 2: Broadcast scaling factor to all lanes in this warp
        scale_factor = broadcast(scale_factor)

        # Step 3: Each lane gets current and next values
        var current_val = input[global_i]
        var next_val = shuffle_down(current_val, 1)

        # Step 4: Apply broadcast factor with neighbor coordination
        if lane < WARP_SIZE - 1 and global_i < size - 1:
            # Combine current + next, then scale by broadcast factor
            output[global_i] = (current_val + next_val) * scale_factor
        else:
            # Last lane in warp or last element: only current value, scaled by broadcast factor
            output[global_i] = current_val * scale_factor

이 솔루션은 broadcast와 셔플 기본 요소를 결합한 가장 고급 워프 조정 패턴을 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    # 단계 1: 레인 0이 블록 로컬 스케일링 팩터를 계산
    var scale_factor: output.element_type = 0.0
    if lane == 0:
        block_start = block_idx.x * block_dim.x
        var sum: output.element_type = 0.0
        for i in range(4):
            if block_start + i < size:
                sum += input[block_start + i]
        scale_factor = sum / 4.0

    # 단계 2: 스케일링 팩터를 모든 레인에 broadcast
    scale_factor = broadcast(scale_factor)

    # 단계 3: 각 레인이 shuffle을 통해 현재 값과 다음 값을 가져옴
    current_val = input[global_i]
    next_val = shuffle_down(current_val, 1)

    # 단계 4: 브로드캐스트 팩터를 이웃 조정과 결합하여 적용
    if lane < WARP_SIZE - 1 and global_i < size - 1:
        output[global_i] = (current_val + next_val) * scale_factor
    else:
        output[global_i] = current_val * scale_factor

다중 기본 요소 실행 추적:

입력 데이터: [2, 4, 6, 8, 1, 3, 5, 7, ...]

단계 1: 레인 0이 스케일링 팩터를 계산
  레인 0 계산: (input[0] + input[1] + input[2] + input[3]) / 4
              = (2 + 4 + 6 + 8) / 4 = 20 / 4 = 5.0
  다른 레인: scale_factor는 0.0 유지

단계 2: scale_factor = 5.0을 모든 레인에 broadcast
  모든 레인: scale_factor = 5.0

단계 3: 이웃 접근을 위한 셔플 연산
  레인 0: current_val = input[0] = 2, next_val = shuffle_down(2, 1) = input[1] = 4
  레인 1: current_val = input[1] = 4, next_val = shuffle_down(4, 1) = input[2] = 6
  레인 2: current_val = input[2] = 6, next_val = shuffle_down(6, 1) = input[3] = 8
  레인 3: current_val = input[3] = 8, next_val = shuffle_down(8, 1) = input[4] = 1
  ...
  레인 31: current_val = input[31], next_val = 미정의

단계 4: 브로드캐스트 스케일링과 결합한 계산
  레인 0: output[0] = (2 + 4) * 5.0 = 6 * 5.0 = 30.0
  레인 1: output[1] = (4 + 6) * 5.0 = 10 * 5.0 = 50.0
  레인 2: output[2] = (6 + 8) * 5.0 = 14 * 5.0 = 70.0
  레인 3: output[3] = (8 + 1) * 5.0 = 9 * 5.0 = 45.0
  ...
  레인 31: output[31] = 7 * 5.0 = 35.0 (경계 - 이웃 없음)

통신 패턴 분석: 이 알고리즘은 계층적 조정 패턴을 구현합니다:

수직 조정 (broadcast): 레인 0 → 모든 레인
수평 조정 (shuffle): 레인 i → 레인 i+1
결합 계산: 브로드캐스트 데이터와 셔플 데이터를 모두 활용

수학적 기반: \[\Large \text{output}[i] = \begin{cases} (\text{input}[i]

\text{input}[i+1]) \cdot \beta & \text{if lane} i < \text{WARP_SIZE} - 1 \\ \text{input}[i] \cdot \beta & \text{if lane } i = \text{WARP_SIZE} - 1 \end{cases}\]

여기서 $\beta = \frac{1}{4}\sum_{k=0}^{3} \text{input}[\text{block_start} + k]$는 브로드캐스트된 스케일링 팩터입니다.

고급 조정의 장점:

다단계 통신: 전역(broadcast)과 지역(shuffle) 조정의 결합
적응형 스케일링: 블록 레벨 파라미터가 이웃 연산에 영향
효율적 구성: 두 기본 요소가 매끄럽게 협력
복잡한 알고리즘 구현: 정교한 병렬 알고리즘을 가능하게 함

실제 활용 사례:

적응형 필터링: 블록 레벨 노이즈 추정과 이웃 기반 필터링
동적 부하 분산: 전역 작업 분배와 로컬 조정
다중 스케일 처리: 전역 파라미터가 로컬 스텐실 연산을 제어

요약

이 섹션의 핵심 패턴은 다음과 같습니다

var shared_value = initial_value
if lane == 0:
    shared_value = compute_block_statistic()
shared_value = broadcast(shared_value)
result = use_shared_value(shared_value, local_data)

핵심 장점:

일대다 조정: 하나의 레인이 계산하고 모든 레인이 혜택을 받음
동기화 오버헤드 제로: SIMT 실행이 조정을 처리
조합 가능한 패턴: 셔플과 다른 워프 연산과 쉽게 결합

활용 분야: 블록 통계, 집합적 의사결정, 파라미터 공유, 적응형 알고리즘.

Puzzle 26: 고급 워프 패턴

개요

Puzzle 26: 고급 워프 통신 기본 요소에서는 정교한 GPU 워프 레벨 버터플라이 통신과 병렬 스캔 연산 - 워프 내에서 효율적인 트리 기반 알고리즘과 병렬 리덕션을 가능하게 하는 하드웨어 가속 기본 요소를 소개합니다. shuffle_xor을 사용한 버터플라이 네트워크와 prefix_sum을 사용한 하드웨어 최적화 병렬 스캔을 배우며, 복잡한 다단계 공유 메모리 알고리즘 없이 이를 구현하는 방법을 익힙니다.

달성 목표: 복잡한 공유 메모리 + 배리어 + 다단계 리덕션 패턴에서 벗어나, 하드웨어 최적화된 버터플라이 네트워크와 병렬 스캔 유닛을 활용하는 우아한 단일 함수 호출 알고리즘으로 전환합니다.

핵심 통찰: GPU 워프는 하드웨어에서 정교한 트리 기반 통신과 병렬 스캔 연산을 수행할 수 있습니다 - Mojo의 고급 워프 기본 요소는 버터플라이 네트워크와 전용 스캔 유닛을 활용하여 $O(\log n)$ 알고리즘을 단일 명령 수준의 간결함으로 제공합니다.

배울 내용

고급 워프 통신 모델

GPU 워프 내 정교한 통신 패턴을 이해합니다:

GPU 워프 버터플라이 네트워크 (32 스레드, XOR 기반 통신)
Offset 16: Lane 0 ↔ Lane 16, Lane 1 ↔ Lane 17, ..., Lane 15 ↔ Lane 31
Offset 8:  Lane 0 ↔ Lane 8,  Lane 1 ↔ Lane 9,  ..., Lane 23 ↔ Lane 31
Offset 4:  Lane 0 ↔ Lane 4,  Lane 1 ↔ Lane 5,  ..., Lane 27 ↔ Lane 31
Offset 2:  Lane 0 ↔ Lane 2,  Lane 1 ↔ Lane 3,  ..., Lane 29 ↔ Lane 31
Offset 1:  Lane 0 ↔ Lane 1,  Lane 2 ↔ Lane 3,  ..., Lane 30 ↔ Lane 31

하드웨어 누적 합 (병렬 스캔 가속)
입력:  [1, 2, 3, 4, 5, 6, 7, 8, ...]
출력: [1, 3, 6, 10, 15, 21, 28, 36, ...] (inclusive scan)

하드웨어 현실:

버터플라이 네트워크: XOR 기반 통신이 최적의 트리 토폴로지를 생성합니다
전용 스캔 유닛: 하드웨어 가속 병렬 누적 합 연산
로그 복잡도: $O(\log n)$ 알고리즘이 $O(n)$ 순차 패턴을 대체합니다
단일 사이클 연산: 복잡한 리덕션이 전용 하드웨어에서 처리됩니다

Mojo의 고급 워프 연산

gpu.primitives.warp의 정교한 통신 기본 요소를 배웁니다:

shuffle_xor(value, mask): 트리 알고리즘을 위한 XOR 기반 버터플라이 통신
prefix_sum(value): 하드웨어 가속 병렬 스캔 연산
고급 조정 패턴: 여러 기본 요소를 결합한 복잡한 알고리즘

참고: 이 기본 요소들은 병렬 리덕션, 스트림 컴팩션, quicksort 파티셔닝, FFT 연산 등 공유 메모리 조정 코드가 수십 줄 필요했을 정교한 병렬 알고리즘을 가능하게 합니다.

성능 변환 예시

# 복잡한 병렬 리덕션 (기존 방식 - Puzzle 14 참고):
shared = TileTensor[
    dtype,
    row_major[WARP_SIZE](),
    MutAnyOrigin,
    address_space = AddressSpace.SHARED,
].stack_allocation()
shared[local_i] = input[global_i]
barrier()
offset = 1
for i in range(Int(log2(Scalar[dtype](WARP_SIZE)))):
    var current_val: output.element_type = 0
    if local_i >= offset and local_i < WARP_SIZE:
        current_val = shared[local_i - offset]
    barrier()
    if local_i >= offset and local_i < WARP_SIZE:
        shared[local_i] += current_val
    barrier()
    offset *= 2

# 고급 워프 기본 요소가 이 모든 복잡성을 제거합니다:
current_val = input[global_i]
scan_result = prefix_sum[exclusive=False](current_val)  # 단일 호출!
output[global_i] = scan_result

고급 워프 연산이 빛나는 순간

성능 특성을 이해합니다:

알고리즘 패턴	기존 방식	고급 워프 연산
병렬 리덕션	공유 메모리 + 배리어	단일 `shuffle_xor` 트리
누적 합/스캔 연산	다단계 알고리즘	하드웨어 `prefix_sum`
스트림 컴팩션	복잡한 인덱싱	`prefix_sum` + 조정
Quicksort 파티션	수동 위치 계산	결합된 기본 요소
트리 알고리즘	재귀적 공유 메모리	버터플라이 통신

선수 지식

고급 워프 통신에 들어가기 전에 다음 내용에 익숙해야 합니다:

Part VII 워프 기초: SIMT 실행과 기본 워프 연산에 대한 이해 (Puzzle 24: 워프 기초와 Puzzle 25: 워프 통신 참고)
병렬 알고리즘 이론: 트리 리덕션, 병렬 스캔, 버터플라이 네트워크
GPU 메모리 계층 구조: 공유 메모리 패턴과 동기화 (Puzzle 14: 누적 합 참고)
수학 연산: XOR 연산과 로그 복잡도에 대한 이해

학습 경로

1. shuffle_xor을 이용한 버터플라이 통신

→ warp.shuffle_xor()와 버터플라이 네트워크

효율적인 트리 알고리즘과 병렬 리덕션을 위한 XOR 기반 버터플라이 통신 패턴을 배웁니다.

배울 내용:

shuffle_xor()으로 버터플라이 네트워크 토폴로지 구성하기
트리 통신을 활용한 $O(\log n)$ 병렬 리덕션 구현
XOR 기반 레인 페어링과 통신 패턴 이해
다중 값 리덕션을 위한 고급 조건부 버터플라이 연산

핵심 패턴:

max_val = input[global_i]
offset = WARP_SIZE // 2
while offset > 0:
    max_val = max(max_val, shuffle_xor(max_val, offset))
    offset //= 2
# 모든 레인이 전역 최댓값을 가지게 됩니다

2. prefix_sum을 이용한 하드웨어 가속 병렬 스캔

→ warp.prefix_sum()과 스캔 연산

복잡한 다단계 알고리즘을 단일 함수 호출로 대체하는 하드웨어 최적화 병렬 스캔 연산을 배웁니다.

배울 내용:

prefix_sum()을 활용한 하드웨어 가속 누적 연산
스트림 컴팩션과 병렬 파티셔닝 구현
prefix_sum과 shuffle_xor을 결합한 고급 조정
Inclusive vs exclusive 스캔 패턴 이해

핵심 패턴:

current_val = input[global_i]
scan_result = prefix_sum[exclusive=False](current_val)
output[global_i] = scan_result  # 하드웨어 최적화 누적 합

핵심 개념

버터플라이 네트워크 통신

XOR 기반 통신 토폴로지를 이해합니다:

XOR 페어링: lane_id ⊕ mask가 대칭 통신 쌍을 생성합니다
트리 리덕션: 계층적 데이터 교환을 통한 로그 복잡도
병렬 조정: 모든 레인이 리덕션에 동시에 참여합니다
동적 알고리즘: 2의 거듭제곱 WARP_SIZE (32, 64 등) 어디서나 동작합니다

하드웨어 가속 병렬 스캔

전용 스캔 유닛의 능력을 이해합니다:

누적 합 연산: 하드웨어 가속을 활용한 누적 연산
스트림 컴팩션: 병렬 필터링과 데이터 재배치
단일 함수 간결성: 복잡한 알고리즘이 단일 호출로 변환됩니다
동기화 불필요: 하드웨어가 모든 조정을 내부적으로 처리합니다

알고리즘 복잡도 변환

기존 패턴을 고급 워프 연산으로 변환합니다:

순차 리덕션 ($O(n)$) → 버터플라이 리덕션 ($O(\log n)$)
다단계 스캔 알고리즘 → 단일 하드웨어 prefix_sum
복잡한 공유 메모리 패턴 → 레지스터 전용 연산
명시적 동기화 → 하드웨어 관리 조정

고급 조정 패턴

여러 기본 요소를 결합한 정교한 알고리즘:

이중 리덕션: 버터플라이 패턴을 활용한 동시 min/max 추적
병렬 파티셔닝: quicksort 스타일 연산을 위한 shuffle_xor + prefix_sum
조건부 연산: 전역 조정을 통한 레인 기반 출력 선택
다중 기본 요소 알고리즘: 최적 성능의 복잡한 병렬 패턴

시작하기

고급 GPU 워프 레벨 통신을 활용할 준비가 되셨나요? 버터플라이 네트워크 연산으로 트리 기반 통신을 이해한 다음, 하드웨어 가속 병렬 스캔으로 나아가 최적의 알고리즘 성능을 달성하세요.

💡 성공 팁: 고급 워프 연산을 하드웨어 가속 병렬 알고리즘 빌딩 블록으로 생각하세요. 이 기본 요소들은 복잡한 공유 메모리 알고리즘의 전체 범주를 단일 최적화 함수 호출로 대체합니다.

학습 목표: Puzzle 26을 마치면, 고급 워프 기본 요소가 복잡한 다단계 알고리즘을 대체할 수 있는 상황을 인식하여 훨씬 간단하고 빠른 트리 기반 리덕션, 병렬 스캔, 조정 패턴을 작성할 수 있게 됩니다.

시작하기: warp.shuffle_xor()와 버터플라이 네트워크 에서 버터플라이 통신을 배운 다음, warp.prefix_sum()과 스캔 연산 에서 하드웨어 가속 병렬 스캔 패턴으로 나아가세요!

`warp.shuffle_xor()` 버터플라이 통신

워프 레벨 버터플라이 통신에서는 shuffle_xor()을 사용하여 워프 내에 정교한 트리 기반 통신 패턴을 구성할 수 있습니다. 이 강력한 기본 요소를 통해 공유 메모리나 명시적 동기화 없이 효율적인 병렬 리덕션, 정렬 네트워크, 고급 조정 알고리즘을 구현할 수 있습니다.

핵심 통찰: shuffle_xor() 연산은 SIMT 실행을 활용하여 XOR 기반 통신 트리를 생성하며, 워프 크기에 대해 $O(\log n)$ 복잡도로 확장되는 효율적인 버터플라이 네트워크와 병렬 알고리즘을 가능하게 합니다.

버터플라이 네트워크란? 버터플라이 네트워크는 스레드들이 인덱스의 XOR 패턴에 따라 데이터를 교환하는 통신 토폴로지입니다. 이름은 시각적으로 그렸을 때 나비 날개처럼 보이는 연결 패턴에서 유래했습니다. 이 네트워크는 $O(\log n)$ 통신 복잡도를 가능하게 하기 때문에 FFT, bitonic 정렬, 병렬 리덕션 같은 병렬 알고리즘의 기반이 됩니다.

핵심 개념

이 퍼즐에서 배울 내용:

shuffle_xor()을 활용한 XOR 기반 통신 패턴
병렬 알고리즘을 위한 버터플라이 네트워크 토폴로지
$O(\log n)$ 복잡도의 트리 기반 병렬 리덕션
고급 조정을 위한 조건부 버터플라이 연산
복잡한 공유 메모리를 대체하는 하드웨어 최적화 병렬 기본 요소

shuffle_xor 연산은 각 레인이 XOR 패턴에 따라 다른 레인과 데이터를 교환할 수 있게 합니다: \[\Large \text{shuffle_xor}(\text{value}, \text{mask}) = \text{value_from_lane}(\text{lane_id} \oplus \text{mask})\]

이를 통해 복잡한 병렬 알고리즘이 우아한 버터플라이 통신 패턴으로 변환되어, 명시적 조정 없이 효율적인 트리 리덕션과 정렬 네트워크가 가능합니다.

1. 기본 버터플라이 페어 교환

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수
데이터 타입: DType.float32
레이아웃: row_major[SIZE]() (1D row-major)

shuffle_xor 개념

기존 페어 교환 방식은 복잡한 인덱싱과 조정이 필요합니다:

# 기존 방식 - 복잡하고 동기화가 필요
shared_memory[lane] = input[global_i]
barrier()
if lane % 2 == 0:
    partner = lane + 1
else:
    partner = lane - 1
if partner < WARP_SIZE:
    swapped_val = shared_memory[partner]

기존 방식의 문제점:

메모리 오버헤드: 공유 메모리 할당이 필요
동기화: 명시적 배리어가 필요
복잡한 로직: 수동 파트너 계산과 경계 검사
낮은 확장성: 하드웨어 통신을 활용하지 못함

shuffle_xor()을 사용하면 페어 교환이 우아해집니다:

# 버터플라이 XOR 방식 - 간단하고 하드웨어 최적화
current_val = input[global_i]
swapped_val = shuffle_xor(current_val, 1)  # 1과 XOR하면 페어가 생성됨
output[global_i] = swapped_val

shuffle_xor의 장점:

메모리 오버헤드 제로: 레지스터 간 직접 통신
동기화 불필요: SIMT 실행이 정확성을 보장
하드웨어 최적화: 모든 레인에 대해 단일 명령으로 처리
버터플라이 기반: 복잡한 병렬 알고리즘의 빌딩 블록

완성할 코드

shuffle_xor()을 사용하여 인접 페어 간 값을 교환하는 페어 교환을 구현합니다.

수학적 연산: XOR 패턴으로 인접 페어를 만들어 값을 교환합니다: \[\Large \text{output}[i] = \text{input}[i \oplus 1]\]

입력 데이터 [0, 1, 2, 3, 4, 5, 6, 7, ...]을 페어 [1, 0, 3, 2, 5, 4, 7, 6, ...]으로 변환하며, 각 페어 (i, i+1)이 XOR 통신으로 값을 교환합니다.

전체 파일 보기: problems/p26/p26.mojo

팁

1. shuffle_xor 이해하기

shuffle_xor(value, mask) 연산은 각 레인이 XOR 마스크만큼 차이나는 레인과 데이터를 교환할 수 있게 합니다. 서로 다른 마스크 값으로 레인 ID를 XOR했을 때 어떤 일이 일어나는지 생각해 보세요.

탐구할 핵심 질문:

레인 0이 마스크 1로 XOR하면 어떤 파트너를 얻나요?
레인 1이 마스크 1로 XOR하면 어떤 파트너를 얻나요?
패턴이 보이나요?

힌트: 처음 몇 개의 레인 ID에 대해 XOR 연산을 직접 해보면 페어링 패턴을 이해할 수 있습니다.

2. XOR 페어 패턴

레인 ID의 이진 표현과 최하위 비트를 뒤집으면 어떻게 되는지 생각해 보세요.

고려할 질문:

짝수 레인을 1과 XOR하면 어떻게 되나요?
홀수 레인을 1과 XOR하면 어떻게 되나요?
왜 이것이 완벽한 페어를 만드나요?

3. 경계 검사 불필요

shuffle_down()과 달리 shuffle_xor() 연산은 워프 경계 내에서 유지됩니다. 작은 마스크로의 XOR이 절대로 범위 밖의 레인 ID를 만들지 않는 이유를 생각해 보세요.

생각해 보세요: 유효한 레인 ID를 1과 XOR했을 때 나올 수 있는 최대 레인 ID는 얼마인가요?

버터플라이 페어 교환 테스트:

pixi run p26 --pair-swap

pixi run -e amd p26 --pair-swap

pixi run -e apple p26 --pair-swap

uv run poe p26 --pair-swap

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: [1.0, 0.0, 3.0, 2.0, 5.0, 4.0, 7.0, 6.0, 9.0, 8.0, 11.0, 10.0, 13.0, 12.0, 15.0, 14.0, 17.0, 16.0, 19.0, 18.0, 21.0, 20.0, 23.0, 22.0, 25.0, 24.0, 27.0, 26.0, 29.0, 28.0, 31.0, 30.0]
expected: [1.0, 0.0, 3.0, 2.0, 5.0, 4.0, 7.0, 6.0, 9.0, 8.0, 11.0, 10.0, 13.0, 12.0, 15.0, 14.0, 17.0, 16.0, 19.0, 18.0, 21.0, 20.0, 23.0, 22.0, 25.0, 24.0, 27.0, 26.0, 29.0, 28.0, 31.0, 30.0]
✅ Butterfly pair swap test passed!

솔루션

def butterfly_pair_swap[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Basic butterfly pair swap: Exchange values between adjacent pairs using XOR pattern.
    Each thread exchanges its value with its XOR-1 neighbor, creating pairs: (0,1), (2,3), (4,5), etc.
    Uses shuffle_xor(val, 1) to swap values within each pair.
    This is the foundation of butterfly network communication patterns.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    if global_i < size:
        var current_val = input[global_i]

        # Exchange with XOR-1 neighbor using butterfly pattern
        # Lane 0 exchanges with lane 1, lane 2 with lane 3, etc.
        var swapped_val = shuffle_xor(current_val, 1)

        # For demonstration, we'll store the swapped value
        # In real applications, this might be used for sorting, reduction, etc.
        output[global_i] = swapped_val

이 풀이는 shuffle_xor()이 XOR 통신 패턴을 통해 완벽한 페어 교환을 어떻게 만드는지 보여줍니다.

알고리즘 분석:

if global_i < size:
    current_val = input[global_i]              # 각 레인이 자신의 요소를 읽음
    swapped_val = shuffle_xor(current_val, 1)  # XOR로 페어 교환 생성

    # 교환된 값을 저장
    output[global_i] = swapped_val

SIMT 실행 상세 분석:

사이클 1: 모든 레인이 동시에 값을 로드
  Lane 0: current_val = input[0] = 0
  Lane 1: current_val = input[1] = 1
  Lane 2: current_val = input[2] = 2
  Lane 3: current_val = input[3] = 3
  ...
  Lane 31: current_val = input[31] = 31

사이클 2: shuffle_xor(current_val, 1)이 모든 레인에서 실행
  Lane 0: Lane 1에서 수신 (0⊕1=1) → swapped_val = 1
  Lane 1: Lane 0에서 수신 (1⊕1=0) → swapped_val = 0
  Lane 2: Lane 3에서 수신 (2⊕1=3) → swapped_val = 3
  Lane 3: Lane 2에서 수신 (3⊕1=2) → swapped_val = 2
  ...
  Lane 30: Lane 31에서 수신 (30⊕1=31) → swapped_val = 31
  Lane 31: Lane 30에서 수신 (31⊕1=30) → swapped_val = 30

사이클 3: 결과 저장
  Lane 0: output[0] = 1
  Lane 1: output[1] = 0
  Lane 2: output[2] = 3
  Lane 3: output[3] = 2
  ...

수학적 통찰: XOR 속성을 활용한 완벽한 페어 교환을 구현합니다: \[\Large \text{XOR}(i, 1) = \begin{cases} i + 1 & \text{if } i \bmod 2 = 0 \\ i - 1 & \text{if } i \bmod 2 = 1 \end{cases}\]

shuffle_xor이 우월한 이유:

완벽한 대칭: 모든 레인이 정확히 하나의 페어에 참여
조정 불필요: 모든 페어가 동시에 교환
하드웨어 최적화: 워프 전체에 대해 단일 명령으로 처리
버터플라이 기반: 복잡한 병렬 알고리즘의 빌딩 블록

성능 특성:

지연 시간: 1 사이클 (하드웨어 레지스터 교환)
대역폭: 0 바이트 (메모리 트래픽 없음)
병렬성: WARP_SIZE개 레인 모두 동시에 교환
확장성: 데이터 크기에 관계없이 $O(1)$ 복잡도

2. 버터플라이 병렬 최댓값

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

감소하는 offset으로 버터플라이 shuffle_xor을 사용하여 병렬 최댓값 리덕션을 구현합니다.

수학적 연산: 트리 리덕션을 통해 모든 워프 레인에서 최댓값을 계산합니다: \[\Large \text{max_result} = \max_{i=0}^{\small\text{WARP_SIZE}-1} \text{input}[i]\]

버터플라이 리덕션 패턴: XOR 오프셋을 WARP_SIZE/2에서 1까지 절반씩 줄여가며, 통신 범위가 단계마다 반으로 좁아지는 이진 트리를 구성합니다:

1단계: WARP_SIZE/2 거리의 레인과 비교 (워프 전체를 포괄)
2단계: WARP_SIZE/4 거리의 레인과 비교 (범위를 절반으로 좁힘)
3단계: WARP_SIZE/8 거리의 레인과 비교
4단계: offset = 1이 될 때까지 계속 절반으로 줄임

$\log_2(\text{WARP_SIZE})$ 단계를 거치면 모든 레인이 전역 최댓값을 갖게 됩니다. 이 방식은 모든 WARP_SIZE (32, 64 등)에서 동작합니다.

def butterfly_parallel_max[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Parallel maximum reduction using butterfly pattern.
    Uses shuffle_xor with decreasing offsets starting from WARP_SIZE/2 down to 1.
    Each step reduces the active range by half until all threads have the maximum value.
    This implements an efficient O(log n) parallel reduction algorithm that works
    for any WARP_SIZE (32, 64, etc.).
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    # FILL ME IN (roughly 7 lines)

팁

1. 버터플라이 리덕션 이해하기

버터플라이 리덕션은 이진 트리 통신 패턴을 생성합니다. 각 단계에서 문제 크기를 체계적으로 줄이는 방법을 생각해 보세요.

핵심 질문:

최대 범위를 커버하려면 시작 offset이 얼마여야 하나요?
단계 사이에 오프셋을 어떻게 변경해야 하나요?
언제 리덕션을 멈춰야 하나요?

힌트: “버터플라이“라는 이름은 통신 패턴에서 유래합니다 - 작은 예제에 대해 직접 그려보세요.

2. XOR 리덕션 특성

XOR은 각 단계에서 겹치지 않는 통신 페어를 생성합니다. 이것이 병렬 리덕션에서 왜 중요한지 생각해 보세요.

생각해 보세요:

서로 다른 오프셋으로의 XOR이 어떻게 다른 통신 패턴을 만드나요?
같은 단계에서 레인들이 왜 서로 간섭하지 않나요?
XOR이 트리 리덕션에 특히 적합한 이유는 무엇인가요?

3. 최댓값 누적

각 레인은 자신의 “영역“에서 최댓값의 지식을 점진적으로 쌓아가야 합니다.

알고리즘 구조:

자신의 값으로 시작
각 단계에서 이웃의 값과 비교
최댓값을 유지하고 계속 진행

핵심 통찰: 각 단계 후, “지식의 영역“이 두 배로 확장됩니다.

마지막 단계 후: 각 레인이 전역 최댓값을 알게 됩니다

4. 이 패턴이 동작하는 이유

버터플라이 리덕션은 $\log_2(\text{WARP_SIZE})$ 단계 후에 다음을 보장합니다:

모든 레인이 다른 모든 레인의 값을 간접적으로 확인
중복 통신 없음: 각 페어가 단계당 정확히 한 번 교환
최적 복잡도: $O(n)$ 순차 비교 대신 $O(\log n)$ 단계

추적 예제 (4개 레인, 값 [3, 1, 7, 2]):

초기 상태: Lane 0=3, Lane 1=1, Lane 2=7, Lane 3=2

1단계 (offset=2): 0 ↔ 2, 1 ↔ 3
  Lane 0: max(3, 7) = 7
  Lane 1: max(1, 2) = 2
  Lane 2: max(7, 3) = 7
  Lane 3: max(2, 1) = 2

2단계 (offset=1): 0 ↔ 1, 2 ↔ 3
  Lane 0: max(7, 2) = 7
  Lane 1: max(2, 7) = 7
  Lane 2: max(7, 2) = 7
  Lane 3: max(2, 7) = 7

결과: 모든 레인이 전역 최댓값 = 7을 가짐

버터플라이 병렬 최댓값 테스트:

pixi run p26 --parallel-max

pixi run -e amd p26 --parallel-max

uv run poe p26 --parallel-max

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: [1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0]
expected: [1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0, 1000.0]
✅ Butterfly parallel max test passed!

솔루션

def butterfly_parallel_max[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Parallel maximum reduction using butterfly pattern.
    Uses shuffle_xor with decreasing offsets (16, 8, 4, 2, 1) to perform tree-based reduction.
    Each step reduces the active range by half until all threads have the maximum value.
    This implements an efficient O(log n) parallel reduction algorithm.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    if global_i < size:
        var max_val = input[global_i]

        # Butterfly reduction tree: dynamic for any WARP_SIZE (32, 64, etc.)
        # Start with half the warp size and reduce by half each step
        var offset = WARP_SIZE // 2
        while offset > 0:
            max_val = max(max_val, shuffle_xor(max_val, UInt32(offset)))
            offset //= 2

        # All threads now have the maximum value across the entire warp
        output[global_i] = max_val

이 풀이는 shuffle_xor()이 $O(\log n)$ 복잡도의 효율적인 병렬 리덕션 트리를 어떻게 생성하는지 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    max_val = input[global_i]  # 로컬 값으로 시작

    # 버터플라이 리덕션 트리: 모든 WARP_SIZE에 동적으로 대응
    offset = WARP_SIZE // 2
    while offset > 0:
        max_val = max(max_val, shuffle_xor(max_val, offset))
        offset //= 2

    output[global_i] = max_val  # 모든 레인이 전역 최댓값을 가짐

버터플라이 실행 추적 (8-레인 예제, 값 [0,2,4,6,8,10,12,1000]):

초기 상태:
  Lane 0: max_val = 0,    Lane 1: max_val = 2
  Lane 2: max_val = 4,    Lane 3: max_val = 6
  Lane 4: max_val = 8,    Lane 5: max_val = 10
  Lane 6: max_val = 12,   Lane 7: max_val = 1000

1단계: shuffle_xor(max_val, 4) - 절반 교환
  Lane 0↔4: max(0,8)=8,     Lane 1↔5: max(2,10)=10
  Lane 2↔6: max(4,12)=12,   Lane 3↔7: max(6,1000)=1000
  Lane 4↔0: max(8,0)=8,     Lane 5↔1: max(10,2)=10
  Lane 6↔2: max(12,4)=12,   Lane 7↔3: max(1000,6)=1000

2단계: shuffle_xor(max_val, 2) - 1/4 교환
  Lane 0↔2: max(8,12)=12,   Lane 1↔3: max(10,1000)=1000
  Lane 2↔0: max(12,8)=12,   Lane 3↔1: max(1000,10)=1000
  Lane 4↔6: max(8,12)=12,   Lane 5↔7: max(10,1000)=1000
  Lane 6↔4: max(12,8)=12,   Lane 7↔5: max(1000,10)=1000

3단계: shuffle_xor(max_val, 1) - 페어 교환
  Lane 0↔1: max(12,1000)=1000,  Lane 1↔0: max(1000,12)=1000
  Lane 2↔3: max(12,1000)=1000,  Lane 3↔2: max(1000,12)=1000
  Lane 4↔5: max(12,1000)=1000,  Lane 5↔4: max(1000,12)=1000
  Lane 6↔7: max(12,1000)=1000,  Lane 7↔6: max(1000,12)=1000

최종 결과: 모든 레인의 max_val = 1000

수학적 통찰: 버터플라이 통신으로 병렬 리덕션 연산자를 구현합니다: \[\Large \text{Reduce}(\oplus, [a_0, a_1, \ldots, a_{n-1}]) = a_0 \oplus a_1 \oplus \cdots \oplus a_{n-1}\]

여기서 $\oplus$는 max 연산이며, 버터플라이 패턴이 최적 $O(\log n)$ 복잡도를 보장합니다.

버터플라이 리덕션이 우월한 이유:

로그 복잡도: 순차 리덕션의 $O(n)$에 비해 $O(\log n)$
완벽한 부하 분산: 모든 레인이 각 단계에서 동등하게 참여
메모리 병목 없음: 순수 레지스터 간 통신
하드웨어 최적화: GPU 버터플라이 네트워크에 직접 매핑

성능 특성:

단계 수: $\log_2(\text{WARP_SIZE})$ (예: 32-스레드 워프는 5단계, 64-스레드 워프는 6단계)
단계당 지연 시간: 1 사이클 (레지스터 교환 + 비교)
총 지연 시간: 순차 방식의 $(\text{WARP_SIZE}-1)$ 사이클 대비 $\log_2(\text{WARP_SIZE})$ 사이클
병렬성: 알고리즘 전체에서 모든 레인이 활성 상태

3. 버터플라이 조건부 최댓값

구성

벡터 크기: SIZE_2 = 64 (멀티 블록 시나리오)
그리드 구성: BLOCKS_PER_GRID_2 = (2, 1) 그리드당 블록 수
블록 구성: THREADS_PER_BLOCK_2 = (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

짝수 레인은 최댓값을, 홀수 레인은 최솟값을 저장하는 조건부 버터플라이 리덕션을 구현합니다.

수학적 연산: 최댓값과 최솟값 모두에 대해 버터플라이 리덕션을 수행한 후, 레인 홀짝에 따라 조건부로 출력합니다: \[\Large \text{output}[i] = \begin{cases} \max_{j=0}^{\text{WARP_SIZE}-1} \text{input}[j] & \text{if} i \bmod 2 = 0 \\ \min_{j=0}^{\text{WARP_SIZE}-1} \text{input}[j] & \text{if } i \bmod 2 = 1 \end{cases}\]

이중 리덕션 패턴: 버터플라이 트리를 통해 최댓값과 최솟값을 동시에 추적한 후, 레인 ID 홀짝에 따라 조건부로 출력합니다. 이는 버터플라이 패턴이 복잡한 다중 값 리덕션으로 어떻게 확장되는지를 보여줍니다.

comptime SIZE_2 = 64
comptime BLOCKS_PER_GRID_2 = (2, 1)
comptime THREADS_PER_BLOCK_2 = (WARP_SIZE, 1)
comptime layout_2 = row_major[SIZE_2]()
comptime LayoutType_2 = type_of(layout_2)


def butterfly_conditional_max[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType_2, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType_2, ImmutAnyOrigin],
):
    """
    Conditional butterfly maximum: Perform butterfly max reduction, but only store result
    in even-numbered lanes. Odd-numbered lanes store the minimum value seen.
    Demonstrates conditional logic combined with butterfly communication patterns.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = lane_id()

    if global_i < size:
        var current_val = input[global_i]
        var min_val = current_val

        # FILL ME IN (roughly 11 lines)

팁

1. 이중 추적 버터플라이 리덕션

이 퍼즐은 버터플라이 트리를 통해 두 가지 다른 값을 동시에 추적해야 합니다. 여러 리덕션을 병렬로 실행하는 방법을 생각해 보세요.

핵심 질문:

리덕션 과정에서 최댓값과 최솟값을 어떻게 동시에 유지할 수 있나요?
두 연산에 같은 버터플라이 패턴을 사용할 수 있나요?
어떤 변수를 추적해야 하나요?

2. 조건부 출력 로직

버터플라이 리덕션을 완료한 후, 레인 홀짝에 따라 다른 값을 출력해야 합니다.

고려할 점:

레인이 짝수인지 홀수인지 어떻게 판별하나요?
어떤 레인이 최댓값을, 어떤 레인이 최솟값을 출력해야 하나요?
레인 ID에 어떻게 접근하나요?

3. min과 max 동시 버터플라이 리덕션

이 과제의 핵심은 같은 버터플라이 통신 패턴으로 min과 max를 효율적으로 병렬 계산하는 것입니다.

생각해 보세요:

min과 max에 별도의 셔플 연산이 필요한가요?
두 연산에 같은 이웃 값을 재사용할 수 있나요?
두 리덕션 모두 올바르게 완료되려면 어떻게 해야 하나요?

4. 멀티 블록 경계 고려사항

이 퍼즐은 여러 블록을 사용합니다. 이것이 리덕션 범위에 어떤 영향을 미치는지 생각해 보세요.

중요한 고려사항:

각 버터플라이 리덕션의 범위는 어디까지인가요?
블록 구조가 레인 번호 매기기에 어떤 영향을 미치나요?
전역 min/max를 계산하나요, 블록별 min/max를 계산하나요?

버터플라이 조건부 최댓값 테스트:

pixi run p26 --conditional-max

pixi run -e amd p26 --conditional-max

uv run poe p26 --conditional-max

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE_2:  64
output: [9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0]
expected: [9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 9.0, 0.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0, 63.0, 32.0]
✅ Butterfly conditional max test passed!

솔루션

def butterfly_conditional_max[
    size: Int
](
    output: TileTensor[mut=True, dtype, Layout2Type, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, Layout2Type, ImmutAnyOrigin],
):
    """
    Conditional butterfly maximum: Perform butterfly max reduction, but only store result
    in even-numbered lanes. Odd-numbered lanes store the minimum value seen.
    Demonstrates conditional logic combined with butterfly communication patterns.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var lane = lane_id()

    if global_i < size:
        var current_val = input[global_i]
        var min_val = current_val

        # Butterfly reduction for both maximum and minimum: dynamic for any WARP_SIZE
        var offset = WARP_SIZE // 2
        while offset > 0:
            var neighbor_val = shuffle_xor(current_val, UInt32(offset))
            current_val = max(current_val, neighbor_val)

            var min_neighbor_val = shuffle_xor(min_val, UInt32(offset))
            min_val = min(min_val, min_neighbor_val)

            offset //= 2

        # Conditional output: max for even lanes, min for odd lanes
        if lane % 2 == 0:
            output[global_i] = current_val  # Maximum
        else:
            output[global_i] = min_val  # Minimum

이 풀이는 이중 추적과 조건부 출력을 사용하는 고급 버터플라이 리덕션을 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    current_val = input[global_i]
    min_val = current_val  # 최솟값을 별도로 추적

    # max와 min 동시 버터플라이 리덕션 (log_2(WARP_SIZE) 단계)
    offset = WARP_SIZE // 2
    while offset > 0:
        neighbor_val = shuffle_xor(current_val, offset)
        current_val = max(current_val, neighbor_val)    # Max 리덕션

        min_neighbor_val = shuffle_xor(min_val, offset)
        min_val = min(min_val, min_neighbor_val)        # Min 리덕션

        offset //= 2

    # 레인 홀짝에 따른 조건부 출력
    if lane % 2 == 0:
        output[global_i] = current_val  # 짝수 레인: 최댓값
    else:
        output[global_i] = min_val      # 홀수 레인: 최솟값

이중 리덕션 실행 추적 (4-레인 예제, 값 [3, 1, 7, 2]):

초기 상태:
  Lane 0: current_val=3, min_val=3
  Lane 1: current_val=1, min_val=1
  Lane 2: current_val=7, min_val=7
  Lane 3: current_val=2, min_val=2

1단계: shuffle_xor(current_val, 2)와 shuffle_xor(min_val, 2) - 절반 교환
  Lane 0↔2: max_neighbor=7, min_neighbor=7 → current_val=max(3,7)=7, min_val=min(3,7)=3
  Lane 1↔3: max_neighbor=2, min_neighbor=2 → current_val=max(1,2)=2, min_val=min(1,2)=1
  Lane 2↔0: max_neighbor=3, min_neighbor=3 → current_val=max(7,3)=7, min_val=min(7,3)=3
  Lane 3↔1: max_neighbor=1, min_neighbor=1 → current_val=max(2,1)=2, min_val=min(2,1)=1

2단계: shuffle_xor(current_val, 1)와 shuffle_xor(min_val, 1) - 페어 교환
  Lane 0↔1: max_neighbor=2, min_neighbor=1 → current_val=max(7,2)=7, min_val=min(3,1)=1
  Lane 1↔0: max_neighbor=7, min_neighbor=3 → current_val=max(2,7)=7, min_val=min(1,3)=1
  Lane 2↔3: max_neighbor=2, min_neighbor=1 → current_val=max(7,2)=7, min_val=min(3,1)=1
  Lane 3↔2: max_neighbor=7, min_neighbor=3 → current_val=max(2,7)=7, min_val=min(1,3)=1

최종 결과: 모든 레인이 current_val=7 (전역 max)과 min_val=1 (전역 min)을 가짐

동적 알고리즘 (모든 WARP_SIZE에서 동작):

offset = WARP_SIZE // 2
while offset > 0:
    neighbor_val = shuffle_xor(current_val, offset)
    current_val = max(current_val, neighbor_val)

    min_neighbor_val = shuffle_xor(min_val, offset)
    min_val = min(min_val, min_neighbor_val)

    offset //= 2

수학적 통찰: 조건부 디멀티플렉싱을 사용하는 이중 병렬 리덕션을 구현합니다: \[\Large \begin{align} \text{max_result} &= \max_{i=0}^{n-1} \text{input}[i] \\ \text{min_result} &= \min_{i=0}^{n-1} \text{input}[i] \\ \text{output}[i] &= \text{lane_parity}(i) \; \text{?} \; \text{min_result}: \text{max_result} \end{align}\]

이중 버터플라이 리덕션이 동작하는 이유:

독립적 리덕션: Max와 min 리덕션은 수학적으로 독립
병렬 실행: 둘 다 같은 버터플라이 통신 패턴을 사용 가능
통신 공유: 같은 셔플 연산이 두 리덕션 모두에 활용
조건부 출력: 레인 홀짝이 어떤 결과를 출력할지 결정

성능 특성:

통신 단계: $\log_2(\text{WARP_SIZE})$ (단일 리덕션과 동일)
단계당 연산: 단일 리덕션의 1개 대비 2개 연산 (max + min)
메모리 효율성: 복잡한 공유 메모리 방식 대비 스레드당 레지스터 2개
출력 유연성: 서로 다른 레인이 다른 리덕션 결과를 출력 가능

요약

shuffle_xor() 기본 요소는 효율적인 병렬 알고리즘의 기반이 되는 강력한 버터플라이 통신 패턴을 가능하게 합니다. 세 가지 문제를 통해 다음을 배웠습니다:

핵심 버터플라이 패턴

페어 교환 (shuffle_xor(value, 1)):
- 완벽한 인접 페어 생성: (0,1), (2,3), (4,5), …
- 메모리 오버헤드 제로의 $O(1)$ 복잡도
- 정렬 네트워크와 데이터 재배치의 기반
트리 리덕션 (동적 offset: WARP_SIZE/2 → 1):
- 로그 병렬 리덕션: 순차의 $O(n)$ 대비 $O(\log n)$
- 모든 결합 연산에 적용 가능 (max, min, sum 등)
- 모든 워프 레인에 걸쳐 최적의 부하 분산
조건부 다중 리덕션 (이중 추적 + 레인 홀짝):
- 여러 리덕션을 동시에 병렬 수행
- 스레드 특성에 따른 조건부 출력
- 명시적 동기화 없는 고급 조정

핵심 알고리즘 통찰

XOR 통신 특성:

shuffle_xor(value, mask)가 대칭적이고 겹치지 않는 페어를 생성
각 마스크가 고유한 통신 토폴로지를 생성
이진 XOR 패턴에서 버터플라이 네트워크가 자연스럽게 도출

동적 알고리즘 설계:

offset = WARP_SIZE // 2
while offset > 0:
    neighbor_val = shuffle_xor(current_val, offset)
    current_val = operation(current_val, neighbor_val)
    offset //= 2

성능 이점:

하드웨어 최적화: 레지스터 간 직접 통신
동기화 불필요: SIMT 실행이 정확성을 보장
확장 가능한 복잡도: 모든 WARP_SIZE (32, 64 등)에서 $O(\log n)$
메모리 효율성: 공유 메모리 불필요

실용적 활용

이 버터플라이 패턴들의 기반이 되는 분야:

병렬 리덕션: 합계, max, min, 논리 연산
누적 합/스캔 연산: 누적 합, 병렬 정렬
FFT 알고리즘: 신호 처리와 합성곱
Bitonic 정렬: 병렬 정렬 네트워크
그래프 알고리즘: 트리 순회와 연결성

shuffle_xor() 기본 요소는 복잡한 병렬 조정을 우아하고 하드웨어 최적화된 통신 패턴으로 변환하며, 다양한 GPU 아키텍처에서 효율적으로 확장됩니다.

`warp.prefix_sum()` 하드웨어 최적화 병렬 스캔

워프 레벨 병렬 스캔 연산에서는 prefix_sum()을 사용하여 복잡한 공유 메모리 알고리즘을 하드웨어 최적화 기본 요소로 대체할 수 있습니다. 이 강력한 연산을 통해 수십 줄의 공유 메모리 및 동기화 코드가 필요했을 효율적인 누적 계산, 병렬 파티셔닝, 고급 조정 알고리즘을 구현할 수 있습니다.

핵심 통찰: prefix_sum() 연산은 하드웨어 가속 병렬 스캔을 활용하여 워프 레인에 걸쳐 $O(\log n)$ 복잡도로 누적 연산을 수행하며, 복잡한 다단계 알고리즘을 단일 함수 호출로 대체합니다.

병렬 스캔이란? 병렬 스캔 (누적 합)은 데이터 요소에 걸쳐 누적 연산을 수행하는 기본적인 병렬 기본 요소입니다. 덧셈의 경우 [a, b, c, d]를 [a, a+b, a+b+c, a+b+c+d]로 변환합니다. 이 연산은 스트림 컴팩션, quicksort 파티셔닝, 병렬 정렬 같은 병렬 알고리즘에 필수적입니다.

핵심 개념

이 퍼즐에서 배울 내용:

prefix_sum()을 활용한 하드웨어 최적화 병렬 스캔
포함(inclusive) vs 비포함(exclusive) 누적 합 패턴
데이터 재배치를 위한 워프 레벨 스트림 컴팩션
여러 워프 기본 요소를 결합한 고급 병렬 파티셔닝
복잡한 공유 메모리를 대체하는 단일 워프 알고리즘 최적화

이를 통해 다단계 공유 메모리 알고리즘이 우아한 단일 함수 호출로 변환되어, 명시적 동기화 없이 효율적인 병렬 스캔 연산이 가능합니다.

1. 워프 포함 누적 합

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수
데이터 타입: DType.float32
레이아웃: row_major[SIZE]() (1D row-major)

prefix_sum의 이점

기존 누적 합은 복잡한 다단계 공유 메모리 알고리즘이 필요합니다. Puzzle 14: 누적 합에서는 명시적 공유 메모리 관리로 이를 힘들게 구현했습니다:

def prefix_sum_simple(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    if global_i < size:
        shared[local_i] = a[global_i]

    barrier()

    var offset = 1
    for i in range(Int(log2(Scalar[dtype](TPB)))):
        var current_val: output.ElementType = 0
        if local_i >= offset and local_i < size:
            current_val = shared[local_i - offset]  # read

        barrier()
        if local_i >= offset and local_i < size:
            shared[local_i] += current_val

        barrier()
        offset *= 2

    if global_i < size:
        output[global_i] = shared[local_i]

기존 방식의 문제점:

메모리 오버헤드: 공유 메모리 할당이 필요
다중 배리어: 복잡한 다단계 동기화
복잡한 인덱싱: 수동 스트라이드 계산과 경계 검사
낮은 확장성: 각 단계 사이에 배리어가 필요한 $O(\log n)$ 단계

prefix_sum()을 사용하면 병렬 스캔이 간단해집니다:

# 하드웨어 최적화 방식 - 단일 함수 호출!
current_val = input[global_i]
scan_result = prefix_sum[exclusive=False](current_val)
output[global_i] = scan_result

prefix_sum의 장점:

메모리 오버헤드 제로: 하드웨어 가속 연산
동기화 불필요: 단일 아토믹 연산
하드웨어 최적화: 전용 스캔 유닛 활용
완벽한 확장성: 모든 WARP_SIZE (32, 64 등)에서 동작

완성할 코드

하드웨어 최적화 prefix_sum() 기본 요소를 사용하여 포함 누적 합을 구현합니다.

수학적 연산: 각 레인이 자신의 위치까지 모든 요소의 합을 포함하는 누적 합을 계산합니다: \[\Large \text{output}[i] = \sum_{j=0}^{i} \text{input}[j]\]

입력 데이터 [1, 2, 3, 4, 5, ...]를 누적 합 [1, 3, 6, 10, 15, ...]으로 변환하며, 각 위치에 이전 모든 요소와 자기 자신의 합이 담깁니다.

def warp_inclusive_prefix_sum[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Inclusive prefix sum using warp primitive:
    Each thread gets sum of all elements up to and including its position.
    Compare this to Puzzle 12's complex shared memory + barrier approach.

    Puzzle 12 approach:
    - Shared memory allocation
    - Multiple barrier synchronizations
    - Log(n) iterations with manual tree reduction
    - Complex multi-phase algorithm

    Warp prefix_sum approach:
    - Single function call!
    - Hardware-optimized parallel scan
    - Automatic synchronization
    - O(log n) complexity, but implemented in hardware.

    NOTE: This implementation only works correctly within a single warp (WARP_SIZE threads).
    For multi-warp scenarios, additional coordination would be needed.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    # FILL ME IN (roughly 4 lines)

전체 파일 보기: problems/p26/p26.mojo

팁

1. prefix_sum 매개변수 이해하기

prefix_sum() 함수에는 스캔 유형을 제어하는 중요한 템플릿 매개변수가 있습니다.

핵심 질문:

포함 누적 합과 비포함 누적 합의 차이는 무엇인가요?
어떤 매개변수가 이 동작을 제어하나요?
포함 스캔에서 각 레인은 무엇을 출력해야 하나요?

힌트: 함수 시그니처를 보고 누적 연산에서 “포함(inclusive)“이 무엇을 의미하는지 생각해 보세요.

2. 단일 워프 제한

이 하드웨어 기본 요소는 단일 워프 내에서만 동작합니다. 이 제한의 의미를 생각해 보세요.

생각해 보세요:

여러 워프가 있으면 어떻게 되나요?
이 제한을 이해하는 것이 왜 중요한가요?
멀티 워프 시나리오로 확장하려면 어떻게 해야 하나요?

3. 데이터 타입 고려사항

prefix_sum 함수는 최적 성능을 위해 특정 데이터 타입을 요구할 수 있습니다.

고려할 점:

입력이 어떤 데이터 타입을 사용하나요?
prefix_sum이 특정 스칼라 타입을 기대하나요?
필요한 경우 타입 변환을 어떻게 처리하나요?

워프 포함 누적 합 테스트:

pixi run p26 --prefix-sum

pixi run -e amd p26 --prefix-sum

pixi run -e apple p26 --prefix-sum

uv run poe p26 --prefix-sum

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: [1.0, 3.0, 6.0, 10.0, 15.0, 21.0, 28.0, 36.0, 45.0, 55.0, 66.0, 78.0, 91.0, 105.0, 120.0, 136.0, 153.0, 171.0, 190.0, 210.0, 231.0, 253.0, 276.0, 300.0, 325.0, 351.0, 378.0, 406.0, 435.0, 465.0, 496.0, 528.0]
expected: [1.0, 3.0, 6.0, 10.0, 15.0, 21.0, 28.0, 36.0, 45.0, 55.0, 66.0, 78.0, 91.0, 105.0, 120.0, 136.0, 153.0, 171.0, 190.0, 210.0, 231.0, 253.0, 276.0, 300.0, 325.0, 351.0, 378.0, 406.0, 435.0, 465.0, 496.0, 528.0]
✅ Warp inclusive prefix sum test passed!

솔루션

def warp_inclusive_prefix_sum[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    """
    Inclusive prefix sum using warp primitive: Each thread gets sum of all elements up to and including its position.
    Compare this to Puzzle 12's complex shared memory + barrier approach.

    Puzzle 12 approach:
    - Shared memory allocation
    - Multiple barrier synchronizations
    - Log(n) iterations with manual tree reduction
    - Complex multi-phase algorithm

    Warp prefix_sum approach:
    - Single function call!
    - Hardware-optimized parallel scan
    - Automatic synchronization
    - O(log n) complexity, but implemented in hardware.

    NOTE: This implementation only works correctly within a single warp (WARP_SIZE threads).
    For multi-warp scenarios, additional coordination would be needed.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    if global_i < size:
        var current_val = input[global_i]

        # This one call replaces ~30 lines of complex shared memory logic from Puzzle 12!
        # But it only works within the current warp (WARP_SIZE threads)
        var scan_result = prefix_sum[exclusive=False](
            rebind[Scalar[dtype]](current_val)
        )

        output[global_i] = scan_result

이 솔루션은 prefix_sum()이 복잡한 다단계 알고리즘을 하드웨어 최적화된 단일 함수 호출로 어떻게 대체하는지 보여줍니다.

알고리즘 분석:

if global_i < size:
    current_val = input[global_i]

    # 이 한 줄이 Puzzle 14의 복잡한 공유 메모리 로직 ~30줄을 대체합니다!
    # 단, 현재 워프 (WARP_SIZE 스레드) 내에서만 동작합니다
    scan_result = prefix_sum[exclusive=False](
        rebind[Scalar[dtype]](current_val)
    )

    output[global_i] = scan_result

SIMT 실행 상세 분석:

입력: [1, 2, 3, 4, 5, 6, 7, 8, ...]

사이클 1: 모든 레인이 동시에 값을 로드
  Lane 0: current_val = 1
  Lane 1: current_val = 2
  Lane 2: current_val = 3
  Lane 3: current_val = 4
  ...
  Lane 31: current_val = 32

사이클 2: prefix_sum[exclusive=False] 실행 (하드웨어 가속)
  Lane 0: scan_result = 1 (요소 0~0의 합)
  Lane 1: scan_result = 3 (요소 0~1의 합: 1+2)
  Lane 2: scan_result = 6 (요소 0~2의 합: 1+2+3)
  Lane 3: scan_result = 10 (요소 0~3의 합: 1+2+3+4)
  ...
  Lane 31: scan_result = 528 (요소 0~31의 합)

사이클 3: 결과 저장
  Lane 0: output[0] = 1
  Lane 1: output[1] = 3
  Lane 2: output[2] = 6
  Lane 3: output[3] = 10
  ...

수학적 통찰: 포함 누적 합 연산을 구현합니다: \[\Large \text{output}[i] = \sum_{j=0}^{i} \text{input}[j]\]

Puzzle 14 방식과의 비교:

Puzzle 14: 누적 합: 공유 메모리 ~30줄 + 다중 배리어 + 복잡한 인덱싱
워프 기본 요소: 하드웨어 가속의 함수 호출 1개
성능: 같은 $O(\log n)$ 복잡도이지만, 전용 하드웨어에서 구현
메모리: 명시적 할당 대비 공유 메모리 사용량 제로

Puzzle 12에서의 발전: 현대 GPU 아키텍처의 강력함을 보여줍니다 - Puzzle 12에서 신중한 수동 구현이 필요했던 것이 이제는 하드웨어 가속 기본 요소 하나로 해결됩니다. 워프 레벨 prefix_sum()은 구현 복잡도 제로로 같은 알고리즘적 이점을 제공합니다.

prefix_sum이 우월한 이유:

하드웨어 가속: 현대 GPU의 전용 스캔 유닛
메모리 오버헤드 제로: 공유 메모리 할당 불필요
자동 동기화: 명시적 배리어 불필요
완벽한 확장성: 모든 WARP_SIZE에서 최적으로 동작

성능 특성:

지연 시간: ~1-2 사이클 (하드웨어 스캔 유닛)
대역폭: 메모리 트래픽 제로 (레지스터 전용 연산)
병렬성: WARP_SIZE개 레인 모두 동시에 참여
확장성: 하드웨어 최적화를 동반한 $O(\log n)$ 복잡도

중요한 제한사항: 이 기본 요소는 단일 워프 내에서만 동작합니다. 멀티 워프 시나리오에서는 워프 간 추가 조정이 필요합니다.

2. 워프 파티션

구성

벡터 크기: SIZE = WARP_SIZE (GPU에 따라 32 또는 64)
그리드 구성: (1, 1) 그리드당 블록 수
블록 구성: (WARP_SIZE, 1) 블록당 스레드 수

완성할 코드

shuffle_xor과 prefix_sum 기본 요소를 모두 사용하여 단일 워프 병렬 파티셔닝을 구현합니다.

수학적 연산: 피벗 값을 기준으로 요소를 분할하여, < pivot인 요소는 왼쪽에, >= pivot인 요소는 오른쪽에 배치합니다: \[\Large \text{output} = [\text{elements} < \text{pivot}] \,|\, [\text{elements} \geq \text{pivot}]\]

고급 알고리즘: 이 알고리즘은 두 가지 정교한 워프 기본 요소를 결합합니다:

shuffle_xor(): 왼쪽 요소 개수를 세기 위한 워프 레벨 버터플라이 리덕션
prefix_sum(): 각 파티션 내 위치 계산을 위한 비포함 스캔

이는 단일 워프 내에서 여러 워프 기본 요소를 결합하여 복잡한 병렬 알고리즘을 구현하는 강력함을 보여줍니다.

def warp_partition[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    pivot: Float32,
):
    """
    Single-warp parallel partitioning using BOTH shuffle_xor AND prefix_sum.
    This implements a warp-level quicksort partition step that places elements < pivot
    on the left and elements >= pivot on the right.

    ALGORITHM COMPLEXITY - combines two advanced warp primitives:
    1. shuffle_xor(): Butterfly pattern for warp-level reductions
    2. prefix_sum(): Warp-level exclusive scan for position calculation.

    This demonstrates the power of warp primitives for sophisticated parallel algorithms
    within a single warp (works for any WARP_SIZE: 32, 64, etc.).

    Example with pivot=5:
    Input:  [3, 7, 1, 8, 2, 9, 4, 6]
    var Result: [3, 1, 2, 4, 7, 8, 9, 6] (< pivot | >= pivot).
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    if global_i < size:
        var current_val = input[global_i]

        # FILL ME IN (roughly 13 lines)

팁

1. 다단계 알고리즘 구조

이 알고리즘은 여러 조정된 단계가 필요합니다. 파티셔닝에 필요한 논리적 단계를 생각해 보세요.

고려할 핵심 단계:

어떤 요소가 어느 파티션에 속하는지 어떻게 식별하나요?
각 파티션 내에서 위치를 어떻게 계산하나요?
왼쪽 파티션의 전체 크기를 어떻게 알 수 있나요?
최종 위치에 요소를 어떻게 기록하나요?

2. 프레디케이트 생성

어느 파티션에 속하는지 판별하는 불리언 프레디케이트를 만들어야 합니다.

생각해 보세요:

“이 요소는 왼쪽 파티션에 속한다“를 어떻게 표현하나요?
“이 요소는 오른쪽 파티션에 속한다“를 어떻게 표현하나요?
prefix_sum에 전달할 프레디케이트는 어떤 데이터 타입이어야 하나요?

3. shuffle_xor과 prefix_sum 결합

이 알고리즘은 두 워프 기본 요소를 서로 다른 목적으로 사용합니다.

고려할 점:

이 맥락에서 shuffle_xor은 무엇에 사용되나요?
이 맥락에서 prefix_sum은 무엇에 사용되나요?
이 두 연산이 어떻게 함께 동작하나요?

4. 위치 계산

가장 까다로운 부분은 각 요소가 출력에서 어디에 기록되어야 하는지 계산하는 것입니다.

핵심 통찰:

왼쪽 파티션 요소: 최종 위치를 무엇이 결정하나요?
오른쪽 파티션 요소: 오프셋을 어떻게 올바르게 적용하나요?
로컬 위치와 파티션 경계를 어떻게 결합하나요?

워프 파티션 테스트:

uv run poe p26 --partition

pixi run p26 --partition

풀었을 때의 예상 출력:

WARP_SIZE:  32
SIZE:  32
output: HostBuffer([3.0, 1.0, 2.0, 4.0, 0.0, 3.0, 1.0, 4.0, 3.0, 1.0, 2.0, 4.0, 0.0, 3.0, 1.0, 4.0, 7.0, 8.0, 9.0, 6.0, 10.0, 11.0, 12.0, 13.0, 7.0, 8.0, 9.0, 6.0, 10.0, 11.0, 12.0, 13.0])
expected: HostBuffer([3.0, 1.0, 2.0, 4.0, 0.0, 3.0, 1.0, 4.0, 3.0, 1.0, 2.0, 4.0, 0.0, 3.0, 1.0, 4.0, 7.0, 8.0, 9.0, 6.0, 10.0, 11.0, 12.0, 13.0, 7.0, 8.0, 9.0, 6.0, 10.0, 11.0, 12.0, 13.0])
pivot: 5.0
✅ Warp partition test passed!

솔루션

def warp_partition[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    pivot: Float32,
):
    """
    Single-warp parallel partitioning using BOTH shuffle_xor AND prefix_sum.
    This implements a warp-level quicksort partition step that places elements < pivot
    on the left and elements >= pivot on the right.

    ALGORITHM COMPLEXITY - combines two advanced warp primitives:
    1. shuffle_xor(): Butterfly pattern for warp-level reductions
    2. prefix_sum(): Warp-level exclusive scan for position calculation.

    This demonstrates the power of warp primitives for sophisticated parallel algorithms
    within a single warp (works for any WARP_SIZE: 32, 64, etc.).

    Example with pivot=5:
    Input:  [3, 7, 1, 8, 2, 9, 4, 6]
    var Result: [3, 1, 2, 4, 7, 8, 9, 6] (< pivot | >= pivot).
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    if global_i < size:
        var current_val = input[global_i]

        # Phase 1: Create warp-level predicates
        var predicate_left = Scalar[dtype](
            1.0
        ) if current_val < pivot else Scalar[dtype](0.0)
        var predicate_right = Scalar[dtype](
            1.0
        ) if current_val >= pivot else Scalar[dtype](0.0)

        # Phase 2: Warp-level prefix sum to get positions within warp
        var warp_left_pos = prefix_sum[exclusive=True](predicate_left)
        var warp_right_pos = prefix_sum[exclusive=True](predicate_right)

        # Phase 3: Get total left count using shuffle_xor reduction
        var warp_left_total = predicate_left

        # Butterfly reduction to get total across the warp: dynamic for any WARP_SIZE
        var offset = WARP_SIZE // 2
        while offset > 0:
            warp_left_total += shuffle_xor(warp_left_total, UInt32(offset))
            offset //= 2

        # Phase 4: Write to output positions
        if current_val < pivot:
            # Left partition: use warp-level position
            output[Int(warp_left_pos)] = current_val
        else:
            # Right partition: offset by total left count + right position
            output[Int(warp_left_total + warp_right_pos)] = current_val

이 솔루션은 여러 워프 기본 요소 간의 고급 조정을 통해 정교한 병렬 알고리즘을 구현하는 방법을 보여줍니다.

전체 알고리즘 분석:

if global_i < size:
    current_val = input[global_i]

    # 1단계: 워프 레벨 프레디케이트 생성
    predicate_left = Float32(1.0) if current_val < pivot else Float32(0.0)
    predicate_right = Float32(1.0) if current_val >= pivot else Float32(0.0)

    # 2단계: 워프 레벨 누적 합으로 워프 내 위치 계산
    warp_left_pos = prefix_sum[exclusive=True](predicate_left)
    warp_right_pos = prefix_sum[exclusive=True](predicate_right)

    # 3단계: shuffle_xor 버터플라이 리덕션으로 왼쪽 총 개수 구하기
    warp_left_total = predicate_left

    # 워프 전체의 합산을 위한 버터플라이 리덕션: 모든 WARP_SIZE에 동적 대응
    offset = WARP_SIZE // 2
    while offset > 0:
        warp_left_total += shuffle_xor(warp_left_total, offset)
        offset //= 2

    # 4단계: 출력 위치에 기록
    if current_val < pivot:
        # 왼쪽 파티션: 워프 레벨 위치 사용
        output[Int(warp_left_pos)] = current_val
    else:
        # 오른쪽 파티션: 왼쪽 총 개수 + 오른쪽 위치로 offset
        output[Int(warp_left_total + warp_right_pos)] = current_val

다단계 실행 추적 (8-레인 예제, pivot=5, 값 [3,7,1,8,2,9,4,6]):

초기 상태:
  Lane 0: current_val=3 (< 5)  Lane 1: current_val=7 (>= 5)
  Lane 2: current_val=1 (< 5)  Lane 3: current_val=8 (>= 5)
  Lane 4: current_val=2 (< 5)  Lane 5: current_val=9 (>= 5)
  Lane 6: current_val=4 (< 5)  Lane 7: current_val=6 (>= 5)

1단계: 프레디케이트 생성
  Lane 0: predicate_left=1.0, predicate_right=0.0
  Lane 1: predicate_left=0.0, predicate_right=1.0
  Lane 2: predicate_left=1.0, predicate_right=0.0
  Lane 3: predicate_left=0.0, predicate_right=1.0
  Lane 4: predicate_left=1.0, predicate_right=0.0
  Lane 5: predicate_left=0.0, predicate_right=1.0
  Lane 6: predicate_left=1.0, predicate_right=0.0
  Lane 7: predicate_left=0.0, predicate_right=1.0

2단계: 위치 계산을 위한 비포함 누적 합
  warp_left_pos:  [0, 0, 1, 1, 2, 2, 3, 3]
  warp_right_pos: [0, 0, 0, 1, 1, 2, 2, 3]

3단계: 왼쪽 총 개수를 위한 버터플라이 리덕션
  초기값: [1, 0, 1, 0, 1, 0, 1, 0]
  리덕션 후: 모든 레인이 warp_left_total = 4를 가짐

4단계: 출력 위치에 기록
  Lane 0: current_val=3 < pivot → output[0] = 3
  Lane 1: current_val=7 >= pivot → output[4+0] = output[4] = 7
  Lane 2: current_val=1 < pivot → output[1] = 1
  Lane 3: current_val=8 >= pivot → output[4+1] = output[5] = 8
  Lane 4: current_val=2 < pivot → output[2] = 2
  Lane 5: current_val=9 >= pivot → output[4+2] = output[6] = 9
  Lane 6: current_val=4 < pivot → output[3] = 4
  Lane 7: current_val=6 >= pivot → output[4+3] = output[7] = 6

최종 결과: [3, 1, 2, 4, 7, 8, 9, 6] (< pivot | >= pivot)

수학적 통찰: 이중 워프 기본 요소를 사용한 병렬 파티셔닝을 구현합니다: \[\Large \begin{align} \text{left_pos}[i] &= \text{prefix_sum}_{\text{exclusive}}(\text{predicate_left}[i]) \\ \text{right_pos}[i] &= \text{prefix_sum}_{\text{exclusive}}(\text{predicate_right}[i]) \\ \text{left_total} &= \text{butterfly_reduce}(\text{predicate_left}) \\ \text{final_pos}[i] &= \begin{cases} \text{left_pos}[i] & \text{if } \text{input}[i] < \text{pivot} \\ \text{left_total} + \text{right_pos}[i] & \text{if} \text{input}[i] \geq \text{pivot} \end{cases} \end{align}\]

다중 기본 요소 접근 방식이 동작하는 이유:

프레디케이트 생성: 각 요소의 파티션 소속을 식별
비포함 누적 합: 각 파티션 내 상대적 위치를 계산
버터플라이 리덕션: 파티션 경계 (왼쪽 총 개수)를 산출
조정된 기록: 로컬 위치와 전역 파티션 구조를 결합

알고리즘 복잡도:

1단계: $O(1)$ - 프레디케이트 생성
2단계: $O(\log n)$ - 하드웨어 가속 누적 합
3단계: $O(\log n)$ - shuffle_xor을 활용한 버터플라이 리덕션
4단계: $O(1)$ - 조정된 기록
전체: 우수한 상수를 가진 $O(\log n)$

성능 특성:

통신 단계: $2 \times \log_2(\text{WARP_SIZE})$ (누적 합 + 버터플라이 리덕션)
메모리 효율성: 공유 메모리 제로, 모두 레지스터 기반
병렬성: 알고리즘 전체에서 모든 레인이 활성 상태
확장성: 모든 WARP_SIZE (32, 64 등)에서 동작

실용적 활용: 이 패턴의 기반이 되는 분야:

Quicksort 파티셔닝: 병렬 정렬 알고리즘의 핵심 단계
스트림 컴팩션: 데이터 스트림에서 null/무효 요소 제거
병렬 필터링: 복잡한 프레디케이트에 따른 데이터 분리
부하 분산: 연산 요구량에 따른 작업 재분배

요약

prefix_sum() 기본 요소는 복잡한 다단계 알고리즘을 단일 함수 호출로 대체하는 하드웨어 가속 병렬 스캔 연산을 가능하게 합니다. 두 가지 문제를 통해 다음을 배웠습니다:

핵심 누적 합 패턴

포함 누적 합 (prefix_sum[exclusive=False]):
- 하드웨어 가속 누적 연산
- 공유 메모리 코드 ~30줄을 단일 함수 호출로 대체
- 전용 하드웨어 최적화를 동반한 $O(\log n)$ 복잡도
고급 다중 기본 요소 조정 (prefix_sum + shuffle_xor 결합):
- 단일 워프 내 정교한 병렬 알고리즘
- 위치 계산을 위한 비포함 스캔 + 총합을 위한 버터플라이 리덕션
- 최적의 병렬 효율성을 가진 복잡한 파티셔닝 연산

핵심 알고리즘 통찰

하드웨어 가속의 이점:

prefix_sum()이 현대 GPU의 전용 스캔 유닛을 활용
기존 방식 대비 공유 메모리 오버헤드 제로
명시적 배리어 없는 자동 동기화

다중 기본 요소 조정:

# 1단계: 파티션 소속을 위한 프레디케이트 생성
predicate = 1.0 if condition else 0.0

# 2단계: 로컬 위치를 위한 prefix_sum 사용
local_pos = prefix_sum[exclusive=True](predicate)

# 3단계: 전역 총합을 위한 shuffle_xor 사용
global_total = butterfly_reduce(predicate)

# 4단계: 최종 위치 결정을 위한 결합
final_pos = local_pos + partition_offset

성능 이점:

하드웨어 최적화: 소프트웨어 구현 대비 전용 스캔 유닛
메모리 효율성: 공유 메모리 할당 대비 레지스터 전용 연산
확장 가능한 복잡도: 하드웨어 가속을 동반한 $O(\log n)$
단일 워프 최적화: WARP_SIZE 한도 내 알고리즘에 최적

실용적 활용

이 누적 합 패턴들의 기반이 되는 분야:

병렬 스캔 연산: 누적 합, 누적 곱, min/max 스캔
스트림 컴팩션: 병렬 필터링과 데이터 재배치
Quicksort 파티셔닝: 병렬 정렬 알고리즘의 핵심 빌딩 블록
병렬 알고리즘: 부하 분산, 작업 분배, 데이터 재구조화

prefix_sum()과 shuffle_xor()의 결합은 현대 GPU 워프 기본 요소가 최소한의 코드 복잡도와 최적의 성능 특성으로 정교한 병렬 알고리즘을 어떻게 구현할 수 있는지를 보여줍니다.

Puzzle 27: 블록 전체 패턴

개요

Puzzle 27: 블록 전체 패턴에 오신 것을 환영합니다! 이 퍼즐은 GPU 병렬 프로그래밍의 핵심 구성 요소인 블록 레벨 통신 기본 요소를 소개합니다. 전체 스레드 블록에 걸친 고급 병렬 알고리즘을 구현할 수 있게 해주는 세 가지 핵심 통신 패턴을 탐구하며, 복잡한 수동 동기화를 간결하고 하드웨어에 최적화된 연산으로 대체합니다.

목표: 복잡한 공유 메모리 + 배리어 + 트리 리덕션 패턴(Puzzle 12)에서 벗어나, 여러 워프에 걸친 하드웨어 최적화 블록 전체 통신 기본 요소를 활용하는 간결한 단일 함수 호출 알고리즘으로 전환합니다.

핵심 통찰: GPU 스레드 블록은 정교한 하드웨어 조율로 실행됩니다 - Mojo의 블록 연산은 크로스 워프 통신과 전용 하드웨어 유닛을 활용하여 완벽한 병렬 프로그래밍 빌딩 블록을 제공합니다: 리덕션(전체→하나), 스캔(전체→각각), 브로드캐스트(하나→전체).

배울 내용

블록 레벨 통신 모델

GPU 스레드 블록 내 세 가지 기본 통신 패턴을 이해합니다:

GPU 스레드 블록 (128 스레드, 4개 또는 2개 워프, 하드웨어 조율)
전체→하나 (Reduction):     모든 스레드 → 스레드 0에 단일 결과
전체→각각 (Scan):         모든 스레드 → 각 스레드가 누적 위치를 받음
하나→전체 (Broadcast):     스레드 0 → 모든 스레드가 같은 값을 받음

크로스 워프 조율:
├── 워프 0 (스레드 0-31)   ──block.sum()──┐
├── 워프 1 (스레드 32-63)  ──block.sum()──┼→ 스레드 0 결과
├── 워프 2 (스레드 64-95)  ──block.sum()──┤
└── 워프 3 (스레드 96-127) ──block.sum()──┘

하드웨어 현실:

크로스 워프 동기화: 블록 내 여러 워프 간 자동 조율
전용 하드웨어 유닛: 특화된 스캔 유닛과 버터플라이 리덕션 네트워크
명시적 배리어 불필요: 하드웨어가 모든 동기화를 내부적으로 관리
로그 복잡도: $O(\log n)$ 알고리즘을 단일 명령의 단순함으로

Mojo의 블록 연산

gpu.primitives.block의 완전한 병렬 프로그래밍 도구 모음을 배웁니다:

block.sum(value): 합계, 평균, 최댓값/최솟값을 위한 전체→하나 리덕션
block.prefix_sum(value): 병렬 필터링과 추출을 위한 전체→각각 스캔
block.broadcast(value): 매개변수 공유와 조율을 위한 하나→전체 분배

참고: 이 기본 요소들은 통계 연산, 히스토그램 구간 분류, 정규화 워크플로우와 같은 고급 병렬 알고리즘을 가능하게 합니다. 이런 알고리즘을 기본 요소 없이 구현하려면 수십 줄의 복잡한 공유 메모리 조율 코드가 필요합니다.

성능 변환 예시

# 복잡한 블록 전체 리덕션 (기존 방식 - Puzzle 12에서):
shared_memory[local_i] = my_value
barrier()
stride = 64
while stride > 0:
    if local_i < stride:
        shared_memory[local_i] += shared_memory[local_i + stride]
    barrier()
    stride //= 2
if local_i == 0:
    output[block_idx.x] = shared_memory[0]

# 블록 연산으로 이 모든 복잡성을 제거:
my_partial = compute_local_contribution()
total = block.sum[block_size=128, broadcast=False](my_partial)  # 한 줄이면 끝!
if local_i == 0:
    output[block_idx.x] = total[0]

블록 연산이 빛나는 순간

성능 특성을 이해합니다:

알고리즘 패턴	기존 방식	블록 연산
블록 전체 리덕션	공유 메모리 + 배리어	단일 `block.sum` 호출
병렬 필터링	복잡한 인덱싱	`block.prefix_sum` 조율
매개변수 공유	수동 동기화	단일 `block.broadcast` 호출
크로스 워프 알고리즘	명시적 배리어 관리	하드웨어 관리 조율

GPU 프로그래밍 패턴의 진화

출발점: 수동 조율 (Puzzle 12)

복잡하지만 교육적 - 명시적 공유 메모리, 배리어, 트리 리덕션:

# 수동 방식: 15줄 이상의 복잡한 동기화
shared_memory[local_i] = my_value
barrier()
# 스트라이드 기반 인덱싱을 사용한 트리 리덕션...
stride = 64
while stride > 0:
    if local_i < stride:
        shared_memory[local_i] += shared_memory[local_i + stride]
    barrier()
    stride //= 2

중간 단계: 워프 프로그래밍 (Puzzle 24)

하드웨어 가속이지만 범위가 제한적 - 32 스레드 워프 내의 warp.sum():

# 워프 방식: 1줄이지만 단일 워프만
total = warp.sum[warp_size=WARP_SIZE](val=partial_product)

최종 목적지: 블록 프로그래밍 (이번 퍼즐)

완전한 도구 모음 - 전체 블록에 걸친 하드웨어 최적화 기본 요소:

# 블록 방식: 여러 워프에 걸친 1줄 (128+ 스레드)
total = block.sum[block_size=128, broadcast=False](val=partial_product)

세 가지 기본 통신 패턴

블록 레벨 프로그래밍은 모든 병렬 통신 요구를 충족하는 세 가지 핵심 기본 요소를 제공합니다:

1. 전체→하나: 리덕션 (`block.sum()`)

패턴: 모든 스레드가 기여 → 하나의 스레드가 결과를 받음
용도: 합계, 평균, 최댓값/최솟값 계산
예시: 내적, 통계 집계
하드웨어: 자동 배리어가 포함된 크로스 워프 버터플라이 리덕션

2. 전체→각각: 스캔 (`block.prefix_sum()`)

패턴: 모든 스레드가 기여 → 각 스레드가 누적 위치를 받음
용도: 병렬 필터링, 스트림 컴팩션, 히스토그램 구간 분류
예시: 병렬 데이터 추출을 위한 쓰기 위치 계산
하드웨어: 크로스 워프 조율을 포함한 병렬 스캔

3. 하나→전체: 브로드캐스트 (`block.broadcast()`)

패턴: 하나의 스레드가 제공 → 모든 스레드가 같은 값을 받음
용도: 매개변수 공유, 설정값 분배
예시: 정규화 알고리즘을 위한 계산된 평균 공유
하드웨어: 여러 워프에 걸친 최적화된 분배

학습 경로

세 단계로 이 퍼즐을 완성하며, 단순한 것에서 복잡한 것으로 진행합니다:

Part 1: block.sum()의 핵심

복잡한 리덕션을 단순한 함수 호출로 변환

block.sum()으로 내적을 구현하며 블록 리덕션의 기본 패턴을 배웁니다. 블록 연산이 15줄 이상의 수동 배리어를 단일 최적화 호출로 대체하는 방법을 보여줍니다.

핵심 개념:

여러 워프에 걸친 블록 전체 동기화
하드웨어 최적화 리덕션 패턴
스레드 0 결과 관리
기존 방식과의 성능 비교

학습 목표: block.sum()이 블록 규모에서 warp.sum()의 단순함을 제공하는 방법을 이해합니다.

Part 2: block.prefix_sum()과 병렬 히스토그램 구간 분류

고급 병렬 필터링과 추출

히스토그램 구간 분류를 위해 block.prefix_sum()을 사용하여 고급 병렬 알고리즘을 구축합니다. 누적 합이 단순한 리덕션으로는 구현하기 어려운 복잡한 데이터 재구성을 가능하게 하는 방법을 보여줍니다.

핵심 개념:

이진 프레디케이트를 이용한 병렬 필터링
조율된 쓰기 위치 계산
고급 파티셔닝 알고리즘
크로스 스레드 데이터 추출 패턴

학습 목표: block.prefix_sum()이 단순한 집계를 넘어서는 고급 병렬 알고리즘을 가능하게 하는 방법을 이해합니다.

Part 3: block.broadcast()와 벡터 정규화

모든 패턴을 결합하는 완전한 워크플로우

블록 연산 도구 모음 전체를 사용하여 벡터 평균 정규화를 구현합니다. 세 가지 기본 요소가 어떻게 함께 작동하여 수학적 정확성을 갖춘 실제 연산 문제를 해결하는지 보여줍니다.

핵심 개념:

하나→전체 통신 패턴
조율된 다단계 알고리즘
완전한 블록 연산 워크플로우
실제 알고리즘 구현

학습 목표: 고급 병렬 알고리즘을 위해 블록 연산을 조합하는 방법을 이해합니다.

블록 연산이 중요한 이유

코드 단순화 변환:

기존 방식:     20줄 이상의 배리어, 공유 메모리, 복잡한 인덱싱
블록 연산:     3-5줄의 조합 가능한 하드웨어 최적화 기본 요소

성능 이점:

하드웨어 최적화: GPU 아키텍처별 최적화를 활용
자동 동기화: 수동 배리어 배치 오류 제거
조합 가능성: 연산들이 매끄럽게 함께 동작
이식성: 동일한 코드가 다양한 GPU 아키텍처에서 작동

교육적 가치:

개념적 명확성: 각 연산이 명확한 통신 목적을 가짐
점진적 복잡성: 단순한 리덕션에서 복잡한 알고리즘으로 발전
실제 응용: 과학 연산, 그래픽, AI에서 광범위하게 사용되는 패턴

선수 지식

이 퍼즐을 시작하기 전에 다음을 완료해야 합니다:

Puzzle 12: 내적: 수동 GPU 동기화에 대한 이해
Puzzle 24: 워프 기초: 워프 레벨 프로그래밍 경험

학습 성과

세 파트를 모두 완료하면 다음을 이해하게 됩니다:

각 블록 연산의 용도 - 다양한 병렬 통신 요구에 맞는 선택
연산 조합 방법 - 고급 알고리즘 구축
성능 트레이드오프 - 수동 방식과 자동화 방식 간의 비교
실제 응용 - 블록 레벨 프로그래밍 패턴의 활용
아키텍처 독립적 프로그래밍 - 하드웨어 최적화 기본 요소 활용

시작하기

권장 순서: 각 파트가 이전 파트의 개념을 기반으로 하므로 순서대로 완성하세요. 단순한 리덕션 → 고급 파티셔닝 → 완전한 워크플로우로 이어지는 진행이 블록 레벨 GPU 프로그래밍을 이해하는 최적의 학습 경로를 제공합니다.

💡 핵심 통찰: 블록 연산은 프로그래머 생산성과 하드웨어 성능 사이의 최적 지점을 나타냅니다 - 고수준 연산의 단순함과 세심하게 최적화된 저수준 구현의 효율성을 동시에 제공합니다. 이 퍼즐은 현대 GPU 프로그래밍에 적합한 추상화 수준에서 사고하는 법을 가르칩니다.

block.sum()의 핵심 - 블록 레벨 내적

Puzzle 12에서 살펴본 내적을 블록 레벨 sum 연산으로 구현합니다. 복잡한 공유 메모리 패턴을 간단한 함수 호출로 대체합니다. 블록 내 각 스레드가 하나의 요소를 처리하고 block.sum()으로 결과를 자동으로 합산하여, 블록 프로그래밍이 전체 스레드 블록에 걸친 GPU 동기화를 어떻게 변환하는지 보여줍니다.

핵심 통찰: block.sum() 연산은 블록 전체 실행을 활용하여 공유 메모리 + 배리어 + 트리 리덕션을 블록 내 모든 스레드에 걸쳐 워프 패턴을 사용하는 정교하게 최적화된 구현으로 대체합니다. LLVM 분석은 기술 분석을 참고하세요.

핵심 개념

이 퍼즐에서 배울 내용:

block.sum()을 활용한 블록 레벨 리덕션
블록 전체 동기화와 스레드 조율
단일 블록 내 크로스 워프 통신
복잡한 패턴에서 간단한 패턴으로의 성능 변환
스레드 0 결과 관리와 조건부 쓰기

수학적 연산은 내적입니다: \[\Large \text{output}[0] = \sum_{i=0}^{N-1} a[i] \times b[i]\]

하지만 구현 과정에서 Mojo의 모든 블록 레벨 GPU 프로그래밍에 적용되는 기본 패턴을 배웁니다.

구성

벡터 크기: SIZE = 128 요소
데이터 타입: DType.float32
블록 구성: (128, 1) 블록당 스레드 수 (TPB = 128)
그리드 구성: (1, 1) 그리드당 블록 수
레이아웃: row_major[SIZE]() (1D row-major)
블록당 워프 수: 128 / WARP_SIZE (NVIDIA에서 4개, AMD에서 2개 또는 4개)

기존 방식의 복잡성 (Puzzle 12에서)

Puzzle 12의 복잡한 방식을 떠올려 봅시다. 공유 메모리, 배리어, 트리 리덕션이 필요했습니다:

def traditional_dot_product[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    size: Int,
):
    """Traditional dot product using shared memory + barriers + tree reduction.
    Educational but complex - shows the manual coordination needed."""

    var shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[tpb]())
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Each thread computes partial product
    if global_i < size:
        var a_val = rebind[Scalar[dtype]](a[global_i])
        var b_val = rebind[Scalar[dtype]](b[global_i])
        shared[local_i] = a_val * b_val

    barrier()

    # Tree reduction in shared memory - complex but educational
    var stride = tpb // 2
    while stride > 0:
        if local_i < stride:
            shared[local_i] += shared[local_i + stride]
        barrier()
        stride //= 2

    # Only thread 0 writes final result
    if local_i == 0:
        output[0] = shared[0]

이 방식이 복잡한 이유:

공유 메모리 할당: 블록 내에서 수동으로 메모리를 관리
명시적 배리어: 블록 내 모든 스레드를 동기화하기 위한 barrier() 호출
트리 리덕션: 스트라이드 기반 인덱싱을 사용하는 복잡한 루프 (64→32→16→8→4→2→1)
크로스 워프 조율: 여러 워프 간 동기화가 필요
조건부 쓰기: 스레드 0만 최종 결과를 기록

이 방식은 전체 블록(GPU에 따라 2개 또는 4개 워프에 걸친 128 스레드)에서 동작하지만, 코드가 장황하고 오류가 발생하기 쉬우며 블록 레벨 GPU 동기화에 대한 깊은 이해가 필요합니다.

워프 레벨 개선 (Puzzle 24에서)

블록 레벨 연산으로 넘어가기 전에, Puzzle 24에서 warp.sum()을 사용하여 단일 워프 내 리덕션을 어떻게 단순화했는지 떠올려 봅시다:

def simple_warp_dot_product[
    InLayoutT: TensorLayout, OutLayoutT: TensorLayout, size: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutT, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutT, MutAnyOrigin],
):
    var a_lt = a.to_layout_tensor()
    var b_lt = b.to_layout_tensor()
    var out_lt = output.to_layout_tensor()
    var global_i = block_dim.x * block_idx.x + thread_idx.x

    # Each thread computes one partial product using vectorized approach as values in Mojo are SIMD based
    var partial_product: Scalar[dtype] = 0
    if global_i < size:
        partial_product = rebind[Scalar[dtype]](a_lt[global_i]) * rebind[
            Scalar[dtype]
        ](b_lt[global_i])

    # warp_sum() replaces all the shared memory + barriers + tree reduction
    var total = warp_sum(partial_product)

    # Only lane 0 writes the result (all lanes have the same total)
    if lane_id() == 0:
        out_lt.store[1](Index(global_i // WARP_SIZE), total)

warp.sum()이 달성한 것:

단일 워프 범위: 32 스레드(NVIDIA) 또는 32/64 스레드(AMD) 내에서 동작
하드웨어 셔플: 효율적인 shfl.sync.bfly.b32 명령 사용
공유 메모리 불필요: 명시적 메모리 관리 없음
한 줄 리덕션: total = warp_sum[warp_size=WARP_SIZE](val=partial_product)

그러나 한계가 있습니다: warp.sum()은 단일 워프 내에서만 동작합니다. 여러 워프가 필요한 문제(예: 128 스레드 블록)에서는 여전히 워프 간 조율을 위해 복잡한 공유 메모리 + 배리어 방식이 필요합니다.

기존 방식 테스트:

pixi run p27 --traditional-dot-product

pixi run -e amd p27 --traditional-dot-product

pixi run -e apple p27 --traditional-dot-product

uv run poe p27 --traditional-dot-product

완성할 코드

`block.sum()` 방식

복잡한 기존 방식을 block.sum()을 사용하는 간단한 블록 커널로 변환합니다:

comptime SIZE = 128
comptime TPB = 128
comptime NUM_BINS = 8
comptime in_layout = row_major[SIZE]()
comptime InLayoutType = type_of(in_layout)
comptime out_layout = row_major[1]()
comptime OutLayoutType = type_of(out_layout)
comptime dtype = DType.float32


def block_sum_dot_product[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Dot product using block.sum() - convenience function like warp.sum()!
    Replaces manual shared memory + barriers + tree reduction with one line."""

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # FILL IN (roughly 6 lines)

전체 파일 보기: problems/p27/p27.mojo

pixi run p27 --block-sum-dot-product

pixi run -e amd p27 --block-sum-dot-product

uv run poe p27 --block-sum-dot-product

풀었을 때의 예상 출력:

SIZE: 128
TPB: 128
Expected result: 1381760.0
Block.sum result: 1381760.0
Block.sum() gives identical results!
Compare the code: 15+ lines of barriers → 1 line of block.sum()!
Just like warp.sum() but for the entire block

팁

1. 세 단계 패턴 이해하기

모든 블록 리덕션은 동일한 개념적 패턴을 따릅니다:

각 스레드가 자신의 로컬 기여분을 계산
모든 스레드가 블록 전체 리덕션에 참여
지정된 하나의 스레드가 최종 결과를 처리

2. 내적 수학 기억하기

각 스레드는 벡터 a와 b에서 하나의 요소 쌍을 처리해야 합니다. 이들을 스레드 간에 합산할 수 있는 “부분 결과“로 합치는 연산은 무엇일까요?

3. TileTensor 인덱싱 패턴

TileTensor 요소에 접근할 때, 인덱싱이 SIMD 값을 반환한다는 점을 기억하세요. 산술 연산을 위해 스칼라 값을 추출해야 합니다.

4. block.sum() API 개념

함수 시그니처를 살펴보세요 - 다음이 필요합니다:

블록 크기를 지정하는 템플릿 파라미터
결과 분배 방식을 위한 템플릿 파라미터 (broadcast)
리듀스할 값을 담은 런타임 파라미터

5. 스레드 조율 원칙

어떤 스레드가 처리할 유효한 데이터를 가지고 있을까요? (힌트: 경계 검사)
어떤 스레드가 최종 결과를 기록해야 할까요? (힌트: 일관된 선택)
그 특정 스레드를 어떻게 식별할까요? (힌트: 스레드 인덱싱)

솔루션

def block_sum_dot_product[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    size: Int,
):
    """Dot product using block.sum() - convenience function like warp.sum()!
    Replaces manual shared memory + barriers + tree reduction with one line."""

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Each thread computes partial product
    var partial_product: Scalar[dtype] = 0.0
    if global_i < size:
        # TileTensor indexing `[0]` returns the underlying SIMD value
        partial_product = a[global_i][0] * b[global_i][0]

    # The magic: block.sum() replaces 15+ lines of manual reduction!
    # Just like warp.sum() but for the entire block
    var total = block.sum[block_size=tpb, broadcast=False](
        val=SIMD[DType.float32, 1](partial_product)
    )

    # Only thread 0 writes the result
    if local_i == 0:
        output[0] = total[0]

block.sum() 커널은 복잡한 블록 동기화에서 정교하게 최적화된 구현으로의 근본적인 변환을 보여줍니다:

기존 방식에서 사라진 것들:

15줄 이상 → 8줄: 획기적인 코드 축소
공유 메모리 할당: 메모리 관리 불필요
7회 이상의 barrier() 호출: 명시적 동기화 제로
복잡한 트리 리덕션: 단일 함수 호출로 대체
스트라이드 기반 인덱싱: 완전히 제거
크로스 워프 조율: 최적화된 구현이 자동으로 처리

블록 전체 실행 모델:

블록 스레드 (128 스레드, 4개 워프):
워프 0 (스레드 0-31):
  스레드 0: partial_product = a[0] * b[0] = 0.0
  스레드 1: partial_product = a[1] * b[1] = 2.0
  ...
  스레드 31: partial_product = a[31] * b[31] = 1922.0

워프 1 (스레드 32-63):
  스레드 32: partial_product = a[32] * b[32] = 2048.0
  ...

워프 2 (스레드 64-95):
  스레드 64: partial_product = a[64] * b[64] = 8192.0
  ...

워프 3 (스레드 96-127):
  스레드 96: partial_product = a[96] * b[96] = 18432.0
  스레드 127: partial_product = a[127] * b[127] = 32258.0

block.sum() 하드웨어 연산:
모든 스레드 → 0.0 + 2.0 + 1922.0 + 2048.0 + ... + 32258.0 = 1381760.0
스레드 0이 수신 → total = 1381760.0 (broadcast=False일 때)

배리어 없이 동작하는 이유:

블록 전체 실행: 모든 스레드가 워프 내에서 록스텝으로 각 명령을 실행
내장 동기화: block.sum() 구현이 동기화를 내부적으로 처리
크로스 워프 통신: 블록 내 워프 간 최적화된 통신
조율된 결과 전달: 스레드 0만 최종 결과를 수신

warp.sum() (Puzzle 24)과의 비교:

워프 범위: warp.sum()은 32/64 스레드(단일 워프) 내에서 동작
블록 범위: block.sum()은 전체 블록(여러 워프)에 걸쳐 동작
동일한 단순함: 둘 다 복잡한 수동 리덕션을 한 줄 호출로 대체
자동 조율: block.sum()은 warp.sum()이 처리할 수 없는 크로스 워프 배리어를 자동으로 처리

기술 분석: block.sum()은 실제로 무엇으로 컴파일될까?

block.sum()이 실제로 무엇을 생성하는지 이해하기 위해, 디버그 정보와 함께 퍼즐을 컴파일했습니다:

pixi run mojo build --emit llvm --debug-level=line-tables solutions/p27/p27.mojo -o solutions/p27/p27.ll

이렇게 생성된 LLVM 파일 solutions/p27/p27.ll에는, 호환 NVIDIA GPU에서 실제 GPU 명령을 보여주는 PTX 어셈블리가 내장되어 있습니다:

발견 1: 단일 명령이 아니다

block.sum()은 약 20개 이상의 PTX 명령으로 컴파일되며, 2단계 리덕션으로 구성됩니다:

1단계: 워프 레벨 리덕션 (버터플라이 셔플)

shfl.sync.bfly.b32 %r23, %r46, 16, 31, -1;   // 오프셋 16으로 셔플
add.f32            %r24, %r46, %r23;         // 셔플된 값을 합산
shfl.sync.bfly.b32 %r25, %r24, 8, 31, -1;    // 오프셋 8로 셔플
add.f32            %r26, %r24, %r25;         // 셔플된 값을 합산
// ... 오프셋 4, 2, 1에 대해 계속

2단계: 크로스 워프 조율

shr.u32            %r32, %r1, 5;             // 워프 ID를 계산
mov.b32            %r34, _global_alloc_$__gpu_shared_mem; // 공유 메모리
bar.sync           0;                        // 배리어 동기화
// ... 크로스 워프 리덕션을 위한 또 다른 버터플라이 셔플 시퀀스

발견 2: 하드웨어 최적화 구현

버터플라이 셔플: 트리 리덕션보다 효율적
자동 배리어 배치: 크로스 워프 동기화를 자동으로 처리
최적화된 메모리 접근: 공유 메모리를 전략적으로 사용
아키텍처 인식: 동일한 API가 NVIDIA(32 스레드 워프)와 AMD(32 또는 64 스레드 워프)에서 동작

발견 3: 알고리즘 복잡도 분석

분석 접근 방식:

바이너리 ELF 섹션(.nv_debug_ptx_txt)에서 PTX 어셈블리를 확인
개별 명령 수를 세기보다 알고리즘적 차이를 식별

관찰된 주요 알고리즘 차이:

기존 방식: 공유 메모리를 사용한 트리 리덕션 + 다수의 bar.sync 호출
block.sum(): 버터플라이 셔플 패턴 + 최적화된 크로스 워프 조율

성능 이점은 명령 수나 마법 같은 하드웨어가 아니라 정교하게 최적화된 알고리즘 선택(버터플라이 > 트리)에서 비롯됩니다. 구현에 대한 자세한 내용은 Mojo gpu 모듈의 block.mojo를 참고하세요.

성능 인사이트

block.sum() vs 기존 방식:

코드 단순함: 리덕션 부분이 15줄 이상 → 1줄로
메모리 사용: 공유 메모리 할당 불필요
동기화: 명시적 배리어 불필요
확장성: 하드웨어 한도 내에서 모든 블록 크기에 동작

block.sum() vs warp.sum():

범위: 블록 전체(128 스레드) vs 워프 전체(32 스레드)
용도: 전체 블록에 걸친 리덕션이 필요할 때
편의성: 동일한 프로그래밍 모델, 다른 규모

block.sum()을 사용해야 할 때:

단일 블록 문제: 모든 데이터가 하나의 블록에 들어갈 때
블록 레벨 알고리즘: 리덕션이 필요한 공유 메모리 연산
확장성보다 편의성: 멀티 블록 방식보다 단순

이전 퍼즐과의 관계

Puzzle 12 (기존 방식)에서:

복잡함: 공유 메모리 + 배리어 + 트리 리덕션
↓
단순함: block.sum() 하드웨어 기본 요소

Puzzle 24 (warp.sum())에서:

워프 레벨: warp.sum() - 32 스레드 (단일 워프)
↓
블록 레벨: block.sum() - 128 스레드 (여러 워프)

3단계 진행:

수동 리덕션 (Puzzle 12): 복잡한 공유 메모리 + 배리어 + 트리 리덕션
워프 기본 요소 (Puzzle 24): warp.sum() - 단순하지만 단일 워프로 제한
블록 기본 요소 (Puzzle 27): block.sum() - 워프의 단순함을 여러 워프로 확장

핵심 통찰: block.sum()은 warp.sum()의 단순함을 제공하면서 전체 블록으로 확장됩니다. 수동으로 구현해야 했던 복잡한 크로스 워프 조율을 자동으로 처리합니다.

다음 단계

block.sum() 연산을 배웠으니, 다음으로 진행할 수 있습니다:

block.prefix_sum()과 병렬 히스토그램 구간 분류: 블록 스레드에 걸친 누적 연산
block.broadcast()와 벡터 정규화: 블록 내 모든 스레드에 값을 공유

💡 핵심 요점: 블록 연산은 워프 프로그래밍 개념을 전체 스레드 블록으로 확장하여, 여러 워프에 걸쳐 동시에 동작하면서 복잡한 동기화 패턴을 대체하는 최적화된 기본 요소를 제공합니다. warp.sum()이 워프 레벨 리덕션을 단순화한 것처럼, block.sum()은 성능을 희생하지 않고 블록 레벨 리덕션을 단순화합니다.

block.prefix_sum()과 병렬 히스토그램 구간 분류

이 퍼즐은 블록 레벨 block.prefix_sum 연산을 사용하여 고급 병렬 필터링과 추출을 위한 병렬 히스토그램 구간 분류를 구현합니다. 각 스레드가 자신의 요소가 속할 대상 구간을 결정한 다음, block.prefix_sum()을 적용하여 특정 구간의 요소를 추출하기 위한 쓰기 위치를 계산합니다. 누적 합이 단순한 리덕션을 넘어 고급 병렬 파티셔닝을 가능하게 하는 방법을 보여줍니다.

핵심 통찰: block.prefix_sum() 연산은 블록 내 모든 스레드에 걸쳐 일치하는 요소의 누적 쓰기 위치를 계산하여 병렬 필터링과 추출을 제공합니다.

핵심 개념

이 퍼즐에서 다루는 내용:

block.prefix_sum()을 활용한 블록 레벨 누적 합
누적 연산을 사용한 병렬 필터링과 추출
고급 병렬 파티셔닝 알고리즘
블록 전체 조율을 통한 히스토그램 구간 분류
비포함(exclusive) vs 포함(inclusive) 누적 합 패턴

이 알고리즘은 특정 값 범위(구간)에 속하는 요소를 추출하여 히스토그램을 구성합니다: \[\Large \text{Bin}_k = \{x_i: k/N \leq x_i < (k+1)/N\}\]

각 스레드가 자신의 요소가 속하는 구간을 결정하고, block.prefix_sum()이 병렬 추출을 조율합니다.

구성

벡터 크기: SIZE = 128 요소
데이터 타입: DType.float32
블록 구성: (128, 1) 블록당 스레드 수 (TPB = 128)
그리드 구성: (1, 1) 그리드당 블록 수
구간 수: NUM_BINS = 8 (범위 [0.0, 0.125), [0.125, 0.25) 등)
레이아웃: row_major[SIZE]() (1D row-major)
블록당 워프 수: 128 / WARP_SIZE (GPU에 따라 2개 또는 4개)

도전 과제: 병렬 구간 추출

기존의 순차적 히스토그램 구성은 요소를 하나씩 처리합니다:

# 순차적 방식 - 병렬화가 어려움
histogram = [[] for _ in range(NUM_BINS)]
for element in data:
    bin_id = int(element * NUM_BINS)  # 구간 결정
    histogram[bin_id].append(element)  # 순차적 추가

단순한 GPU 병렬화의 문제점:

경쟁 상태: 여러 스레드가 같은 구간에 동시에 쓰기
비정렬 메모리 접근: 스레드들이 서로 다른 메모리 위치에 접근
부하 불균형: 일부 구간에 훨씬 많은 요소가 몰릴 수 있음
복잡한 동기화: 배리어와 원자적 연산이 필요

고급 방식: `block.prefix_sum()` 조율

복잡한 병렬 파티셔닝을 조율된 추출로 변환합니다:

완성할 코드

`block.prefix_sum()` 방식

block.prefix_sum()을 사용하여 병렬 히스토그램 구간 분류를 구현합니다:

comptime bin_layout = row_major[SIZE]()  # Max SIZE elements per bin
comptime BinLayoutType = type_of(bin_layout)


def block_histogram_bin_extract[
    tpb: Int
](
    input_data: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    bin_output: TileTensor[mut=True, dtype, BinLayoutType, MutAnyOrigin],
    count_output: TileTensor[
        mut=True, DType.int32, OutLayoutType, MutAnyOrigin
    ],
    size: Int,
    target_bin: Int,
    num_bins: Int,
):
    """Parallel histogram using block.prefix_sum() for bin extraction.

    This demonstrates advanced parallel filtering and extraction:
    1. Each thread determines which bin its element belongs to
    2. Use block.prefix_sum() to compute write positions for target_bin elements
    3. Extract and pack only elements belonging to target_bin
    """

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Step 1: Each thread determines its bin and element value

    # FILL IN (roughly 9 lines)

    # Step 2: Create predicate for target bin extraction

    # FILL IN (roughly 3 line)

    # Step 3: Use block.prefix_sum() for parallel bin extraction!
    # This computes where each thread should write within the target bin

    # FILL IN (1 line)

    # Step 4: Extract and pack elements belonging to target_bin

    # FILL IN (roughly 2 line)

    # Step 5: Final thread computes total count for this bin

    # FILL IN (roughly 3 line)

전체 파일 보기: problems/p27/p27.mojo

팁

1. 핵심 알고리즘 구조 (이전 퍼즐에서 적용)

block_sum_dot_product와 마찬가지로 다음 핵심 변수가 필요합니다:

global_i = block_dim.x * block_idx.x + thread_idx.x
local_i = thread_idx.x

함수는 5가지 주요 단계(총 약 15-20줄)로 구성됩니다:

요소를 로드하고 구간을 결정
대상 구간에 대한 이진 프레디케이트 생성
프레디케이트에 block.prefix_sum() 실행
계산된 오프셋을 사용하여 조건부 쓰기
마지막 스레드가 총 개수를 계산

2. 구간 계산 (`math.floor` 사용)

Float32 값을 구간으로 분류하려면:

my_value = input_data[global_i][0]  # 내적에서처럼 SIMD 추출
bin_number = Int(floor(my_value * num_bins))

경계 사례 처리: 정확히 1.0인 값은 구간 NUM_BINS에 들어가지만, 실제 구간은 0부터 NUM_BINS-1까지입니다. if 문을 사용하여 최대 구간을 제한하세요.

3. 이진 프레디케이트 생성

이 스레드의 요소가 target_bin에 속하는지를 나타내는 정수 변수(0 또는 1)를 만듭니다:

var belongs_to_target: Int = 0
if (thread_has_valid_element) and (my_bin == target_bin):
    belongs_to_target = 1

이것이 핵심 통찰입니다: 누적 합이 이 이진 플래그에 작용하여 위치를 계산합니다!

4. `block.prefix_sum()` 호출 패턴

문서에 따르면 호출은 다음과 같습니다:

offset = block.prefix_sum[
    dtype=DType.int32,         # 정수 프레디케이트로 작업
    block_size=tpb,            # block.sum()과 동일
    exclusive=True             # 핵심: 각 스레드 이전의 위치를 제공
](val=SIMD[DType.int32, 1](my_predicate_value))

왜 비포함(exclusive)인가? 위치 5에서 프레디케이트=1인 스레드는, 자신 앞에 4개의 요소가 있었다면 output[4]에 써야 합니다.

5. 조건부 쓰기 패턴

belongs_to_target == 1인 스레드만 기록해야 합니다:

if belongs_to_target == 1:
    bin_output[Int(offset[0])] = my_value  # 인덱싱을 위해 SIMD를 Int로 변환

이것은 Puzzle 12의 경계 검사 패턴과 동일하지만, 조건이 “대상 구간에 속하는지“로 바뀌었습니다.

6. 최종 개수 계산

마지막 스레드(스레드 0이 아님!)가 총 개수를 계산합니다:

if local_i == tpb - 1:  # 블록의 마지막 스레드
    total_count = offset[0] + belongs_to_target  # 포함 = 비포함 + 자신의 기여분
    count_output[0] = total_count

왜 마지막 스레드인가? 가장 높은 offset 값을 가지므로, offset + 기여분이 총 개수가 됩니다.

7. 데이터 타입과 변환

이전 퍼즐의 패턴을 기억하세요:

TileTensor 인덱싱은 SIMD를 반환: input_data[i][0]
block.prefix_sum()은 SIMD를 반환: offset[0]으로 추출
배열 인덱싱은 Int가 필요: bin_output[...]에 Int(offset[0])

block.prefix_sum() 방식 테스트:

pixi run p27 --histogram

pixi run -e amd p27 --histogram

pixi run -e apple p27 --histogram

uv run poe p27 --histogram

풀었을 때의 예상 출력:

SIZE: 128
TPB: 128
NUM_BINS: 8

Input sample: 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 ...

=== Processing Bin 0 (range [ 0.0 , 0.125 )) ===
Bin 0 count: 26
Bin 0 extracted elements: 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 ...

=== Processing Bin 1 (range [ 0.125 , 0.25 )) ===
Bin 1 count: 24
Bin 1 extracted elements: 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.2 ...

=== Processing Bin 2 (range [ 0.25 , 0.375 )) ===
Bin 2 count: 26
Bin 2 extracted elements: 0.25 0.26 0.27 0.28 0.29 0.3 0.31 0.32 ...

=== Processing Bin 3 (range [ 0.375 , 0.5 )) ===
Bin 3 count: 22
Bin 3 extracted elements: 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.45 ...

=== Processing Bin 4 (range [ 0.5 , 0.625 )) ===
Bin 4 count: 13
Bin 4 extracted elements: 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 ...

=== Processing Bin 5 (range [ 0.625 , 0.75 )) ===
Bin 5 count: 12
Bin 5 extracted elements: 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 ...

=== Processing Bin 6 (range [ 0.75 , 0.875 )) ===
Bin 6 count: 5
Bin 6 extracted elements: 0.75 0.76 0.77 0.78 0.79

=== Processing Bin 7 (range [ 0.875 , 1.0 )) ===
Bin 7 count: 0
Bin 7 extracted elements:

솔루션

def block_histogram_bin_extract[
    tpb: Int
](
    input_data: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    bin_output: TileTensor[mut=True, dtype, BinLayout, MutAnyOrigin],
    count_output: TileTensor[mut=True, DType.int32, OutLayout, MutAnyOrigin],
    size: Int,
    target_bin: Int,
    num_bins: Int,
):
    """Parallel histogram using block.prefix_sum() for bin extraction.

    This demonstrates advanced parallel filtering and extraction:
    1. Each thread determines which bin its element belongs to
    2. Use block.prefix_sum() to compute write positions for target_bin elements
    3. Extract and pack only elements belonging to target_bin
    """

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Step 1: Each thread determines its bin and element value
    var my_value: Scalar[dtype] = 0.0
    var my_bin: Int = -1

    if global_i < size:
        # `[0]` returns the underlying SIMD value
        my_value = input_data[global_i][0]
        # Bin values [0.0, 1.0) into num_bins buckets
        my_bin = Int(floor(my_value * Scalar[dtype](num_bins)))
        # Clamp to valid range
        if my_bin >= num_bins:
            my_bin = num_bins - 1
        if my_bin < 0:
            my_bin = 0

    # Step 2: Create predicate for target bin extraction
    var belongs_to_target: Int = 0
    if global_i < size and my_bin == target_bin:
        belongs_to_target = 1

    # Step 3: Use block.prefix_sum() for parallel bin extraction!
    # This computes where each thread should write within the target bin
    var write_offset = block.prefix_sum[
        dtype=DType.int32, block_size=tpb, exclusive=True
    ](val=SIMD[DType.int32, 1](belongs_to_target))

    # Step 4: Extract and pack elements belonging to target_bin
    if belongs_to_target == 1:
        bin_output[Int(write_offset[0])] = my_value

    # Step 5: Final thread computes total count for this bin
    if local_i == tpb - 1:
        # Inclusive sum = exclusive sum + my contribution
        var total_count = write_offset[0] + Int32(belongs_to_target)
        count_output[0] = total_count

block.prefix_sum() 커널은 이전 퍼즐의 개념을 기반으로 고급 병렬 조율 패턴을 보여줍니다:

단계별 알고리즘 분석:

1단계: 요소 처리 (Puzzle 12 내적과 유사)

스레드 인덱싱 (익숙한 패턴):
  global_i = block_dim.x * block_idx.x + thread_idx.x  // 전역 요소 인덱스
  local_i = thread_idx.x                               // 로컬 스레드 인덱스

요소 로딩 (TileTensor 패턴과 동일):
  스레드 0:  my_value = input_data[0][0] = 0.00
  스레드 1:  my_value = input_data[1][0] = 0.01
  스레드 13: my_value = input_data[13][0] = 0.13
  스레드 25: my_value = input_data[25][0] = 0.25
  ...

2단계: 구간 분류 (새로운 개념)

floor 연산을 사용한 구간 계산:
  스레드 0:  my_bin = Int(floor(0.00 * 8)) = 0  // 값 [0.000, 0.125) → 구간 0
  스레드 1:  my_bin = Int(floor(0.01 * 8)) = 0  // 값 [0.000, 0.125) → 구간 0
  스레드 13: my_bin = Int(floor(0.13 * 8)) = 1  // 값 [0.125, 0.250) → 구간 1
  스레드 25: my_bin = Int(floor(0.25 * 8)) = 2  // 값 [0.250, 0.375) → 구간 2
  ...

3단계: 이진 프레디케이트 생성 (필터링 패턴)

target_bin=0에 대해 추출 마스크 생성:
  스레드 0:  belongs_to_target = 1  (구간 0 == 대상 0)
  스레드 1:  belongs_to_target = 1  (구간 0 == 대상 0)
  스레드 13: belongs_to_target = 0  (구간 1 != 대상 0)
  스레드 25: belongs_to_target = 0  (구간 2 != 대상 0)
  ...

이진 배열 생성: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, ...]

4단계: 병렬 누적 합 (마법이 일어나는 곳!)

프레디케이트에 block.prefix_sum[exclusive=True] 적용:
입력:      [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, ...]
비포함:    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10,11,12, -, -, -, ...]
                                                      ^
                                                 중요하지 않음

핵심 통찰: 각 스레드가 출력 배열에서 자신의 쓰기 위치를 받습니다!

5단계: 조율된 추출 (조건부 쓰기)

belongs_to_target=1인 스레드만 기록:
  스레드 0:  bin_output[0] = 0.00   // write_offset[0] = 0 사용
  스레드 1:  bin_output[1] = 0.01   // write_offset[1] = 1 사용
  스레드 12: bin_output[12] = 0.12  // write_offset[12] = 12 사용
  스레드 13: (기록 안 함)             // belongs_to_target = 0
  스레드 25: (기록 안 함)             // belongs_to_target = 0
  ...

결과: [0.00, 0.01, 0.02, ..., 0.12, ???, ???, ...] // 빈틈없이 채워짐!

6단계: 개수 계산 (block.sum() 패턴과 유사)

마지막 스레드가 총 개수를 계산 (스레드 0이 아님!):
  if local_i == tpb - 1:  // 이 경우 스레드 127
      total = write_offset[0] + belongs_to_target  // 포함 합 공식
      count_output[0] = total

이 고급 알고리즘이 동작하는 이유:

Puzzle 12 (기존 내적)과의 연결:

동일한 스레드 인덱싱: global_i와 local_i 패턴
동일한 경계 검사: if global_i < size 검증
동일한 데이터 로딩: [0]을 사용한 TileTensor SIMD 추출

`block.sum()` (이 퍼즐의 앞부분)과의 연결:

동일한 블록 전체 연산: 모든 스레드가 블록 기본 요소에 참여
동일한 결과 처리: 특정 스레드(첫 번째 대신 마지막)가 최종 결과 처리
동일한 SIMD 변환: 배열 인덱싱을 위한 Int(result[0]) 패턴

`block.prefix_sum()`만의 고급 개념:

모든 스레드가 결과를 받음: 스레드 0만 중요한 block.sum()과 달리
조율된 쓰기 위치: 누적 합이 경쟁 상태를 자동으로 제거
병렬 필터링: 이진 프레디케이트가 고급 데이터 재구성을 가능하게 함

단순한 방식 대비 성능 이점:

vs. 원자적 연산:

경쟁 상태 없음: 누적 합이 고유한 쓰기 위치를 제공
병합된 메모리: 순차적 쓰기가 캐시 성능을 향상
직렬화 없음: 모든 쓰기가 병렬로 수행

vs. 다중 패스 알고리즘:

단일 커널: 한 번의 GPU 실행으로 히스토그램 추출 완료
완전 활용: 데이터 분포에 관계없이 모든 스레드가 작업
최적 메모리 대역폭: GPU 메모리 계층 구조에 최적화된 패턴

이것은 block.prefix_sum()이 block.sum() 같은 단순한 기본 요소로는 복잡하거나 불가능한 고급 병렬 알고리즘을 어떻게 가능하게 하는지 보여줍니다.

성능 인사이트

block.prefix_sum() vs 기존 방식:

알고리즘 정교함: 고급 병렬 파티셔닝 vs 순차적 처리
메모리 효율: 병합된 쓰기 vs 분산된 무작위 접근
동기화: 내장 조율 vs 수동 배리어와 원자적 연산
확장성: 모든 블록 크기와 구간 수에 동작

block.prefix_sum() vs block.sum():

범위: 모든 스레드가 결과를 받음 vs 스레드 0만
용도: 복잡한 파티셔닝 vs 단순한 집계
알고리즘 유형: 병렬 스캔 기본 요소 vs 리덕션 기본 요소
출력 패턴: 스레드별 위치 vs 단일 합계

block.prefix_sum()을 사용해야 할 때:

병렬 필터링: 조건에 맞는 요소 추출
스트림 컴팩션: 불필요한 요소 제거
병렬 파티셔닝: 데이터를 카테고리별로 분리
고급 알고리즘: 부하 분산, 정렬, 그래프 알고리즘

다음 단계

block.prefix_sum() 연산을 배웠으니, 다음으로 진행할 수 있습니다:

block.broadcast()와 벡터 정규화: 블록 내 모든 스레드에 값을 공유
멀티 블록 알고리즘: 더 큰 문제를 위한 여러 블록 간 조율
고급 병렬 알고리즘: 정렬, 그래프 탐색, 동적 부하 분산
복잡한 메모리 패턴: 블록 연산과 고급 메모리 접근의 결합

💡 핵심 요점: 블록 누적 합 연산은 GPU 프로그래밍을 단순한 병렬 계산에서 고급 병렬 알고리즘으로 변환합니다. block.sum()이 리덕션을 단순화했다면, block.prefix_sum()은 고성능 병렬 알고리즘에 필수적인 고급 데이터 재구성 패턴을 가능하게 합니다.

block.broadcast()와 벡터 정규화

block.sum과 block.broadcast 연산을 결합하여 벡터 평균 정규화를 구현하고, 블록 레벨 통신 워크플로우의 전체 모습을 보여줍니다. 각 스레드가 평균 계산에 기여한 다음, 브로드캐스트된 평균을 받아 자신의 요소를 정규화하여, 블록 연산이 실제 병렬 알고리즘을 해결하기 위해 어떻게 함께 동작하는지 보여줍니다.

핵심 통찰: block.broadcast() 연산은 하나→전체 통신을 가능하게 하여, 기본 블록 통신 패턴을 완성합니다: 리덕션(전체→하나), 스캔(전체→각각), 브로드캐스트(하나→전체).

핵심 개념

이 퍼즐에서 배울 내용:

block.broadcast()를 활용한 블록 레벨 브로드캐스트
하나→전체 통신 패턴
소스 스레드 지정과 파라미터 제어
여러 연산을 결합하는 완전한 블록 연산 워크플로우
조율된 블록 기본 요소를 사용한 실제 알고리즘 구현

이 알고리즘은 벡터 평균 정규화를 보여줍니다: \[\Large \text{output}[i] = \frac{\text{input}[i]}{\frac{1}{N}\sum_{j=0}^{N-1} \text{input}[j]}\]

각 스레드가 평균 계산에 기여한 다음, 브로드캐스트된 평균을 받아 자신의 요소를 정규화합니다.

구성

벡터 크기: SIZE = 128 요소
데이터 타입: DType.float32
블록 구성: (128, 1) 블록당 스레드 수 (TPB = 128)
그리드 구성: (1, 1) 그리드당 블록 수
레이아웃: row_major[SIZE]() (입력과 출력 모두 1D row-major)
테스트 데이터: 1-8 반복 값, 평균 = 4.5
예상 출력: 평균이 1.0인 정규화된 벡터

도전 과제: 블록 전체 계산과 분배의 조율

기존의 평균 정규화 방식은 복잡한 조율이 필요합니다:

# 순차적 방식 - 병렬성을 활용하지 못함
total = sum(input_array)
mean = total / len(input_array)
output_array = [x / mean for x in input_array]

단순한 GPU 병렬화의 문제점:

다중 커널 실행: 평균 계산과 정규화에 각각 별도의 패스가 필요
전역 메모리 왕복: 평균을 전역 메모리에 저장했다가 나중에 다시 읽기
동기화 복잡성: 계산 단계 간에 배리어가 필요
스레드 분기: 서로 다른 스레드가 서로 다른 작업을 수행

기존 GPU 풀이의 복잡성:

# 1단계: 합계를 구하기 위한 리덕션 (복잡한 공유 메모리 + 배리어)
shared_sum[local_i] = my_value
barrier()
# 여러 barrier() 호출이 필요한 수동 트리 리덕션...

# 2단계: 스레드 0이 평균을 계산
if local_i == 0:
    mean = shared_sum[0] / size
    shared_mean[0] = mean

barrier()

# 3단계: 모든 스레드가 평균을 읽고 정규화
mean = shared_mean[0]  # 모두가 같은 값을 읽음
output[global_i] = my_value / mean

고급 방식: `block.sum()` + `block.broadcast()` 조율

다단계 조율을 간결한 블록 연산 워크플로우로 변환합니다:

완성할 코드

완전한 블록 연산 워크플로우

블록 연산 도구 모음 전체를 사용하여 고급 벡터 평균 정규화를 구현합니다:


comptime vector_layout = row_major[SIZE]()
comptime VectorLayoutType = type_of(vector_layout)


def block_normalize_vector[
    tpb: Int
](
    input_data: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    output_data: TileTensor[mut=True, dtype, VectorLayoutType, MutAnyOrigin],
    size: Int,
):
    """Vector mean normalization using block.sum() + block.broadcast() combination.

    This demonstrates the complete block operations workflow:
    1. Use block.sum() to compute sum of all elements (all → one)
    2. Thread 0 computes mean = sum / size
    3. Use block.broadcast() to share mean to all threads (one → all)
    4. Each thread normalizes: output[i] = input[i] / mean
    """

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Step 1: Each thread loads its element

    # FILL IN (roughly 3 lines)

    # Step 2: Use block.sum() to compute total sum (familiar from earlier!)

    # FILL IN (1 line)

    # Step 3: Thread 0 computes mean value

    # FILL IN (roughly 4 lines)

    # Step 4: block.broadcast() shares mean to ALL threads!
    # This completes the block operations trilogy demonstration

    # FILL IN (1 line)

    # Step 5: Each thread normalizes by the mean

    # FILL IN (roughly 3 lines)

전체 파일 보기: problems/p27/p27.mojo

팁

1. 완전한 워크플로우 구조 (모든 이전 연산을 기반으로 구축)

알고리즘은 완벽한 블록 연산 패턴을 따릅니다:

각 스레드가 자신의 요소를 로드 (모든 이전 퍼즐에서 익숙한 패턴)
block.sum()으로 합계를 계산 (이 퍼즐의 앞부분에서 배운 내용)
스레드 0이 합계로부터 평균을 계산
block.broadcast()로 평균을 모든 스레드에 공유 (새로운 내용!)
각 스레드가 브로드캐스트된 평균으로 정규화

2. 데이터 로딩과 합계 계산 (익숙한 패턴)

기존 TileTensor 패턴으로 요소를 로드합니다:

var my_value: Scalar[dtype] = 0.0
if global_i < size:
    my_value = input_data[global_i][0]  # SIMD 추출

그런 다음 앞서 배운 내적과 동일하게 block.sum()을 사용합니다:

total_sum = block.sum[block_size=tpb, broadcast=False](...)

3. 평균 계산 (스레드 0만)

스레드 0만 평균을 계산해야 합니다:

var mean_value: Scalar[dtype] = 1.0  # 안전한 기본값
if local_i == 0:
    # total_sum과 size로 평균 계산

왜 스레드 0인가? block.sum() 패턴에서 스레드 0이 결과를 받는 것과 일관성을 유지합니다.

4. block.broadcast() API 개념

함수 시그니처를 살펴보세요 - 다음이 필요합니다:

템플릿 파라미터: dtype, width, block_size
런타임 파라미터: val (브로드캐스트할 SIMD 값), src_thread (기본값=0)

호출 패턴은 기존 템플릿 스타일을 따릅니다:

result = block.broadcast[
    dtype = DType.float32,
    width = 1,
    block_size = tpb
](val=SIMD[DType.float32, 1](value_to_broadcast), src_thread=UInt(0))

5. 브로드캐스트 패턴 이해하기

핵심 통찰: block.broadcast()는 하나의 스레드에서 값을 가져와 모든 스레드에 전달합니다:

스레드 0이 계산된 평균값을 가지고 있음
모든 스레드가 같은 평균값이 필요
block.broadcast() 가 스레드 0의 값을 모두에게 복사

이것은 block.sum()(전체→하나)의 반대이며, block.prefix_sum()(전체→각각 위치)과도 다릅니다.

6. 최종 정규화 단계

모든 스레드가 브로드캐스트된 평균을 받으면, 자신의 요소를 정규화합니다:

if global_i < size:
    normalized_value = my_value / broadcasted_mean[0]  # SIMD 추출
    output_data[global_i] = normalized_value

SIMD 추출: block.broadcast()가 SIMD를 반환하므로 [0]으로 스칼라를 추출해야 합니다.

7. 이전 퍼즐에서의 패턴 인식

스레드 인덱싱: 항상 동일한 global_i, local_i 패턴
경계 검사: 동일한 if global_i < size 검증
SIMD 처리: 동일한 [0] 추출 패턴
블록 연산: block.sum()과 동일한 템플릿 파라미터 스타일

각 블록 연산이 일관된 패턴을 따르는 것이 핵심입니다!

block.broadcast() 방식 테스트:

pixi run p27 --normalize

pixi run -e amd p27 --normalize

pixi run -e apple p27 --normalize

uv run poe p27 --normalize

풀었을 때의 예상 출력:

SIZE: 128
TPB: 128

Input sample: 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 ...
Sum value: 576.0
Mean value: 4.5

Mean Normalization Results:
Normalized sample: 0.22222222 0.44444445 0.6666667 0.8888889 1.1111112 1.3333334 1.5555556 1.7777778 ...

Output sum: 128.0
Output mean: 1.0
✅ Success: Output mean is 1.0 (should be close to 1.0)

솔루션

def block_normalize_vector[
    tpb: Int
](
    input_data: TileTensor[mut=False, dtype, InLayout, ImmutAnyOrigin],
    output_data: TileTensor[mut=True, dtype, VectorLayout, MutAnyOrigin],
    size: Int,
):
    """Vector mean normalization using block.sum() + block.broadcast() combination.

    This demonstrates the complete block operations workflow:
    1. Use block.sum() to compute sum of all elements (all -> one)
    2. Thread 0 computes mean = sum / size
    3. Use block.broadcast() to share mean to all threads (one -> all)
    4. Each thread normalizes: output[i] = input[i] / mean
    """

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Step 1: Each thread loads its element
    var my_value: Scalar[dtype] = 0.0
    if global_i < size:
        my_value = input_data[global_i][0]  # Extract SIMD value

    # Step 2: Use block.sum() to compute total sum (familiar from earlier!)
    var total_sum = block.sum[block_size=tpb, broadcast=False](
        val=SIMD[DType.float32, 1](my_value)
    )

    # Step 3: Thread 0 computes mean value
    var mean_value: Scalar[dtype] = 1.0  # Default to avoid division by zero
    if local_i == 0:
        if total_sum[0] > 0.0:
            mean_value = total_sum[0] / Scalar[dtype](size)

    # Step 4: block.broadcast() shares mean to ALL threads!
    # This completes the block operations trilogy demonstration
    var broadcasted_mean = block.broadcast[
        dtype=DType.float32, width=1, block_size=tpb
    ](val=SIMD[DType.float32, 1](mean_value), src_thread=UInt(0))

    # Step 5: Each thread normalizes by the mean
    if global_i < size:
        var normalized_value = my_value / broadcasted_mean[0]
        output_data[global_i] = normalized_value

block.broadcast() 커널은 세 가지 기본 통신 패턴을 모두 결합하여 수학적으로 검증 가능한 결과를 생성하는 실제 알고리즘으로 완전한 블록 연산 워크플로우를 보여줍니다:

구체적인 실행을 통한 완전한 알고리즘 분석:

1단계: 병렬 데이터 로딩 (모든 이전 퍼즐에서 확립된 패턴)

스레드 인덱싱 (모든 퍼즐에서 일관됨):
  global_i = block_dim.x * block_idx.x + thread_idx.x  // 입력 배열 위치에 매핑
  local_i = thread_idx.x                              // 블록 내 위치 (0-127)

TileTensor 패턴을 사용한 병렬 요소 로딩:
  스레드 0:   my_value = input_data[0][0] = 1.0    // 첫 번째 순환 값
  스레드 1:   my_value = input_data[1][0] = 2.0    // 두 번째 순환 값
  스레드 7:   my_value = input_data[7][0] = 8.0    // 마지막 순환 값
  스레드 8:   my_value = input_data[8][0] = 1.0    // 순환 반복: 1,2,3,4,5,6,7,8,1,2...
  스레드 15:  my_value = input_data[15][0] = 8.0   // 15 % 8 = 7, 8번째 값
  스레드 127: my_value = input_data[127][0] = 8.0  // 127 % 8 = 7, 8번째 값

128개 스레드가 동시에 로드 - 완벽한 병렬 효율!

2단계: 블록 전체 합계 리덕션 (앞서 배운 block.sum() 지식 활용)

128개 스레드에 걸친 block.sum() 조율:
  기여분 분석:
    - 값 1,2,3,4,5,6,7,8이 각각 16번 반복 (128/8 = 16)
    - 스레드 기여분: 16×1 + 16×2 + 16×3 + 16×4 + 16×5 + 16×6 + 16×7 + 16×8
    - 수학적 합계: 16 × (1+2+3+4+5+6+7+8) = 16 × 36 = 576.0

block.sum() 하드웨어 실행:
  모든 스레드 → [리덕션 트리] → 스레드 0
  total_sum = SIMD[DType.float32, 1](576.0)  // 스레드 0만 이 값을 수신

스레드 1-127: total_sum에 접근 불가 (block.sum에서 broadcast=False)

3단계: 독점적 평균 계산 (단일 스레드 처리)

스레드 0이 핵심 계산을 수행:
  입력: total_sum[0] = 576.0, size = 128
  계산: mean_value = 576.0 / 128.0 = 4.5

  검증: 기대 평균 = (1+2+3+4+5+6+7+8)/8 = 36/8 = 4.5 ✓

다른 모든 스레드 (1-127):
  mean_value = 1.0 (기본 안전 값)
  이 값들은 무관 - 브로드캐스트로 덮어씌워질 예정

핵심 통찰: 이 시점에서 올바른 평균값을 가진 것은 스레드 0뿐입니다!

4단계: 블록 전체 브로드캐스트 분배 (하나 → 전체 통신)

block.broadcast() API 실행:
  소스: src_thread = UInt(0) → 스레드 0의 mean_value = 4.5
  대상: 블록 내 모든 128 스레드

브로드캐스트 전:
  스레드 0:   mean_value = 4.5  ← 진실의 원천
  스레드 1:   mean_value = 1.0  ← 덮어씌워질 예정
  스레드 2:   mean_value = 1.0  ← 덮어씌워질 예정
  ...
  스레드 127: mean_value = 1.0  ← 덮어씌워질 예정

block.broadcast() 실행 후:
  스레드 0:   broadcasted_mean[0] = 4.5  ← 자신의 값을 다시 수신
  스레드 1:   broadcasted_mean[0] = 4.5  ← 이제 올바른 값을 가짐!
  스레드 2:   broadcasted_mean[0] = 4.5  ← 이제 올바른 값을 가짐!
  ...
  스레드 127: broadcasted_mean[0] = 4.5  ← 이제 올바른 값을 가짐!

결과: 완벽한 동기화 - 모든 스레드가 동일한 평균값을 가짐!

5단계: 병렬 평균 정규화 (조율된 처리)

각 스레드가 브로드캐스트된 평균을 사용하여 독립적으로 정규화:
  스레드 0:   normalized = 1.0 / 4.5 = 0.22222222...
  스레드 1:   normalized = 2.0 / 4.5 = 0.44444444...
  스레드 2:   normalized = 3.0 / 4.5 = 0.66666666...
  스레드 7:   normalized = 8.0 / 4.5 = 1.77777777...
  스레드 8:   normalized = 1.0 / 4.5 = 0.22222222...  (패턴 반복)
  ...

수학적 검증:
  출력 합계 = (0.222... + 0.444... + ... + 1.777...) × 16 = 4.5 × 16 × 2 = 128.0
  출력 평균 = 128.0 / 128 = 1.0  완벽한 정규화!

각 값을 원래 평균으로 나누면 평균이 1.0인 출력을 생성

6단계: 정확성 검증

입력 분석:
  - 합계: 576.0, 평균: 4.5
  - 최댓값: 8.0, 최솟값: 1.0
  - 범위: [1.0, 8.0]

출력 분석:
  - 합계: 128.0, 평균: 1.0 ✓
  - 최댓값: 1.777..., 최솟값: 0.222...
  - 범위: [0.222, 1.777] (모든 값이 1/4.5 비율로 스케일링)

비례 관계 보존:
  - 원래 8:1 비율이 1.777:0.222 = 8:1로 유지 ✓
  - 모든 상대적 크기가 완벽하게 유지

이 완전한 워크플로우가 수학적·계산적으로 우수한 이유:

기술적 정확성과 검증:

수학적 정확성 증명:
  입력: x₁, x₂, ..., xₙ (n = 128)
  평균: μ = (∑xᵢ)/n = 576/128 = 4.5

  정규화: yᵢ = xᵢ/μ
  출력 평균: (∑yᵢ)/n = (∑xᵢ/μ)/n = (1/μ)(∑xᵢ)/n = (1/μ)μ = 1 ✓

알고리즘이 증명 가능하게 올바른 수학적 결과를 생성합니다.

Puzzle 12 (기초 패턴)과의 연결:

스레드 조율의 진화: 동일한 global_i, local_i 패턴이지만 블록 기본 요소 사용
메모리 접근 패턴: 동일한 TileTensor SIMD 추출 [0]이지만 최적화된 워크플로우
복잡성 제거: 20줄 이상의 수동 배리어를 2개의 블록 연산으로 대체
교육적 진행: 수동 → 자동, 복잡 → 단순, 오류 발생 가능 → 신뢰성

`block.sum()` (완벽한 통합)과의 연결:

API 일관성: 동일한 템플릿 구조 [block_size=tpb, broadcast=False]
결과 흐름 설계: 스레드 0이 합계를 수신하고, 자연스럽게 파생 파라미터를 계산
매끄러운 조합: block.sum()의 출력이 계산 + 브로드캐스트의 입력이 됨
성능 최적화: 단일 커널 워크플로우 vs 다중 패스 방식

`block.prefix_sum()` (상보적 통신)과의 연결:

분배 패턴: prefix_sum은 고유한 위치를, broadcast는 공유 값을 제공
사용 시나리오: prefix_sum은 병렬 파티셔닝용, broadcast는 매개변수 공유용
템플릿 일관성: 모든 연산에서 동일한 dtype, block_size 파라미터 패턴
SIMD 처리 통일성: 모든 블록 연산이 [0] 추출이 필요한 SIMD를 반환

고급 알고리즘 인사이트:

통신 패턴 비교:
  기존 방식:
    1. 수동 리덕션:         O(log n), 명시적 배리어 필요
    2. 공유 메모리 쓰기:     O(1), 동기화 필요
    3. 공유 메모리 읽기:     O(1), 뱅크 충돌 가능성
    총합: 다수의 동기화 지점, 오류 발생 가능

  블록 연산 방식:
    1. block.sum():        O(log n), 하드웨어 최적화, 자동 배리어
    2. 계산:                O(1), 단일 스레드
    3. block.broadcast():  O(log n), 하드웨어 최적화, 자동 분배
    총합: 두 개의 기본 요소, 자동 동기화, 증명된 정확성

실제 응용 알고리즘 패턴:

일반적인 병렬 알고리즘 구조:
  1단계: 병렬 데이터 처리        → 모든 스레드가 기여
  2단계: 전역 파라미터 계산      → 하나의 스레드가 계산
  3단계: 파라미터 분배          → 모든 스레드가 수신
  4단계: 조율된 병렬 출력        → 모든 스레드가 처리

이 정확한 패턴이 등장하는 분야:
  - 배치 정규화 (딥러닝)
  - 히스토그램 균등화 (이미지 처리)
  - 반복적 수치 해법 (과학 연산)
  - 조명 계산 (컴퓨터 그래픽)

평균 정규화는 이 근본적인 패턴의 완벽한 교육 사례입니다.

블록 연산 3부작 완성:

1. `block.sum()` - 전체→하나 (Reduction)

입력: 모든 스레드가 값을 제공
출력: 스레드 0이 집계된 결과를 수신
용도: 합계, 최댓값 계산 등

2. `block.prefix_sum()` - 전체→각각 (Scan)

입력: 모든 스레드가 값을 제공
출력: 각 스레드가 누적 위치를 수신
용도: 쓰기 위치 계산, 병렬 파티셔닝

3. `block.broadcast()` - 하나→전체 (Broadcast)

입력: 하나의 스레드가 값을 제공 (일반적으로 스레드 0)
출력: 모든 스레드가 같은 값을 수신
용도: 계산된 매개변수 공유, 설정값 분배

완전한 블록 연산 진행:

수동 조율 (Puzzle 12): 병렬 기초 이해
워프 기본 요소 (Puzzle 24): 하드웨어 가속 패턴 학습
블록 리덕션 (block.sum()): 전체→하나 통신 학습
블록 스캔 (block.prefix_sum()): 전체→각각 통신 학습
블록 브로드캐스트 (block.broadcast()): 하나→전체 통신 학습

전체 그림: 블록 연산은 고급 병렬 알고리즘을 위한 기본 통신 빌딩 블록을 제공하며, 복잡한 수동 조율을 깔끔하고 조합 가능한 기본 요소로 대체합니다.

성능 인사이트와 기술 분석

정량적 성능 비교:

block.broadcast() vs 기존 공유 메모리 방식 (참고용):

기존 수동 방식:

1단계: 수동 리덕션
  • 공유 메모리 할당: ~5 사이클
  • 배리어 동기화: ~10 사이클
  • 트리 리덕션 루프: ~15 사이클
  • 오류 발생 가능한 수동 인덱싱

2단계: 평균 계산: ~2 사이클

3단계: 공유 메모리 브로드캐스트
  • 공유 메모리에 수동 쓰기: ~2 사이클
  • 배리어 동기화: ~10 사이클
  • 모든 스레드 읽기: ~3 사이클

총합: ~47 사이클
  + 동기화 오버헤드
  + 경쟁 상태 가능성
  + 수동 오류 디버깅

블록 연산 방식:

1단계: block.sum()
  • 하드웨어 최적화: ~3 사이클
  • 자동 배리어: 명시적 비용 0
  • 최적화된 리덕션: ~8 사이클
  • 검증된 올바른 구현

2단계: 평균 계산: ~2 사이클

3단계: block.broadcast()
  • 하드웨어 최적화: ~4 사이클
  • 자동 분배: 명시적 비용 0
  • 검증된 올바른 구현

총합: ~17 사이클
  + 자동 최적화
  + 보장된 정확성
  + 조합 가능한 설계

메모리 계층 구조 이점:

캐시 효율:

block.sum(): 최적화된 메모리 접근 패턴으로 캐시 미스 감소
block.broadcast(): 효율적인 분배로 메모리 대역폭 사용 최소화
결합 워크플로우: 단일 커널이 전역 메모리 왕복을 100% 감소

메모리 대역폭 활용:

기존 멀티 커널 방식:
  커널 1: 입력 → 리덕션 → 전역 메모리 쓰기
  커널 2: 전역 메모리 읽기 → 브로드캐스트 → 출력
  총 전역 메모리 전송: 배열 크기의 3배

블록 연산 단일 커널:
  입력 → block.sum() → block.broadcast() → 출력
  총 전역 메모리 전송: 배열 크기의 2배 (33% 개선)

각 블록 연산의 최적 사용 시나리오:

block.sum() 최적 시나리오:

데이터 집계: 합계, 평균, 최댓값/최솟값 계산
리덕션 패턴: 전체→하나 통신이 필요한 모든 경우
통계 연산: 평균, 분산, 상관관계 계산

block.prefix_sum() 최적 시나리오:

병렬 파티셔닝: 스트림 컴팩션, 히스토그램 구간 분류
쓰기 위치 계산: 병렬 출력 생성
병렬 알고리즘: 정렬, 검색, 데이터 재구성

block.broadcast() 최적 시나리오:

매개변수 분배: 계산된 값을 모든 스레드에 공유
설정 전파: 모드 플래그, 스케일링 팩터, 임계값
조율된 처리: 모든 스레드가 동일한 계산된 매개변수가 필요할 때

조합의 이점:

개별 연산:   좋은 성능, 제한된 범위
결합 연산:   탁월한 성능, 포괄적인 알고리즘

실제 응용에서 볼 수 있는 조합 예시:
• block.sum() + block.broadcast():       정규화 알고리즘
• block.prefix_sum() + block.sum():      고급 파티셔닝
• 세 가지 모두 결합:                      복잡한 병렬 알고리즘
• 기존 패턴과 함께:                       하이브리드 최적화 전략

다음 단계

완전한 블록 연산 3부작을 배웠으니, 다음으로 진행할 수 있습니다:

멀티 블록 알고리즘: 여러 스레드 블록에 걸친 연산 조율
고급 병렬 패턴: 복잡한 알고리즘을 위한 블록 연산 결합
메모리 계층 구조 최적화: 효율적인 데이터 이동 패턴
알고리즘 설계: 블록 연산 빌딩 블록을 사용한 병렬 알고리즘 구조화
성능 최적화: 최적의 블록 크기와 연산 조합 선택

💡 핵심 요점: 블록 연산 3부작(sum, prefix_sum, broadcast)은 블록 레벨 병렬 프로그래밍을 위한 완전한 통신 기본 요소를 제공합니다. 이 연산들을 조합하면 GPU 하드웨어 최적화를 활용하는 깔끔하고 유지보수하기 쉬운 코드로 고급 병렬 알고리즘을 구현할 수 있습니다. 평균 정규화는 이 연산들이 함께 작동하여 실제 연산 문제를 효율적으로 해결하는 방법을 보여줍니다.

Puzzle 28: 비동기 메모리 연산과 복사 중첩

GPU 메모리 병목 현상: 실제 GPU 알고리즘 대부분은 좌절스러운 벽에 부딪힙니다

연산 능력이 아니라 메모리 대역폭에 의해 제한된다는 것입니다. 비싼 GPU 코어가 느린 DRAM에서 데이터가 도착하기를 기다리며 놀고 있는 것이죠.

GPU 프로그래밍에서 흔히 볼 수 있는 상황을 살펴보겠습니다:

# 성능의 적 - 순차적 메모리 연산
load_input_tile()     # ← DRAM 대기 500 사이클
load_kernel_data()    # ← 또 100 사이클 대기
barrier()             # ← 모든 스레드가 유휴 대기
compute()             # ← 드디어 실제 연산 50 사이클
# 총: 650 사이클, 연산 활용률 겨우 7.7%!

이렇게 할 수 있다면 어떨까요?

# 성능 개선 - 중첩 연산
launch_async_load()   # ← 백그라운드에서 500 사이클 전송 시작
load_small_data()     # ← 대기 중 유용한 작업 100 사이클
wait_and_compute()    # ← 나머지 ~400 사이클만 대기 후 연산
# 총: ~550 사이클, 45% 향상!

이것이 비동기 메모리 연산의 위력입니다 - 느린 알고리즘과 GPU의 잠재력을 최대한 발휘하는 알고리즘의 차이를 만들어 냅니다.

왜 중요한가

이 퍼즐에서는 Puzzle 13의 메모리 바운드 1D 합성곱을 연산 뒤에 메모리 지연 시간을 숨기는 고성능 구현으로 변환합니다. 단순한 학술적 연습이 아닙니다 - 이 패턴들은 다음 분야의 핵심입니다:

딥러닝: 가중치와 활성화값의 효율적 로딩
과학 연산: 스텐실 연산에서 데이터 전송 중첩
이미지 처리: 메모리 계층 구조를 통한 대규모 데이터셋 스트리밍
모든 메모리 바운드 알고리즘: 대기 시간을 생산적인 작업으로 전환

사전 준비

시작하기 전에 다음 내용을 확실히 이해하고 있어야 합니다:

필수 GPU 프로그래밍 개념:

공유 메모리 프로그래밍 (Puzzle 8, Puzzle 16) - matmul 패턴을 확장합니다
메모리 병합(coalescing) (Puzzle 21) - 최적의 비동기 전송에 필수
타일 기반 처리 (Puzzle 23) - 이 최적화의 기반

하드웨어 이해:

GPU 메모리 계층 구조 (DRAM → 공유 메모리 → 레지스터)
스레드 블록 구성과 동기화
메모리 지연 시간 vs. 대역폭에 대한 기본 이해

API 숙지: Mojo GPU Memory Operations

⚠️ 하드웨어 호환성 참고: 이 퍼즐은 최신 GPU 아키텍처가 필요할 수 있는 비동기 복사 연산(copy_dram_to_sram_async, async_copy_wait_all)을 사용합니다. .async 수정자나 지원되지 않는 연산 관련 컴파일 오류가 발생하면 해당 GPU가 이 기능을 지원하지 않는 것일 수 있습니다. 그래도 메모리 최적화 패턴을 이해하는 데 개념은 여전히 유용합니다.

GPU 컴퓨팅 능력 확인:
nvidia-smi --query-gpu=name,compute_cap --format=csv,noheader,nounits
SM_70 이상 (예: V100, T4, A10G, RTX 20+ 시리즈): 기본 비동기 복사 지원

SM_80 이상 (예: A100, RTX 30+ 시리즈): 전체 비동기 복사 기능

SM_90 이상 (예: H100, RTX 40+ 시리즈): 고급 TMA 연산 지원

학습 내용

이 퍼즐을 마치면 다음을 직접 경험하게 됩니다:

핵심 기법

비동기 복사 기본 요소: 백그라운드 DRAM→SRAM 전송 시작
지연 시간 은폐(latency hiding): 비용이 큰 메모리 연산을 유용한 연산과 중첩
스레드 레이아웃 최적화: 메모리 접근 패턴을 하드웨어에 맞추기
파이프라인 프로그래밍: 메모리 활용을 극대화하도록 알고리즘 구조화

주요 API

Puzzle 16의 관용적 matmul에서 소개한 비동기 복사 연산을 기반으로, 이제 메모리 최적화 잠재력에 집중합니다:

copy_dram_to_sram_async(): 전용 복사 엔진을 사용하여 백그라운드 DRAM→SRAM 전송 시작
async_copy_wait_all(): 공유 메모리 접근 전 전송 완료 동기화

Puzzle 16과 다른 점은? Puzzle 16에서는 matmul의 깔끔한 타일 로딩을 위해 비동기 복사를 사용했다면, 이 퍼즐은 지연 시간 은폐에 집중합니다 - 비용이 큰 메모리 연산과 유용한 연산 작업을 중첩하도록 알고리즘을 구조화하는 것입니다.

성능 효과

이 기법들은 다음과 같은 방식으로 메모리 바운드 알고리즘의 성능을 크게 향상시킵니다:

DRAM 지연 시간 숨기기: 유휴 대기를 생산적인 연산 시간으로 전환
대역폭 극대화: 최적의 메모리 접근 패턴으로 캐시 미스 방지
파이프라인 효율: 메모리 전송이 병렬로 일어나는 동안 연산 유닛을 바쁘게 유지

비동기 복사 연산이란? 비동기 복사 연산은 GPU 블록이 다른 작업을 계속하는 동안 백그라운드에서 실행되는 메모리 전송을 시작할 수 있게 해줍니다. 이를 통해 연산과 메모리 이동을 중첩할 수 있으며, 이는 메모리 바운드 알고리즘의 근본적인 최적화 기법입니다.

💡 성공 팁: 이것을 GPU 메모리를 위한 파이프라인 프로그래밍으로 생각하세요 - 단계를 중첩하고, 지연 시간을 숨기고, 처리량을 극대화합니다. 목표는 데이터가 백그라운드에서 이동하는 동안 비싼 연산 유닛을 바쁘게 유지하는 것입니다.

헤일로 영역 이해하기

비동기 복사 연산으로 들어가기 전에, 합성곱과 같은 스텐실 연산의 타일 기반 처리에 필수적인 헤일로 영역(ghost cell 또는 guard cell이라고도 함)을 이해하는 것이 중요합니다.

헤일로 영역이란?

헤일로 영역은 스텐실 연산에 필요한 이웃 데이터를 제공하기 위해 처리 타일의 경계를 넘어 확장되는 추가 요소입니다. 타일 가장자리 근처의 요소를 처리할 때, 스텐실 연산은 인접 타일의 데이터에 접근해야 합니다.

헤일로 영역이 필요한 이유

타일에서 5점 커널을 사용하는 1D 합성곱을 생각해 봅시다:

원본 데이터:      [... | a b c d e f g h i j k l m n o | ...]
처리 타일:              [c d e f g h i j k l m n o]
                            ^                 ^
                      왼쪽 타일에서        오른쪽 타일에서
                      이웃 필요           이웃 필요

헤일로 포함:       [a b | c d e f g h i j k l m n o | p q]
                 ^^^                               ^^^
                 왼쪽 헤일로                     오른쪽 헤일로

주요 특성:

헤일로 크기: 일반적으로 각 측면에 KERNEL_SIZE // 2개 요소
목적: 타일 경계에서 정확한 스텐실 연산 가능
내용: 이웃 타일의 데이터 복사본 또는 경계 조건
메모리 오버헤드: 큰 연산 이점을 위한 적은 추가 저장 공간

합성곱에서의 헤일로 영역

5점 합성곱 커널 $[k_0, k_1, k_2, k_3, k_4]$의 경우:

중심 요소: $k_2$가 현재 처리 요소와 정렬
왼쪽 이웃: $k_0, k_1$은 왼쪽 2개 요소 필요
오른쪽 이웃: $k_3, k_4$은 오른쪽 2개 요소 필요
헤일로 크기: 각 측면에 HALO_SIZE = 5 // 2 = 2개 요소

헤일로 영역 없이:

타일 경계 요소에서 전체 합성곱을 수행할 수 없음
잘못된 출력이나 복잡한 경계 처리 로직이 필요
분산된 메모리 접근 패턴으로 성능 저하

헤일로 영역 사용 시:

모든 타일 요소가 로컬 데이터를 사용하여 전체 합성곱 수행 가능
예측 가능한 메모리 접근으로 간결하고 효율적인 연산
더 나은 캐시 활용과 메모리 병합

이 개념은 비동기 복사 연산을 구현할 때 특히 중요합니다. 헤일로 영역을 올바르게 로딩하고 동기화해야 여러 타일에 걸친 정확한 병렬 연산을 보장할 수 있습니다.

비동기 복사 중첩을 활용한 1D 합성곱

Puzzle 13 기반: 이 퍼즐은 Puzzle 13의 1D 합성곱을 다시 다루지만, 이번에는 비동기 복사 연산으로 메모리 지연 시간을 연산 뒤에 숨기는 최적화를 적용합니다. 단순한 동기식 메모리 접근 대신, 하드웨어 가속을 사용하여 비용이 큰 DRAM 전송과 유용한 작업을 중첩합니다.

구성

벡터 크기: VECTOR_SIZE = 16384 (여러 블록에 걸친 16K 요소)
타일 크기: CONV_TILE_SIZE = 256 (처리 타일 크기)
블록 구성: 블록당 (256, 1) 스레드
그리드 구성: 그리드당 (VECTOR_SIZE // CONV_TILE_SIZE, 1) 블록 (64개 블록)
커널 크기: KERNEL_SIZE = 5 (Puzzle 13과 동일한 간단한 1D 합성곱)
데이터 타입: DType.float32
레이아웃: row_major[VECTOR_SIZE]() (1D row-major)

비동기 복사의 기회

Puzzle 16 기반: matmul에서 깔끔한 타일 로딩을 위해 copy_dram_to_sram_async를 사용하는 것을 이미 보셨습니다. 이제 고성능 메모리 바운드 알고리즘의 핵심인 지연 시간 은폐 기능에 집중합니다.

기존의 동기식 메모리 로딩은 전송 중 연산 유닛을 유휴 상태로 대기하게 합니다. 비동기 복사 연산은 전송과 유용한 작업의 중첩을 가능하게 합니다:

# 동기식 접근 - 비효율적:
for i in range(CONV_TILE_SIZE):
    input_shared[i] = input[base_idx + i]  # 각 로드가 DRAM을 기다림
for i in range(KERNEL_SIZE):
    kernel_shared[i] = kernel[i]           # DRAM 추가 대기
barrier()  # 연산 시작 전 모든 스레드 대기
# ↑ 총 시간 = input_transfer_time + kernel_transfer_time

# 비동기 복사 접근 - 효율적:
copy_dram_to_sram_async[thread_layout](input_shared, input_tile)  # 백그라운드 전송 시작
# 입력이 백그라운드에서 전송되는 동안, 커널을 동기식으로 로딩
for i in range(KERNEL_SIZE):
    kernel_shared[i] = kernel[i]  # 비동기 입력 전송과 중첩
async_copy_wait_all()  # 두 연산이 모두 완료될 때만 대기
# ↑ 총 시간 = MAX(input_transfer_time, kernel_transfer_time)

비동기 복사가 잘 동작하는 이유:

전용 복사 엔진: 최신 GPU는 레지스터를 우회하고 진정한 연산-메모리 중첩을 가능하게 하는 전용 하드웨어를 갖추고 있습니다 (Puzzle 16에서 설명)
지연 시간 은폐: GPU 스레드가 다른 연산을 실행하는 동안 메모리 전송이 이루어집니다
최적의 병합: 스레드 레이아웃이 효율적인 DRAM 접근 패턴을 보장합니다
리소스 활용: 연산 유닛이 유휴 대기 대신 계속 바쁘게 동작합니다

완성할 코드

Puzzle 16의 matmul 구현 패턴을 따라, 비동기 복사 연산으로 메모리 전송과 연산을 중첩하는 1D 합성곱을 구현하세요.

수학적 연산: 비동기 복사를 활용하여 대규모 벡터에 대한 1D 합성곱을 효율적으로 계산합니다: \[\text{output}[i] = \sum_{k=0}^{\text{KERNEL_SIZE}-1} \text{input}[i+k-\text{HALO_SIZE}] \times \text{kernel}[k]\]

비동기 복사 알고리즘:

비동기 타일 로딩: 입력 데이터의 백그라운드 DRAM→SRAM 전송 시작
중첩 연산: 입력 전송 중 작은 커널 데이터 로딩
동기화: 전송 완료 대기 후 공유 메모리를 사용하여 연산

comptime VECTOR_SIZE = 16384
comptime CONV_TILE_SIZE = 256
comptime KERNEL_SIZE = 5
comptime HALO_SIZE = KERNEL_SIZE // 2  # Halo elements needed for boundary
comptime BUFFER_SIZE = CONV_TILE_SIZE + 2 * HALO_SIZE  # Include halo for boundary conditions
comptime BLOCKS_PER_GRID_ASYNC = (
    VECTOR_SIZE + CONV_TILE_SIZE - 1
) // CONV_TILE_SIZE
comptime THREADS_PER_BLOCK_ASYNC = 256
comptime dtype = DType.float32
comptime layout_async = row_major[VECTOR_SIZE]()
comptime LayoutAsyncType = type_of(layout_async)
comptime kernel_layout = row_major[KERNEL_SIZE]()
comptime KernelLayoutType = type_of(kernel_layout)


def async_copy_overlap_convolution[
    dtype: DType
](
    output: TileTensor[mut=True, dtype, LayoutAsyncType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutAsyncType, ImmutAnyOrigin],
    kernel: TileTensor[mut=False, dtype, KernelLayoutType, ImmutAnyOrigin],
):
    """Demonstrates async copy operations building on p14 patterns.

    This shows how to use copy_dram_to_sram_async and async_copy_wait_all
    for efficient memory transfers, extending the patterns from p14 matmul.
    """

    # Shared memory buffers (like p14, but without .fill(0) to avoid race)
    var input_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[CONV_TILE_SIZE]())
    var kernel_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[KERNEL_SIZE]())

    # FILL IN HERE (roughly 19 lines)

전체 파일 보기: problems/p28/p28.mojo

팁

1. 비동기 복사 메커니즘 이해

비동기 복사 연산은 블록이 다른 코드를 계속 실행하는 동안 백그라운드 전송을 시작합니다.

탐구할 핵심 질문:

DRAM에서 공유 메모리로 어떤 데이터를 전송해야 하는가?
전송이 백그라운드에서 일어나는 동안 어떤 연산을 실행할 수 있는가?
하드웨어가 여러 동시 연산을 어떻게 조율하는가?

스레드 레이아웃 고려사항:

블록에는 THREADS_PER_BLOCK_ASYNC = 256개의 스레드가 있습니다
타일에는 CONV_TILE_SIZE = 256개의 요소가 있습니다
어떤 레이아웃 패턴이 최적의 메모리 병합을 보장하는가?

2. 중첩 기회 파악

목표는 유용한 연산 뒤에 메모리 지연 시간을 숨기는 것입니다.

분석 접근법:

어떤 연산이 순차적으로 vs. 병렬로 일어나야 하는가?
어떤 데이터 전송이 큰(비용이 높은) vs. 작은(비용이 낮은)가?
병렬 실행을 최대화하도록 알고리즘을 어떻게 구조화할 수 있는가?

메모리 계층 구조 고려사항:

큰 입력 타일: 256 요소 × 4 바이트 = 1KB 전송
작은 커널: 5 요소 × 4 바이트 = 20 바이트
어떤 전송이 비동기 최적화의 이점을 가장 많이 받는가?

3. 동기화 전략

적절한 동기화는 성능을 희생하지 않으면서 정확성을 보장합니다.

타이밍 분석:

각 연산이 실제로 데이터가 준비되어야 하는 시점은 언제인가?
정확성을 위해 필요한 최소한의 동기화는 무엇인가?
데이터 의존성을 유지하면서 불필요한 정체를 어떻게 피할 수 있는가?

경쟁 상태 방지:

전송이 완료되기 전에 연산이 시작되면 어떻게 되는가?
메모리 펜스와 배리어가 서로 다른 메모리 연산을 어떻게 조율하는가?

비동기 복사 중첩 테스트:

pixi run p28

pixi run -e amd p28

pixi run -e apple p28

uv run poe p28

솔루션

상세 설명이 포함된 전체 솔루션

비동기 복사 중첩 솔루션는 비용이 큰 DRAM 전송과 유용한 연산을 중첩하여 메모리 지연 시간을 숨기는 방법을 보여줍니다:

def async_copy_overlap_convolution[
    dtype: DType
](
    output: TileTensor[mut=True, dtype, AsyncLayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, AsyncLayoutType, MutAnyOrigin],
    kernel: LayoutTensor[dtype, kernel_layout, ImmutAnyOrigin],
):
    """Demonstrates async copy operations building on p14 patterns.

    This shows how to use copy_dram_to_sram_async and async_copy_wait_all
    for efficient memory transfers, extending the patterns from p14 matmul.
    """

    # Shared memory buffers (like p14, but without .fill(0) to avoid race)
    var input_shared = LayoutTensor[
        dtype,
        Layout.row_major(CONV_TILE_SIZE),
        MutAnyOrigin,
        address_space=AddressSpace.SHARED,
    ].stack_allocation()
    var kernel_shared = LayoutTensor[
        dtype,
        Layout.row_major(KERNEL_SIZE),
        MutAnyOrigin,
        address_space=AddressSpace.SHARED,
    ].stack_allocation()

    var local_i = thread_idx.x

    # Phase 1: Launch async copy for input tile
    # Note: tile() does NOT perform bounds checking - ensure valid tile bounds
    var input_tile = input.tile[CONV_TILE_SIZE](block_idx.x).to_layout_tensor()

    # Use async copy with thread layout matching p14 pattern
    comptime load_layout = Layout.row_major(THREADS_PER_BLOCK_ASYNC)
    copy_dram_to_sram_async[thread_layout=load_layout](input_shared, input_tile)

    # Phase 2: Load kernel synchronously (small data)
    if local_i < KERNEL_SIZE:
        kernel_shared[local_i] = kernel[local_i]

    # Phase 3: Wait for async copy to complete
    async_copy_wait_all()  # Always wait since we always do async copy
    barrier()  # Sync all threads

    # Phase 4: Compute convolution
    var global_i = block_idx.x * CONV_TILE_SIZE + local_i
    if local_i < CONV_TILE_SIZE and global_i < Int(output.dim[0]()):
        var result: output.ElementType = 0

        # Simple convolution avoiding boundary issues
        if local_i >= HALO_SIZE and local_i < CONV_TILE_SIZE - HALO_SIZE:
            # Full convolution for center elements
            for k in range(KERNEL_SIZE):
                var input_idx = local_i + k - HALO_SIZE
                if input_idx >= 0 and input_idx < CONV_TILE_SIZE:
                    result += rebind[Scalar[dtype]](
                        input_shared[input_idx]
                    ) * rebind[Scalar[dtype]](kernel_shared[k])
        else:
            # For boundary elements, just copy input (no convolution)
            result = rebind[Scalar[dtype]](input_shared[local_i])

        output[global_i] = result

단계별 분석

Phase 1: 비동기 복사 시작

# Phase 1: Launch async copy for input tile
input_tile = input.tile[CONV_TILE_SIZE](block_idx.x)
comptime load_layout = row_major[THREADS_PER_BLOCK_ASYNC]()
copy_dram_to_sram_async[thread_layout=load_layout](input_shared, input_tile)

타일 생성: input.tile[CONV_TILE_SIZE](block_idx.x)는 block_idx.x * 256에서 시작하는 256개 요소의 입력 배열 뷰를 생성합니다. Mojo의 tile 메서드는 경계 검사나 제로 패딩을 수행하지 않습니다. 범위를 벗어난 인덱스 접근은 미정의 동작을 초래합니다. 구현에서 타일 크기와 offset이 유효한 배열 범위 내에 있는지 확인해야 합니다.
스레드 레이아웃: row_major[THREADS_PER_BLOCK_ASYNC, 1]()는 블록 구성과 일치하는 256 x 1 레이아웃을 생성합니다. 이것은 필수입니다 - 최적의 병합된 메모리 접근을 위해 레이아웃이 물리적 스레드 배치와 일치해야 합니다. 레이아웃이 일치하지 않으면 스레드가 비연속적인 메모리 주소에 접근하여 병합이 깨지고 성능이 심각하게 저하됩니다.
비동기 복사 시작: copy_dram_to_sram_async는 DRAM에서 공유 메모리로의 백그라운드 전송을 시작합니다. 하드웨어가 256개의 float(1KB)를 복사하는 동안 블록은 계속 실행됩니다.

Phase 2: 중첩 연산

# Phase 2: Load kernel synchronously (small data)
if local_i < KERNEL_SIZE:
    kernel_shared[local_i] = kernel[local_i]

동시 실행: 1KB 입력 타일이 백그라운드에서 전송되는 동안, 스레드들은 작은 20바이트 커널을 동기식으로 로딩합니다. 이 중첩이 핵심 최적화입니다.
크기 기반 전략: 큰 전송(입력 타일)은 비동기 복사를, 작은 전송(커널)은 동기식 로딩을 사용합니다. 이는 복잡성과 성능 이점의 균형을 맞춥니다.

Phase 3: 동기화

# Phase 3: Wait for async copy to complete
async_copy_wait_all()  # Always wait since we always do async copy
barrier()  # Sync all threads

전송 완료: async_copy_wait_all()은 모든 비동기 전송이 완료될 때까지 대기합니다. input_shared에 접근하기 전에 반드시 필요합니다.
스레드 동기화: barrier()는 모든 스레드가 연산으로 넘어가기 전에 완료된 전송을 확인하도록 보장합니다.

Phase 4: 연산

# Phase 4: Compute convolution
global_i = block_idx.x * CONV_TILE_SIZE + local_i
if local_i < CONV_TILE_SIZE and global_i < output.shape[0]():
    var result: output.element_type = 0

    if local_i >= HALO_SIZE and local_i < CONV_TILE_SIZE - HALO_SIZE:
        # Full convolution for center elements
        for k in range(KERNEL_SIZE):
            input_idx = local_i + k - HALO_SIZE
            if input_idx >= 0 and input_idx < CONV_TILE_SIZE:
                result += input_shared[input_idx] * kernel_shared[k]
    else:
        # For boundary elements, just copy input (no convolution)
        result = input_shared[local_i]

    output[global_i] = result

빠른 공유 메모리 접근: 모든 연산이 미리 로드된 공유 메모리 데이터를 사용하여, 연산 집약적인 합성곱 루프에서 느린 DRAM 접근을 피합니다.
단순화된 경계 처리: 이 구현은 타일 경계 근처 요소를 처리하기 위해 실용적인 접근 방식을 사용합니다:
- 중심 요소 (local_i >= HALO_SIZE이고 local_i < CONV_TILE_SIZE - HALO_SIZE): 공유 메모리 데이터를 사용하여 전체 5점 합성곱 적용
- 경계 요소 (각 타일의 처음 2개와 마지막 2개 요소): 복잡한 경계 로직을 피하기 위해 합성곱 없이 입력을 직접 복사

교육적 근거: 이 접근 방식은 복잡한 경계 처리보다 비동기 복사 패턴 시연을 우선시합니다. HALO_SIZE = 2인 256개 요소 타일에서, 요소 0-1과 254-255는 입력 복사를, 요소 2-253은 전체 합성곱을 사용합니다. 이를 통해 동작하는 구현을 제공하면서 메모리 최적화에 초점을 유지합니다.

성능 분석

비동기 복사 없이 (동기식):

Total Time = Input_Transfer_Time + Kernel_Transfer_Time + Compute_Time
           = Large_DRAM_transfer + Small_DRAM_transfer + convolution
           = Major_latency + Minor_latency + computation_work

비동기 복사 사용 (중첩):

Total Time = MAX(Input_Transfer_Time, Kernel_Transfer_Time) + Compute_Time
           = MAX(Major_latency, Minor_latency) + computation_work
           = Major_latency + computation_work

성능 향상: 더 큰 입력 전송 뒤에 더 작은 커널 전송의 지연 시간을 숨김으로써 성능이 향상됩니다. 실제 성능 향상 폭은 전송의 상대적 크기와 사용 가능한 메모리 대역폭에 따라 달라집니다. 더 큰 중첩이 가능한 메모리 바운드 시나리오에서는 성능 향상이 훨씬 클 수 있습니다.

핵심 기술적 통찰

스레드 레이아웃 매칭: row_major[256, 1]() 레이아웃이 블록의 (256, 1) 스레드 구성과 정확히 일치하여 최적의 메모리 병합을 가능하게 합니다.
경쟁 상태 방지: 적절한 순서 지정(비동기 복사 → 커널 로드 → 대기 → 배리어 → 연산)으로 공유 메모리를 손상시킬 수 있는 모든 경쟁 상태를 제거합니다.
하드웨어 최적화: 최신 GPU는 비동기 복사 연산을 위한 전용 하드웨어를 갖추고 있어, 메모리 유닛과 연산 유닛 사이의 진정한 병렬 처리가 가능합니다.
메모리 계층 구조 활용: 이 패턴은 데이터를 계층 구조를 통해 효율적으로 이동시킵니다: DRAM → 공유 메모리 → 레지스터 → 연산.
테스트-구현 일관성: 테스트 검증 로직은 local_i_in_tile = i % CONV_TILE_SIZE를 검사하여 각 요소가 합성곱 결과(중심 요소)를 기대해야 하는지 입력 복사(경계 요소)를 기대해야 하는지 판별하며, 경계 처리 전략과 일치합니다. 이를 통해 단순화된 경계 접근 방식의 정확한 검증을 보장합니다.

이 솔루션는 단순한 메모리 바운드 합성곱을 유용한 작업 뒤에 메모리 지연 시간을 숨기는 최적화된 구현으로 변환하여, 고성능 GPU 프로그래밍의 기본 원리를 보여줍니다.

Puzzle 29: GPU 동기화 기본 요소

단순한 병렬 처리를 넘어서

이 장에서는 스레드 간 정밀한 조율이 필요한 복잡한 GPU 알고리즘을 가능하게 하는 동기화 패턴을 소개합니다. 단순한 병렬 연산에 초점을 맞춘 이전 퍼즐들과 달리, 이 챌린지들은 실제 GPU 소프트웨어에서 사용되는 아키텍처 접근 방식을 탐구합니다.

학습 내용:

스레드 특화: 하나의 블록 안에서 서로 다른 스레드 그룹이 각각 다른 알고리즘을 실행

생산자-소비자 파이프라인: 명시적 데이터 의존성을 가진 다단계 처리

고급 배리어 API: 기본 barrier() 호출을 넘어선 세밀한 동기화 제어

메모리 배리어 조정: 메모리 가시성과 순서에 대한 명시적 제어

반복 알고리즘 패턴: 복잡한 연산을 위한 더블 버퍼링과 파이프라인 조정

왜 중요한가: 대부분의 GPU 튜토리얼은 단순한 데이터 병렬 패턴을 가르치지만, 실제 애플리케이션에서는 서로 다른 처리 단계, 메모리 접근 패턴, 알고리즘 단계 간의 정교한 조율이 필요합니다. 이 퍼즐들은 학술적 예제와 실제 GPU 컴퓨팅 사이의 간극을 메워줍니다.

개요

GPU 동기화는 복잡한 병렬 알고리즘이 올바르고 효율적으로 동작하게 하는 토대입니다. 이 장에서는 고성능 GPU 컴퓨팅 전반에 걸쳐 나타나는 세 가지 기본적인 동기화 패턴인 파이프라인 조정, 메모리 배리어 관리, 스트리밍 연산을 탐구합니다.

핵심 학습 목표:

서로 다른 동기화 기본 요소가 언제, 왜 필요한지 이해
적절한 스레드 특화를 통한 다단계 알고리즘 설계
정밀한 메모리 조정이 필요한 반복 패턴 구현
정확성을 보장하면서 동기화 오버헤드 최적화

아키텍처 진행 구조: 이 퍼즐들은 기본적인 파이프라인 조정부터 고급 메모리 배리어 관리까지, 그리고 최종적으로 고처리량 애플리케이션에서 사용되는 스트리밍 연산 패턴까지 단계적으로 진행되도록 설계되었습니다.

핵심 개념

스레드 조율 패러다임:

단순 병렬 처리: 모든 스레드가 동일한 연산을 수행 (이전 퍼즐들)
특화 병렬 처리: 서로 다른 스레드 그룹이 각각 다른 알고리즘을 수행 (이 장)
파이프라인 병렬 처리: 생산자-소비자 관계를 가진 순차적 단계
반복 병렬 처리: 신중한 버퍼 관리를 수반하는 다중 패스

동기화 기본 요소의 계층 구조:

기본 barrier(): 블록 내 단순 스레드 동기화
고급 mbarrier API: 상태 추적을 지원하는 세밀한 메모리 배리어 제어
스트리밍 조정: 비동기 복사 및 대량 전송 동기화

메모리 일관성 모델:

공유 메모리 조정: 스레드 간 통신을 위한 빠른 온칩 메모리
전역 메모리 순서 보장: 서로 다른 메모리 공간에 걸쳐 쓰기의 가시성 보장
버퍼 관리: 반복 알고리즘을 위한 더블 버퍼링과 핑퐁 패턴

구성

시스템 아키텍처:

블록 크기: 최적의 점유율을 위해 블록당 TPB = 256 스레드
그리드 구성: 각각 서로 다른 데이터 타일을 처리하는 다수의 블록
메모리 계층 구조: 공유 메모리, 레지스터, 전역 메모리의 전략적 활용
데이터 타입: 수치 연산을 위한 DType.float32

다루는 동기화 패턴:

다단계 파이프라인: 배리어 조정을 활용한 스레드 특화
더블 버퍼링 반복: 반복 알고리즘을 위한 메모리 배리어 관리
스트리밍 연산: 고처리량 처리를 위한 비동기 복사 조정

성능 고려사항:

동기화 오버헤드: 서로 다른 배리어 유형의 비용 이해
메모리 대역폭: 최대 처리량을 위한 접근 패턴 최적화
스레드 활용도: 특화된 역할과 전체 효율성 간의 균형

퍼즐 구성

이 장에는 서로를 기반으로 발전하는 세 개의 연결된 퍼즐이 포함되어 있습니다:

다단계 파이프라인 조정

초점: 스레드 특화와 파이프라인 아키텍처

하나의 블록 안에서 서로 다른 스레드 그룹이 완전히 다른 알고리즘을 실행하는 GPU 커널을 설계하는 방법을 배웁니다. 이 퍼즐에서는 생산자-소비자 관계와 서로 다른 알고리즘 단계 간의 전략적 배리어 배치를 소개합니다.

핵심 개념:

스레드 역할 특화 (Stage 1: 로드, Stage 2: 처리, Stage 3: 출력)
처리 단계 간 생산자-소비자 데이터 흐름
서로 다른 알고리즘 사이의 전략적 배리어 배치

실제 응용 분야: 이미지 처리 파이프라인, 다단계 과학 연산, 신경망 레이어 조정

더블 버퍼링 스텐실 연산

초점: 고급 메모리 배리어 API와 반복 처리

정밀한 메모리 조정이 필요한 반복 알고리즘을 위해 mbarrier API를 사용한 세밀한 동기화 제어를 탐구합니다. 이 퍼즐은 반복법과 시뮬레이션 알고리즘에 필수적인 더블 버퍼링 패턴을 보여줍니다.

핵심 개념:

고급 mbarrier API vs 기본 barrier()
읽기/쓰기 버퍼 역할을 교대하는 더블 버퍼링
명시적 메모리 배리어를 사용한 반복 알고리즘 조정

실제 응용 분야: 반복법 (Jacobi, Gauss-Seidel), 셀룰러 오토마타, 시뮬레이션 시간 스텝

시작하기

권장 학습 순서:

파이프라인 조정부터 시작: 스레드 특화의 기초 이해
메모리 배리어로 진행: 세밀한 동기화 제어 학습
스트리밍 패턴에 적용: 고처리량 애플리케이션을 위한 개념 결합

사전 준비:

기본 GPU 프로그래밍 개념 (스레드, 블록, 공유 메모리)에 대한 이해
메모리 계층 구조와 접근 패턴에 대한 이해
이전 퍼즐에서 배운 배리어 동기화에 대한 친숙함

학습 성과: 이 장을 완료하면, 정밀한 조율이 필요한 정교한 GPU 알고리즘을 설계하고 구현할 수 있는 토대를 갖추게 되어, 실제 GPU 컴퓨팅 애플리케이션에서 마주하는 아키텍처적 복잡성에 대비할 수 있습니다.

시작할 준비가 되셨나요? 다단계 파이프라인 조정 에서 스레드 특화의 기본을 배운 다음, 더블 버퍼링 스텐실 연산 으로 나아가 고급 메모리 배리어 기법을 탐구해 보세요.

다단계 파이프라인 조정

개요

조율된 3단계 파이프라인을 통해 이미지를 처리하는 커널을 구현합니다. 서로 다른 스레드 그룹이 특화된 처리 단계를 담당하고, 명시적 배리어로 동기화됩니다.

참고: 스레드 역할이 특화되어 있습니다: Stage 1 (스레드 0-127)은 데이터를 로드하고 전처리하며, Stage 2 (스레드 128-255)는 블러 연산을 적용하고, Stage 3 (전체 스레드)은 최종 스무딩을 수행합니다.

알고리즘 아키텍처: 이 퍼즐은 하나의 GPU 블록 안에서 서로 다른 스레드 그룹이 완전히 다른 알고리즘을 실행하는 생산자-소비자 파이프라인을 구현합니다. 모든 스레드가 서로 다른 데이터에 대해 동일한 알고리즘을 실행하는 전통적인 GPU 프로그래밍과 달리, 이 접근 방식은 스레드를 기능별로 특화하여 분할합니다.

파이프라인 개념: 알고리즘은 세 개의 구분된 단계를 통해 데이터를 처리하며, 각 단계에는 서로 다른 알고리즘을 실행하는 특화된 스레드 그룹이 있습니다. 각 단계는 다음 단계가 소비하는 데이터를 생성하여, 배리어로 신중하게 동기화해야 하는 명시적 생산자-소비자 관계를 만듭니다.

데이터 의존성과 동기화: 각 단계는 다음 단계가 소비하는 데이터를 생성합니다:

Stage 1 → Stage 2: 첫 번째 단계가 블러 처리를 위한 전처리 데이터를 생성
Stage 2 → Stage 3: 두 번째 단계가 최종 스무딩을 위한 블러 결과를 생성
배리어가 경쟁 상태를 방지: 의존하는 단계가 시작되기 전에 해당 단계가 완전히 완료되도록 보장

구체적으로, 다단계 파이프라인은 세 가지 수학 연산으로 구성된 조율된 이미지 처리 알고리즘을 구현합니다:

Stage 1 - 전처리 강화:

\[P[i] = I[i] \times 1.1\]

여기서 $P[i]$는 전처리된 데이터이고 $I[i]$는 입력 데이터입니다.

Stage 2 - 수평 블러 필터:

\[B[i] = \frac{1}{N_i} \sum_{k=-2}^{2} P[i+k] \quad \text{where} i+k \in [0, 255]\]

여기서 $B[i]$는 블러 결과이고, $N_i$는 타일 경계 내의 유효한 이웃 수입니다.

Stage 3 - 연쇄적 이웃 스무딩:

\[F[i] = \begin{cases} (B[i] + B[i+1]) \times 0.6 & \text{if } i = 0 \\ ((B[i] + B[i-1]) \times 0.6 + B[i+1]) \times 0.6 & \text{if } 0 < i < 255 \\ (B[i] + B[i-1]) \times 0.6 & \text{if } i = 255 \end{cases}\]

여기서 $F[i]$는 연쇄적 스무딩이 적용된 최종 출력입니다.

스레드 특화:

스레드 0-127: $i \in \{0, 1, 2, \ldots, 255\}$에 대해 $P[i]$ 계산 (스레드당 2개 요소)
스레드 128-255: $i \in \{0, 1, 2, \ldots, 255\}$에 대해 $B[i]$ 계산 (스레드당 2개 요소)
전체 256개 스레드: $i \in \{0, 1, 2, \ldots, 255\}$에 대해 $F[i]$ 계산 (스레드당 1개 요소)

동기화 지점:

\[\text{barrier}_1 \Rightarrow P[i] \text{ complete} \Rightarrow \text{barrier}_2 \Rightarrow B[i] \text{ complete} \Rightarrow \text{barrier}_3 \Rightarrow F[i] \text{ complete}\]

핵심 개념

이 퍼즐에서는 다음을 배웁니다:

하나의 GPU 블록 안에서 스레드 역할 특화 구현
처리 단계 간 생산자-소비자 관계 조율
서로 다른 알고리즘 간의 동기화를 위한 배리어 사용 (동일한 알고리즘 내부뿐 아니라)

핵심 통찰은 서로 다른 스레드 그룹이 완전히 다른 알고리즘을 실행하면서 전략적 배리어 배치를 통해 조율되는 다단계 파이프라인을 어떻게 설계하는지 이해하는 것입니다.

왜 중요한가: 대부분의 GPU 튜토리얼은 단일 알고리즘 내에서의 배리어 사용법 - 리덕션이나 공유 메모리 연산 중 스레드를 동기화하는 것 - 을 가르칩니다. 하지만 실제 GPU 알고리즘에서는 신중하게 조율해야 하는 여러 개의 구분된 처리 단계를 포함하는 아키텍처적 복잡성이 필요한 경우가 많습니다. 이 퍼즐은 단일체적 알고리즘을 특화되고 조율된 처리 파이프라인으로 변환하는 방법을 보여줍니다.

이전 퍼즐과 현재의 배리어 사용 비교:

이전 퍼즐 (P8, P12, P15): 모든 스레드가 동일한 알고리즘을 실행하고, 배리어는 알고리즘 단계 내에서 동기화
이 퍼즐: 서로 다른 스레드 그룹이 서로 다른 알고리즘을 실행하고, 배리어는 서로 다른 알고리즘 간의 조율

스레드 특화 아키텍처: 스레드가 데이터 인덱스만 다른 데이터 병렬 처리와 달리, 이 퍼즐은 파이프라인에서의 역할에 따라 스레드가 근본적으로 다른 코드 경로를 실행하는 알고리즘 병렬 처리를 구현합니다.

구성

시스템 매개변수:

이미지 크기: SIZE = 1024 요소 (간소화를 위해 1D)
블록당 스레드 수: TPB = 256 스레드, (256, 1) 블록 차원으로 구성
그리드 구성: 전체 이미지를 타일 단위로 처리하기 위한 (4, 1) 블록 (총 4개 블록)
데이터 타입: 모든 연산에 DType.float32

스레드 특화 아키텍처:

Stage 1 스레드: STAGE1_THREADS = 128 (스레드 0-127, 블록의 전반부)
- 역할: 전역 메모리에서 입력 데이터를 로드하고 전처리 적용
- 작업 분배: 효율적인 부하 균형을 위해 스레드당 2개 요소 처리
- 출력: input_shared[256]에 전처리된 데이터 채우기
Stage 2 스레드: STAGE2_THREADS = 128 (스레드 128-255, 블록의 후반부)
- 역할: 전처리된 데이터에 수평 블러 필터 적용
- 작업 분배: 스레드당 2개의 블러 연산 처리
- 출력: blur_shared[256]에 블러 결과 채우기
Stage 3 스레드: 전체 256개 스레드 협력
- 역할: 최종 스무딩 및 전역 메모리로 출력
- 작업 분배: 일대일 매핑 (스레드 i가 요소 i를 처리)
- 출력: 글로벌 output 배열에 최종 결과 기록

완성할 코드


comptime TPB = 256  # Threads per block for pipeline stages
comptime SIZE = 1024  # Image size (1D for simplicity)
comptime BLOCKS_PER_GRID = (4, 1)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)

# Multi-stage processing configuration
comptime STAGE1_THREADS = TPB // 2
comptime STAGE2_THREADS = TPB // 2
comptime BLUR_RADIUS = 2


def multi_stage_image_blur_pipeline(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Multi-stage image blur pipeline with barrier coordination.

    Stage 1 (threads 0-127): Load input data and apply 1.1x preprocessing
    Stage 2 (threads 128-255): Apply 5-point blur with BLUR_RADIUS=2
    Stage 3 (all threads): Final neighbor smoothing and output
    """

    # Shared memory buffers for pipeline stages
    var input_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    var blur_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Stage 1: Load and preprocess (threads 0-127)

    # FILL ME IN (roughly 10 lines)

    barrier()  # Wait for Stage 1 completion

    # Stage 2: Apply blur (threads 128-255)

    # FILL ME IN (roughly 25 lines)

    barrier()  # Wait for Stage 2 completion

    # Stage 3: Final smoothing (all threads)

    # FILL ME IN (roughly 7 lines)

    barrier()  # Ensure all writes complete

전체 파일 보기: problems/p29/p29.mojo

팁

스레드 역할 식별

스레드 인덱스 비교를 통해 각 스레드가 어떤 단계를 실행해야 하는지 결정
Stage 1: 전반부 스레드 (스레드 0-127)
Stage 2: 후반부 스레드 (스레드 128-255)
Stage 3: 모든 스레드 참여

Stage 1 접근 방식

적절한 인덱스 비교를 통해 Stage 1 스레드 식별
부하 균형을 위해 각 스레드가 여러 요소를 처리
전처리 강화 계수 적용
제로 패딩을 사용한 적절한 경계 처리 구현

Stage 2 접근 방식

Stage 2 스레드를 식별하고 인덱스를 처리 범위에 매핑
이웃 요소의 평균을 구하는 블러 커널 구현
유효한 이웃만 포함하여 경계 조건 처리
효율성을 위해 스레드당 여러 요소 처리

Stage 3 접근 방식

모든 스레드가 최종 처리에 참여
지정된 스케일링 계수를 사용한 이웃 스무딩 적용
이웃이 존재하지 않는 경우의 엣지 케이스 처리
경계 검사를 통해 글로벌 출력에 결과 기록

동기화 전략

경쟁 상태를 방지하기 위해 단계 사이에 배리어 배치
의존하는 단계가 시작되기 전에 각 단계가 완료되도록 보장
블록 종료 전 완료를 보장하기 위해 최종 배리어 사용

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령을 실행합니다:

pixi run p29 --multi-stage

pixi run -e amd p29 --multi-stage

uv run poe p29 --multi-stage

퍼즐을 성공적으로 완료하면 다음과 유사한 출력이 표시됩니다:

Puzzle 29: GPU Synchronization Primitives
==================================================
TPB: 256
SIZE: 1024
STAGE1_THREADS: 128
STAGE2_THREADS: 128
BLUR_RADIUS: 2

Testing Puzzle 29A: Multi-Stage Pipeline Coordination
============================================================
Multi-stage pipeline blur completed
Input sample: 0.0 1.01 2.02
Output sample: 1.6665002 2.3331003 3.3996604
✅ Multi-stage pipeline coordination test PASSED!

솔루션

def multi_stage_image_blur_pipeline(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
    size: Int,
):
    """Multi-stage image blur pipeline with barrier coordination.

    Stage 1 (threads 0-127): Load input data and apply 1.1x preprocessing
    Stage 2 (threads 128-255): Apply 5-point blur with BLUR_RADIUS=2
    Stage 3 (all threads): Final neighbor smoothing and output
    """

    # Shared memory buffers for pipeline stages
    var input_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    var blur_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Stage 1: Load and preprocess (threads 0-127)
    if local_i < STAGE1_THREADS:
        if global_i < size:
            input_shared[local_i] = input[global_i] * 1.1
            # Each thread loads 2 elements
            if local_i + STAGE1_THREADS < size:
                input_shared[local_i + STAGE1_THREADS] = (
                    input[global_i + STAGE1_THREADS] * 1.1
                )
        else:
            # Zero-padding for out-of-bounds
            input_shared[local_i] = 0.0
            if local_i + STAGE1_THREADS < TPB:
                input_shared[local_i + STAGE1_THREADS] = 0.0

    barrier()  # Wait for Stage 1 completion

    # Stage 2: Apply blur (threads 128-255)
    if local_i >= STAGE1_THREADS:
        var blur_idx = local_i - STAGE1_THREADS
        var blur_sum: Scalar[dtype] = 0.0
        blur_count = 0

        # 5-point blur kernel
        for offset in range(-BLUR_RADIUS, BLUR_RADIUS + 1):
            sample_idx = blur_idx + offset
            if sample_idx >= 0 and sample_idx < TPB:
                blur_sum += rebind[Scalar[dtype]](input_shared[sample_idx])
                blur_count += 1

        if blur_count > 0:
            blur_shared[blur_idx] = blur_sum / Scalar[dtype](blur_count)
        else:
            blur_shared[blur_idx] = 0.0

        # Process second element
        var second_idx = blur_idx + STAGE1_THREADS
        if second_idx < TPB:
            blur_sum = 0.0
            blur_count = 0
            for offset in range(-BLUR_RADIUS, BLUR_RADIUS + 1):
                sample_idx = second_idx + offset
                if sample_idx >= 0 and sample_idx < TPB:
                    blur_sum += rebind[Scalar[dtype]](input_shared[sample_idx])
                    blur_count += 1

            if blur_count > 0:
                blur_shared[second_idx] = blur_sum / Scalar[dtype](blur_count)
            else:
                blur_shared[second_idx] = 0.0

    barrier()  # Wait for Stage 2 completion

    # Stage 3: Final smoothing (all threads)
    if global_i < size:
        final_value = blur_shared[local_i]

        # Neighbor smoothing with 0.6 scaling
        if local_i > 0:
            final_value = (final_value + blur_shared[local_i - 1]) * 0.6
        if local_i < TPB - 1:
            final_value = (final_value + blur_shared[local_i + 1]) * 0.6

        output[global_i] = final_value

    barrier()  # Ensure all writes complete

핵심 통찰은 이것이 스레드 역할 특화를 가진 파이프라인 아키텍처 문제임을 인식하는 것입니다:

단계별 스레드 그룹 설계: 데이터뿐만 아니라 기능별로 스레드를 분할
생산자-소비자 체인 구현: Stage 1이 Stage 2를 위해 생산하고, Stage 2가 Stage 3을 위해 생산
전략적 배리어 배치: 동일한 알고리즘 내가 아니라 서로 다른 알고리즘 간의 동기화
메모리 접근 패턴 최적화: 병합된 읽기와 효율적인 공유 메모리 사용 보장

상세 설명이 포함된 전체 솔루션

다단계 파이프라인 솔루션은 정교한 스레드 특화와 배리어 조정을 보여줍니다. 이 접근 방식은 전통적인 단일체적 GPU 알고리즘을 특화되고 조율된 처리 파이프라인으로 변환합니다.

파이프라인 아키텍처 설계

이 퍼즐의 근본적인 돌파구는 데이터가 아닌 역할에 의한 스레드 특화입니다:

전통적인 접근 방식: 모든 스레드가 서로 다른 데이터에 대해 동일한 알고리즘을 실행

모든 스레드가 동일한 연산을 수행 (리덕션이나 행렬 연산 등)
배리어는 동일한 알고리즘 단계 내에서 스레드를 동기화
스레드 역할은 처리하는 데이터 인덱스만 다름

이 퍼즐의 혁신: 서로 다른 스레드 그룹이 완전히 다른 알고리즘을 실행

스레드 0-127이 로딩 및 전처리 알고리즘을 실행
스레드 128-255가 블러 처리 알고리즘을 실행
모든 스레드가 최종 스무딩 알고리즘에 협력
배리어는 동일한 알고리즘 내가 아니라 서로 다른 알고리즘 간의 조율

생산자-소비자 조정

스레드가 동일한 알고리즘 내에서 동등한 역할을 하던 이전 퍼즐과 달리, 이 퍼즐은 명시적인 생산자-소비자 관계를 설정합니다:

Stage 1: 생산자 (Stage 2를 위한 전처리 데이터 생성)
Stage 2: 소비자 (Stage 1의 데이터 사용) + 생산자 (Stage 3을 위한 블러 데이터 생성)
Stage 3: 소비자 (Stage 2의 데이터 사용)

전략적 배리어 배치

배리어가 언제 필요하고 언제 낭비적인지 이해하기:

필요한 경우: 의존적인 단계 사이에서 경쟁 상태를 방지하기 위해
낭비적인 경우: 같은 단계의 독립적인 연산 내에서
성능 통찰: 각 배리어에는 비용이 있으므로 전략적으로 사용

핵심 동기화 지점:

Stage 1 이후: Stage 2가 불완전한 전처리 데이터를 읽는 것을 방지
Stage 2 이후: Stage 3이 불완전한 블러 결과를 읽는 것을 방지
Stage 3 이후: 블록 종료 전 모든 출력 쓰기가 완료되도록 보장

스레드 활용 패턴

Stage 1: 50% 활용 (256개 중 128개 스레드 활성, 128개 유휴)
Stage 2: 50% 활용 (128개 활성, 128개 유휴)
Stage 3: 100% 활용 (전체 256개 스레드 활성)

이것은 서로 다른 스레드 그룹이 조율된 파이프라인 내에서 서로 다른 연산 작업에 특화되는 정교한 알고리즘 병렬 처리를 보여주며, 단순한 데이터 병렬 처리를 넘어 실제 GPU 알고리즘에 필요한 아키텍처적 사고로 나아갑니다.

메모리 계층 구조 최적화

공유 메모리 아키텍처:

두 개의 특화된 버퍼가 단계 간 데이터 흐름을 처리
전역 메모리 접근은 경계 연산에만 최소화
모든 중간 처리에 빠른 공유 메모리 사용

접근 패턴의 이점:

Stage 1: 입력 로딩을 위한 병합된 전역 메모리 읽기
Stage 2: 블러 처리를 위한 빠른 공유 메모리 읽기
Stage 3: 출력을 위한 병합된 전역 메모리 쓰기

실제 응용 분야

이 파이프라인 아키텍처 패턴은 다음 분야의 기반이 됩니다:

이미지 처리 파이프라인:

다단계 필터 (블러, 선명화, 엣지 검출을 순차적으로)
색 공간 변환 (RGB → HSV → 처리 → RGB)
다중 알고리즘 패스를 사용한 노이즈 감소

과학 연산:

다단계 유한 차분 방법을 사용한 스텐실 연산
필터링, 변환, 분석 파이프라인을 사용한 신호 처리
다단계 솔버 반복을 사용한 전산 유체 역학

머신러닝:

서로 다른 연산을 위해 특화된 스레드 그룹을 가진 신경망 레이어
데이터 전처리 파이프라인 (조율된 단계에서 로드, 정규화, 증강)
서로 다른 스레드 그룹이 서로 다른 연산을 처리하는 배치 처리

핵심 기술적 통찰

알고리즘 병렬 처리 vs. 데이터 병렬 처리:

데이터 병렬 처리: 스레드가 서로 다른 데이터 요소에 동일한 코드를 실행
알고리즘 병렬 처리: 스레드가 특화된 역할에 따라 근본적으로 다른 알고리즘을 실행

배리어 사용 철학:

전략적 배치: 의존적인 단계 간의 경쟁 상태를 방지하기 위해 필요한 곳에만 배리어 배치
성능 고려사항: 각 배리어에는 동기화 오버헤드가 발생하므로 정확하지만 절제된 사용
정확성 보장: 적절한 배리어 배치로 스레드 실행 타이밍에 관계없이 결정적 결과를 보장

스레드 특화의 이점:

알고리즘 최적화: 각 단계를 해당 연산 패턴에 맞게 최적화 가능
메모리 접근 최적화: 서로 다른 단계에서 서로 다른 메모리 접근 전략 사용 가능
리소스 활용: 복잡한 알고리즘을 특화되고 효율적인 구성 요소로 분해 가능

이 솔루션은 복잡한 다단계 연산을 위해 스레드 특화와 전략적 동기화를 활용하는 정교한 GPU 알고리즘을 설계하는 방법을 보여주며, 단순한 병렬 루프를 넘어 실제 GPU 소프트웨어에서 사용되는 아키텍처적 접근 방식으로 나아갑니다.

더블 버퍼링 스텐실 연산

🔬 세밀한 동기화: mbarrier vs barrier()

이 퍼즐은 이전 퍼즐에서 사용한 기본 barrier() 함수보다 훨씬 강력한 제어를 제공하는 명시적 메모리 배리어 API를 소개합니다.

기본 barrier()의 한계:

일회성 사용: 상태 추적 없이 단일 동기화 지점만 제공

블록 전체 전용: 블록의 모든 스레드가 동시에 참여해야 함

재사용 불가: 매 barrier() 호출이 새로운 동기화 이벤트를 생성

세밀도 부족: 메모리 순서와 타이밍에 대한 제한적 제어

정적 조정: 스레드 참여 패턴의 변화에 적응 불가

고급 mbarrier API의 기능:

정밀한 제어: mbarrier_init()로 특정 스레드 수를 지정하여 재사용 가능한 배리어 객체를 설정

상태 추적: mbarrier_arrive()로 개별 스레드 완료를 알리고 도착 횟수를 유지

유연한 대기: mbarrier_test_wait()로 특정 완료 상태를 기다릴 수 있음

재사용 가능한 객체: 동일한 배리어를 여러 반복에 걸쳐 재초기화하고 재사용 가능

다중 배리어: 서로 다른 동기화 지점(초기화, 반복, 마무리)에 서로 다른 배리어 객체 사용

하드웨어 최적화: GPU 하드웨어 동기화 기본 요소에 직접 매핑하여 더 나은 성능

메모리 의미론: 메모리 가시성과 순서 보장에 대한 명시적 제어

반복 알고리즘에서 왜 중요한가: 더블 버퍼링 패턴에서는 버퍼 교체 단계 간의 정밀한 조정이 필요합니다. 기본 barrier()로는 다음에 필요한 세밀한 제어를 제공할 수 없습니다:

버퍼 역할 교대: buffer_A에 대한 모든 쓰기가 완료된 후에야 buffer_A에서 읽기 시작되도록 보장

반복 경계: 단일 커널 내에서 여러 동기화 지점 조율

상태 관리: 어떤 스레드가 어떤 처리 단계를 완료했는지 추적

성능 최적화: 재사용 가능한 배리어 객체를 통해 동기화 오버헤드 최소화

이 퍼즐은 반복법, 시뮬레이션 프레임워크, 고성능 이미지 처리 파이프라인 등 실제 GPU 컴퓨팅 애플리케이션에서 사용되는 동기화 패턴을 보여줍니다.

개요

더블 버퍼링 공유 메모리를 사용하여 반복 스텐실 연산을 수행하는 커널을 구현합니다. 반복 간 안전한 버퍼 교체를 보장하기 위해 명시적 메모리 배리어로 조정합니다. 스텐실 연산은 배열의 각 요소 값을 이웃 요소들의 고정된 패턴을 기반으로 계산하는 연산 패턴입니다.

참고: 버퍼 역할이 교대합니다: buffer_A와 buffer_B가 매 반복마다 읽기와 쓰기 연산을 교대하며, mbarrier 동기화가 버퍼 교체 전에 모든 스레드의 쓰기 완료를 보장합니다.

알고리즘 아키텍처: 이 퍼즐은 두 개의 공유 메모리 버퍼가 여러 반복에 걸쳐 읽기와 쓰기 대상의 역할을 교대하는 더블 버퍼링 패턴을 구현합니다. 데이터를 한 번만 처리하는 단순한 스텐실 연산과 달리, 이 접근 방식은 버퍼 전환 중 경쟁 상태를 방지하기 위한 세심한 메모리 배리어 조정과 함께 반복적 개선을 수행합니다.

파이프라인 개념: 알고리즘은 반복적 스텐실 개선을 통해 데이터를 처리합니다. 각 반복은 하나의 버퍼에서 읽고 다른 버퍼에 쓰며, 버퍼들은 매 반복마다 역할을 교대하여 데이터 손상 없이 연속 처리를 가능하게 하는 핑퐁 패턴을 만듭니다.

데이터 의존성과 동기화: 각 반복은 이전 반복의 완성된 결과에 의존합니다:

반복 N → 반복 N+1: 현재 반복이 다음 반복이 소비하는 개선된 데이터를 생성
버퍼 조정: 읽기와 쓰기 버퍼가 매 반복마다 역할을 교환
메모리 배리어가 경쟁 상태를 방지: 새로 기록된 버퍼에서 읽기를 시작하기 전에 모든 쓰기가 완료되도록 보장

구체적으로, 더블 버퍼링 스텐실은 세 가지 수학 연산으로 구성된 반복적 스무딩 알고리즘을 구현합니다:

반복 패턴 - 버퍼 교대:

\[\text{Iteration} i: \begin{cases} \text{Read from buffer_A, Write to buffer_B} & \text{if} i \bmod 2 = 0 \\ \text{Read from buffer_B, Write to buffer_A} & \text{if } i \bmod 2 = 1 \end{cases}\]

스텐실 연산 - 3점 평균:

\[S^{(i+1)}[j] = \frac{1}{N_j} \sum_{k=-1}^{1} S^{(i)}[j+k] \quad \text{where} j+k \in [0, 255]\]

여기서 $S^{(i)}[j]$는 반복 $i$ 이후 위치 $j$에서의 스텐실 값이고, $N_j$는 유효한 이웃 수입니다.

메모리 배리어 조정:

\[\text{mbarrier_arrive}() \Rightarrow \text{mbarrier_test_wait}() \Rightarrow \text{buffer swap} \Rightarrow \text{next iteration}\]

최종 출력 선택:

\[\text{Output}[j] = \begin{cases} \text{buffer_A}[j] & \text{if STENCIL_ITERATIONS } \bmod 2 = 0 \\ \text{buffer_B}[j] & \text{if STENCIL_ITERATIONS } \bmod 2 = 1 \end{cases}\]

핵심 개념

이 퍼즐에서는 다음을 배웁니다:

반복 알고리즘을 위한 더블 버퍼링 패턴 구현
mbarrier API를 사용한 명시적 메모리 배리어 조정
반복에 걸쳐 교대하는 읽기/쓰기 버퍼 역할 관리

핵심 통찰은 읽기와 쓰기 연산 사이의 경쟁 상태가 적절히 동기화되지 않으면 데이터를 손상시킬 수 있는 반복 알고리즘에서 버퍼 교체를 안전하게 조율하는 방법을 이해하는 것입니다.

왜 중요한가: 대부분의 GPU 튜토리얼은 단순한 단일 패스 알고리즘을 보여주지만, 실제 애플리케이션에서는 데이터에 대한 다중 패스를 수행하는 반복적 개선이 필요한 경우가 많습니다. 더블 버퍼링은 각 반복이 이전 반복의 완성된 결과에 의존하는 반복법, 이미지 처리 필터, 시뮬레이션 업데이트 같은 알고리즘에 필수적입니다.

이전 퍼즐과 현재의 동기화 비교:

이전 퍼즐 (P8, P12, P15): 단일 패스 알고리즘을 위한 단순 barrier() 호출
이 퍼즐: 버퍼 교체 타이밍에 대한 정밀한 제어를 위한 명시적 mbarrier API

메모리 배리어 특화: 기본적인 스레드 동기화와 달리, 이 퍼즐은 메모리 연산이 언제 완료되는지에 대한 세밀한 제어를 제공하는 명시적 메모리 배리어를 사용하며, 이는 복잡한 메모리 접근 패턴에 필수적입니다.

구성

시스템 매개변수:

이미지 크기: SIZE = 1024 요소 (간소화를 위해 1D)
블록당 스레드 수: TPB = 256 스레드, (256, 1) 블록 차원으로 구성
그리드 구성: 전체 이미지를 타일 단위로 처리하기 위한 (4, 1) 블록 (총 4개 블록)
데이터 타입: 모든 연산에 DType.float32

반복 매개변수:

스텐실 반복 횟수: STENCIL_ITERATIONS = 3 개선 패스
버퍼 수: BUFFER_COUNT = 2 (더블 버퍼링)
스텐실 커널: 반지름 1의 3점 평균

버퍼 아키텍처:

buffer_A: 주 공유 메모리 버퍼 ([256] 요소)
buffer_B: 보조 공유 메모리 버퍼 ([256] 요소)
역할 교대: 매 반복마다 버퍼가 읽기 소스와 쓰기 대상 사이를 교체

처리 요구사항:

초기화 단계:

버퍼 설정: buffer_A를 입력 데이터로, buffer_B를 0으로 초기화
배리어 초기화: 동기화 지점을 위한 mbarrier 객체 설정
스레드 조정: 모든 스레드가 초기화에 참여

반복 처리:

짝수 반복 (0, 2, 4…): buffer_A에서 읽고 buffer_B에 쓰기
홀수 반복 (1, 3, 5…): buffer_B에서 읽고 buffer_A에 쓰기
스텐실 연산: 3점 평균 $(\text{left} + \text{center} + \text{right}) / 3$
경계 처리: 버퍼 가장자리의 요소에 대해 적응적 평균 사용

메모리 배리어 조정:

mbarrier_arrive(): 각 스레드가 쓰기 단계 완료를 알림
mbarrier_test_wait(): 모든 스레드가 쓰기를 완료할 때까지 대기
버퍼 교체 안전성: 다른 스레드가 아직 쓰고 있는 동안 버퍼에서 읽는 것을 방지
배리어 재초기화: 반복 간에 배리어 상태를 재설정

출력 단계:

최종 버퍼 선택: 반복 횟수의 홀짝에 따라 활성 버퍼 선택
전역 메모리 쓰기: 최종 결과를 출력 배열에 복사
완료 배리어: 블록 종료 전 모든 쓰기 완료 보장

완성할 코드


# Double-buffered stencil configuration
comptime STENCIL_ITERATIONS = 3
comptime BUFFER_COUNT = 2


def double_buffered_stencil_computation(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Double-buffered stencil computation with memory barrier coordination.

    Iteratively applies 3-point stencil using alternating buffers.
    Uses mbarrier APIs for precise buffer swap coordination.
    """

    # Double-buffering: Two shared memory buffers
    var buffer_A = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    var buffer_B = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    # Memory barriers for coordinating buffer swaps
    var init_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())
    var iter_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())
    var final_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Initialize barriers (only thread 0)
    if local_i == 0:
        mbarrier_init(init_barrier.ptr, TPB)
        mbarrier_init(iter_barrier.ptr, TPB)
        mbarrier_init(final_barrier.ptr, TPB)

    # Initialize buffer_A with input data

    # FILL ME IN (roughly 4 lines)

    # Wait for buffer_A initialization
    _ = mbarrier_arrive(init_barrier.ptr)
    _ = mbarrier_test_wait(init_barrier.ptr, TPB)

    # Iterative stencil processing with double-buffering
    comptime for iteration in range(STENCIL_ITERATIONS):
        comptime if iteration % 2 == 0:
            # Even iteration: Read from A, Write to B

            # FILL ME IN (roughly 12 lines)
            ...

        else:
            # Odd iteration: Read from B, Write to A

            # FILL ME IN (roughly 12 lines)
            ...

        # Memory barrier: wait for all writes before buffer swap
        _ = mbarrier_arrive(iter_barrier.ptr)
        _ = mbarrier_test_wait(iter_barrier.ptr, TPB)

        # Reinitialize barrier for next iteration
        if local_i == 0:
            mbarrier_init(iter_barrier.ptr, TPB)

    # Write final results from active buffer
    if local_i < TPB and global_i < size:
        comptime if STENCIL_ITERATIONS % 2 == 0:
            # Even iterations end in buffer_A
            output[global_i] = buffer_A[local_i]
        else:
            # Odd iterations end in buffer_B
            output[global_i] = buffer_B[local_i]

    # Final barrier
    _ = mbarrier_arrive(final_barrier.ptr)
    _ = mbarrier_test_wait(final_barrier.ptr, TPB)

전체 파일 보기: problems/p29/p29.mojo

팁

버퍼 초기화

buffer_A를 입력 데이터로 초기화하고, buffer_B는 빈 상태로 시작 가능
범위를 벗어난 요소에 대해 제로 패딩을 사용한 적절한 경계 검사
스레드 0만 mbarrier 객체를 초기화해야 함
서로 다른 동기화 지점에 별도의 배리어 설정

반복 제어

컴파일 타임 루프 전개를 위해 @parameter for iteration in range(STENCIL_ITERATIONS) 사용
iteration % 2를 사용하여 읽기/쓰기 할당을 교대하면서 버퍼 역할 결정
이웃 검사를 통해 유효한 범위 내에서만 스텐실 연산 적용

스텐실 연산

3점 평균 구현: (left + center + right) / 3
유효한 이웃만 평균에 포함하여 경계 조건 처리
엣지 케이스를 매끄럽게 처리하기 위해 적응적 카운팅 사용

메모리 배리어 조정

각 스레드가 쓰기 연산을 완료한 후 mbarrier_arrive() 호출
버퍼 교체 전 모든 스레드가 완료하도록 mbarrier_test_wait() 사용
재사용을 위해 반복 간에 배리어 재초기화: mbarrier_init()
경쟁 상태를 피하기 위해 스레드 0만 배리어를 재초기화

출력 선택

STENCIL_ITERATIONS % 2를 기반으로 최종 활성 버퍼 선택
짝수 반복 횟수는 buffer_A에 데이터가 남음
홀수 반복 횟수는 buffer_B에 데이터가 남음
경계 검사를 통해 최종 결과를 글로벌 출력에 기록

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령을 실행합니다:

pixi run p29 --double-buffer

pixi run -e amd p29 --double-buffer

uv run poe p29 --double-buffer

퍼즐을 성공적으로 완료하면 다음과 유사한 출력이 표시됩니다:

Puzzle 29: GPU Synchronization Primitives
==================================================
TPB: 256
SIZE: 1024
STENCIL_ITERATIONS: 3
BUFFER_COUNT: 2

Testing Puzzle 29B: Double-Buffered Stencil Computation
============================================================
Double-buffered stencil completed
Input sample: 1.0 1.0 1.0
GPU output sample: 1.0 1.0 1.0
✅ Double-buffered stencil test PASSED!

솔루션

def double_buffered_stencil_computation(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, MutAnyOrigin],
    size: Int,
):
    """Double-buffered stencil computation with memory barrier coordination.

    Iteratively applies 3-point stencil using alternating buffers.
    Uses mbarrier APIs for precise buffer swap coordination.
    """

    # Double-buffering: Two shared memory buffers
    var buffer_A = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())
    var buffer_B = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    # Memory barriers for coordinating buffer swaps
    var init_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())
    var iter_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())
    var final_barrier = stack_allocation[
        dtype=DType.uint64, address_space=AddressSpace.SHARED
    ](row_major[1]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Initialize barriers (only thread 0)
    if local_i == 0:
        mbarrier_init(init_barrier.ptr, TPB)
        mbarrier_init(iter_barrier.ptr, TPB)
        mbarrier_init(final_barrier.ptr, TPB)

    # Initialize buffer_A with input data
    if local_i < TPB and global_i < size:
        buffer_A[local_i] = input[global_i]
    else:
        buffer_A[local_i] = 0.0

    # Wait for buffer_A initialization
    _ = mbarrier_arrive(init_barrier.ptr)
    _ = mbarrier_test_wait(init_barrier.ptr, TPB)

    # Iterative stencil processing with double-buffering
    comptime for iteration in range(STENCIL_ITERATIONS):
        comptime if iteration % 2 == 0:
            # Even iteration: Read from A, Write to B
            if local_i < TPB:
                var stencil_sum: Scalar[dtype] = 0.0
                var stencil_count: Int = 0

                # 3-point stencil: [i-1, i, i+1]
                for offset in range(-1, 2):
                    sample_idx = local_i + offset
                    if sample_idx >= 0 and sample_idx < TPB:
                        stencil_sum += rebind[Scalar[dtype]](
                            buffer_A[sample_idx]
                        )
                        stencil_count += 1

                if stencil_count > 0:
                    buffer_B[local_i] = stencil_sum / Scalar[dtype](
                        stencil_count
                    )
                else:
                    buffer_B[local_i] = buffer_A[local_i]

        else:
            # Odd iteration: Read from B, Write to A
            if local_i < TPB:
                var stencil_sum: Scalar[dtype] = 0.0
                var stencil_count: Int = 0

                # 3-point stencil: [i-1, i, i+1]
                for offset in range(-1, 2):
                    sample_idx = local_i + offset
                    if sample_idx >= 0 and sample_idx < TPB:
                        stencil_sum += rebind[Scalar[dtype]](
                            buffer_B[sample_idx]
                        )
                        stencil_count += 1

                if stencil_count > 0:
                    buffer_A[local_i] = stencil_sum / Scalar[dtype](
                        stencil_count
                    )
                else:
                    buffer_A[local_i] = buffer_B[local_i]

        # Memory barrier: wait for all writes before buffer swap
        _ = mbarrier_arrive(iter_barrier.ptr)
        _ = mbarrier_test_wait(iter_barrier.ptr, TPB)

        # Reinitialize barrier for next iteration
        if local_i == 0:
            mbarrier_init(iter_barrier.ptr, TPB)

    # Write final results from active buffer
    if local_i < TPB and global_i < size:
        comptime if STENCIL_ITERATIONS % 2 == 0:
            # Even iterations end in buffer_A
            output[global_i] = buffer_A[local_i]
        else:
            # Odd iterations end in buffer_B
            output[global_i] = buffer_B[local_i]

    # Final barrier
    _ = mbarrier_arrive(final_barrier.ptr)
    _ = mbarrier_test_wait(final_barrier.ptr, TPB)

핵심 통찰은 이것이 명시적 메모리 배리어 조정을 사용하는 더블 버퍼링 아키텍처 문제임을 인식하는 것입니다:

교대하는 버퍼 역할 설계: 매 반복마다 읽기/쓰기 책임을 교환
명시적 메모리 배리어 구현: 정밀한 동기화 제어를 위해 mbarrier API 사용
반복 처리 조율: 버퍼 교체 전 반복 결과가 완전히 완료되도록 보장
메모리 접근 패턴 최적화: 모든 처리를 빠른 공유 메모리에서 수행

상세 설명이 포함된 전체 솔루션

더블 버퍼링 스텐실 솔루션은 정교한 메모리 배리어 조정과 반복 처리 패턴을 보여줍니다. 이 접근 방식은 메모리 접근 타이밍에 대한 정밀한 제어가 필요한 안전한 반복적 개선 알고리즘을 가능하게 합니다.

더블 버퍼링 아키텍처 설계

이 퍼즐의 근본적인 돌파구는 단순한 스레드 동기화가 아닌 명시적 메모리 배리어 제어입니다:

전통적인 접근 방식: 단순한 스레드 조정을 위해 기본 barrier() 사용

모든 스레드가 서로 다른 데이터에 동일한 연산을 실행
단일 배리어 호출로 스레드 완료를 동기화
특정 메모리 연산 타이밍에 대한 제어 없음

이 퍼즐의 혁신: 명시적 메모리 배리어로 조정되는 서로 다른 버퍼 역할

buffer_A와 buffer_B가 읽기 소스와 쓰기 대상 사이를 교대
mbarrier API가 메모리 연산 완료에 대한 정밀한 제어를 제공
명시적 조정으로 버퍼 전환 중 경쟁 상태를 방지

반복 처리 조율

단일 패스 알고리즘과 달리, 이 퍼즐은 신중한 버퍼 관리를 통한 반복적 개선을 설정합니다:

반복 0: buffer_A에서 읽기 (입력으로 초기화됨), buffer_B에 쓰기
반복 1: buffer_B에서 읽기 (이전 결과), buffer_A에 쓰기
반복 2: buffer_A에서 읽기 (이전 결과), buffer_B에 쓰기
교대 계속: 각 반복이 이전 반복의 결과를 개선

메모리 배리어 API 사용법

mbarrier 조정 패턴의 이해:

mbarrier_init(): 특정 스레드 수(TPB)를 지정하여 배리어 초기화
mbarrier_arrive(): 개별 스레드의 쓰기 단계 완료를 알림
mbarrier_test_wait(): 모든 스레드가 완료를 알릴 때까지 대기
재초기화: 재사용을 위해 반복 간에 배리어 상태를 재설정

핵심 타이밍 순서:

모든 스레드 쓰기: 각 스레드가 할당된 버퍼 요소를 업데이트
완료 알림: 각 스레드가 mbarrier_arrive() 호출
전체 대기: 모든 스레드가 mbarrier_test_wait() 호출
진행 안전: 이제 다음 반복을 위해 버퍼 역할을 안전하게 교체 가능

스텐실 연산 메커니즘

적응적 경계 처리를 포함한 3점 스텐실 연산:

내부 요소 (인덱스 1부터 254):

# 왼쪽, 중심, 오른쪽 이웃과의 평균
stencil_sum = buffer[i-1] + buffer[i] + buffer[i+1]
result[i] = stencil_sum / 3.0

경계 요소 (인덱스 0과 255):

# 유효한 이웃만 평균에 포함
stencil_count = 0
for neighbor in valid_neighbors:
    stencil_sum += buffer[neighbor]
    stencil_count += 1
result[i] = stencil_sum / stencil_count

버퍼 역할 교대

핑퐁 버퍼 패턴이 데이터 무결성을 보장합니다:

짝수 반복 (0, 2, 4…):

읽기 소스: buffer_A에 현재 데이터 포함
쓰기 대상: buffer_B가 업데이트된 결과를 수신
메모리 흐름: buffer_A → 스텐실 연산 → buffer_B

홀수 반복 (1, 3, 5…):

읽기 소스: buffer_B에 현재 데이터 포함
쓰기 대상: buffer_A가 업데이트된 결과를 수신
메모리 흐름: buffer_B → 스텐실 연산 → buffer_A

경쟁 상태 방지

메모리 배리어가 여러 유형의 경쟁 상태를 제거합니다:

배리어 없이 (잘못된 경우):

# 스레드 A가 buffer_B[10]에 쓰기
buffer_B[10] = stencil_result_A

# 스레드 B가 스텐실 연산을 위해 buffer_B[10]을 즉시 읽기
# 경쟁 상태: 스레드 B가 스레드 A의 쓰기가 완료되기 전에 이전 값을 읽을 수 있음
stencil_input = buffer_B[10]  // 미정의 동작!

배리어 사용 (올바른 경우):

# 모든 스레드가 결과를 쓰기
buffer_B[local_i] = stencil_result

# 쓰기 완료 알림
mbarrier_arrive(barrier)

# 모든 스레드의 쓰기 완료까지 대기
mbarrier_test_wait(barrier, TPB)

# 이제 읽기 안전 - 모든 쓰기 완료 보장
stencil_input = buffer_B[neighbor_index]  // 항상 올바른 값을 읽음

출력 버퍼 선택

최종 결과 위치는 반복 횟수의 홀짝에 따라 결정됩니다:

수학적 결정:

STENCIL_ITERATIONS = 3 (홀수)
최종 활성 버퍼: 반복 2가 buffer_B에 쓰기
출력 소스: buffer_B에서 전역 메모리로 복사

구현 패턴:

@parameter
if STENCIL_ITERATIONS % 2 == 0:
    # 짝수 총 반복 횟수는 buffer_A에서 종료
    output[global_i] = buffer_A[local_i]
else:
    # 홀수 총 반복 횟수는 buffer_B에서 종료
    output[global_i] = buffer_B[local_i]

성능 특성

메모리 계층 구조 최적화:

전역 메모리: 입력 로딩과 최종 출력에만 접근
공유 메모리: 모든 반복 처리에 빠른 공유 메모리 사용
레지스터 사용량: 공유 메모리 중심으로 최소화

동기화 오버헤드:

mbarrier 비용: 기본 barrier()보다 높지만 필수적인 제어를 제공
반복 확장성: 오버헤드가 반복 횟수에 비례하여 선형적으로 증가
스레드 효율성: 모든 스레드가 처리 전반에 걸쳐 활성 상태 유지

실제 응용 분야

이 더블 버퍼링 패턴은 다음 분야의 기반이 됩니다:

반복법:

선형 시스템을 위한 Gauss-Seidel 및 Jacobi 방법
수치 정확도를 위한 반복적 개선
레벨별 처리를 수행하는 다중 그리드 방법

이미지 처리:

다중 패스 필터 (양측, 유도, 엣지 보존)
반복적 디노이징 알고리즘
열 확산과 이방성 스무딩

시뮬레이션 알고리즘:

상태 진화를 가진 셀룰러 오토마타
위치 업데이트를 수반하는 입자 시스템
반복적 압력 솔빙을 사용한 유체 역학

핵심 기술적 통찰

메모리 배리어 철학:

명시적 제어: 자동 동기화 대비 메모리 연산에 대한 정밀한 타이밍 제어
경쟁 상태 방지: 교대하는 읽기/쓰기 패턴을 가진 모든 알고리즘에 필수
성능 절충: 보장된 정확성을 위한 더 높은 동기화 비용

더블 버퍼링의 이점:

데이터 무결성: 쓰기 중 읽기 hazard 제거
알고리즘 명확성: 현재와 다음 반복 상태 간의 깔끔한 분리
메모리 효율성: 전역 메모리 중간 저장소 불필요

반복 관리:

컴파일 타임 루프 전개: @parameter for가 최적화 기회를 제공
상태 추적: 버퍼 역할 교대가 결정적이어야 함
경계 처리: 적응적 스텐실 연산이 엣지 케이스를 매끄럽게 처리

이 솔루션은 정밀한 메모리 접근 제어가 필요한 반복 GPU 알고리즘을 설계하는 방법을 보여주며, 단순한 병렬 루프를 넘어 실제 수치 소프트웨어에서 사용되는 정교한 메모리 관리 패턴으로 나아갑니다.

Puzzle 30: GPU 프로파일링

올바른 코드, 그 너머로

참고: 이 파트는 호환되는 NVIDIA GPU 전용입니다

이 챕터에서는 동작하는 GPU 코드를 고성능 코드로 탈바꿈시키는 체계적 성능 분석을 소개합니다. 정확성과 GPU 기능에 집중했던 이전 퍼즐들과 달리, 여기서는 실무 GPU 소프트웨어 개발에서 사용되는 프로파일링 방법론을 탐구합니다.

학습 내용:

전문 프로파일링 도구: 종합적인 성능 분석을 위한 NSight Systems와 NSight Compute

성능 탐정 작업: 프로파일러 데이터를 활용한 병목과 최적화 기회 파악

메모리 시스템 통찰: 메모리 접근 패턴이 성능에 미치는 극적인 영향 이해

반직관적인 발견: “좋아 보이는” 지표가 오히려 성능 문제를 가리키는 경우

근거 기반 최적화: 가정이 아닌 프로파일러 데이터에 기반한 최적화 판단

왜 중요한가: 대부분의 GPU 튜토리얼은 기본적인 성능 개념만 가르치지만, 실제 GPU 개발에서는 실질적인 병목을 찾아내고, 메모리 시스템 동작을 이해하며, 근거 있는 최적화 결정을 내리기 위한 체계적 프로파일링 방법론이 필요합니다. 이런 역량이 학술적 예제와 실무 GPU 컴퓨팅 사이의 격차를 메워줍니다.

개요

GPU 성능 프로파일링은 체계적 분석을 통해 올바른 코드를 고성능 코드로 변환합니다. 이 챕터에서는 실무 GPU 개발에서 사용되는 전문 프로파일링 도구와 탐정 방법론을 살펴봅니다.

핵심 학습 목표:

프로파일링 도구 선택법 학습 - NSight Systems와 NSight Compute를 언제 사용하는지 이해
성능 탐정 능력 개발 - 실제 프로파일러 출력을 활용하여 병목 식별
반직관적인 통찰 발견 - GPU 메모리 시스템과 캐싱 동작에 대한 새로운 시각
근거 기반 최적화 학습 - 가정이 아닌 프로파일러 데이터에 기반한 최적화

핵심 개념

전문 프로파일링 도구:

NSight Systems (nsys): CPU-GPU 조율과 메모리 전송을 위한 시스템 전체 타임라인 분석
NSight Compute (ncu): 메모리 효율과 연산 활용도를 위한 상세 커널 분석
체계적 방법론: 근거 기반 병목 식별과 최적화 검증

발견하게 될 핵심 통찰:

반직관적 동작: 높은 캐시 히트율이 실제로는 낮은 성능을 나타내는 경우
메모리 접근 패턴: 병합이 대역폭 활용에 미치는 극적인 영향
도구 기반 최적화: 성능 가정이 아닌 프로파일러 데이터를 활용한 의사결정

구성

요구 사항:

NVIDIA GPU: 프로파일링이 활성화된 CUDA 호환 하드웨어
CUDA Toolkit: NSight Systems 및 NSight Compute 도구
빌드 설정: 디버그 정보가 포함된 최적화 코드 (--debug-level=full)

방법론:

NSight Systems를 활용한 시스템 전체 분석으로 주요 병목 식별
NSight Compute를 활용한 커널 심층 분석으로 메모리 시스템 분석
프로파일러 데이터를 활용한 근거 기반 결론으로 최적화 방향 도출

퍼즐 구성

이 챕터는 서로 연결되어 점진적으로 발전하는 두 개의 구성 요소로 이루어져 있습니다:

NVIDIA 프로파일링 기초

실제 프로파일러 출력을 사용한 실습 예제를 통해 NVIDIA 프로파일링 생태계의 핵심을 배웁니다.

학습 내용:

시스템 전체 타임라인 분석과 병목 식별을 위한 NSight Systems
상세 커널 분석과 메모리 시스템 통찰을 위한 NSight Compute
실무 GPU 개발에서 사용되는 전문 프로파일링 워크플로우와 모범 사례

캐시 히트의 역설

동일한 벡터 덧셈 커널 세 개가 극적으로 다른 성능을 보이는 미스터리를 프로파일링으로 풀어봅니다.

도전 과제: 캐시 히트율이 가장 높은 커널이 성능은 가장 낮은 이유를 밝혀내세요 - CPU 중심의 전통적인 성능 관념을 뒤집는 반직관적 통찰입니다.

탐정 능력: 실제 NSight Systems와 NSight Compute 데이터를 활용하여 메모리 병합 효과와 근거 기반 최적화를 이해합니다.

시작하기

학습 경로:

NVIDIA 프로파일링 기초 - NSight Systems와 NSight Compute 학습
캐시 히트의 역설 - 성능 미스터리 풀기에 능력 적용

사전 준비:

GPU 메모리 계층 구조와 접근 패턴
GPU 프로그래밍 기초 (스레드, 블록, 워프, 공유 메모리)
커맨드라인 프로파일링 도구 사용 경험

학습 성과: 실무 GPU 개발에서 사용되는 체계적 병목 식별과 근거 기반 최적화를 위한 전문가 수준의 프로파일링 역량.

이 챕터는 체계적 프로파일링이 직관이 놓치는 진실을 드러낸다는 것을 알려줍니다 - GPU 성능 최적화는 가정이 아닌 도구 기반의 발견이 필요합니다.

추가 자료:

📚 NVIDIA 프로파일링 기초

개요

지금까지 GPU 프로그래밍의 기초와 고급 패턴을 배웠습니다. Part II에서는 compute-sanitizer와 cuda-gdb를 사용한 정확성 디버깅 기법을, 다른 파트에서는 워프 프로그래밍, 메모리 시스템, 블록 레벨 연산 등 다양한 GPU 기능을 다뤘습니다. 커널이 올바르게 동작하긴 합니다 - 하지만 빠르기도 할까요?

이 튜토리얼은 CUDA Best Practices Guide에서 권장하는 NVIDIA 프로파일링 방법론을 따릅니다.

핵심 통찰: 올바른 커널이라도 최적의 성능보다 수십 배나 느릴 수 있습니다. 프로파일링은 동작하는 코드와 고성능 코드 사이의 격차를 좁힙니다.

프로파일링 도구 모음

pixi를 통해 cuda-toolkit이 설치되어 있으므로, NVIDIA의 전문 프로파일링 도구를 바로 사용할 수 있습니다:

NSight Systems (`nsys`) - “전체 그림” 도구

용도: 시스템 전체 성능 분석 (NSight Systems 문서)

CPU-GPU 상호작용의 타임라인 뷰
메모리 전송 병목
커널 실행 오버헤드
멀티 GPU 조율
API 호출 추적

사용 가능한 인터페이스: 커맨드라인 (nsys) 및 GUI (nsys-ui)

사용 시점:

전체 애플리케이션 흐름 파악
CPU-GPU 동기화 문제 식별
메모리 전송 패턴 분석
커널 실행 병목 발견

# 도움말 보기
pixi run nsys --help

# 기본 시스템 전체 프로파일링
pixi run nsys profile --trace=cuda,nvtx --output=timeline mojo your_program.mojo

# 대화형 분석
pixi run nsys stats --force-export=true timeline.nsys-rep

NSight Compute (`ncu`) - “커널 심층 분석” 도구

용도: 상세한 단일 커널 성능 분석 (NSight Compute 문서)

루프라인 모델 분석
메모리 계층 구조 활용도
워프 실행 효율
레지스터/공유 메모리 사용량
연산 유닛 활용도

사용 가능한 인터페이스: 커맨드라인 (ncu) 및 GUI (ncu-ui)

사용 시점:

특정 커널 성능 최적화
메모리 접근 패턴 파악
연산 바운드 vs 메모리 바운드 커널 분석
워프 분기 문제 식별

# 도움말 보기
pixi run ncu --help

# 상세 커널 프로파일링
pixi run ncu --set full --output kernel_profile mojo your_program.mojo

# 특정 커널에 집중
pixi run ncu --kernel-name regex:your_kernel_name mojo your_program.mojo

도구 선택 의사결정 트리

성능 문제 발생
      |
      v
어떤 커널인지 아는가?
    |           |
  아니오         예
    |           |
    v           v
NSight    커널 고유의 문제인가?
Systems       |         |
    |       아니오       예
    v         |         |
타임라인        |         v
분석    <------+   NSight Compute
                        |
                        v
                   커널 심층 분석

빠른 의사결정 가이드:

병목이 어디인지 모르겠으면 NSight Systems (nsys)부터 시작
최적화할 커널을 정확히 알면 NSight Compute (ncu) 사용
종합적인 분석이 필요하면 둘 다 사용 (일반적인 워크플로우)

실습: NSight Systems로 시스템 전체 프로파일링

Puzzle 16의 행렬 곱셈 구현들을 프로파일링하여 성능 차이를 파악해 봅시다.

GUI 참고: NSight Systems와 Compute GUI (nsys-ui, ncu-ui)는 디스플레이와 OpenGL 지원이 필요합니다. X11 포워딩이 없는 헤드리스 서버나 원격 시스템에서는 커맨드라인 버전 (nsys, ncu)을 사용하여 nsys stats와 ncu --import --page details로 텍스트 기반 분석을 수행하세요. .nsys-rep와 .ncu-rep 파일을 로컬 머신으로 전송하여 GUI로 분석할 수도 있습니다.

Step 1: 프로파일링을 위한 코드 준비

중요: 정확한 프로파일링을 위해 최적화를 유지하면서 전체 디버그 정보를 포함하여 빌드합니다:

pixi shell -e nvidia
# 최적화를 유지하면서 전체 디버그 정보 포함 빌드 (포괄적인 소스 매핑용)
mojo build --debug-level=full solutions/p16/p16.mojo -o solutions/p16/p16_optimized

# 최적화 빌드 테스트
./solutions/p16/p16_optimized --naive

이것이 중요한 이유:

전체 디버그 정보: 프로파일러를 위한 완전한 심볼 테이블, 변수명, 소스 라인 매핑 제공
포괄적 분석: NSight 도구가 성능 데이터를 특정 코드 위치와 연결 가능
최적화 유지: 프로덕션 빌드와 일치하는 현실적인 성능 측정 보장

Step 2: 시스템 전체 프로파일 수집

# 포괄적 추적으로 최적화 빌드 프로파일링
nsys profile \
  --trace=cuda,nvtx \
  --output=matmul_naive \
  --force-overwrite=true \
  ./solutions/p16/p16_optimized --naive

명령어 분석:

--trace=cuda,nvtx: CUDA API 호출 및 커스텀 어노테이션 캡처
--output=matmul_naive: 프로파일을 matmul_naive.nsys-rep로 저장
--force-overwrite=true: 기존 프로파일 덮어쓰기
마지막 인수: Mojo 프로그램

Step 3: 타임라인 분석

# 텍스트 기반 통계 생성
nsys stats --force-export=true matmul_naive.nsys-rep

# 주요 지표 확인:
# - GPU 활용률
# - 메모리 전송 시간
# - 커널 실행 시간
# - CPU-GPU 동기화 간격

확인할 수 있는 결과 (2×2 행렬 곱셈의 실제 출력):

** CUDA API Summary (cuda_api_sum):
 Time (%)  Total Time (ns)  Num Calls  Avg (ns)   Med (ns)  Min (ns)  Max (ns)  StdDev (ns)          Name
 --------  ---------------  ---------  ---------  --------  --------  --------  -----------  --------------------
     81.9          8617962          3  2872654.0    2460.0      1040   8614462    4972551.6  cuMemAllocAsync
     15.1          1587808          4   396952.0    5965.5      3810   1572067     783412.3  cuMemAllocHost_v2
      0.6            67152          1    67152.0   67152.0     67152     67152          0.0  cuModuleLoadDataEx
      0.4            44961          1    44961.0   44961.0     44961     44961          0.0  cuLaunchKernelEx

** CUDA GPU Kernel Summary (cuda_gpu_kern_sum):
 Time (%)  Total Time (ns)  Instances  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)                    Name
 --------  ---------------  ---------  --------  --------  --------  --------  -----------  ----------------------------------------
    100.0             1920          1    1920.0    1920.0      1920      1920          0.0  p16_naive_matmul_Layout_Int6A6AcB6A6AsA6A6A

** CUDA GPU MemOps Summary (by Time) (cuda_gpu_mem_time_sum):
 Time (%)  Total Time (ns)  Count  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)           Operation
 --------  ---------------  -----  --------  --------  --------  --------  -----------  ----------------------------
     49.4             4224      3    1408.0    1440.0      1312      1472         84.7  [CUDA memcpy Device-to-Host]
     36.0             3072      4     768.0     528.0       416      1600        561.0  [CUDA memset]
     14.6             1248      3     416.0     416.0       416       416          0.0  [CUDA memcpy Host-to-Device]

주요 성능 통찰:

메모리 할당이 지배적: 전체 시간의 81.9%가 cuMemAllocAsync에 소비
커널은 번개처럼 빠름: 실행 시간 1,920 ns (0.000001920초)에 불과
메모리 전송 내역: 49.4% Device→Host, 36.0% memset, 14.6% Host→Device
아주 작은 데이터: 모든 메모리 연산이 0.001 MB 미만 (float32 4개 = 16바이트)

Step 4: 구현 비교

다른 버전들을 프로파일링하고 비교합니다:

# pixi shell 상태를 유지하세요 `pixi run -e nvidia`

# 공유 메모리 버전 프로파일링
nsys profile --trace=cuda,nvtx --force-overwrite=true --output=matmul_shared ./solutions/p16/p16_optimized --single-block

# Tiled 버전 프로파일링
nsys profile --trace=cuda,nvtx --force-overwrite=true --output=matmul_tiled ./solutions/p16/p16_optimized --tiled

# 관용적 Tiled 버전 프로파일링
nsys profile --trace=cuda,nvtx --force-overwrite=true --output=matmul_idiomatic_tiled ./solutions/p16/p16_optimized --idiomatic-tiled

# 각 구현을 개별적으로 분석 (nsys stats는 한 번에 하나의 파일만 처리)
nsys stats --force-export=true matmul_shared.nsys-rep
nsys stats --force-export=true matmul_tiled.nsys-rep
nsys stats --force-export=true matmul_idiomatic_tiled.nsys-rep

결과 비교 방법:

GPU Kernel Summary 확인 - 구현 간 실행 시간 비교
Memory Operations 확인 - 공유 메모리가 전역 메모리 트래픽을 줄이는지 확인
API 오버헤드 비교 - 모두 비슷한 메모리 할당 패턴을 가져야 함

수동 비교 워크플로우:

# 각 분석 결과를 저장하여 비교
nsys stats --force-export=true matmul_naive.nsys-rep > naive_stats.txt
nsys stats --force-export=true matmul_shared.nsys-rep > shared_stats.txt
nsys stats --force-export=true matmul_tiled.nsys-rep > tiled_stats.txt
nsys stats --force-export=true matmul_idiomatic_tiled.nsys-rep > idiomatic_tiled_stats.txt

공정한 비교 결과 (실제 프로파일링 출력):

비교 1: 2 x 2 행렬

구현	메모리 할당	커널 실행	성능
Naive	81.9% cuMemAllocAsync	✅ 1,920 ns	기준선
Shared (`--single-block`)	81.8% cuMemAllocAsync	✅ 1,984 ns	+3.3% 느림

비교 2: 9 x 9 행렬

구현	메모리 할당	커널 실행	성능
Tiled (수동)	81.1% cuMemAllocAsync	✅ 2,048 ns	기준선
Idiomatic Tiled	81.6% cuMemAllocAsync	✅ 2,368 ns	+15.6% 느림

공정 비교에서 얻은 핵심 통찰:

두 행렬 크기 모두 GPU 작업에는 너무 작음!:

2×2 행렬: 4개 요소 - 완전히 오버헤드가 지배
9×9 행렬: 81개 요소 - 여전히 오버헤드가 지배
실제 GPU 워크로드: 차원당 수천~수백만 개 요소

이 결과가 실제로 보여주는 것:

모든 변형이 메모리 할당에 지배됨 (시간의 81% 이상)
커널 실행은 의미 없음 - 설정 비용에 비하면 미미
“최적화“가 오히려 해로울 수 있음: 공유 메모리가 3.3%, async_copy가 15.6% 오버헤드 추가
진짜 교훈: 작은 워크로드에서는 알고리즘 선택이 무의미 - 오버헤드가 모든 것을 압도

이런 결과가 나오는 이유:

GPU 설정 비용(메모리 할당, 커널 실행)은 문제 크기에 관계없이 고정
작은 문제에서는 이 고정 비용이 연산 시간을 무색하게 만듦
큰 문제를 위해 설계된 최적화가 작은 문제에서는 오버헤드가 됨

실무 프로파일링 교훈:

문제 크기 맥락이 중요: 2×2와 9×9 모두 GPU에게는 작음
고정 비용이 작은 문제를 지배: 메모리 할당, 커널 실행 오버헤드
“최적화“가 작은 워크로드에 해로울 수 있음: 공유 메모리, 비동기 연산이 오버헤드 추가
작은 문제를 최적화하지 말 것: 실제 워크로드로 확장 가능한 알고리즘에 집중
항상 벤치마킹할 것: “더 좋은” 코드에 대한 가정은 흔히 틀림

작은 커널 프로파일링의 이해: 이 2×2 행렬 예제는 전형적인 작은 커널 패턴을 보여줍니다:

실제 연산(행렬 곱셈)은 극히 빠름 (1,920 ns)
메모리 설정 오버헤드가 전체 시간을 지배 (실행의 97% 이상)
이것이 실무 GPU 최적화가 다음에 집중하는 이유입니다:
- 연산 일괄 처리로 설정 비용 분산
- 메모리 재사용으로 할당 오버헤드 감소
- 연산이 병목이 되는 더 큰 문제 크기

실습: NSight Compute로 커널 심층 분석

이제 특정 커널의 성능 특성을 심층적으로 들여다봅시다.

Step 1: 특정 커널 프로파일링

# 활성 shell 상태인지 확인
pixi shell -e nvidia

# Naive MatMul 커널을 상세 프로파일링 (최적화 빌드 사용)
ncu \
  --set full \
  -o kernel_analysis \
  --force-overwrite \
  ./solutions/p16/p16_optimized --naive

흔한 문제: 권한 오류

ERR_NVGPUCTRPERM - The user does not have permission to access NVIDIA GPU Performance Counters 오류가 발생하면 다음 해결 방법을 시도하세요:

# NVIDIA 드라이버 옵션 추가 (rmmod보다 안전)
echo 'options nvidia "NVreg_RestrictProfilingToAdminUsers=0"' | sudo tee -a /etc/modprobe.d/nvidia-kernel-common.conf

# 커널 파라미터 설정
sudo sysctl -w kernel.perf_event_paranoid=0

# 영구 적용
echo 'kernel.perf_event_paranoid=0' | sudo tee -a /etc/sysctl.conf

# 드라이버 변경 사항 적용을 위해 재부팅 필요
sudo reboot

# 그런 다음 ncu 명령을 다시 실행
ncu \
  --set full \
  -o kernel_analysis \
  --force-overwrite \
  ./solutions/p16/p16_optimized --naive

Step 2: 주요 지표 분석

# 상세 보고서 생성 (올바른 구문)
ncu --import kernel_analysis.ncu-rep --page details

실제 NSight Compute 출력 (2×2 Naive MatMul):

GPU Speed Of Light Throughput
----------------------- ----------- ------------
DRAM Frequency              Ghz         6.10
SM Frequency                Ghz         1.30
Elapsed Cycles            cycle         3733
Memory Throughput             %         1.02
DRAM Throughput               %         0.19
Duration                     us         2.88
Compute (SM) Throughput       %         0.00
----------------------- ----------- ------------

Launch Statistics
-------------------------------- --------------- ---------------
Block Size                                                     9
Grid Size                                                      1
Threads                           thread               9
Waves Per SM                                                0.00
-------------------------------- --------------- ---------------

Occupancy
------------------------------- ----------- ------------
Theoretical Occupancy                 %        33.33
Achieved Occupancy                    %         2.09
------------------------------- ----------- ------------

실제 데이터에서 얻은 핵심 통찰:

성능 분석 - 냉혹한 현실

Compute Throughput: 0.00% - GPU가 연산적으로 완전히 유휴 상태
Memory Throughput: 1.02% - 메모리 대역폭을 거의 사용하지 않음
Achieved Occupancy: 2.09% - GPU 능력의 2%만 사용 중
Grid Size: 1 블록 - 80개 멀티프로세서를 완전히 낭비!

성능이 이렇게 낮은 이유

작은 문제 크기: 2×2 행렬 = 총 4개 요소
잘못된 실행 구성: 1개 블록에 9개 스레드 (32의 배수여야 함)
심각한 과소 활용: SM당 0.00 wave (효율을 위해 수천 개 필요)

NSight Compute의 핵심 최적화 권고사항

“Est. Speedup: 98.75%” - 80개 SM을 모두 사용하도록 그리드 크기 증가
“Est. Speedup: 71.88%” - 스레드 블록을 32의 배수로 사용
“Kernel grid is too small” - GPU 효율을 위해 훨씬 큰 문제 필요

Step 3: 현실 직시

이 프로파일링 데이터가 알려주는 것:

작은 문제는 GPU에게 독: 2×2 행렬은 GPU 리소스를 완전히 낭비
실행 구성이 중요: 잘못된 스레드/블록 크기가 성능을 죽임
규모가 알고리즘보다 중요: 근본적으로 작은 문제는 어떤 최적화로도 해결 불가
NSight Compute는 정직함: 커널 성능이 낮을 때 그대로 알려줌

진짜 교훈:

토이 문제를 최적화하지 말 것 - 실제 GPU 워크로드를 대표하지 않음
현실적인 워크로드에 집중 - 최적화가 실제로 의미 있는 1000×1000+ 행렬
프로파일링으로 최적화를 안내 - 단, 최적화할 가치가 있는 문제에만

2×2 예제의 경우: 정교한 알고리즘(공유 메모리, tiling)이 이미 오버헤드가 지배적인 워크로드에 오버헤드만 추가합니다.

프로파일러 출력을 성능 탐정처럼 읽기

자주 나타나는 성능 패턴

패턴 1: 메모리 바운드 커널

NSight Systems가 보여주는 것: 긴 메모리 전송 시간 NSight Compute가 보여주는 것: 높은 메모리 처리량, 낮은 연산 활용도 해결책: 메모리 접근 패턴 최적화, 공유 메모리 사용

패턴 2: 낮은 점유율

NSight Systems가 보여주는 것: 짧은 커널 실행과 간격 NSight Compute가 보여주는 것: 실제 점유율이 낮음 해결책: 레지스터 사용량 줄이기, 블록 크기 최적화

패턴 3: 워프 분기

NSight Systems가 보여주는 것: 불규칙한 커널 실행 패턴 NSight Compute가 보여주는 것: 낮은 워프 실행 효율 해결책: 조건 분기 최소화, 알고리즘 재구성

프로파일링 탐정 워크플로우

성능 문제 발생
     |
     v
NSight Systems: 전체 그림
        |
        v
GPU를 잘 활용하고 있는가?
    |             |
  아니오           예
    |             |
    v             v
CPU-GPU    NSight Compute: 커널 상세
파이프라인          |
수정               v
        메모리 또는 연산 바운드인가?
          |       |       |
         메모리   연산    둘 다 아님
          |       |       |
          v       v       v
        메모리    산술     점유율
        접근     최적화    확인
        최적화

프로파일링 모범 사례

포괄적인 프로파일링 지침은 Best Practices Guide - Performance Metrics를 참고하세요.

이렇게 하세요

대표적인 워크로드를 프로파일링: 현실적인 데이터 크기와 패턴 사용
전체 디버그 정보로 빌드: 최적화와 함께 포괄적인 프로파일링 데이터 및 소스 매핑을 위해 --debug-level=full 사용
GPU 워밍업: 커널을 여러 번 실행한 후 후반 반복을 프로파일링
대안 비교: 항상 여러 구현을 프로파일링
핫스팟에 집중: 가장 시간이 오래 걸리는 커널을 최적화

이렇게 하지 마세요

디버그 정보 없이 프로파일링하지 말 것: 성능을 소스 코드에 매핑할 수 없음 (mojo build --help)
단일 실행만 프로파일링하지 말 것: GPU 성능은 실행마다 달라질 수 있음
메모리 전송을 무시하지 말 것: CPU-GPU 전송이 흔히 지배적
섣불리 최적화하지 말 것: 먼저 프로파일링, 그다음 최적화

흔한 함정과 해결책

함정 1: 콜드 스타트 효과

# 잘못된 방법: 첫 번째 실행을 프로파일링
nsys profile mojo your_program.mojo

# 올바른 방법: 워밍업 후 프로파일링
nsys profile --delay=5 mojo your_program.mojo  # GPU 워밍업 대기

함정 2: 잘못된 빌드 구성

# 잘못된 방법: 전체 디버그 빌드 (최적화 비활성화) 즉, `--no-optimization`
mojo build -O0 your_program.mojo -o your_program

# 잘못된 방법: 디버그 정보 없음 (소스 매핑 불가)
mojo build your_program.mojo -o your_program

# 올바른 방법: 프로파일링을 위한 전체 디버그 정보 포함 최적화 빌드
mojo build --debug-level=full your_program.mojo -o optimized_program
nsys profile ./optimized_program

함정 3: 메모리 전송 무시

# NSight Systems에서 이 패턴을 찾아보세요:
CPU -> GPU transfer: 50ms
Kernel execution: 2ms
GPU -> CPU transfer: 48ms
# 총: 100ms (커널은 겨우 2%!)

해결책: 전송과 연산을 중첩하고 전송 빈도를 줄이기 (Part IX에서 다룸)

함정 4: 단일 커널에만 집중

# 잘못된 방법: "느린" 커널만 프로파일링
ncu --kernel-name regex:slow_kernel program

# 올바른 방법: 먼저 전체 애플리케이션을 프로파일링
nsys profile mojo program.mojo  # 실제 병목 찾기

모범 사례와 고급 옵션

고급 NSight Systems 프로파일링

포괄적인 시스템 전체 분석을 위해 다음 고급 nsys 플래그를 사용합니다:

# 프로덕션급 프로파일링 명령
nsys profile \
  --gpu-metrics-devices=all \
  --trace=cuda,osrt,nvtx \
  --trace-fork-before-exec=true \
  --cuda-memory-usage=true \
  --cuda-um-cpu-page-faults=true \
  --cuda-um-gpu-page-faults=true \
  --opengl-gpu-workload=false \
  --delay=2 \
  --duration=30 \
  --sample=cpu \
  --cpuctxsw=process-tree \
  --output=comprehensive_profile \
  --force-overwrite=true \
  ./your_program

플래그 설명:

--gpu-metrics-devices=all: 모든 디바이스에서 GPU 지표 수집
--trace=cuda,osrt,nvtx: 포괄적 API 추적
--cuda-memory-usage=true: 메모리 할당/해제 추적
--cuda-um-cpu/gpu-page-faults=true: Unified Memory 페이지 폴트 모니터링
--delay=2: 프로파일링 전 2초 대기 (콜드 스타트 회피)
--duration=30: 최대 30초간 프로파일링
--sample=cpu: 핫스팟 분석을 위한 CPU 샘플링 포함
--cpuctxsw=process-tree: CPU 컨텍스트 스위치 추적

고급 NSight Compute 프로파일링

포괄적 지표를 포함한 상세 커널 분석:

# 모든 지표 세트로 전체 커널 분석
ncu \
  --set full \
  --import-source=on \
  --kernel-id=:::1 \
  --launch-skip=0 \
  --launch-count=1 \
  --target-processes=all \
  --replay-mode=kernel \
  --cache-control=all \
  --clock-control=base \
  --apply-rules=yes \
  --check-exit-code=yes \
  --export=detailed_analysis \
  --force-overwrite \
  ./your_program

# 특정 성능 측면에 집중
ncu \
  --set=@roofline \
  --section=InstructionStats \
  --section=LaunchStats \
  --section=Occupancy \
  --section=SpeedOfLight \
  --section=WarpStateStats \
  --metrics=sm__cycles_elapsed.avg,dram__throughput.avg.pct_of_peak_sustained_elapsed \
  --kernel-name regex:your_kernel_.* \
  --export=targeted_analysis \
  ./your_program

주요 NSight Compute 플래그:

--set full: 사용 가능한 모든 지표 수집 (포괄적이지만 느림)
--set @roofline: 루프라인 분석에 최적화된 세트
--import-source=on: 결과를 소스 코드에 매핑
--replay-mode=kernel: 정확한 측정을 위해 커널 리플레이
--cache-control=all: 일관된 결과를 위한 GPU 캐시 제어
--clock-control=base: 기본 주파수로 클럭 고정
--section=SpeedOfLight: Speed of Light 분석 포함
--metrics=...: 특정 지표만 수집
--kernel-name regex:pattern: 정규식 패턴으로 커널 지정 (--kernel-regex가 아님)

프로파일링 워크플로우 모범 사례

1. 점진적 프로파일링 전략

# Step 1: 빠른 개요 (빠름)
nsys profile --trace=cuda --duration=10 --output=quick_look ./program

# Step 2: 상세 시스템 분석 (중간)
nsys profile --trace=cuda,osrt,nvtx --cuda-memory-usage=true --output=detailed ./program

# Step 3: 커널 심층 분석 (느리지만 포괄적)
ncu --set=@roofline --kernel-name regex:hotspot_kernel ./program

2. 신뢰성을 위한 다중 실행 분석

# 여러 번 프로파일링하고 비교
for i in {1..5}; do
  nsys profile --output=run_${i} ./program
  nsys stats run_${i}.nsys-rep > stats_${i}.txt
done

# 결과 비교
diff stats_1.txt stats_2.txt

3. 타겟 커널 프로파일링

# 먼저 핫스팟 커널 식별
nsys profile --trace=cuda,nvtx --output=overview ./program
nsys stats overview.nsys-rep | grep -A 10 "GPU Kernel Summary"

# 그런 다음 특정 커널 프로파일링
ncu --kernel-name="identified_hotspot_kernel" --set full ./program

환경 및 빌드 모범 사례

최적 빌드 구성

# 프로파일링용: 전체 디버그 정보 포함 최적화 빌드
mojo build --debug-level=full --optimization-level=3 program.mojo -o program_profile

# 빌드 설정 확인
mojo build --help | grep -E "(debug|optimization)"

프로파일링 환경 설정

# 일관된 결과를 위해 GPU 부스트 비활성화
sudo nvidia-smi -ac 1215,1410  # 메모리 및 GPU 클럭 고정

# 결정론적 동작 설정
export CUDA_LAUNCH_BLOCKING=1  # 정확한 타이밍을 위한 동기식 실행

# 프로파일링을 위한 드라이버 제한 완화
echo 0 | sudo tee /proc/sys/kernel/perf_event_paranoid
echo 'options nvidia "NVreg_RestrictProfilingToAdminUsers=0"' | sudo tee -a /etc/modprobe.d/nvidia-kernel-common.conf

메모리 및 성능 격리

# 프로파일링 전 GPU 메모리 초기화
nvidia-smi --gpu-reset

# 다른 GPU 프로세스 비활성화
sudo fuser -v /dev/nvidia*  # GPU 사용 중인 프로세스 확인
sudo pkill -f cuda  # 필요시 CUDA 프로세스 종료

# 높은 우선순위로 실행
sudo nice -n -20 nsys profile ./program

분석 및 보고 모범 사례

종합 보고서 생성

# 여러 보고서 형식 생성
nsys stats --report=cuda_api_sum,cuda_gpu_kern_sum,cuda_gpu_mem_time_sum --format=csv --output=. profile.nsys-rep

# 외부 분석을 위해 내보내기
nsys export --type=sqlite profile.nsys-rep
nsys export --type=json profile.nsys-rep

# 비교 보고서 생성
nsys stats --report=cuda_gpu_kern_sum baseline.nsys-rep > baseline_kernels.txt
nsys stats --report=cuda_gpu_kern_sum optimized.nsys-rep > optimized_kernels.txt
diff -u baseline_kernels.txt optimized_kernels.txt

성능 회귀 테스트

#!/bin/bash
# CI/CD용 자동화 프로파일링 스크립트
BASELINE_TIME=$(nsys stats baseline.nsys-rep | grep "Total Time" | awk '{print $3}')
CURRENT_TIME=$(nsys stats current.nsys-rep | grep "Total Time" | awk '{print $3}')

REGRESSION_THRESHOLD=1.10  # 10% 성능 저하 임계값
if (( $(echo "$CURRENT_TIME > $BASELINE_TIME * $REGRESSION_THRESHOLD" | bc -l) )); then
    echo "Performance regression detected: ${CURRENT_TIME}ns vs ${BASELINE_TIME}ns"
    exit 1
fi

다음 단계

프로파일링 기초를 이해했으니:

기존 커널로 연습: 이미 풀었던 퍼즐들을 프로파일링해 보세요
최적화 준비: Puzzle 31에서 이 통찰을 점유율 최적화에 활용합니다
도구 익히기: 다양한 NSight Systems와 NSight Compute 옵션을 실험해 보세요

기억하세요: 프로파일링은 단순히 느린 코드를 찾는 것이 아닙니다 - 프로그램의 동작을 이해하고 근거 있는 최적화 결정을 내리는 것입니다.

추가 프로파일링 자료:

🕵 캐시 히트의 역설

개요

첫 번째 프로파일링 탐정 사건에 오신 것을 환영합니다! 세 개의 GPU 커널이 모두 동일한 벡터 덧셈 output[i] = a[i] + b[i]을 수행합니다. 당연히 성능도 같겠죠?

아닙니다! 이 커널들의 성능 차이는 극적입니다 - 하나는 나머지보다 수십 배나 느립니다. 여러분의 임무: 방금 배운 프로파일링 도구를 활용하여 왜 그런지 밝혀내세요.

도전 과제

GPU 최적화에 대한 기존 상식을 완전히 뒤집는 성능 미스터리에 오신 것을 환영합니다! 눈앞에는 겉보기에 동일한 벡터 덧셈 커널 세 개가 있고, 모두 정확히 같은 수학 연산을 수행합니다:

output[i] = a[i] + b[i]  // 단순한 산술 연산 - 뭐가 잘못될 수 있을까?

충격적인 현실:

세 커널 모두 동일하고 정확한 결과를 생성합니다
하나의 커널이 나머지보다 ~50배 느립니다
가장 느린 커널이 가장 높은 캐시 히트율을 보입니다 (예상과 정반대!)
일반적인 성능 직관이 완전히 빗나갑니다

탐정 임무:

성능 범인 식별 - 어떤 커널이 치명적으로 느린가?
캐시의 역설 규명 - 높은 캐시 히트가 왜 낮은 성능을 의미하는가?
메모리 접근 패턴 해독 - 동일한 연산이 어떻게 이렇게 다르게 동작하는가?
프로파일링 방법론 학습 - 추측이 아닌 NSight 도구로 근거를 확보하라

왜 중요한가: 이 퍼즐은 CPU 기반 직관에 도전하는 GPU 성능의 근본 원리를 드러냅니다. 여기서 기르는 역량은 메모리 접근 패턴이 알고리즘 복잡도보다 중요한 실무 GPU 최적화에 직접 적용됩니다.

반전: 이 과정은 프로덕션 성능 이슈를 디버깅하듯이, 소스 코드를 먼저 보지 않고 프로파일링 도구만으로 접근합니다. 프로파일링 결과를 얻은 후에 코드를 들여다봅니다.

탐정 도구 모음

프로파일링 튜토리얼에서 배운 도구들:

NSight Systems (nsys) - 어떤 커널이 느린지 찾기
NSight Compute (ncu) - 커널이 왜 느린지 분석하기
메모리 효율 지표 - 비효율적인 접근 패턴 탐지

시작하기

Step 1: 벤치마크 실행

pixi shell -e nvidia
mojo problems/p30/p30.mojo --benchmark

커널 간에 극적인 실행 시간 차이를 확인할 수 있습니다! 하나의 커널이 나머지보다 훨씬 느립니다. 코드를 보지 않고 프로파일링 도구만으로 원인을 찾아내는 것이 목표입니다.

출력 예시:

| name    | met (ms)  | iters |
| ------- | --------- | ----- |
| kernel1 | 171.85    | 11    |
| kernel2 | 1546.68   | 11    |  <- 이것만 유독 느리다!
| kernel3 | 172.18    | 11    |

Step 2: 프로파일링을 위한 빌드 준비

필수: 정확한 프로파일링을 위해 최적화를 유지하면서 전체 디버그 정보를 포함하여 빌드합니다:

mojo build --debug-level=full problems/p30/p30.mojo -o problems/p30/p30_profiler

중요한 이유:

전체 디버그 정보: 프로파일러에 완전한 심볼 테이블, 변수명, 소스 라인 매핑을 제공
종합 분석: NSight 도구가 성능 데이터를 특정 코드 위치와 연관 짓는 것이 가능
최적화 유지: 프로덕션 빌드와 동일한 현실적인 성능 측정 보장

Step 3: 시스템 전체 조사 (NSight Systems)

각 커널을 프로파일링하여 전체 그림을 확인합니다:

# 최적화 빌드로 각 커널을 개별 프로파일링 (콜드 스타트 방지를 위한 워밍업 포함)
nsys profile --trace=cuda,osrt,nvtx --delay=2 --output=./problems/p30/kernel1_profile ./problems/p30/p30_profiler --kernel1
nsys profile --trace=cuda,osrt,nvtx --delay=2 --output=./problems/p30/kernel2_profile ./problems/p30/p30_profiler --kernel2
nsys profile --trace=cuda,osrt,nvtx --delay=2 --output=./problems/p30/kernel3_profile ./problems/p30/p30_profiler --kernel3

# 결과 분석
nsys stats --force-export=true ./problems/p30/kernel1_profile.nsys-rep > ./problems/p30/kernel1_profile.txt
nsys stats --force-export=true ./problems/p30/kernel2_profile.nsys-rep > ./problems/p30/kernel2_profile.txt
nsys stats --force-export=true ./problems/p30/kernel3_profile.nsys-rep > ./problems/p30/kernel3_profile.txt

확인할 사항:

GPU 커널 요약 - 어떤 커널이 가장 오래 걸리는가?
커널 실행 시간 - 차이가 얼마나 나는가?
메모리 전송 패턴 - 구현 간에 비슷한가?

Step 4: 커널 심층 분석 (NSight Compute)

느린 커널을 식별한 후, NSight Compute로 분석합니다:

# 최적화 빌드로 각 커널의 메모리 패턴 심층 분석
ncu --set=@roofline --section=MemoryWorkloadAnalysis -f -o ./problems/p30/kernel1_analysis ./problems/p30/p30_profiler --kernel1
ncu --set=@roofline --section=MemoryWorkloadAnalysis -f -o ./problems/p30/kernel2_analysis ./problems/p30/p30_profiler --kernel2
ncu --set=@roofline --section=MemoryWorkloadAnalysis -f -o ./problems/p30/kernel3_analysis ./problems/p30/p30_profiler --kernel3

# 결과 확인
ncu --import ./problems/p30/kernel1_analysis.ncu-rep --page details
ncu --import ./problems/p30/kernel2_analysis.ncu-rep --page details
ncu --import ./problems/p30/kernel3_analysis.ncu-rep --page details

위 명령어를 실행하면 다음과 같은 출력이 나타납니다:

Kernel1: Memory Throughput: ~308 Gbyte/s, Max Bandwidth: ~51%
Kernel2: Memory Throughput: ~6 Gbyte/s,   Max Bandwidth: ~12%
Kernel3: Memory Throughput: ~310 Gbyte/s, Max Bandwidth: ~52%

주요 조사 지표:

Memory Throughput (Gbyte/s) - 실제 달성한 메모리 대역폭
Max Bandwidth (%) - 이론적 최대 대역폭 대비 활용률
L1/TEX Hit Rate (%) - L1 캐시 효율
L2 Hit Rate (%) - L2 캐시 효율

🤔 반직관적인 결과: Kernel2가 가장 높은 캐시 히트율을 보이면서 가장 낮은 성능을 보입니다! 이것이 풀어야 할 핵심 미스터리입니다.

Step 5: 탐정 질문

프로파일링 근거를 바탕으로 커널 코드 problems/p30/p30.mojo를 살펴보며 다음 질문에 답해 보세요:

성능 분석

어떤 커널이 가장 높은 Memory Throughput을 달성하는가? (Gbyte/s 값 확인)
어떤 커널의 Max Bandwidth 활용률이 가장 낮은가? (백분율 비교)
메모리 처리량의 성능 격차는 얼마인가? (가장 빠른 것과 가장 느린 것의 배수 차이)

캐시의 역설

어떤 커널의 L1/TEX Hit Rate가 가장 높은가?
어떤 커널의 L2 Hit Rate가 가장 높은가?
🤯 캐시 히트율이 가장 높은 커널이 왜 성능이 가장 나쁜가?

메모리 접근 패턴 탐구

높은 캐시 히트율이 실제로 성능 문제를 나타낼 수 있는가?
어떤 메모리 접근 패턴이 높은 캐시 히트와 낮은 처리량을 동시에 유발하는가?
왜 “효율적인 캐싱“이 “비효율적인 메모리 접근“의 증상일 수 있는가?

“아하!” 순간

프로파일링 근거를 바탕으로, 이 사례가 보여주는 GPU 메모리의 근본 원리는 무엇인가?

발견할 핵심 통찰: 때로는 높은 캐시 히트율이 성능 승리가 아니라 위험 신호입니다!

솔루션

이 미스터리는 GPU 성능의 근본 원리를 드러냅니다: 커널이 동일한 연산을 수행하더라도 메모리 바운드 연산에서는 메모리 접근 패턴이 성능을 지배합니다.

프로파일링 근거가 밝히는 것:

성능 위계: Kernel1과 Kernel3은 빠르고, Kernel2는 치명적으로 느림 (수십 배 차이)
메모리 처리량이 답을 말해준다: 빠른 커널은 높은 대역폭 활용률을 달성하고, 느린 커널은 최소한의 활용률만 달성
캐시의 역설: 가장 느린 커널이 가장 높은 캐시 히트율을 보임 - 높은 캐시 히트가 비효율적인 메모리 접근 패턴을 나타낼 수 있음을 시사
메모리 바운드 GPU 워크로드에서는 메모리 접근 패턴이 알고리즘 복잡도보다 중요

상세 솔루션과 심층 설명

이 프로파일링 탐정 사건은 커널이 동일한 수학 연산을 수행하더라도 메모리 접근 패턴이 어떻게 수십 배의 성능 차이를 만들어내는지 보여줍니다.

프로파일링으로 확인한 성능 근거

NSight Systems 타임라인 분석:

Kernel 1: 짧은 실행 시간 - 효율적
Kernel 3: Kernel 1과 유사 - 효율적
Kernel 2: 극적으로 긴 실행 시간 - 비효율적

NSight Compute 메모리 분석 (하드웨어 무관한 패턴):

효율적인 커널 (1 & 3): 높은 메모리 처리량, 양호한 대역폭 활용률, 보통 수준의 캐시 히트율
비효율적인 커널 (2): 매우 낮은 메모리 처리량, 열악한 대역폭 활용률, 극도로 높은 캐시 히트율

캐시의 역설 규명

🤯 반직관적인 발견:

Kernel2가 가장 높은 캐시 히트율을 보이면서 성능은 최악
기존 상식에 대한 도전: “높은 캐시 히트 = 좋은 성능”
진실: 높은 캐시 히트율은 비효율적인 메모리 접근 패턴의 증상일 수 있음

캐시의 역설이 발생하는 이유:

전통적인 CPU 직관 (GPU에서는 틀림):

캐시 히트율이 높을수록 항상 성능이 좋다
캐시 히트는 메모리 트래픽을 줄여 효율을 높인다

GPU 메모리의 현실 (올바른 이해):

메모리 바운드 워크로드에서는 병합이 캐싱보다 중요
비효율적인 접근 패턴은 인위적으로 캐시 히트율을 부풀릴 수 있음
메모리 대역폭 활용률이 진정한 성능 지표

근본 원인 분석 - 메모리 접근 패턴

p30.mojo의 실제 커널 구현:

Kernel 1 - 효율적인 병합 접근:

def kernel1(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var i = block_dim.x * block_idx.x + thread_idx.x
    if i < size:
        output[i] = a[i] + b[i]

표준 스레드 인덱싱 - 인접 스레드가 인접 메모리에 접근

Kernel 2 - 비효율적인 스트라이드 접근:

def kernel2(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var tid = block_idx.x * block_dim.x + thread_idx.x
    var stride = 512

    var i = tid
    while i < size:
        output[i] = a[i] + b[i]
        i += stride

큰 stride=512로 메모리 접근 간격 발생 - 동일한 연산이지만 흩어진 접근

Kernel 3 - 효율적인 역순 접근:

def kernel3(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    var tid = block_idx.x * block_dim.x + thread_idx.x
    var total_threads = (SIZE // 1024) * 1024

    for step in range(0, size, total_threads):
        var forward_i = step + tid
        if forward_i < size:
            var reverse_i = size - 1 - forward_i
            output[reverse_i] = a[reverse_i] + b[reverse_i]

역순 인덱싱이지만 여전히 예측 가능 - 인접 스레드가 인접 주소에 접근 (방향만 반대)

패턴 분석:

Kernel 1: 전형적인 병합 접근 - 인접 스레드가 인접 메모리에 접근
Kernel 2: 치명적인 스트라이드 접근 - 스레드가 512개 요소씩 건너뜀
Kernel 3: 역순이지만 워프 내에서는 병합 유지 - 예측 가능한 패턴

메모리 시스템 이해

GPU 메모리 아키텍처 기초:

워프 실행: 32개 스레드가 함께 실행
캐시 라인 크기: 128바이트 (float32 값 32개)
병합 요건: 인접 스레드가 인접 메모리에 접근해야 함

p30.mojo 설정 상세:

comptime SIZE = 16 * 1024 * 1024          # 16M 요소 (float32 데이터 64MB)
comptime THREADS_PER_BLOCK = (1024, 1)    # 블록당 1024 스레드
comptime BLOCKS_PER_GRID = (SIZE // 1024, 1)  # 총 16,384 블록
comptime dtype = DType.float32             # 요소당 4바이트

이 설정이 중요한 이유:

대용량 데이터셋 (16M): 메모리 접근 패턴의 차이가 명확하게 드러남
블록당 1024 스레드: CUDA 최대 스레드 수
블록당 32개 워프: 각 블록에 32개의 워프(각 32 스레드)가 포함

메모리 접근 효율 시각화:

KERNEL 1 (병합):                KERNEL 2 (stride 512):
워프 스레드 0-31:               워프 스레드 0-31:
  Thread 0: Memory[0]            Thread 0: Memory[0]
  Thread 1: Memory[1]            Thread 1: Memory[512]
  Thread 2: Memory[2]            Thread 2: Memory[1024]
  ...                           ...
  Thread 31: Memory[31]          Thread 31: Memory[15872]

결과: 캐시 라인 1회 fetch          결과: 별도의 캐시 라인 32회 fetch
상태: ~308 GB/s 처리량            상태: ~6 GB/s 처리량
캐시: 효율적 활용                  캐시: 같은 라인을 반복 히트!

KERNEL 3 (역순이지만 병합):

워프 스레드 0-31 (첫 번째 반복):
  Thread 0: Memory[SIZE-1]     (reverse_i = SIZE-1-0)
  Thread 1: Memory[SIZE-2]     (reverse_i = SIZE-1-1)
  Thread 2: Memory[SIZE-3]     (reverse_i = SIZE-1-2)
  ...
  Thread 31: Memory[SIZE-32]   (reverse_i = SIZE-1-31)

결과: 인접한 주소 (방향만 반대)
상태: ~310 GB/s 처리량 (Kernel 1과 거의 동일)
캐시: 역순임에도 효율적 활용

캐시의 역설 설명

Kernel2 (stride=512)가 높은 캐시 히트율에도 성능이 나쁜 이유:

stride=512의 재앙 설명:

# 각 스레드가 큰 간격으로 여러 요소를 처리:
Thread 0: elements [0, 512, 1024, 1536, 2048, ...]
Thread 1: elements [1, 513, 1025, 1537, 2049, ...]
Thread 2: elements [2, 514, 1026, 1538, 2050, ...]
...

이것이 캐시의 역설을 만드는 이유:

캐시 라인 반복: 512개 요소를 건너뛰어도 겹치는 캐시 라인 영역 안에 머무름
거짓 효율의 환상: 같은 캐시 라인에 반복 접근 = 인위적으로 높은 “히트율”
대역폭 재앙: 32개 스레드 × 32개 별도 캐시 라인 = 막대한 메모리 트래픽
워프 실행 불일치: GPU는 병합 접근에 맞게 설계되었지만, 흩어진 접근을 받음

float32 (각 4바이트) 구체 예시:

캐시 라인: 128바이트 = float32 값 32개
stride 512: 스레드가 512×4 = 2048바이트 = 16 캐시 라인 간격으로 점프!
워프 영향: 32개 스레드가 1개 대신 32개의 서로 다른 캐시 라인을 필요로 함

핵심 통찰: Kernel2의 높은 캐시 히트는 비효율적으로 가져온 데이터에 대한 반복 접근이지, 현명한 캐싱이 아닙니다!

프로파일링 방법론 통찰

체계적 탐정 접근법:

1단계: NSight Systems (전체 그림)

어떤 커널이 느린지 식별
명백한 병목 배제 (메모리 전송, API 오버헤드)
커널 실행 시간 차이에 집중

2단계: NSight Compute (심층 분석)

메모리 처리량 지표 분석
대역폭 활용률 백분율 비교
캐시 히트율과 패턴 조사

3단계: 근거를 이론으로 연결

프로파일링 근거 → 코드 분석:

NSight Compute 결과:              실제 코드 패턴:
- Kernel1: ~308 GB/s            → i = block_idx*block_dim + thread_idx (병합)
- Kernel2: ~6 GB/s, 99% L2 hits → i += 512 (치명적 stride)
- Kernel3: ~310 GB/s            → reverse_i = size-1-forward_i (역순 병합)

프로파일러 데이터가 메모리 접근 효율을 직접 드러냅니다!

근거에서 코드로의 연결:

높은 처리량 + 보통 캐시 히트율 = 병합 접근 (Kernel 1 & 3)
낮은 처리량 + 높은 캐시 히트율 = 비효율적 스트라이드 접근 (Kernel 2)
메모리 대역폭 활용률이 캐시 통계와 무관하게 진정한 효율을 드러냄

실무 성능 시사점

이 패턴이 영향을 미치는 GPU 응용 분야:

과학 컴퓨팅:

스텐실 연산: 그리드 시뮬레이션에서의 이웃 접근 패턴
선형 대수: 행렬 순회 순서 (행 우선 vs 열 우선)
편미분 방정식 풀이: 유한 차분법에서의 격자점 접근 패턴

그래픽스 및 이미지 처리:

텍스처 필터링: 셰이더에서의 샘플 접근 패턴
이미지 합성곱: 필터 커널의 메모리 접근
색 공간 변환: 채널 인터리빙 전략

머신러닝:

행렬 연산: GEMM에서의 메모리 레이아웃 최적화
텐서 축약: 다차원 배열 접근 패턴
데이터 로딩: 배치 처리와 전처리 파이프라인

GPU 최적화의 근본 원칙

메모리 우선 최적화 전략:

메모리 패턴이 지배: 접근 패턴이 알고리즘 복잡도보다 더 중요한 경우가 많음
병합이 핵심: 인접 스레드가 인접 메모리에 접근하도록 설계
대역폭 활용률 측정: 캐시 통계가 아닌 실제 처리량에 집중
체계적 프로파일링: NSight 도구로 실제 병목을 파악

핵심 기술 통찰:

메모리 바운드 워크로드: 대역폭 활용률이 성능을 결정
캐시 지표의 함정: 높은 히트율이 항상 효율을 의미하지는 않음
워프 레벨 사고: 32개 스레드 실행 그룹을 위한 접근 패턴 설계
하드웨어 인식 프로그래밍: GPU 메모리 계층 구조 이해가 필수

핵심 교훈

이번에 탐구한 사례는 GPU 성능 최적화가 CPU 직관을 버리고 메모리 중심 사고로 전환할 것을 요구한다는 점을 보여줍니다:

핵심 통찰:

높은 캐시 히트율은 좋은 성능이 아니라 비효율적인 메모리 접근 패턴을 나타낼 수 있음
메모리 대역폭 활용률이 캐시 통계보다 중요
단순한 병합 패턴이 복잡한 알고리즘보다 더 빠른 경우가 많음
프로파일링 도구가 직관으로는 알 수 없는 성능의 진실을 드러냄

실전 방법론:

NSight Systems와 NSight Compute로 체계적으로 프로파일링
인접 스레드가 인접 메모리에 접근하도록 설계 (병합)
직관이 아닌 프로파일러 근거를 바탕으로 최적화 결정

캐시의 역설은 아키텍처에 대한 이해 없이 고수준 지표에 의존하면 잘못된 결론에 이를 수 있다는 점을 보여줍니다 - GPU 프로그래밍을 넘어 두루 적용되는 교훈입니다.

Puzzle 31: 점유율 최적화

이 퍼즐이 중요한 이유

Puzzle 30의 연장선: GPU 프로파일링 도구를 배우고, 메모리 접근 패턴이 어떻게 극적인 성능 차이를 만들어내는지 발견했습니다. 이제 다음 단계로 나아갈 준비가 되었습니다: 리소스 최적화.

학습 여정:

Puzzle 30에서는 NSight 프로파일링(nsys와 ncu)을 통해 성능 문제를 진단하는 법을 배웠습니다
Puzzle 31에서는 리소스 관리를 통해 성능을 예측하고 제어하는 법을 배웁니다
둘을 합치면 GPU 최적화를 위한 완전한 도구 세트를 갖추게 됩니다

발견하게 될 것: GPU 성능은 단순히 알고리즘 효율의 문제가 아닙니다 - 코드가 한정된 하드웨어 리소스를 어떻게 활용하느냐가 핵심입니다. 모든 GPU는 유한한 레지스터, 공유 메모리, 실행 유닛을 갖고 있습니다. 점유율(occupancy) - SM당 활성 워프 수 대비 최대 가능 워프 수의 비율 - 을 이해하는 것은 다음과 같은 이유로 중요합니다:

지연 시간 은닉: 메모리 대기 시간 동안 GPU가 유휴 상태에 빠지지 않도록 유지
리소스 할당: 레지스터, 공유 메모리, 스레드 블록 간의 균형 조절
성능 예측: 병목이 발생하기 전에 미리 파악
최적화 전략: 점유율에 집중해야 할 때와 다른 요소에 집중해야 할 때 판단

GPU를 넘어서 적용되는 원리: 여기서 배우는 원리는 리소스를 여러 실행 유닛이 공유하는 모든 병렬 컴퓨팅 시스템에 적용됩니다 - 하이퍼스레딩을 사용하는 CPU부터 분산 컴퓨팅 클러스터까지.

개요

GPU 점유율은 SM당 활성 워프 수 대비 최대 가능 워프 수의 비율입니다. GPU가 워프 전환을 통해 메모리 지연 시간을 얼마나 효과적으로 숨길 수 있는지를 결정합니다.

SAXPY는 Single-precision Alpha times X plus Y의 약자입니다. 이 퍼즐에서는 수학적으로 동일하지만 리소스 사용이 다른 세 가지 SAXPY 커널(y[i] = alpha * x[i] + y[i])을 탐구합니다:

comptime SIZE = 32 * 1024 * 1024  # 32M elements - larger workload to show occupancy effects
comptime THREADS_PER_BLOCK = (1024, 1)
comptime BLOCKS_PER_GRID = (SIZE // 1024, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)
comptime ALPHA = Scalar[dtype](2.5)  # SAXPY coefficient


def minimal_kernel(
    y: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    x: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    alpha: Float32,
    size: Int,
):
    """Minimal SAXPY kernel - simple and register-light for high occupancy."""
    var i = block_dim.x * block_idx.x + thread_idx.x
    if i < size:
        # Direct computation: y[i] = alpha * x[i] + y[i]
        # Uses minimal registers (~8), no shared memory
        y[i] = alpha * x[i] + y[i]

전체 파일 보기: problems/p31/p31.mojo

def sophisticated_kernel(
    y: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    x: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    alpha: Float32,
    size: Int,
):
    """Sophisticated SAXPY kernel - over-engineered with excessive resource usage.
    """
    # Maximum shared memory allocation (close to 48KB limit)
    var shared_cache = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](
        row_major[1024 * 12]()
    )  # 48KB

    var i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    if i < size:
        # REAL computational work that can't be optimized away - affects final result
        var base_x = x[i]
        var base_y = y[i]

        # Simulate "precision enhancement" - multiple small adjustments that add up
        # Each computation affects the final result so compiler can't eliminate them
        # But artificially increases register pressure
        var precision_x1 = base_x * 1.0001
        var precision_x2 = precision_x1 * 0.9999
        var precision_x3 = precision_x2 * 1.000001
        var precision_x4 = precision_x3 * 0.999999

        var precision_y1 = base_y * 1.000005
        var precision_y2 = precision_y1 * 0.999995
        var precision_y3 = precision_y2 * 1.0000001
        var precision_y4 = precision_y3 * 0.9999999

        # Multiple alpha computations for "stability" - should equal alpha
        var alpha1 = alpha * 1.00001 * 0.99999
        var alpha2 = alpha1 * 1.000001 * 0.999999
        var alpha3 = alpha2 * 1.0000001 * 0.9999999
        var alpha4 = alpha3 * 1.00000001 * 0.99999999

        # Complex polynomial "optimization" - creates register pressure
        var x_power2 = precision_x4 * precision_x4
        var x_power3 = x_power2 * precision_x4
        var x_power4 = x_power3 * precision_x4
        var x_power5 = x_power4 * precision_x4
        var x_power6 = x_power5 * precision_x4
        var x_power7 = x_power6 * precision_x4
        var x_power8 = x_power7 * precision_x4

        # "Advanced" mathematical series that contributes tiny amount to result
        var series_term1 = x_power2 * 0.0000001  # x^2/10M
        var series_term2 = x_power4 * 0.00000001  # x^4/100M
        var series_term3 = x_power6 * 0.000000001  # x^6/1B
        var series_term4 = x_power8 * 0.0000000001  # x^8/10B
        var series_correction = (
            series_term1 - series_term2 + series_term3 - series_term4
        )

        # Over-engineered shared memory usage with multiple caching strategies
        if local_i < 1024:
            shared_cache[local_i] = precision_x4
            shared_cache[local_i + 1024] = precision_y4
            shared_cache[local_i + 2048] = alpha4
            shared_cache[local_i + 3072] = series_correction
        barrier()

        # Load from shared memory for "optimization"
        var cached_x = shared_cache[local_i] if local_i < 1024 else precision_x4
        var cached_y = (
            shared_cache[local_i + 1024] if local_i < 1024 else precision_y4
        )
        var cached_alpha = (
            shared_cache[local_i + 2048] if local_i < 1024 else alpha4
        )
        var cached_correction = (
            shared_cache[local_i + 3072] if local_i
            < 1024 else series_correction
        )

        # Final "high precision" computation - all work contributes to result
        var high_precision_result = (
            cached_alpha * cached_x + cached_y + cached_correction
        )

        # Over-engineered result with massive resource usage but mathematically ~= alpha*x + y
        y[i] = high_precision_result

전체 파일 보기: problems/p31/p31.mojo

def balanced_kernel(
    y: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    x: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    alpha: Float32,
    size: Int,
):
    """Balanced SAXPY kernel - efficient optimization with moderate resources.
    """
    # Reasonable shared memory usage for effective caching (16KB)
    var shared_cache = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](
        row_major[1024 * 4]()
    )  # 16KB total

    var i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    if i < size:
        # Moderate computational work that contributes to result
        var base_x = x[i]
        var base_y = y[i]

        # Light precision enhancement - less than sophisticated kernel
        var enhanced_x = base_x * 1.00001 * 0.99999
        var enhanced_y = base_y * 1.00001 * 0.99999
        var stable_alpha = alpha * 1.000001 * 0.999999

        # Moderate computational optimization
        var x_squared = enhanced_x * enhanced_x
        var optimization_hint = x_squared * 0.000001

        # Efficient shared memory caching - only what we actually need
        if local_i < 1024:
            shared_cache[local_i] = enhanced_x
            shared_cache[local_i + 1024] = enhanced_y
        barrier()

        # Use cached values efficiently
        var cached_x = shared_cache[local_i] if local_i < 1024 else enhanced_x
        var cached_y = (
            shared_cache[local_i + 1024] if local_i < 1024 else enhanced_y
        )

        # Balanced computation - moderate work, good efficiency
        var result = stable_alpha * cached_x + cached_y + optimization_hint

        # Balanced result with moderate resource usage (~15 registers, 16KB shared)
        y[i] = result

전체 파일 보기: problems/p31/p31.mojo

도전 과제

프로파일링 도구를 사용하여 세 커널을 조사하고, 점유율 최적화에 대한 분석 질문에 답하세요. 커널들은 동일한 결과를 계산하지만 리소스 사용이 극적으로 다릅니다 - 성능과 점유율이 왜 직관에 어긋나는 방식으로 동작하는지 발견하는 것이 여러분의 임무입니다!

이 퍼즐에 표시된 구체적인 수치 결과는 NVIDIA A10G (Ampere 8.6) 하드웨어를 기준으로 합니다. 결과는 GPU 제조사와 아키텍처(NVIDIA: Pascal/Turing/Ampere/Ada/Hopper, AMD: RDNA/GCN, Apple: M1/M2/M3/M4/M5)에 따라 달라지지만, 기본 개념, 방법론, 통찰은 모든 최신 GPU에 보편적으로 적용됩니다. pixi run gpu-specs를 실행하여 하드웨어별 수치를 확인하세요.

구성

요구 사항:

CUDA 툴킷이 설치된 NVIDIA GPU
Puzzle 30의 NSight Compute

⚠️ GPU 호환성 참고: 기본 설정은 공격적인 값을 사용하므로 구형이나 저사양 GPU에서는 실패할 수 있습니다:
comptime SIZE = 32 * 1024 * 1024  # 32M 요소 (배열당 ~256MB 메모리)
comptime THREADS_PER_BLOCK = (1024, 1)  # 블록당 1024 스레드
comptime BLOCKS_PER_GRID = (SIZE // 1024, 1)  # 32768 블록
실행 실패 시 problems/p31/p31.mojo에서 다음 값을 줄이세요:

구형 GPU (Compute Capability < 3.0): THREADS_PER_BLOCK = (512, 1), SIZE = 16 * 1024 * 1024 사용

메모리 제한 GPU (< 2GB): SIZE = 8 * 1024 * 1024 또는 SIZE = 4 * 1024 * 1024 사용

그리드 차원 제한: BLOCKS_PER_GRID는 SIZE에 맞춰 자동 조정됩니다

점유율 공식:

이론적 점유율 = min(
    SM당 레지스터 수 / (스레드당 레지스터 수 × 블록당 스레드 수),
    SM당 공유 메모리 / 블록당 공유 메모리,
    SM당 최대 블록 수
) × 블록당 스레드 수 / SM당 최대 스레드 수

조사 과정

Step 1: 커널 테스트

pixi shell -e nvidia
mojo problems/p31/p31.mojo --all

세 커널 모두 동일한 결과를 내야 합니다. 미스터리: 왜 성능은 다를까요?

Step 2: 성능 벤치마크

mojo problems/p31/p31.mojo --benchmark

세 커널 모두 동일한 결과를 내야 합니다. 미스터리: 왜 성능은 다를까요?

Step 3: 프로파일링용 빌드

mojo build --debug-level=full problems/p31/p31.mojo -o problems/p31/p31_profiler

Step 4: 리소스 사용량 프로파일링

# 각 커널의 리소스 사용량 프로파일링
ncu --set=@occupancy --section=LaunchStats problems/p31/p31_profiler --minimal
ncu --set=@occupancy --section=LaunchStats problems/p31/p31_profiler --sophisticated
ncu --set=@occupancy --section=LaunchStats problems/p31/p31_profiler --balanced

점유율 분석을 위해 리소스 사용량을 기록하세요.

Step 5: 이론적 점유율 계산

먼저 GPU 아키텍처와 세부 스펙을 확인합니다:

pixi run gpu-specs

참고: gpu-specs는 GPU 제조사(NVIDIA/AMD/Apple)를 자동 감지하고 하드웨어에서 파생된 모든 아키텍처 세부 정보를 표시합니다 - 별도의 참조표가 필요 없습니다!

주요 아키텍처 스펙 (참고용):

아키텍처	Compute Cap	레지스터/SM	공유 메모리/SM	최대 스레드/SM	최대 블록/SM
Hopper (H100)	9.0	65,536	228KB	2,048	32
Ada (RTX 40xx)	8.9	65,536	128KB	2,048	32
Ampere (RTX 30xx, A100, A10G)	8.0, 8.6	65,536	164KB	2,048	32
Turing (RTX 20xx)	7.5	65,536	96KB	1,024	16
Pascal (GTX 10xx)	6.1	65,536	96KB	2,048	32

📚 공식 문서:

⚠️ 참고: 이 값들은 이론적 최대치입니다. 실제 점유율은 하드웨어 스케줄링 제약, 드라이버 오버헤드 등의 요인으로 더 낮을 수 있습니다.

GPU 스펙과 점유율 공식을 사용하여:

블록당 스레드 수: 1024 (커널 설정값)

점유율 공식과 하드웨어 스펙을 사용하여 각 커널의 이론적 점유율을 예측하세요.

Step 6: 실제 점유율 측정

# 각 커널의 실제 점유율 측정
ncu --metrics=smsp__warps_active.avg.pct_of_peak_sustained_active problems/p31/p31_profiler --minimal
ncu --metrics=smsp__warps_active.avg.pct_of_peak_sustained_active problems/p31/p31_profiler --sophisticated
ncu --metrics=smsp__warps_active.avg.pct_of_peak_sustained_active problems/p31/p31_profiler --balanced

이론적 계산과 실제 측정된 점유율을 비교하세요 - 미스터리가 드러나는 순간입니다!

핵심 통찰

💡 점유율 임계값: 대기 시간을 숨기기에 충분한 점유율(~25-50%)을 확보하면, 그 이상의 점유율은 수확 체감 효과를 보입니다.

💡 메모리 바운드 vs 연산 바운드: SAXPY는 메모리 바운드입니다. 메모리 바운드 커널에서는 메모리 대역폭이 점유율보다 더 중요한 경우가 많습니다.

💡 리소스 효율: 최신 GPU는 적당한 수준의 레지스터 압박(스레드당 20-40개)을 점유율의 극적인 감소 없이 처리할 수 있습니다.

도전 과제: 다음 질문에 답하세요

위의 조사 단계를 완료한 후, 다음 분석 질문에 답하여 점유율 미스터리를 풀어보세요:

성능 분석 (Step 2):

어떤 커널이 가장 빠르고, 어떤 커널이 가장 느린가요? 실행 시간 차이를 기록하세요.

리소스 프로파일링 (Step 4):

각 커널의 스레드당 레지스터 수, 블록당 공유 메모리, SM당 워프 수를 기록하세요.

이론적 계산 (Step 5):

GPU 스펙과 점유율 공식을 사용하여 각 커널의 이론적 점유율을 계산하세요. 어떤 커널이 가장 높고/낮아야 하나요?

측정된 점유율 (Step 6):

측정된 점유율 값이 계산 결과와 어떻게 비교되나요?

점유율 미스터리:

리소스 사용이 극적으로 다른데도 세 커널 모두 비슷한 점유율(~64-66%, GPU 아키텍처에 따라 다를 수 있음)를 달성하는 이유는 무엇인가요?
리소스 사용이 극적으로 차이나는데(19 vs 40 레지스터, 0KB vs 49KB 공유 메모리) 성능이 거의 동일한(<2% 차이) 이유는 무엇인가요?
이론적 점유율 계산과 실제 GPU 동작 사이의 관계에 대해 무엇을 알 수 있나요?
이 SAXPY 워크로드의 실제 성능 병목이 점유율이 아니라면 무엇인가요?

팁

탐정 도구 모음:

NSight Compute (ncu) - 점유율과 리소스 사용량 측정
GPU 아키텍처 스펙 - pixi run gpu-specs를 사용한 이론적 한계 계산
점유율 공식 - 리소스 병목 예측
성능 벤치마크 - 이론적 분석 검증

핵심 최적화 원칙:

최적화 전에 계산하기: 코드를 작성하기 전에 점유율 공식으로 리소스 한계를 예측
측정으로 검증하기: 이론적 계산은 컴파일러 최적화와 하드웨어 세부 사항을 반영하지 못함
워크로드 특성 고려하기: 메모리 바운드 워크로드는 연산 바운드보다 점유율이 덜 필요
최대 점유율을 목표로 하지 않기: 충분한 점유율 + 다른 성능 요소를 최적화
임계값 관점으로 사고하기: 25-50% 점유율이면 대부분 대기 시간을 숨기기에 충분
리소스 사용량 프로파일링하기: NSight Compute로 실제 레지스터와 공유 메모리 소비량 파악

조사 접근법:

벤치마킹부터 시작 - 먼저 성능 차이를 확인
NSight Compute로 프로파일링 - 실제 리소스 사용량과 점유율 데이터 확보
이론적 점유율 계산 - GPU 스펙과 점유율 공식 활용
이론과 현실 비교 - 미스터리가 드러나는 순간!
워크로드 특성 고찰 - 이론과 실제가 왜 다를 수 있는지 생각해보기

솔루션

심층 해설이 포함된 완전한 풀이

이 점유율 탐정 사건은 리소스 사용이 GPU 성능에 어떤 영향을 미치는지 보여주고, 이론적 점유율과 실제 성능 사이의 복잡한 관계를 드러냅니다.

아래 구체적인 계산은 NVIDIA A10G (Ampere 8.6) - 테스트에 사용된 GPU - 기준입니다. 결과는 GPU 아키텍처에 따라 달라지지만, 방법론과 통찰은 보편적으로 적용됩니다. pixi run gpu-specs를 실행하여 하드웨어별 수치를 확인하세요.

리소스 분석을 통한 프로파일링 근거

NSight Compute 리소스 분석:

실제 프로파일링 결과 (NVIDIA A10G - GPU에 따라 결과가 다를 수 있음):

Minimal: 19 레지스터, ~0KB 공유 메모리 → 점유율 63.87%, 327.7ms
Balanced: 25 레지스터, 16.4KB 공유 메모리 → 점유율 65.44%, 329.4ms
Sophisticated: 40 레지스터, 49.2KB 공유 메모리 → 점유율 65.61%, 330.9ms

벤치마크 성능 근거:

세 커널 모두 거의 동일한 성능을 보임 (~327-331ms, <2% 차이)
리소스 차이가 크지만 모두 비슷한 점유율을 달성 (~64-66%)
메모리 대역폭이 제한 요인으로 작용

점유율 계산의 실체

이론적 점유율 분석 (NVIDIA A10G, Ampere 8.6):

GPU 스펙 (pixi run gpu-specs 출력):

SM당 레지스터: 65,536
SM당 공유 메모리: 164KB (아키텍처 최대치)
SM당 최대 스레드: 1,536 (A10G 하드웨어 제한)
블록당 스레드: 1,024 (커널 설정값)
SM당 최대 블록: 32

Minimal 커널 계산:

레지스터 제한 = 65,536 / (19 × 1,024) = 3.36 블록/SM
공유 메모리 제한 = 164KB / 0KB = ∞ 블록/SM
하드웨어 블록 제한 = 32 블록/SM

스레드 제한 = 1,536 / 1,024 = 1 블록/SM (내림)
실제 블록 = min(3, ∞, 1) = 1 블록/SM
이론적 점유율 = (1 × 1,024) / 1,536 = 66.7%

Balanced 커널 계산:

레지스터 제한 = 65,536 / (25 × 1,024) = 2.56 블록/SM
공유 메모리 제한 = 164KB / 16.4KB = 10 블록/SM
하드웨어 블록 제한 = 32 블록/SM

스레드 제한 = 1,536 / 1,024 = 1 블록/SM (내림)
실제 블록 = min(2, 10, 1) = 1 블록/SM
이론적 점유율 = (1 × 1,024) / 1,536 = 66.7%

Sophisticated 커널 계산:

레지스터 제한 = 65,536 / (40 × 1,024) = 1.64 블록/SM
공유 메모리 제한 = 164KB / 49.2KB = 3.33 블록/SM
하드웨어 블록 제한 = 32 블록/SM

스레드 제한 = 1,536 / 1,024 = 1 블록/SM (내림)
실제 블록 = min(1, 3, 1) = 1 블록/SM
이론적 점유율 = (1 × 1,024) / 1,536 = 66.7%

핵심 발견: 이론과 현실이 일치한다!

이론적: 모든 커널 ~66.7% (A10G의 스레드 용량에 의해 제한)
실측: 모두 ~64-66% (매우 근접한 결과!)

이는 A10G의 스레드 제한이 지배적임을 보여줍니다 - SM당 최대 스레드가 1,536개이므로 1,024 스레드 블록은 1개만 들어갑니다. 이론(66.7%)과 실측(~65%) 사이의 작은 차이는 하드웨어 스케줄링 오버헤드와 드라이버 제약에서 비롯됩니다.

이론과 현실이 근접한 이유

이론적(66.7%)과 실측(~65%) 점유율 사이 작은 차이의 원인:

하드웨어 스케줄링 오버헤드: 실제 워프 스케줄러는 이론적 계산을 넘어서는 실질적 제약이 있음
CUDA 런타임 예약: 드라이버와 런타임 오버헤드가 가용 SM 리소스를 약간 줄임
메모리 컨트롤러 압박: A10G의 메모리 서브시스템이 약간의 스케줄링 제약을 만듦
전력 및 열 관리: 동적 주파수 조절이 최대 성능에 영향
명령어 캐시 효과: 실제 커널은 점유율 계산에 포착되지 않는 명령어 페치 오버헤드가 있음

핵심 통찰: 이론과 실측이 근접하다는 것(66.7% vs ~65%)은 레지스터와 공유 메모리 차이와 무관하게 A10G의 스레드 제한이 세 커널 모두를 지배한다는 뜻입니다. 진짜 병목을 정확히 짚어낸 좋은 사례입니다!

점유율 미스터리 해설

미스터리의 진짜 정체:

리소스 차이가 극적인데도 세 커널 모두 거의 동일한 점유율을 달성 (~64-66%)
성능이 본질적으로 동일 (세 커널 모두 <2% 변동)
이론이 점유율을 정확히 예측 (66.7% 이론 ≈ 65% 실측)
미스터리는 점유율 불일치가 아닙니다 - 리소스 사용이 크게 다른데도 왜 점유율과 성능이 동일한지가 진짜 미스터리입니다!

리소스 사용이 다른데 성능이 동일한 이유:

SAXPY 워크로드의 특성:

메모리 바운드 연산: 각 스레드의 연산량이 극히 적음 (y[i] = alpha * x[i] + y[i])
높은 메모리 트래픽: 스레드당 2개 값 읽기, 1개 값 쓰기
낮은 산술 강도: 12바이트 메모리 트래픽당 2 FLOPS만 수행

메모리 대역폭 분석 (A10G):

단일 커널 패스 분석:
- 입력 배열: 32M × 4바이트 × 2 배열 = 256MB 읽기
- 출력 배열: 32M × 4바이트 × 1 배열 = 128MB 쓰기
- 커널당 총량: 384MB 메모리 트래픽

최대 대역폭 (A10G): 600 GB/s
단일 패스 시간: 384MB / 600 GB/s ≈ 0.64ms 이론적 최소치
벤치마크 시간: ~328ms (여러 반복 + 오버헤드 포함)

실제 성능 결정 요인:

메모리 대역폭 활용: 모든 커널이 가용 메모리 대역폭을 포화시킴
연산 오버헤드: Sophisticated 커널이 추가 작업을 수행 (레지스터 압박 효과)
공유 메모리 이점: Balanced 커널이 일부 캐싱 이점을 얻음
컴파일러 최적화: 최신 컴파일러가 가능한 한 레지스터 사용을 최소화

점유율 임계값 개념 이해하기

핵심 통찰: 점유율은 “최대“가 아닌 “충분함“의 문제

대기 시간 은닉 요구 사항:

메모리 지연 시간: 최신 GPU에서 ~500-800 사이클
워프 스케줄링: GPU는 이 지연 시간을 숨기기 위해 충분한 워프가 필요
충분한 임계값: 보통 25-50% 점유율이면 대기 시간을 효과적으로 숨길 수 있음

높은 점유율이 항상 도움이 되지 않는 이유:

리소스 경쟁:

더 많은 활성 스레드가 동일한 메모리 대역폭을 놓고 경쟁
동시 접근이 많아지면 캐시 압박이 증가
레지스터/공유 메모리 압박이 개별 스레드 성능을 저하시킬 수 있음

워크로드별 최적화:

연산 바운드: 높은 점유율이 ALU 파이프라인 지연 시간을 숨기는 데 도움
메모리 바운드: 점유율과 무관하게 메모리 대역폭이 성능을 제한
혼합 워크로드: 점유율과 다른 최적화 요소 사이에서 균형 필요

실전 점유율 최적화 원칙

체계적 점유율 분석 접근법:

1단계: 이론적 한계 계산

# GPU 스펙 확인
pixi run gpu-specs

2단계: 실제 사용량 프로파일링

# 리소스 소비량 측정
ncu --set=@occupancy --section=LaunchStats your_kernel

# 달성된 점유율 측정
ncu --metrics=smsp__warps_active.avg.pct_of_peak_sustained_active your_kernel

3단계: 성능 검증

# 항상 실제 성능 측정으로 검증
ncu --set=@roofline --section=MemoryWorkloadAnalysis your_kernel

근거 기반 의사결정 프레임워크:

점유율 분석 → 최적화 전략:

높은 점유율 (>70%) + 좋은 성능:
→ 점유율은 충분, 다른 병목에 집중

낮은 점유율 (<30%) + 나쁜 성능:
→ 리소스 최적화를 통해 점유율 향상 필요

적당한 점유율 (50-70%) + 나쁜 성능:
→ 메모리 대역폭, 캐시, 연산 병목 조사 필요

낮은 점유율 (<30%) + 좋은 성능:
→ 워크로드가 높은 점유율을 필요로 하지 않음 (메모리 바운드)

실용적인 점유율 최적화 기법

레지스터 최적화:

적절한 데이터 타입 사용: float32 vs float64, int32 vs int64
중간 변수 최소화: 컴파일러가 임시 저장소를 최적화하도록 맡기기
루프 전개 고려: 점유율과 명령어 수준 병렬성 사이의 균형

공유 메모리 최적화:

필요한 크기 계산: 과다 할당 방지
타일링 전략 고려: 점유율과 데이터 재사용 사이의 균형
뱅크 충돌 회피: 충돌 없는 접근 패턴 설계

블록 크기 튜닝:

여러 설정 테스트: 블록당 256, 512, 1024 스레드
워프 활용 고려: 가능하면 불완전한 워프 방지
점유율과 리소스 사용의 균형: 블록이 클수록 리소스 한계에 도달할 수 있음

핵심 정리: A10G 미스터리에서 보편적 원칙으로

이 A10G 점유율 조사는 모든 GPU 최적화에 적용되는 명확한 통찰의 진행을 보여줍니다:

A10G 발견 과정:

스레드 제한이 모든 것을 지배 - 19 vs 40 레지스터, 0KB vs 49KB 공유 메모리 차이에도 불구하고, A10G의 1,536 스레드 용량 때문에 모든 커널이 SM당 1블록이라는 동일한 제한에 걸림
이론이 현실과 근접하게 일치 - 66.7% 이론 vs ~65% 실측 점유율은 올바른 병목을 식별했을 때 계산이 유효함을 보여줌
메모리 대역폭이 성능을 지배 - 동일한 66.7% 점유율에서, SAXPY의 메모리 바운드 특성(600 GB/s 포화)이 리소스 차이에도 불구하고 동일한 성능을 설명

보편적인 GPU 최적화 원칙:

진짜 병목 식별하기:

모든 리소스에서 점유율 제한을 계산: 레지스터, 공유 메모리, 스레드 용량
가장 제한적인 요소가 결정적 - 레지스터나 공유 메모리가 항상 병목이라고 가정하지 말 것
메모리 바운드 워크로드(SAXPY 같은)는 대기 시간을 숨길 만큼 충분한 스레드만 확보되면 점유율이 아닌 대역폭이 제한 요인

점유율이 중요한 경우 vs 중요하지 않은 경우:

높은 점유율이 중요: 연산 집약적 커널(GEMM, 과학 시뮬레이션)에서 ALU 파이프라인이 멈추는 시간을 다른 워프 실행으로 숨겨야 하는 경우
점유율이 덜 중요: 메모리 바운드 연산(BLAS Level 1, 메모리 복사)에서 점유율이 제한 요인이 되기 전에 대역폭이 포화되는 경우
적정 수준: 60-70% 점유율이면 대기 시간을 숨기기에 충분 - 그 이상은 진짜 병목에 집중

실전 최적화 워크플로우:

먼저 프로파일링 (ncu --set=@occupancy) - 실제 리소스 사용량과 점유율 측정
이론적 한계 계산 - GPU 스펙 활용 (pixi run gpu-specs)
지배적 제약 식별 - 레지스터, 공유 메모리, 스레드 용량, 또는 메모리 대역폭
병목 최적화 - 제한 요인이 아닌 리소스에 시간 낭비하지 않기
종단간 성능으로 검증 - 점유율은 성능을 위한 수단이지 목표가 아님

A10G 사례는 체계적 병목 분석이 직관보다 낫다는 것을 완벽하게 보여줍니다 - 스레드 용량이 지배적이었기에 Sophisticated 커널의 높은 레지스터 압박은 무관했고, 동일한 점유율과 메모리 대역폭 포화가 성능 미스터리를 완전히 설명해줍니다.

Puzzle 32: 뱅크 충돌

이 퍼즐이 중요한 이유

성능 최적화 3부작의 완결: Puzzle 30에서 GPU 프로파일링 도구를 배우고, Puzzle 31에서 점유율 최적화를 이해했습니다. 이제 성능 최적화 퍼즐의 마지막 조각을 맞출 준비가 되었습니다: 공유 메모리 효율.

숨겨진 성능 함정: 완벽한 점유율, 최적의 전역 메모리 병합, 동일한 수학적 연산을 갖춘 GPU 커널을 작성하고도 스레드가 공유 메모리에 접근하는 방식 때문에 극적인 성능 차이를 경험할 수 있습니다. 뱅크 충돌은 GPU 프로그래밍에서 가장 미묘하면서도 영향력이 큰 성능 함정 중 하나입니다.

학습 여정:

Puzzle 30에서는 NSight 프로파일링으로 성능을 측정하고 진단하는 법을 배웠습니다
Puzzle 31에서는 점유율 분석을 통해 리소스 사용을 예측하고 제어하는 법을 배웠습니다
Puzzle 32에서는 최대 효율을 위해 공유 메모리 접근 패턴을 최적화하는 법을 배웁니다

GPU를 넘어서 적용되는 원리: 메모리 뱅킹, 충돌 감지, 체계적인 접근 패턴 최적화의 원리는 CPU 캐시 계층 구조부터 분산 메모리 아키텍처까지 다양한 병렬 컴퓨팅 시스템에 적용됩니다.

참고: 이 퍼즐은 NVIDIA GPU 전용입니다

뱅크 충돌 분석은 NVIDIA의 32-뱅크 공유 메모리 아키텍처와 NSight Compute 프로파일링 도구를 사용합니다. 최적화 원리는 널리 적용되지만, 구체적인 기법과 측정 방법은 NVIDIA CUDA에 초점을 맞추고 있습니다.

개요

공유 메모리 뱅크 충돌은 워프 내의 여러 스레드가 동일한 메모리 뱅크의 서로 다른 주소에 동시에 접근할 때 발생하며, 하드웨어가 이러한 접근을 직렬화하도록 강제합니다. 단일 사이클 메모리 연산이어야 할 것이 여러 사이클의 직렬화된 접근으로 바뀔 수 있습니다.

발견하게 될 것:

하드웨어 수준에서 GPU 공유 메모리 뱅킹이 작동하는 방식
동일한 커널이 왜 공유 메모리 효율에서 크게 다를 수 있는지
성능에 영향을 미치기 전에 뱅크 충돌을 예측하고 측정하는 방법
충돌 없는 알고리즘을 설계하기 위한 전문적인 최적화 전략

탐정 방법론: 이 퍼즐은 이전 성능 퍼즐과 동일한 근거 기반 접근법을 따릅니다 - 프로파일링 도구로 숨겨진 비효율을 밝혀낸 다음, 체계적인 최적화 원칙을 적용하여 제거합니다.

핵심 개념

공유 메모리 아키텍처의 기초:

32-뱅크 설계: NVIDIA GPU는 공유 메모리를 32개의 독립적인 뱅크로 구성합니다
충돌 유형: 충돌 없음(최적), N-way 충돌(직렬화), 브로드캐스트(최적화)
접근 패턴 수학: 뱅크 할당 공식과 충돌 예측
성능 영향: 최적의 1사이클 접근부터 최악의 32사이클 직렬화까지

전문적인 최적화 기술:

패턴 분석: 뱅킹 동작의 수학적 예측
프로파일링 방법론: 충돌 측정을 위한 NSight Compute 메트릭
설계 원칙: 충돌 없는 알고리즘 패턴과 예방 전략
성능 검증: 체계적인 측정을 통한 근거 기반 최적화

퍼즐 구성

이 퍼즐은 전문성을 점진적으로 쌓아가는 두 개의 상호 보완적인 섹션으로 구성되어 있습니다:

📚 공유 메모리 뱅크 이해하기

명확한 설명과 실용적인 예제를 통해 GPU 공유 메모리 뱅킹의 이론적 기초를 학습합니다.

배우게 될 것:

NVIDIA의 32-뱅크 아키텍처가 병렬 접근을 가능하게 하는 방식
뱅크 할당과 충돌 예측의 수학
충돌 유형과 성능에 미치는 영향
이전 개념과의 연결 (워프 실행, 점유율, 프로파일링)

핵심 통찰: 하드웨어를 이해하면 코드를 작성하기 전에 성능을 예측할 수 있습니다.

충돌 없는 패턴

뱅킹 지식을 활용하여 전문 프로파일링 기법으로 성능 미스터리를 풀어봅니다.

탐정 도전 과제: 두 커널이 동일한 결과를 계산하지만 공유 메모리 접근 효율은 극적으로 다릅니다. NSight Compute를 사용하여 한 커널은 체계적인 뱅크 충돌을 겪고 다른 커널은 최적의 성능을 달성하는 이유를 밝혀내세요.

길러지는 역량: 패턴 분석, 충돌 측정, 체계적 최적화, 근거 기반 성능 개선.

시작하기

학습 경로:

공유 메모리 뱅크 이해하기 - 이론적 기초 쌓기
충돌 없는 패턴 - 실전 최적화에 탐정 역량 적용하기

선수 조건:

Puzzle 30에서 익힌 GPU 프로파일링 경험
Puzzle 31에서 익힌 리소스 최적화 이해
Puzzle 8과 Puzzle 16에서 익힌 공유 메모리 프로그래밍 경험

하드웨어 요구 사항:

CUDA 툴킷이 설치된 NVIDIA GPU
NSight Compute 프로파일링 도구
프로파일링 등의 의존성은 pixi로 관리됩니다
호환 가능한 GPU 아키텍처

최적화의 효과

뱅크 충돌이 가장 중요한 경우:

공유 메모리 타일링을 사용하는 행렬 곱셈
공유 메모리 캐싱을 사용하는 스텐실 연산
스트라이드 기반 메모리 패턴을 사용하는 병렬 리덕션

전문 역량 개발:

체계적 최적화: 근거 기반 성능 개선 방법론
하드웨어 인식: 소프트웨어가 하드웨어 제약에 어떻게 매핑되는지 이해
패턴 인식: 알고리즘 설계에서 문제가 되는 접근 패턴 식별

학습 성과: 공유 메모리 접근 패턴을 설계, 측정, 최적화하는 역량까지 갖추면 GPU 성능 최적화 도구 세트가 완성됩니다 - 전문가 수준의 GPU 프로그래밍을 위한 마지막 퍼즐 조각입니다.

전역 메모리 병합에서 점유율 관리를 거쳐 공유 메모리 뱅킹 효율까지, 이 퍼즐은 최적의 GPU 성능을 위해서는 여러 수준에서 하드웨어를 이해해야 한다는 것을 보여줍니다.

📚 공유 메모리 뱅크 이해하기

지금까지 배운 것을 바탕으로

GPU 최적화 여정에서 이미 많은 길을 걸어왔습니다. Puzzle 8에서는 공유 메모리가 전역 메모리보다 훨씬 빠른 블록 내부 저장소를 제공한다는 것을 배웠습니다. Puzzle 16에서는 행렬 곱셈 커널이 공유 메모리를 사용하여 데이터 타일을 캐싱하고, 비용이 큰 전역 메모리 접근을 줄이는 방법을 확인했습니다.

하지만 공유 메모리에는 병렬 연산을 직렬화시킬 수 있는 숨겨진 성능 함정이 도사리고 있습니다: 뱅크 충돌.

성능 미스터리: 겉보기에 동일한 방식으로 공유 메모리에 접근하는 두 커널을 작성할 수 있습니다 - 둘 다 같은 양의 데이터를 사용하고, 완벽한 점유율을 가지며, 경쟁 상태도 없습니다. 그런데 하나가 다른 것보다 32배 느립니다. 범인은? 스레드가 공유 메모리 뱅크에 접근하는 방식입니다.

공유 메모리 뱅크란?

공유 메모리를 뱅크라고 불리는 32개의 독립적인 메모리 유닛의 집합이라고 생각하세요. 각 뱅크는 클록 사이클당 하나의 메모리 요청을 처리할 수 있습니다. 이 뱅킹 시스템이 존재하는 근본적인 이유는 하드웨어 병렬성 때문입니다.

32개 스레드로 구성된 워프가 동시에 공유 메모리에 접근해야 할 때, 각 스레드가 서로 다른 뱅크에 접근한다면 GPU는 32개의 요청을 모두 병렬로 처리할 수 있습니다. 여러 스레드가 같은 뱅크에 접근하려 하면 하드웨어는 이를 직렬화해야 하므로, 1사이클이면 될 연산이 여러 사이클로 늘어납니다.

뱅크 주소 매핑

공유 메모리의 각 4바이트 워드는 다음 공식에 따라 특정 뱅크에 배정됩니다:

bank_id = (byte_address / 4) % 32

공유 메모리의 처음 128바이트가 뱅크에 매핑되는 방식은 다음과 같습니다:

Address Range	Bank ID	Example `float32` Elements
0-3 bytes	Bank 0	`shared[0]`
4-7 bytes	Bank 1	`shared[1]`
8-11 bytes	Bank 2	`shared[2]`
…	…	…
124-127 bytes	Bank 31	`shared[31]`
128-131 bytes	Bank 0	`shared[32]`
132-135 bytes	Bank 1	`shared[33]`

핵심 통찰: float32 배열에서 뱅킹 패턴은 32개 요소마다 반복되며, 이는 32개 스레드로 구성된 워프 크기와 정확히 일치합니다. 이것은 우연이 아닙니다 - 최적의 병렬 접근을 위해 설계된 것입니다.

뱅크 충돌의 유형

충돌 없음: 이상적인 경우

워프 내 각 스레드가 서로 다른 뱅크에 접근하면 32개의 접근이 모두 1사이클에 완료됩니다:

# Perfect case: each thread accesses a different bank
shared[thread_idx.x]  # Thread 0→Bank 0, Thread 1→Bank 1, ..., Thread 31→Bank 31

결과: 32개 병렬 접근, 총 1사이클

N-way 뱅크 충돌

N개의 스레드가 같은 뱅크의 서로 다른 주소에 접근하면 하드웨어가 접근을 직렬화합니다:

# 2-way conflict: stride-2 access pattern
shared[thread_idx.x * 2]  # Thread 0,16→Bank 0; Thread 1,17→Bank 1; etc.

결과: 뱅크당 2회 접근, 총 2사이클 (효율 50%)

# Worst case: all threads access different addresses in Bank 0
shared[thread_idx.x * 32]  # All threads→Bank 0

결과: 32회 직렬화된 접근, 총 32사이클 (효율 3%)

브로드캐스트 예외

충돌 규칙에는 한 가지 중요한 예외가 있습니다: 브로드캐스트 접근. 모든 스레드가 동일한 주소를 읽으면 하드웨어가 이를 단일 메모리 접근으로 최적화합니다:

# Broadcast: all threads read the same value
constant = shared[0]  # All threads read shared[0]

결과: 1회 접근으로 32개 스레드에 브로드캐스트, 총 1사이클

이 최적화가 존재하는 이유는 브로드캐스트가 흔한 패턴(상수 로딩, 리덕션 연산 등)이고, 하드웨어가 추가 메모리 대역폭 없이 단일 값을 모든 스레드에 복제할 수 있기 때문입니다.

뱅크 충돌이 중요한 이유

성능 영향

뱅크 충돌은 공유 메모리 접근 시간을 직접적으로 배가시킵니다:

충돌 유형	접근 시간	효율	성능 영향
충돌 없음	1사이클	100%	기준선
2-way conflict	2사이클	50%	2배 느림
4-way conflict	4사이클	25%	4배 느림
32-way conflict	32사이클	3%	32배 느림

실전 맥락

Puzzle 30에서 메모리 접근 패턴이 극적인 성능 차이를 만들어낸다는 것을 배웠습니다. 뱅크 충돌은 이 원리가 공유 메모리 수준에서 작동하는 또 다른 사례입니다.

전역 메모리 병합이 DRAM 대역폭 활용에 영향을 주는 것처럼, 뱅크 충돌은 공유 메모리 처리량에 영향을 줍니다. 차이는 규모에 있습니다: 전역 메모리 지연 시간은 수백 사이클이지만, 공유 메모리 충돌은 접근당 몇 사이클만 추가합니다. 그러나 공유 메모리를 집중적으로 사용하는 연산 집약적 커널에서는 이 “몇 사이클“이 빠르게 누적됩니다.

워프 실행과의 관계

Puzzle 24에서 워프가 SIMT(Single Instruction, Multiple Thread) 방식으로 실행된다는 것을 배웠습니다. 워프가 뱅크 충돌에 부딪히면 직렬화된 메모리 접근이 완료될 때까지 32개 스레드 모두가 대기해야 합니다. 이 대기 시간은 충돌을 일으킨 스레드만이 아니라 워프 전체의 진행에 영향을 미칩니다.

이는 Puzzle 31의 점유율 개념과 연결됩니다: 뱅크 충돌은 워프가 메모리 지연 시간을 효과적으로 숨기는 것을 방해하여, 높은 점유율의 실질적인 이점을 줄일 수 있습니다.

뱅크 충돌 감지하기

시각적 패턴 인식

접근 패턴을 분석하면 뱅크 충돌을 예측할 수 있는 경우가 많습니다:

순차 접근 (충돌 없음):

# Thread ID:  0  1  2  3  ...  31
# Address:    0  4  8 12  ... 124
# Bank:       0  1  2  3  ...  31  ✅ All different banks

Stride-2 접근 (2-way conflict):

# Thread ID:  0  1  2  3  ...  15 16 17 18 ... 31
# Address:    0  8 16 24  ... 120  4 12 20 ... 124
# Bank:       0  2  4  6  ...  30  1  3  5 ...  31
# Conflict:   Banks 0,2,4... have 2 threads each  ❌

Stride-32 접근 (32-way conflict):

# Thread ID:  0   1   2   3  ...  31
# Address:    0  128 256 384 ... 3968
# Bank:       0   0   0   0  ...   0  ❌ All threads→Bank 0

NSight Compute(`ncu`)를 사용한 프로파일링

Puzzle 30에서 배운 프로파일링 방법론을 바탕으로, 뱅크 충돌을 정량적으로 측정할 수 있습니다:

# Key metrics for shared memory bank conflicts
ncu --metrics=l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld,l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st your_kernel

# Additional context metrics
ncu --metrics=smsp__sass_average_branch_targets_threads_uniform.pct your_kernel
ncu --metrics=smsp__warps_issue_stalled_membar_per_warp_active.pct your_kernel

l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld와 l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st 메트릭은 커널 실행 중 로드 및 스토어 연산의 뱅크 충돌 횟수를 직접 카운트합니다. 공유 메모리 접근 횟수와 결합하면 충돌 비율을 구할 수 있으며, 이는 핵심적인 성능 지표입니다.

뱅크 충돌이 가장 중요한 경우

연산 집약적 커널

뱅크 충돌은 다음과 같은 커널에서 가장 큰 영향을 미칩니다:

타이트한 루프 안에서 공유 메모리에 자주 접근하는 경우
공유 메모리 접근당 연산량이 적은 경우
커널이 메모리 바운드가 아닌 연산 바운드인 경우

대표적인 시나리오:

행렬 곱셈 내부 루프 (Puzzle 16의 타일링 버전과 같은)
공유 메모리 캐싱을 사용하는 스텐실 연산
병렬 리덕션 연산

메모리 바운드 vs 연산 바운드 트레이드오프

Puzzle 31에서 메모리 바운드 워크로드에서는 점유율이 덜 중요하다는 것을 보았듯이, 커널이 전역 메모리 대역폭에 병목이 걸리거나 산술 강도가 매우 낮은 경우에는 뱅크 충돌의 영향도 줄어듭니다.

그러나 공유 메모리를 사용하는 많은 커널은 바로 메모리 바운드에서 연산 바운드로 전환하기 위해 공유 메모리를 활용합니다. 이런 경우 뱅크 충돌은 애초에 공유 메모리를 도입한 이유였던 성능 향상을 달성하지 못하게 만들 수 있습니다.

앞으로의 방향

공유 메모리 뱅킹을 이해하면 다음과 같은 기초를 갖추게 됩니다:

접근 패턴을 분석하여 코드를 작성하기 전에 성능을 예측
체계적인 프로파일링 접근법으로 성능 저하를 진단
높은 공유 메모리 처리량을 유지하는 충돌 없는 알고리즘 설계
알고리즘 복잡도와 메모리 효율 사이의 균형 잡힌 판단

다음 섹션에서는 이 지식을 실습에 적용하여 일반적인 충돌 패턴과 해결책을 직접 다뤄봅니다 - 이론적 이해를 실전 최적화 역량으로 바꾸는 과정입니다.

충돌 없는 패턴

참고: 이 섹션은 NVIDIA GPU 전용입니다

여기서 다루는 뱅크 충돌 분석과 프로파일링 기법은 NVIDIA GPU에 특화되어 있습니다. 프로파일링 명령은 NVIDIA CUDA 툴킷에 포함된 NSight Compute 도구를 사용합니다.

프로파일링 역량을 바탕으로

Puzzle 30에서 GPU 프로파일링 기초를 배우고, Puzzle 31에서 리소스 최적화를 이해했습니다. 이제 배운 탐정 기술을 새로운 성능 미스터리에 적용할 차례입니다: 공유 메모리 뱅크 충돌.

탐정 도전 과제: 동일한 수학적 연산((input + 10) * 2)을 수행하는 두 GPU 커널이 있습니다. 둘 다 정확히 같은 결과를 냅니다. 같은 양의 공유 메모리를 사용합니다. 점유율도 동일합니다. 그런데 하나는 공유 메모리에 접근하는 방식 때문에 체계적인 성능 저하를 겪습니다.

여러분의 임무: 지금까지 배운 프로파일링 방법론으로 이 숨겨진 성능 함정을 밝혀내고, 실제 GPU 프로그래밍에서 뱅크 충돌이 언제 중요한지 이해하세요.

개요

공유 메모리 뱅크 충돌은 워프 내의 여러 스레드가 동일한 메모리 뱅크의 서로 다른 주소에 동시에 접근할 때 발생합니다. 이 탐정 사건에서는 대조적인 접근 패턴을 가진 두 커널을 살펴봅니다:

comptime SIZE = 8 * 1024  # 8K elements - small enough to focus on shared memory patterns
comptime TPB = 256  # Threads per block - divisible by 32 (warp size)
comptime THREADS_PER_BLOCK = (TPB, 1)
comptime BLOCKS_PER_GRID = (SIZE // TPB, 1)
comptime dtype = DType.float32
comptime layout = row_major[SIZE]()
comptime LayoutType = type_of(layout)


def no_conflict_kernel(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Perfect shared memory access - no bank conflicts.

    Each thread accesses a different bank: thread_idx.x maps to bank thread_idx.x % 32.
    This achieves optimal shared memory bandwidth utilization.
    """

    # Shared memory buffer - each thread loads one element
    var shared_buf = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Load from global memory to shared memory - no conflicts
    if global_i < size:
        shared_buf[local_i] = (
            input[global_i] + 10.0
        )  # Add 10 as simple operation

    barrier()  # Synchronize shared memory writes

    # Read back from shared memory and write to output - no conflicts
    if global_i < size:
        output[global_i] = shared_buf[local_i] * 2.0  # Multiply by 2

    barrier()  # Ensure completion

def two_way_conflict_kernel(
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Stride-2 shared memory access - creates 2-way bank conflicts.

    Threads 0,16 -> Bank 0, Threads 1,17 -> Bank 1, etc.
    Each bank serves 2 threads, doubling access time.
    """

    # Shared memory buffer - stride-2 access pattern creates conflicts
    var shared_buf = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TPB]())

    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # CONFLICT: stride-2 access creates 2-way bank conflicts
    var conflict_index = (local_i * 2) % TPB

    # Load with bank conflicts
    if global_i < size:
        shared_buf[conflict_index] = (
            input[global_i] + 10.0
        )  # Same operation as no-conflict

    barrier()  # Synchronize shared memory writes

    # Read back with same conflicts
    if global_i < size:
        output[global_i] = (
            shared_buf[conflict_index] * 2.0
        )  # Same operation as no-conflict

    barrier()  # Ensure completion

전체 파일 보기: problems/p32/p32.mojo

미스터리: 이 커널들은 동일한 결과를 계산하지만 공유 메모리 접근 효율은 극적으로 다릅니다. 체계적인 프로파일링 분석을 통해 그 이유를 밝혀내는 것이 임무입니다.

구성

요구 사항:

Puzzle 30의 CUDA 툴킷과 NSight Compute가 설치된 NVIDIA GPU
이전 섹션에서 다룬 공유 메모리 뱅킹 개념에 대한 이해

커널 설정:

comptime SIZE = 8 * 1024      # 8K elements - focus on shared memory patterns
comptime TPB = 256            # 256 threads per block (8 warps)
comptime BLOCKS_PER_GRID = (SIZE // TPB, 1)  # 32 blocks

핵심 통찰: 전역 메모리 대역폭 제한이 아닌 공유 메모리 효과를 부각하기 위해 문제 크기를 의도적으로 이전 퍼즐보다 작게 설정했습니다.

조사 과정

Step 1: 정확성 검증

pixi shell -e nvidia
mojo problems/p32/p32.mojo --test

두 커널 모두 동일한 결과를 내야 합니다. 이를 통해 뱅크 충돌이 정확성이 아닌 성능에 영향을 미친다는 것을 확인합니다.

Step 2: 성능 기준선 벤치마크

mojo problems/p32/p32.mojo --benchmark

실행 시간을 기록하세요. 워크로드가 전역 메모리 접근에 의해 지배되기 때문에 비슷한 성능이 나올 수 있지만, 뱅크 충돌은 프로파일링 메트릭을 통해 드러납니다.

Step 3: 프로파일링용 빌드

mojo build --debug-level=full problems/p32/p32.mojo -o problems/p32/p32_profiler

Step 4: 뱅크 충돌 프로파일링

NSight Compute를 사용하여 공유 메모리 뱅크 충돌을 정량적으로 측정합니다:

# Profile no-conflict kernel
ncu --metrics=l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld,l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st problems/p32/p32_profiler --no-conflict

그리고

# Profile two-way conflict kernel
ncu --metrics=l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld,l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st problems/p32/p32_profiler --two-way

기록할 핵심 메트릭:

l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld.sum - 로드 충돌
l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st.sum - 스토어 충돌

Step 5: 접근 패턴 분석

프로파일링 결과를 바탕으로 수학적 접근 패턴을 분석합니다:

충돌 없는 커널 접근 패턴:

# Thread mapping: thread_idx.x directly maps to shared memory index
shared_buf[thread_idx.x]  # Thread 0→Index 0, Thread 1→Index 1, etc.
# Bank mapping: Index % 32 = Bank ID
# Result: Thread 0→Bank 0, Thread 1→Bank 1, ..., Thread 31→Bank 31

2-way 충돌 커널 접근 패턴:

# Thread mapping with stride-2 modulo operation
shared_buf[(thread_idx.x * 2) % TPB]
# For threads 0-31: Index 0,2,4,6,...,62, then wraps to 64,66,...,126, then 0,2,4..
# Bank mapping examples:
# Thread 0  → Index 0   → Bank 0
# Thread 16 → Index 32  → Bank 0  (conflict!)
# Thread 1  → Index 2   → Bank 2
# Thread 17 → Index 34  → Bank 2  (conflict!)

도전 과제: 뱅크 충돌 미스터리를 풀어보세요

위의 조사 단계를 완료한 후, 다음 분석 질문에 답하세요:

성능 분석 (Step 1-2)

두 커널이 동일한 수학적 결과를 내나요?
커널 간 실행 시간 차이가 있나요?
접근 패턴이 다른데도 성능이 비슷할 수 있는 이유는 무엇인가요?

뱅크 충돌 프로파일링 (Step 4)

충돌 없는 커널은 로드와 스토어에서 몇 건의 뱅크 충돌을 발생시키나요?
2-way 충돌 커널은 로드와 스토어에서 몇 건의 뱅크 충돌을 발생시키나요?
두 커널 간 총 충돌 횟수 차이는 얼마인가요?

접근 패턴 분석 (Step 5)

충돌 없는 커널에서 Thread 0은 어떤 뱅크에 접근하나요? Thread 31은?
2-way 충돌 커널에서 Bank 0에 접근하는 스레드는? Bank 2에 접근하는 스레드는?
충돌 커널에서 같은 뱅크를 놓고 경쟁하는 스레드는 몇 개인가요?

뱅크 충돌 탐정 작업

충돌 없는 커널은 충돌이 0인데, 2-way 충돌 커널에서는 측정 가능한 충돌이 나타나는 이유는 무엇인가요?
stride-2 접근 패턴 (thread_idx.x * 2) % TPB는 어떻게 체계적인 충돌을 만들어내나요?
뱅크 충돌이 메모리 바운드 커널보다 연산 집약적 커널에서 더 중요한 이유는 무엇인가요?

실전 시사점

뱅크 충돌이 애플리케이션 성능에 큰 영향을 미칠 것으로 예상되는 경우는 언제인가요?
공유 메모리 알고리즘을 구현하기 전에 뱅크 충돌 패턴을 어떻게 예측할 수 있나요?
행렬 연산과 스텐실 연산에서 뱅크 충돌을 피하는 데 도움이 되는 설계 원칙은 무엇인가요?

팁

뱅크 충돌 탐정 도구 모음:

NSight Compute 메트릭 - 정밀한 측정으로 충돌을 정량화
접근 패턴 시각화 - 스레드 인덱스를 뱅크에 체계적으로 매핑
수학적 분석 - 모듈로 연산으로 충돌 예측
워크로드 특성 - 충돌이 중요한 경우와 그렇지 않은 경우 이해

핵심 조사 원칙:

체계적으로 측정하기: 충돌을 추측하지 말고 프로파일링 도구를 사용
접근 패턴 시각화하기: 복잡한 알고리즘의 스레드-뱅크 매핑을 그려보기
워크로드 맥락 고려하기: 뱅크 충돌은 연산 집약적 공유 메모리 알고리즘에서 가장 중요
예방적으로 사고하기: 처음부터 충돌 없는 접근 패턴으로 알고리즘 설계

접근 패턴 분석 방법:

스레드를 인덱스에 매핑: 수학적 주소 계산을 이해
뱅크 할당 계산: 공식 bank_id = (address / 4) % 32 사용
충돌 식별: 같은 뱅크에 접근하는 스레드가 여러 개인지 확인
프로파일링으로 검증: NSight Compute 측정으로 이론적 분석 확인

일반적인 충돌 없는 패턴:

순차 접근: shared[thread_idx.x] - 각 스레드가 다른 뱅크에 접근
브로드캐스트 접근: 모든 스레드가 shared[0] - 하드웨어 최적화
2의 거듭제곱 스트라이드: stride-32는 뱅킹 패턴에 깔끔하게 매핑되는 경우가 많음
패딩된 배열: 패딩을 추가하여 문제가 되는 접근 패턴을 이동

솔루션

뱅크 충돌 분석이 포함된 완전한 풀이

이 뱅크 충돌 탐정 사건은 공유 메모리 접근 패턴이 GPU 성능에 어떤 영향을 미치는지, 그리고 최적화를 위한 체계적 프로파일링의 중요성을 보여줍니다.

프로파일링을 통한 조사 결과

Step 1: 정확성 검증 두 커널 모두 동일한 수학적 결과를 냅니다:

✅ No-conflict kernel: PASSED
✅ Two-way conflict kernel: PASSED
✅ Both kernels produce identical results

Step 2: 성능 기준선 벤치마크 결과는 비슷한 실행 시간을 보여줍니다:

| name             | met (ms)           | iters |
| ---------------- | ------------------ | ----- |
| no_conflict      | 2.1930616745886655 | 547   |
| two_way_conflict | 2.1978922967032966 | 546   |

핵심 통찰: 성능이 거의 동일한 이유(~2.19ms vs ~2.20ms)는 이 워크로드가 공유 메모리 바운드가 아닌 전역 메모리 바운드이기 때문입니다. 뱅크 충돌은 실행 시간이 아닌 프로파일링 메트릭을 통해 드러납니다.

뱅크 충돌 프로파일링 근거

충돌 없는 커널 (최적 접근 패턴):

l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld.sum    0
l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st.sum    0

결과: 로드와 스토어 모두 충돌 0건 - 완벽한 공유 메모리 효율.

2-Way 충돌 커널 (문제 있는 접근 패턴):

l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_ld.sum    256
l1tex__data_bank_conflicts_pipe_lsu_mem_shared_op_st.sum    256

결과: 로드와 스토어 각각 256건의 충돌 - 체계적인 뱅킹 문제의 명확한 근거.

총 충돌 차이: 512건의 충돌(256 + 256)이 측정 가능한 공유 메모리 비효율을 보여줍니다.

접근 패턴 수학적 분석

충돌 없는 커널 접근 패턴

스레드-인덱스 매핑:

shared_buf[thread_idx.x]

뱅크 할당 분석:

Thread 0  → Index 0   → Bank 0 % 32 = 0
Thread 1  → Index 1   → Bank 1 % 32 = 1
Thread 2  → Index 2   → Bank 2 % 32 = 2
...
Thread 31 → Index 31  → Bank 31 % 32 = 31

결과: 완벽한 뱅크 분배 - 각 워프 내에서 각 스레드가 서로 다른 뱅크에 접근하여 병렬 접근이 가능합니다.

2-way 충돌 커널 접근 패턴

스레드-인덱스 매핑:

shared_buf[(thread_idx.x * 2) % TPB]  # TPB = 256

첫 번째 워프(스레드 0-31)의 뱅크 할당 분석:

Thread 0  → Index (0*2)%256 = 0   → Bank 0
Thread 1  → Index (1*2)%256 = 2   → Bank 2
Thread 2  → Index (2*2)%256 = 4   → Bank 4
...
Thread 16 → Index (16*2)%256 = 32 → Bank 0  ← Thread 0과 충돌
Thread 17 → Index (17*2)%256 = 34 → Bank 2  ← Thread 1과 충돌
Thread 18 → Index (18*2)%256 = 36 → Bank 4  ← Thread 2와 충돌
...

충돌 패턴: 각 뱅크가 정확히 2개의 스레드를 처리하여 32개 뱅크 전체에서 체계적인 2-way 충돌이 발생합니다.

수학적 설명: stride-2 패턴과 모듈로 256의 조합이 반복적인 접근 패턴을 만들어냅니다:

스레드 0-15는 뱅크 0,2,4,…,30에 접근
스레드 16-31은 동일한 뱅크 0,2,4,…,30에 접근
각 뱅크 충돌마다 하드웨어 직렬화가 필요

이것이 중요한 이유: 워크로드 맥락 분석

메모리 바운드 vs 연산 바운드 시사점

이 워크로드의 특성:

전역 메모리 지배적: 각 스레드가 메모리 전송 대비 최소한의 연산만 수행
공유 메모리는 부차적: 뱅크 충돌이 오버헤드를 추가하지만 전체 실행 시간을 지배하지는 않음
동일한 성능: 전역 메모리 대역폭 포화가 공유 메모리 비효율을 가림

뱅크 충돌이 가장 중요한 경우:

연산 집약적 공유 메모리 알고리즘 - 행렬 곱셈, 스텐실 연산, FFT
타이트한 연산 루프 - 내부 루프 안에서 반복적인 공유 메모리 접근
높은 산술 강도 - 메모리 접근당 상당한 연산량
대규모 공유 메모리 작업 세트 - 공유 메모리 캐싱을 집중적으로 활용하는 알고리즘

실전 성능 시사점

뱅크 충돌이 성능에 큰 영향을 미치는 애플리케이션:

행렬 곱셈:

# Problematic: All threads in warp access same column
for k in range(tile_size):
    acc += a_shared[local_row, k] * b_shared[k, local_col]  # b_shared[k, 0] conflicts

스텐실 연산:

# Problematic: Stride access in boundary handling
shared_buf[thread_idx.x * stride]  # Creates systematic conflicts

병렬 리덕션:

# Problematic: Power-of-2 stride patterns
if thread_idx.x < stride:
    shared_buf[thread_idx.x] += shared_buf[thread_idx.x + stride]  # Conflict potential

충돌 없는 설계 원칙

예방 전략

1. 순차 접근 패턴:

shared[thread_idx.x]  # Optimal - each thread different bank

2. 브로드캐스트 최적화:

constant = shared[0]  # All threads read same address - hardware optimized

3. 패딩 기법:

shared = stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[TPB + 1]())  # Shift access patterns

4. 접근 패턴 분석:

구현 전에 뱅크 할당을 계산
모듈로 연산 사용: bank_id = (address_bytes / 4) % 32
복잡한 알고리즘의 스레드-뱅크 매핑을 시각화

체계적 최적화 워크플로우

설계 단계:

접근 패턴 계획 - 스레드-메모리 매핑을 스케치
뱅크 할당 계산 - 수학적 분석 활용
충돌 예측 - 문제가 되는 접근 패턴 식별
대안 설계 - 패딩, 전치, 또는 알고리즘 변경 고려

구현 단계:

체계적 프로파일링 - NSight Compute 충돌 메트릭 사용
영향 측정 - 구현 간 충돌 횟수 비교
성능 검증 - 최적화가 종단간 성능을 개선하는지 확인
패턴 문서화 - 성공적인 충돌 없는 알고리즘을 재사용을 위해 기록

핵심 정리: 탐정 작업에서 최적화 전문성으로

뱅크 충돌 조사에서 밝혀진 것:

측정이 직관보다 낫다 - 프로파일링 도구가 성능 타이밍으로는 보이지 않는 충돌을 드러냄
패턴 분석이 유효하다 - 수학적 예측이 NSight Compute 결과와 정확히 일치
맥락이 중요하다 - 뱅크 충돌은 연산 집약적 공유 메모리 워크로드에서 가장 중요
예방이 수정보다 낫다 - 충돌 없는 패턴을 설계하는 것이 사후 최적화보다 쉬움

보편적인 공유 메모리 최적화 원칙:

뱅크 충돌에 주의해야 하는 경우:

데이터 재사용을 위해 공유 메모리를 사용하는 연산 집약적 커널
타이트한 루프에서 반복적으로 공유 메모리에 접근하는 반복 알고리즘
모든 사이클이 중요한 성능 핵심 코드
대역폭 바운드가 아닌 연산 바운드인 메모리 집약적 연산

뱅크 충돌이 덜 중요한 경우:

전역 메모리가 성능을 지배하는 메모리 바운드 워크로드
공유 메모리 재사용이 최소인 단순 캐싱 시나리오
반복적인 충돌 발생 연산이 없는 일회성 접근 패턴

전문적 개발 방법론:

최적화 전에 프로파일링 - NSight Compute로 충돌을 정량적으로 측정
접근 수학 이해 - 뱅크 할당 공식으로 문제를 예측
체계적으로 설계 - 뱅킹을 사후 고려가 아닌 알고리즘 설계 단계에서 고려
최적화 검증 - 충돌 감소가 실제 성능을 개선하는지 확인

이 탐정 사건은 체계적 프로파일링이 성능 타이밍만으로는 보이지 않는 최적화 기회를 드러낸다는 것을 보여줍니다 - 뱅크 충돌은 측정 기반 최적화가 추측보다 나은 대표적인 사례입니다.

Puzzle 33: 텐서 코어 연산

소개

GPU 행렬 곱셈 최적화의 최전선에 오신 것을 환영합니다! 이 퍼즐에서는 혼합 정밀도 행렬 연산을 전례 없는 속도로 가속하기 위해 설계된 전용 하드웨어 유닛인 텐서 코어를 탐구합니다.

지금까지 배운 모든 것, 특히 Puzzle 16의 관용적 타일링 행렬 곱셈을 기반으로, 최신 GPU가 행렬 연산을 극적으로 빠르게 만드는 전용 실리콘을 어떻게 제공하는지 살펴보겠습니다.

텐서 코어란?

텐서 코어(AMD 하드웨어에서는 Matrix Core라고도 함)는 단일 명령어로 혼합 정밀도 행렬-행렬 연산을 수행할 수 있는 전용 프로세싱 유닛입니다. 이 유닛은 최신 GPU 아키텍처에서 사용할 수 있습니다:

NVIDIA: Tensor Cores (Volta, Turing, Ampere, Hopper)
AMD: Matrix Cores (CDNA/CDNA2/CDNA3 아키텍처)

GPU에 직접 내장된 하드웨어 가속 GEMM(역주: General Matrix Multiply, 범용 행렬 곱셈) 엔진이라고 생각하면 됩니다.

핵심 특징

워프 수준 연산: 각 명령어가 전체 워프의 데이터를 대상으로 동작합니다 (NVIDIA에서 32개 스레드, AMD에서 32 또는 64개)
고정 타일 크기: 연산이 특정 행렬 프래그먼트 크기에서 동작합니다 (예: FP32의 경우 16×8×8)
혼합 정밀도: 최적의 성능을 위해 입력과 출력의 정밀도를 혼합할 수 있습니다
대규모 처리량: 행렬 연산에서 일반 컴퓨트 코어 대비 10~100배 속도 향상을 달성할 수 있습니다

타일링에서 텐서 코어로

기본 행렬 곱셈에서 텐서 코어까지의 여정을 돌아보겠습니다:

Puzzle 16: 공유 메모리를 활용한 관용적 타일링 행렬 곱셈을 배웠습니다
공유 메모리 최적화: 효율적인 메모리 전송을 위해 copy_dram_to_sram_async를 사용했습니다
스레드 협력: 배리어와 비동기 연산으로 워프를 조정했습니다
지금: 핵심 연산을 가속하기 위해 전용 하드웨어(텐서 코어)를 사용할 것입니다

텐서 코어 프로그래밍 모델

텐서 코어는 기존과 다른 프로그래밍 패러다임을 제공합니다:

기존 컴퓨트 코어 방식

# Each thread computes one element
acc += a_shared[local_row, k] * b_shared[k, local_col]

텐서 코어 방식

# Entire warp cooperates on matrix fragments
a_reg = mma_op.load_a(A_mma_tile)           # Load 16×8 fragment
b_reg = mma_op.load_b(B_mma_tile)           # Load 8×8 fragment
c_reg = mma_op.load_c(C_mma_tile)           # Load 16×8 accumulator
d_reg = mma_op.mma_op(a_reg, b_reg, c_reg)  # D = A×B + C
mma_op.store_d(C_mma_tile, d_reg)           # Store result

Mojo의 텐서 코어 API

Mojo는 TensorCore 타입을 통해 텐서 코어에 대한 깔끔한 인터페이스를 제공합니다:

from layout.tensor_core import TensorCore

# Create a Tensor Core operator for specific tile sizes
mma_op = TensorCore[A.dtype, C.dtype, Index(MMA_M, MMA_N, MMA_K)]()

# Core operations:
# - load_a(): Load matrix A fragment from shared memory
# - load_b(): Load matrix B fragment from shared memory
# - load_c(): Load matrix C fragment (accumulator)
# - mma_op(): Perform D = A×B + C operation
# - store_d(): Store result fragment to memory

고급 기능: TensorCore API는 양자화 연산, 메모리 접근 최적화를 위한 다양한 스위즐 패턴(역주: 공유 메모리의 뱅크 충돌을 피하기 위해 데이터 주소를 비트 연산으로 재배치하는 기법), 혼합 정밀도 연산도 지원합니다. 지원되는 모든 형태, 데이터 타입, 메서드에 대한 전체 문서는 공식 TensorCore API 레퍼런스를 참고하세요.

행렬 프래그먼트 크기

TensorCore API는 GPU 하드웨어에 따라 다양한 형태와 데이터 타입을 지원합니다:

NVIDIA GPU:

float32: 16×8×8 또는 16×8×4
half-precision: 16×8×16
float8: 16×8×32

AMD GPU:

float32: 16×16×4
half-precision: 16×16×16 또는 32×32×8

이 퍼즐에서는 FP32와 16×8×8 프래그먼트를 사용합니다:

MMA_M = 16: 행렬 A의 높이 (출력 높이와 동일)
MMA_N = 8: 행렬 B의 너비 (출력 너비와 동일)
MMA_K = 8: 내부 차원 (A의 너비 = B의 높이)

MMA란? MMA는 “Mixed-precision Matrix-Multiply-Accumulate“의 약자로, 텐서 코어가 수행하는 기본 연산입니다. 각 MMA 명령어는 D = A × B + C를 계산하며, 여기서 A, B, C, D는 행렬 프래그먼트입니다.

프래그먼트 시각화:

A fragment (16×8)  ×  B fragment (8×8)  +  C fragment (16×8)  =  D fragment (16×8)

    16 rows             8 rows               16 rows              16 rows
    8 cols              8 cols               8 cols               8 cols
      |                   |                    |                    |
   [A data]         ×   [B data]         +   [C data]         =  [D result]

즉, 각 텐서 코어 명령어는 A의 16×8 타일과 B의 8×8 타일을 곱한 뒤 기존 16×8 누산기에 더하여 16×8 출력 타일을 계산합니다.

텐서 코어를 위한 워프 구성

워프란? 워프는 록스텝으로 명령어를 함께 실행하는 스레드 그룹(NVIDIA에서 32개, AMD에서 32 또는 64개)입니다. 텐서 코어는 단일 행렬 연산에 워프 내 모든 스레드가 협력해야 합니다.

왜 워프 수준일까? 각 스레드가 독립적으로 동작하는 일반 연산과 달리, 텐서 코어는 전체 워프가 함께 행렬 프래그먼트를 로드하고, MMA 연산을 수행하고, 결과를 저장해야 합니다.

텐서 코어가 워프 수준에서 동작하므로, 스레드를 다르게 구성해야 합니다:

# Calculate warp coordinates within the block
warp_id = thread_idx.x // WARP_SIZE
warps_in_n = BN // WN  # Number of warps along N dimension
warps_in_m = BM // WM  # Number of warps along M dimension
warp_y = warp_id // warps_in_n  # Warp's row
warp_x = warp_id % warps_in_n   # Warp's column

# Each warp handles a WM×WN tile of the output
C_warp_tile = C_block_tile.tile[WM, WN](warp_y, warp_x)

워프 구성 예시 (BM=128, BN=64, WM=32, WN=32인 경우):

Block (128×64) contains 8 warps arranged as:

    32 cols    32 cols
     |          |
[  Warp 0  ][  Warp 1  ]  ← 32 rows each
[  Warp 2  ][  Warp 3  ]  ← 32 rows each
[  Warp 4  ][  Warp 5  ]  ← 32 rows each
[  Warp 6  ][  Warp 7  ]  ← 32 rows each

Total: 4×2 = 8 warps, each handling 32×32 output region

텐서 코어와 메모리 계층 구조

텐서 코어는 메모리 최적화에 한 단계를 더 추가합니다:

전역 메모리 → 공유 메모리: copy_dram_to_sram_async 사용 (Puzzle 16에서 배운 것)
공유 메모리 → 레지스터 프래그먼트: mma_op.load_a/load_b 사용
연산: 레지스터 프래그먼트에서 mma_op.mma_op 사용
레지스터 프래그먼트 → 전역 메모리: mma_op.store_d 사용

도전 과제

tensor_core_matrix_multiplication 함수를 완성하는 것이 목표입니다. 스켈레톤 코드는 타일링 방식을 기반으로 하되 실제 텐서 코어 하드웨어 연산을 사용합니다.

핵심 요구사항

실제 텐서 코어 API 사용: 시뮬레이션이 아닌 실제 mma_op.load_a(), mma_op.mma_op() 등을 사용하세요
정확성 유지: 결과가 CPU 참조 구현과 일치해야 합니다
올바른 워프 조정: 블록당 여러 워프를 올바르게 처리합니다 (NVIDIA와 AMD 모두에서 동작)
메모리 효율성: Puzzle 16에서 배운 비동기 복사 패턴을 동일하게 사용합니다
크로스 플랫폼 호환성: 타일링 파라미터가 WARP_SIZE의 배수인지 확인합니다

설정

행렬 크기: $\text{SIZE} = 1024$
블록 타일링: $\text{BM} = 128, \text{BN} = 64, \text{BK} = 32$
워프 타일링: $\text{WM} = 32, \text{WN} = 32$ (WARP_SIZE의 배수)
MMA 프래그먼트: $16 \times 8 \times 8$ (FP32)
블록당 스레드 수: $8 \times \text{WARP_SIZE}$ (블록당 8개 워프)
그리드 차원: 블록 타일로 전체 행렬을 커버

레이아웃 설정:

입력 A: row_major[SIZE, SIZE]()
입력 B: row_major[SIZE, SIZE]()
출력 C: row_major[SIZE, SIZE]()
공유 메모리: 비동기 복사 연산을 사용하는 블록 크기 타일

도전 과제

이 퍼즐에서는 Puzzle 16의 관용적 타일링 행렬 곱셈을 텐서 코어 구현으로 변환합니다. 단계별로 살펴보겠습니다:

1단계: 타일링 기본 구현 이해하기

퍼즐은 참조용으로 완성된 관용적 타일링 구현을 제공합니다:

def matmul_idiomatic_tiled[
    size: Int
](
    output: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
    a: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    b: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
):
    # Use block_dim to get actual tile size dynamically
    var tile_size_x = block_dim.x
    var tile_size_y = block_dim.y

    var local_row = thread_idx.y
    var local_col = thread_idx.x
    var tiled_row = block_idx.y * tile_size_y + local_row
    var tiled_col = block_idx.x * tile_size_x + local_col

    # Get the tile of the output matrix that this thread block is responsible for
    var out_tile = output.tile[TILE_SIZE, TILE_SIZE](block_idx.y, block_idx.x)
    var a_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TILE_SIZE, TILE_SIZE]())
    var b_shared = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[TILE_SIZE, TILE_SIZE]())

    var acc: output.ElementType = 0

    comptime load_a_layout = row_major[1, TILE_SIZE]()  # Coalesced loading
    comptime load_b_layout = row_major[1, TILE_SIZE]()  # Coalesced loading
    # Note: Both matrices stored in same orientation for correct matrix multiplication
    # Transposed loading would be useful if B were pre-transposed in global memory

    for idx in range(size // TILE_SIZE):  # Iterate over K tiles
        # Get tiles from A and B matrices
        var a_tile = a.tile[TILE_SIZE, TILE_SIZE](block_idx.y, idx)
        var b_tile = b.tile[TILE_SIZE, TILE_SIZE](idx, block_idx.x)

        # Asynchronously copy tiles to shared memory with consistent orientation
        copy_dram_to_sram_async[
            thread_layout=load_a_layout,
            num_threads=TILE_SIZE * TILE_SIZE,
            block_dim_count=BLOCK_DIM_COUNT,
        ](a_shared, a_tile)
        copy_dram_to_sram_async[
            thread_layout=load_b_layout,
            num_threads=TILE_SIZE * TILE_SIZE,
            block_dim_count=BLOCK_DIM_COUNT,
        ](b_shared, b_tile)

        async_copy_wait_all()
        barrier()

        # Compute partial matrix multiplication for this tile
        for k in range(TILE_SIZE):
            if (
                local_row < TILE_SIZE
                and local_col < TILE_SIZE
                and k < TILE_SIZE
            ):
                acc += a_shared[local_row, k] * b_shared[k, local_col]

        barrier()

    # Write final result to output tile
    if tiled_row < size and tiled_col < size:
        out_tile[local_row, local_col] = acc

이 기본 구현이 하는 일:

정확성: 이 구현은 완벽하게 동작하며 모든 테스트를 통과합니다
스레드 협력: 효율적인 메모리 전송을 위해 copy_dram_to_sram_async를 사용합니다
공유 메모리: 배리어와 비동기 연산으로 스레드를 조정합니다
타일링 연산: 각 스레드가 공유 메모리 타일을 사용하여 하나의 출력 요소를 계산합니다

2단계: 텐서 코어 미션

위 방식을 전용 하드웨어 가속을 활용하도록 변환합니다:

기존: 스레드 수준 연산 → 변환 후: 워프 수준 행렬 프래그먼트
기존: 표준 FP32 산술 → 변환 후: 하드웨어 가속 GEMM 연산
기존: 개별 요소 결과 → 변환 후: 16×8 행렬 프래그먼트 결과

3단계: 설정 이해하기

텐서 코어 버전은 하드웨어에 최적화된 다른 타일링 파라미터를 사용합니다:

블록 타일링: BM=128, BN=64, BK=32 (더 나은 점유율을 위해 더 큰 블록)
워프 타일링: WM=32, WN=32 (각 워프가 32×32 출력 영역을 담당)
MMA 프래그먼트: 16×8×8 (하드웨어가 정의한 행렬 프래그먼트 크기)
블록당 워프: 8개 (BM×BN 블록 내에서 4×2로 배치)

왜 이 특정 크기인가?

BM=128, BN=64: 텐서 코어를 더 잘 활용하기 위해 타일링 버전(32×32)보다 큽니다
WM=WN=32: WARP_SIZE의 배수이며 2×4=8개의 MMA 프래그먼트를 포함합니다 (32÷16=2, 32÷8=4)
MMA 16×8×8: 하드웨어에 의해 고정됨 - 텐서 코어가 물리적으로 계산하는 크기입니다
8 워프: BM÷WM × BN÷WN = 128÷32 × 64÷32 = 4×2 = 블록당 8개 워프

워프가 MMA 프래그먼트에 매핑되는 방식:

Each 32×32 warp tile contains multiple 16×8 MMA fragments:

    16 cols   16 cols
     |         |
[ MMA 0,0 ][ MMA 0,1 ]  ← 8 rows each (32÷8=4 fragments down)
[ MMA 1,0 ][ MMA 1,1 ]  ← 8 rows each
[ MMA 2,0 ][ MMA 2,1 ]  ← 8 rows each
[ MMA 3,0 ][ MMA 3,1 ]  ← 8 rows each

2 fragments across (32÷16=2) × 4 fragments down (32÷8=4) = 8 MMA operations per warp per K-tile

4단계: 완성할 코드

# Block and warp tiling sizes
comptime BM = 4 * WARP_SIZE  # Block tile M (4 warps along M)
comptime BN = 2 * WARP_SIZE  # Block tile N (2 warps along N)
comptime BK = WARP_SIZE  # Block tile K (stay within SMEM limit)
comptime WM = WARP_SIZE  # Warp tile M
comptime WN = WARP_SIZE  # Warp tile N

# MMA tile sizes for tensor cores
comptime MMA_M = 16
comptime MMA_N = 8
comptime MMA_K = 8

comptime THREADS_PER_BLOCK_TENSOR_CORE = (8 * WARP_SIZE, 1)  # 8 warps per block
# grid_dim is (x, y). We want x to sweep N (columns) and y to sweep M (rows)
comptime BLOCKS_PER_GRID_TENSOR_CORE = (
    (SIZE + BN - 1) // BN,
    (SIZE + BM - 1) // BM,
)


def tensor_core_matrix_multiplication[
    dtype: DType,
    BM: Int,
    BN: Int,
    BK: Int,
    WM: Int,
    WN: Int,
    MMA_M: Int,
    MMA_N: Int,
    MMA_K: Int,
](
    A: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    B: TileTensor[mut=False, dtype, LayoutType, ImmutAnyOrigin],
    C: TileTensor[mut=True, dtype, LayoutType, MutAnyOrigin],
):
    comptime M = C.dim[0]()
    comptime N = C.dim[1]()
    comptime K = A.dim[1]()

    var warp_id = thread_idx.x // WARP_SIZE
    var warps_in_n = BN // WN
    var warps_in_m = BM // WM
    var warp_y = warp_id // warps_in_n
    var warp_x = warp_id % warps_in_n

    var warp_is_active = warp_y < warps_in_m

    var C_block_tile = C.tile[BM, BN](block_idx.y, block_idx.x)
    var C_warp_tile = C_block_tile.tile[WM, WN](warp_y, warp_x)

    var mma_op = TensorCore[A.dtype, C.dtype, Index(MMA_M, MMA_N, MMA_K)]()

    # Shared SRAM tiles (no padding to stay under shared memory limit)
    var A_sram_tile = stack_allocation[
        dtype=A.dtype, address_space=AddressSpace.SHARED
    ](row_major[BM, BK]())
    var B_sram_tile = stack_allocation[
        dtype=B.dtype, address_space=AddressSpace.SHARED
    ](row_major[BK, BN]())

    # One per-warp accumulator tile of shape [WM, WN]
    var C_warp_accum = stack_allocation[
        dtype=C.dtype, address_space=AddressSpace.GENERIC
    ](row_major[WM, WN]())

    # Zero initialize accumulator (only for active warps)
    if warp_is_active:
        comptime for i in range(WM):
            comptime for j in range(WN):
                C_warp_accum[i, j] = 0.0

    # Sweep across K in BK chunks (single-buffered)
    for k_i in range(K // BK):
        barrier()

        var A_dram_tile = A.tile[BM, BK](block_idx.y, k_i)
        var B_dram_tile = B.tile[BK, BN](k_i, block_idx.x)

        copy_dram_to_sram_async[
            thread_layout=row_major[4, 8](),
            num_threads=256,
            block_dim_count=BLOCK_DIM_COUNT,
        ](A_sram_tile.vectorize[1, 4](), A_dram_tile.vectorize[1, 4]())
        copy_dram_to_sram_async[
            thread_layout=row_major[4, 8](),
            num_threads=256,
            block_dim_count=BLOCK_DIM_COUNT,
        ](B_sram_tile.vectorize[1, 4](), B_dram_tile.vectorize[1, 4]())

        async_copy_wait_all()
        barrier()

        if warp_is_active:
            var A_warp_tile = A_sram_tile.tile[WM, BK](warp_y, 0)
            var B_warp_tile = B_sram_tile.tile[BK, WN](0, warp_x)

            comptime for mma_k in range(BK // MMA_K):
                comptime for mma_m in range(WM // MMA_M):
                    comptime for mma_n in range(WN // MMA_N):
                        # FILL IN (roughly 8 lines)
                        ...

    # Store the final per-warp accumulation to the output warp tile
    if warp_is_active:
        comptime for mma_m in range(WM // MMA_M):
            comptime for mma_n in range(WN // MMA_N):
                var C_mma_tile = C_warp_tile.tile[MMA_M, MMA_N](mma_m, mma_n)
                var Acc_mma_tile = C_warp_accum.tile[MMA_M, MMA_N](mma_m, mma_n)
                var frag = mma_op.load_c(Acc_mma_tile)
                mma_op.store_d(C_mma_tile, frag)

전체 파일 보기: problems/p33/p33.mojo

할 일: 세 겹의 중첩 루프 안에 있는 빈 부분(# FILL IN (roughly 8 lines)으로 표시됨)을 완성하세요.

이해해야 할 것:

스켈레톤이 모든 메모리 관리, 워프 구성, 동기화를 처리합니다
핵심 텐서 코어 연산만 구현하면 됩니다
루프는 MMA 프래그먼트를 순회합니다: mma_k, mma_m, mma_n
각 반복에서 하나의 16×8×8 행렬 프래그먼트를 처리합니다

세 겹 중첩 루프 이해하기:

@parameter
for mma_k in range(BK // MMA_K):     # 32÷8 = 4 iterations (K dimension)
    @parameter
    for mma_m in range(WM // MMA_M): # 32÷16 = 2 iterations (M dimension)
        @parameter
        for mma_n in range(WN // MMA_N): # 32÷8 = 4 iterations (N dimension)
            # YOUR CODE HERE: Process one 16×8×8 MMA fragment

각 루프가 하는 일:

mma_k: 현재 K-타일의 K-슬라이스를 순회합니다 (각 8개 요소의 4개 슬라이스)
mma_m: 워프 출력의 M-슬라이스를 순회합니다 (각 16행의 2개 슬라이스)
mma_n: 워프 출력의 N-슬라이스를 순회합니다 (각 8열의 4개 슬라이스)
합계: 4×2×4 = K-타일당 워프당 32개 MMA 연산

팁

텐서 코어 워크플로우를 생각해 보세요. 필요한 단계는 다음과 같습니다:

올바른 행렬 프래그먼트 추출하기:
- 워프 타일(A_warp_tile, B_warp_tile, C_warp_accum)에서 MMA 크기의 특정 프래그먼트를 추출합니다
- 루프 인덱스(mma_m, mma_k, mma_n)를 사용하여 올바른 타일 좌표를 구합니다
- 기억하세요: A는 [MMA_M, MMA_K], B는 [MMA_K, MMA_N], C는 [MMA_M, MMA_N]이 필요합니다
프래그먼트를 텐서 코어 레지스터에 로드하기:
- mma_op 객체에는 각 행렬 타입을 로드하는 메서드가 있습니다
- 각 로드 메서드는 타일을 받아서 레지스터 프래그먼트를 반환합니다
- 생각해 보세요: load_a(), load_b(), load_c() - 각각 무엇을 받을까요?
하드웨어 연산을 수행하고 결과 저장하기:
- MMA 연산을 수행하여 결과를 계산합니다
- 결과를 누산기 타일에 저장합니다
- 연산 패턴: result = A × B + C

핵심 인사이트: 128개의 개별 곱셈-덧셈 연산을 하나의 하드웨어 명령어로 대체하는 것입니다!

디버깅 팁: 차원 오류가 발생하면 타일 인덱싱을 다시 확인하세요 - mma_m, mma_k, mma_n의 순서가 올바른 프래그먼트를 가져오는 데 중요합니다.

코드 실행

풀이를 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p33 --test

uv run poe p33 --test

완성하면 다음과 같은 정확도 테스트 결과가 출력됩니다:

=== Running All Accuracy Tests ===
--- Test 1: Tensor Core vs CPU Reference ---
✅ TENSOR CORE ACCURACY TEST PASSED!
--- Test 2: Idiomatic Tiled vs CPU Reference ---
✅ IDIOMATIC TILED ACCURACY TEST PASSED!
ALL TESTS PASSED!

솔루션

def tensor_core_matrix_multiplication[
    dtype: DType,
    layout_a: Layout,
    layout_b: Layout,
    layout_c: Layout,
    BM: Int,
    BN: Int,
    BK: Int,
    WM: Int,
    WN: Int,
    MMA_M: Int,
    MMA_N: Int,
    MMA_K: Int,
](
    A: LayoutTensor[dtype, layout_a, ImmutAnyOrigin],
    B: LayoutTensor[dtype, layout_b, ImmutAnyOrigin],
    C: LayoutTensor[dtype, layout_c, MutAnyOrigin],
):
    comptime M = C.shape[0]()
    comptime N = C.shape[1]()
    comptime K = A.shape[1]()

    var warp_id = thread_idx.x // WARP_SIZE
    var warps_in_n = BN // WN
    var warps_in_m = BM // WM
    var warp_y = warp_id // warps_in_n
    var warp_x = warp_id % warps_in_n

    var warp_is_active = warp_y < warps_in_m

    var C_block_tile = C.tile[BM, BN](block_idx.y, block_idx.x)
    var C_warp_tile = C_block_tile.tile[WM, WN](warp_y, warp_x)

    var mma_op = TensorCore[A.dtype, C.dtype, Index(MMA_M, MMA_N, MMA_K)]()

    # Shared SRAM tiles (no padding to stay under shared memory limit)
    var A_sram_tile = LayoutTensor[
        A.dtype,
        Layout.row_major(BM, BK),
        MutAnyOrigin,
        address_space=AddressSpace.SHARED,
    ].stack_allocation()
    var B_sram_tile = LayoutTensor[
        B.dtype,
        Layout.row_major(BK, BN),
        MutAnyOrigin,
        address_space=AddressSpace.SHARED,
    ].stack_allocation()

    # One per-warp accumulator tile of shape [WM, WN]
    var C_warp_accum = LayoutTensor[
        C.dtype,
        Layout.row_major(WM, WN),
        MutAnyOrigin,
        address_space=AddressSpace.LOCAL,
    ].stack_allocation()

    # Zero initialize accumulator (only for active warps)
    if warp_is_active:
        comptime for i in range(WM):
            comptime for j in range(WN):
                C_warp_accum[i, j] = 0.0

    # (Removed shared C accumulator to reduce shared usage)

    # Sweep across K in BK chunks (single-buffered)
    for k_i in range(K // BK):
        barrier()

        var A_dram_tile = A.tile[BM, BK](block_idx.y, k_i)
        var B_dram_tile = B.tile[BK, BN](k_i, block_idx.x)

        copy_dram_to_sram_async[
            thread_layout=Layout.row_major(4, 8),
            num_threads=256,
            block_dim_count=BLOCK_DIM_COUNT,
        ](A_sram_tile.vectorize[1, 4](), A_dram_tile.vectorize[1, 4]())
        copy_dram_to_sram_async[
            thread_layout=Layout.row_major(4, 8),
            num_threads=256,
            block_dim_count=BLOCK_DIM_COUNT,
        ](B_sram_tile.vectorize[1, 4](), B_dram_tile.vectorize[1, 4]())

        async_copy_wait_all()
        barrier()

        if warp_is_active:
            var A_warp_tile = A_sram_tile.tile[WM, BK](warp_y, 0)
            var B_warp_tile = B_sram_tile.tile[BK, WN](0, warp_x)

            comptime for mma_k in range(BK // MMA_K):
                comptime for mma_m in range(WM // MMA_M):
                    comptime for mma_n in range(WN // MMA_N):
                        var A_mma_tile = A_warp_tile.tile[MMA_M, MMA_K](
                            mma_m, mma_k
                        )
                        var B_mma_tile = B_warp_tile.tile[MMA_K, MMA_N](
                            mma_k, mma_n
                        )
                        C_mma_tile = C_warp_accum.tile[MMA_M, MMA_N](
                            mma_m, mma_n
                        )

                        var a_reg = mma_op.load_a(A_mma_tile)
                        var b_reg = mma_op.load_b(B_mma_tile)
                        var c_reg = mma_op.load_c(C_mma_tile)
                        var d_reg = mma_op.mma_op(a_reg, b_reg, c_reg)
                        mma_op.store_d(C_mma_tile, d_reg)

    # Store the final per-warp accumulation to the output warp tile
    if warp_is_active:
        comptime for mma_m in range(WM // MMA_M):
            comptime for mma_n in range(WN // MMA_N):
                var C_mma_tile = C_warp_tile.tile[MMA_M, MMA_N](mma_m, mma_n)
                var Acc_mma_tile = C_warp_accum.tile[MMA_M, MMA_N](mma_m, mma_n)
                var frag = mma_op.load_c(Acc_mma_tile)
                mma_op.store_d(C_mma_tile, frag)

이 풀이는 텐서 코어 프로그래밍 모델을 보여줍니다:

워프 구성
- warp_id = thread_idx.x // WARP_SIZE로 블록 내 워프 좌표를 계산합니다
- 워프를 출력 타일에 매핑합니다: 각 워프가 WM×WN 영역을 담당합니다
- 예상보다 적은 수의 워프가 있는 블록을 처리하기 위해 warp_is_active 가드를 사용합니다
메모리 계층 구조 최적화
- 글로벌 → 공유: 효율적인 블록 수준 전송을 위해 copy_dram_to_sram_async를 사용합니다
- 공유 → 레지스터: 워프 수준 프래그먼트 로딩을 위해 mma_op.load_a/load_b를 사용합니다
- 레지스터 연산: 하드웨어 가속 행렬 연산을 위해 mma_op.mma_op를 사용합니다
- 레지스터 → 글로벌: 효율적인 결과 저장을 위해 mma_op.store_d를 사용합니다
텐서 코어 연산
- load_a(A_mma_tile): 16×8 행렬 A 프래그먼트를 레지스터에 로드합니다
- load_b(B_mma_tile): 8×8 행렬 B 프래그먼트를 레지스터에 로드합니다
- load_c(C_mma_tile): 16×8 누산기 프래그먼트를 로드합니다
- mma_op(a_reg, b_reg, c_reg): 전용 하드웨어를 사용하여 D = A×B + C를 계산합니다
- store_d(C_mma_tile, d_reg): 16×8 결과 프래그먼트를 저장합니다
크로스 플랫폼 호환성
- 모든 타일링 파라미터가 WARP_SIZE의 배수입니다 (NVIDIA에서 32, AMD에서 64)
- Mojo는 TensorCore 인터페이스를 통해 하드웨어 차이를 추상화합니다
- 동일한 코드가 NVIDIA 텐서 코어와 AMD Matrix Core 모두에서 동작합니다

핵심 인사이트는 텐서 코어가 스레드 수준의 개별 요소가 아닌 워프 수준의 전체 행렬 프래그먼트 단위로 동작한다는 것입니다. 이를 통해 대규모 병렬 처리와 전용 하드웨어 가속이 가능해집니다.

성능 분석: 이것으로 끝일까?

이제 텐서 코어가 관용적 타일링 방식 대비 약속된 성능 우위를 실제로 제공하는지 확인해 보겠습니다.

프로파일링용 빌드

uv run mojo build problems/p33/p33.mojo -o problems/p33/p33_profiler

pixi run mojo build problems/p33/p33.mojo -o problems/p33/p33_profiler

NVIDIA Nsight Compute로 프로파일링 (NVIDIA 전용)

먼저 ncu에 접근하기 위해 CUDA 환경에 진입합니다:

# Enter CUDA environment
pixi shell -e nvidia

# Profile tensor core version
ncu --set full --metrics sm__cycles_elapsed.avg,smsp__cycles_active.avg.pct_of_peak_sustained_elapsed,dram__throughput.avg.pct_of_peak_sustained_elapsed,smsp__inst_executed_pipe_tensor_op_hmma.sum ./problems/p33p33_profiler --tensor-core

# Profile tiled version for comparison
ncu --set full --metrics sm__cycles_elapsed.avg,smsp__cycles_active.avg.pct_of_peak_sustained_elapsed,dram__throughput.avg.pct_of_peak_sustained_elapsed ./problems/p33p33_profiler --tiled

비교할 핵심 메트릭

성능 메트릭:

Duration: 전체 kernel 실행 시간 (낮을수록 좋음)
SM Active %: SM 활용률 (높을수록 좋음)
DRAM Throughput: 메모리 대역폭 활용률 (메모리 바운드 여부를 보여줌)
Tensor Op Instructions: 실제 텐서 코어 연산 횟수 (텐서 코어 버전에만 해당)

일반적인 결과:

텐서 코어 버전 (더 느림):

Duration: ~13.9 ms (훨씬 느림!)
SM Active: 83.7% (좋은 활용률)
DRAM Throughput: 72.5% (메모리 바운드!)
Occupancy: 26.3% (나쁨 - 레지스터에 의해 제한됨)
Tensor Op Instructions: 1,048,576 (텐서 코어가 동작 중임을 확인)

타일링 버전 (더 빠름):

Duration: ~1.62 ms (8.6배 빠름!)
SM Active: 98.0% (탁월한 활용률)
DRAM Throughput: 1.7% (예상대로 연산 바운드)
Occupancy: 66.7% (훨씬 나음)
L2 Hit Rate: 96.9% vs 29.7% (훨씬 나은 캐시 지역성)

왜 텐서 코어가 더 느릴까?

메모리 병목: 72% DRAM 사용량은 연산 바운드가 아닌 메모리 바운드임을 보여줍니다
낮은 점유율: 26% vs 67% - 높은 레지스터 사용량(스레드당 68 vs 38)이 동시 워프 수를 제한합니다
캐시 미스: 29% L2 적중률 vs 97%는 낮은 메모리 지역성을 보여줍니다
공유 메모리 충돌: 최적화되지 않은 접근 패턴으로 인한 뱅크 충돌
실행 설정: 이 문제 크기에 대해 최적이 아닌 블록/워프 구성

성능의 현실

프로파일링 결과에서 볼 수 있듯이, “전용 하드웨어“가 자동으로 빨라지는 것은 아닙니다! 텐서 코어 버전은 단순한 타일링 방식보다 상당히 느립니다(~8.6배). 이는 GPU 최적화에서 흔히 볼 수 있는 현실입니다 - 하드웨어의 원시 성능이 곧 더 나은 성능을 보장하지는 않습니다.

핵심 인사이트:

메모리 병목: 72% DRAM 사용량은 텐서 코어가 연산 바운드가 아닌 메모리 바운드임을 보여줍니다
낮은 점유율: 높은 레지스터 사용량으로 인해 26% vs 67%로 동시 워프 수가 제한됩니다
캐시 미스: 29% vs 97% L2 적중률은 낮은 메모리 지역성을 보여줍니다
리소스 낭비: 공유 메모리 뱅크 충돌과 최적이 아닌 실행 설정

교훈: 성능 병목을 이해하고 체계적으로 최적화하는 것이 “최신의 가장 뛰어난” API를 사용하는 것보다 중요합니다. 하드웨어 기능은 세심한 튜닝이 필요한 도구이지, 마법의 은탄환이 아닙니다.

다음 단계

보람 있는 GPU 최적화 도전을 할 준비가 되셨나요? 🎯 성능 보너스 챌린지로 이동하여 메모리 바운드인 텐서 코어 구현을 단순한 타일링 버전을 실제로 이기는 구현으로 변환하는 방법을 배워보세요!

🎯 성능 보너스 챌린지

발견

Puzzle 33을 완료하고 Mojo의 TensorCore API를 사용하여 실제 텐서 코어 행렬 곱셈을 구현했습니다. 구현은 정확하게 동작하고, 모든 정확도 테스트를 통과하며, 실제 하드웨어 가속 행렬 연산을 사용합니다. 그런데 Puzzle 16의 타일링 버전과 프로파일링으로 비교하면…

“전용 하드웨어“가 엄청나게 더 느립니다!

무엇이 잘못된 걸까?

(NVIDIA 전용) ncu를 사용한 프로파일링이 냉혹한 현실을 드러냈습니다 (프로파일링 기법을 복습하려면 Puzzle 10의 메모리 오류 탐지와 Puzzle 30의 GPU 프로파일링을 참고하세요):

텐서 코어 버전 (기대에 못 미침):

Duration: ~13.9 ms
메모리 바운드: 72.5% DRAM 처리량 (연산 바운드여야 하는데!)
낮은 점유율: 26.3% (하드웨어 낭비)
캐시 재앙: 29.7% L2 적중률
레지스터 압박: 스레드당 68개 레지스터
공유 메모리 충돌: 뱅크 충돌이 성능을 파괴

타일링 버전 (승자):

Duration: ~1.62 ms (8.6배 빠름!)
연산 바운드: 1.7% DRAM 처리량 (예상대로)
탁월한 점유율: 66.7%
캐시 친화적: 96.9% L2 적중률
효율적: 스레드당 38개 레지스터
깔끔한 메모리: 유의미한 뱅크 충돌 없음

냉혹한 현실

이는 GPU 최적화에서 흔한 이야기입니다: 하드웨어의 원시 성능 ≠ 실제 성능. 텐서 코어는 놀랍도록 강력하지만, 동시에 요구사항도 놀랍도록 까다롭습니다:

메모리 벽: 연산이 너무 빨라서 모든 메모리 병목이 드러남
리소스 탐식: 높은 레지스터 사용량이 점유율을 저하시킴
접근 패턴 민감: 나쁜 메모리 패턴이 캐시 동작을 파괴함
설정이 핵심: 실행 파라미터를 완벽하게 튜닝해야 함

미션: 텐서 코어 성능 개선하기

도전 과제: 메모리 바운드에 낮은 점유율인 텐서 코어 구현을 단순한 타일링 버전을 실제로 이기는 구현으로 변환하세요.

이겨야 할 기준:

목표 Duration: < 1.62 ms
점유율: > 26.3% 기준선
DRAM 부하: < 72.5% 기준선
캐시 성능: > 29.7% L2 적중률 기준선

탐구할 최적화 전략:

레지스터 압박 줄이기
- 더 작은 누산기 타일 사용
- 중간 저장 공간 최소화
- 레지스터 사용량을 줄이기 위해 혼합 정밀도 고려
- 효율적인 누적 패턴은 Puzzle 16의 타일링 방식 참고
메모리 패턴 최적화
- 뱅크 충돌을 제거하기 위해 공유 메모리 패딩 추가 (공유 메모리 개념 참고)
- copy_dram_to_sram_async 레이아웃 최적화
- 병합 패턴 개선 (초반 퍼즐의 메모리 접근 기초 참고)
점유율 개선
- 더 나은 워프 활용을 위한 블록 크기 튜닝
- 공유 메모리 vs 레지스터 사용량 균형 맞추기
- 워프-SM 매핑 최적화
- Puzzle 11-20 시리즈의 스레드 조정 교훈 적용
캐시 최적화
- 데이터 재사용 패턴 개선
- 캐시 계층 구조에 맞는 타일 크기 최적화
- 데이터 레이아웃 변환 고려
- 이전 퍼즐 과정의 메모리 계층 구조 개념 활용
고급 기법
- 메모리와 연산을 중첩하기 위한 더블 버퍼링 구현
- 소프트웨어 파이프라이닝 사용
- 비동기 실행 패턴 탐구
- 새니타이저 퍼즐의 고급 조정 기법 적용

성공 기준

정확성: 모든 정확도 테스트가 여전히 통과
성능: 텐서 코어 Duration < 1.62 ms
효율성: 더 높은 점유율 (>26.3%)
메모리: 더 낮은 DRAM 부하 (<72.5%)
캐시: 더 높은 적중률 (>29.7% L2)

더 깊은 교훈

이 보너스 챌린지는 GPU 최적화에서 가장 중요한 교훈을 가르칩니다: 병목을 이해하는 것이 최신 API를 사용하는 것보다 중요합니다.

목표는 단순히 텐서 코어를 더 빠르게 만드는 것이 아닙니다 - 텐서 코어가 왜 더 느려질 수 있는지 이해하고, 성능 문제를 체계적으로 진단하는 방법을 배우고, 원칙에 기반한 최적화 기법을 적용하는 것입니다.

이 챌린지를 완수하면, 사용 가능한 하드웨어 기능과 관계없이 어떤 GPU 워크로드든 최적화할 수 있는 역량을 갖추게 됩니다.

Puzzle 34: GPU 클러스터 프로그래밍 (SM90+)

소개

하드웨어 요구사항: ⚠️ NVIDIA SM90+ 전용

이 퍼즐은 SM90+ 컴퓨트 능력을 갖춘 NVIDIA Hopper 아키텍처 (H100, H200) 이상의 GPU가 필요합니다. 클러스터 프로그래밍 API는 하드웨어 가속 기반이며, 지원하지 않는 하드웨어에서는 오류가 발생합니다. 사용 중인 아키텍처가 확실하지 않다면 pixi run gpu-specs를 실행하여 최소 Compute Cap: 9.0 이상인지 확인하세요 (하드웨어 식별에 대한 자세한 내용은 NVIDIA 프로파일링 기초를 참고하세요)

워프 레벨 프로그래밍 (Puzzle 24-26) 에서 블록 레벨 프로그래밍 (Puzzle 27) 까지의 여정을 이어, 이제 클러스터 레벨 프로그래밍을 배웁니다 - 단일 블록의 한계를 넘어서는 문제를 해결하기 위해 여러 스레드 블록을 조정하는 기법입니다.

스레드 블록 클러스터란?

스레드 블록 클러스터는 하드웨어 가속 동기화 및 통신 기본 요소를 통해 여러 스레드 블록이 협력하여 하나의 연산 작업을 수행할 수 있게 해주는 혁신적인 SM90+ 기능입니다.

핵심 기능:

블록 간 동기화: cluster_sync, cluster_arrive, cluster_wait로 여러 블록을 조정합니다
블록 식별: block_rank_in_cluster를 사용하여 고유한 블록 조정을 수행합니다
효율적인 조정: elect_one_sync로 최적화된 워프 수준 협력을 구현합니다
고급 패턴: cluster_mask_base로 선택적 블록 조정을 수행합니다

클러스터 프로그래밍 모델

기존 GPU 프로그래밍 계층 구조

Grid (Multiple Blocks)
├── Block (Multiple Warps) - barrier() synchronization
    ├── Warp (32 Threads) - SIMT lockstep execution
    │   ├── Lane 0  ─┐
    │   ├── Lane 1   │ All execute same instruction
    │   ├── Lane 2   │ at same time (SIMT)
    │   │   ...      │ warp.sum(), warp.broadcast()
    │   └── Lane 31 ─┘
        └── Thread (SIMD operations within each thread)

새로운 계층: 클러스터 프로그래밍 계층 구조:

Grid (Multiple Clusters)
├── 🆕 Cluster (Multiple Blocks) - cluster_sync(), cluster_arrive()
    ├── Block (Multiple Warps) - barrier() synchronization
        ├── Warp (32 Threads) - SIMT lockstep execution
        │   ├── Lane 0  ─┐
        │   ├── Lane 1   │ All execute same instruction
        │   ├── Lane 2   │ at same time (SIMT)
        │   │   ...      │ warp.sum(), warp.broadcast()
        │   └── Lane 31 ─┘
            └── Thread (SIMD operations within each thread)

실행 모델 상세:

스레드 레벨: 개별 스레드 내에서의 SIMD 연산
워프 레벨: SIMT 실행 - 32개 스레드의 록스텝 조정
블록 레벨: 공유 메모리와 배리어를 활용한 멀티 워프 조정
🆕 클러스터 레벨: SM90+ 클러스터 API를 활용한 멀티 블록 조정

학습 단계

이 퍼즐은 클러스터 프로그래밍 역량을 체계적으로 쌓아가는 3단계 구성으로 설계되었습니다:

🔰 멀티 블록 조정 기초

핵심: 클러스터 동기화 패턴의 기본 이해

여러 스레드 블록이 cluster_arrive()와 cluster_wait()를 사용하여 기본적인 블록 간 통신과 데이터 분배를 위해 실행을 조정하는 방법을 배웁니다.

주요 API: block_rank_in_cluster(), cluster_arrive(), cluster_wait()

☸️ 클러스터 전체 집합 연산

핵심: 블록 레벨 패턴을 클러스터 규모로 확장

익숙한 block.sum() 개념을 여러 스레드 블록에 걸쳐 확장하여 대규모 연산을 조정하는 클러스터 전체 리덕션과 집합 연산을 배웁니다.

주요 API: cluster_sync(), 효율적인 클러스터 조정을 위한 elect_one_sync()

🧠 고급 클러스터 알고리즘

핵심: 프로덕션 수준의 다단계 조정 패턴

GPU 활용률을 극대화하고 복잡한 연산 워크플로우를 구현하기 위해 워프 레벨, 블록 레벨, 클러스터 레벨의 조정을 결합하는 정교한 알고리즘을 구현합니다.

주요 API: elect_one_sync(), cluster_arrive(), 고급 조정 패턴

클러스터 프로그래밍이 중요한 이유

문제 규모: 현대 AI 및 과학 워크로드는 단일 스레드 블록의 능력을 초과하는 연산을 필요로 하는 경우가 많습니다:

블록 간 조정이 필요한 대규모 행렬 연산 (Puzzle 16의 행렬 곱셈과 같은)
Puzzle 29의 생산자-소비자 의존성을 갖는 다단계 알고리즘
Puzzle 8의 공유 메모리보다 큰 데이터셋에 대한 전역 통계
이웃 블록 간 통신이 필요한 고급 스텐실 연산

하드웨어 발전: GPU가 더 많은 연산 유닛을 갖추게 됨에 따라 (Puzzle 30의 GPU 아키텍처 프로파일링 참고), 클러스터 프로그래밍은 차세대 하드웨어를 효율적으로 활용하는 데 필수적이 됩니다.

교육적 가치

이 퍼즐을 완료하면 완전한 GPU 프로그래밍 계층 구조를 학습하게 됩니다:

스레드 레벨: SIMD 연산을 수행하는 개별 연산 단위
워프 레벨: 32개 스레드 SIMT 조정 (Puzzle 24-26)
블록 레벨: 공유 메모리를 활용한 멀티 워프 조정 (Puzzle 27)
🆕 클러스터 레벨: 멀티 블록 조정 (Puzzle 34)
그리드 레벨: 다수의 SM(Streaming Multiprocessor)에 걸친 독립적 블록 실행

이 과정은 Puzzle 30-32의 성능 최적화 기법을 기반으로, 차세대 GPU 프로그래밍과 대규모 병렬 컴퓨팅 도전에 대비할 수 있도록 준비시켜 줍니다.

시작하기

선수 조건:

블록 레벨 프로그래밍 (Puzzle 27)에 대한 완전한 이해
워프 레벨 프로그래밍 (Puzzle 24-26) 경험
공유 메모리 개념 (Puzzle 8)을 통한 GPU 메모리 계층 구조 숙지
배리어를 활용한 GPU 동기화 (Puzzle 29)에 대한 이해
NVIDIA SM90+ 하드웨어 또는 호환 환경 접근

권장 학습 방법: 3단계 구성을 순서대로 따라가세요. 각 단계가 다음 단계의 복잡성을 위한 핵심 개념을 구축합니다.

하드웨어 참고: SM90+ 이외의 하드웨어에서 실행하는 경우, 이 퍼즐은 클러스터 프로그래밍 개념과 API 사용 패턴의 교육적 예제로 활용할 수 있습니다.

GPU 프로그래밍의 미래를 배울 준비가 되셨나요? 멀티 블록 조정 기초 부터 시작하여 기본적인 클러스터 동기화 패턴을 배워보세요!

멀티 블록 조정 기초

개요

첫 번째 클러스터 프로그래밍 도전에 오신 것을 환영합니다! 이 섹션에서는 SM90+ 클러스터 API를 사용한 블록 간 조정의 기본 구성 요소를 소개합니다.

도전 과제: 4개의 스레드 블록이 조정하여 서로 다른 데이터 범위를 처리하고 결과를 공유 출력 배열에 저장하는 멀티 블록 히스토그램 알고리즘을 구현합니다.

핵심 학습: cluster_arrive() → 처리 → cluster_wait()라는 필수적인 클러스터 동기화 패턴을 배웁니다. Puzzle 29의 barrier()에서 배운 동기화 개념을 확장합니다.

문제: 멀티 블록 히스토그램 구간 분류

Puzzle 27과 같은 기존의 단일 블록 알고리즘은 하나의 블록이 가진 스레드 용량(예: 256개 스레드) 내에 들어오는 데이터만 처리할 수 있습니다. Puzzle 8의 공유 메모리 용량을 초과하는 더 큰 데이터셋의 경우, 여러 블록이 협력해야 합니다.

과제: 4개 블록 각각이 서로 다른 데이터 범위를 처리하고, 고유한 블록 순위로 값을 스케일링하며, Puzzle 29의 동기화 패턴을 사용하여 다른 블록들과 조정함으로써 모든 블록의 처리가 완료된 후에야 최종 결과를 읽을 수 있도록 하는 히스토그램을 구현하세요.

문제 명세

멀티 블록 데이터 분배:

Block 0: 요소 0-255를 처리, 1배 스케일링
Block 1: 요소 256-511을 처리, 2배 스케일링
Block 2: 요소 512-767을 처리, 3배 스케일링
Block 3: 요소 768-1023을 처리, 4배 스케일링

조정 요구사항:

각 블록은 cluster_arrive()를 사용하여 완료를 알려야 합니다
모든 블록은 cluster_wait()를 사용하여 다른 블록을 기다려야 합니다
최종 출력은 각 블록의 처리된 합계를 4개 요소 배열로 보여줍니다

설정

문제 크기: SIZE = 1024 요소 (1D 배열)
블록 설정: TPB = 256 블록당 스레드 수 (256, 1)
그리드 설정: CLUSTER_SIZE = 4 클러스터당 블록 수 (4, 1)
데이터 타입: DType.float32
메모리 레이아웃: 입력 row_major[SIZE](), 출력 row_major[CLUSTER_SIZE]()

스레드 블록 분배:

Block 0: 스레드 0-255 → 요소 0-255
Block 1: 스레드 0-255 → 요소 256-511
Block 2: 스레드 0-255 → 요소 512-767
Block 3: 스레드 0-255 → 요소 768-1023

완성할 코드

def cluster_coordination_basics[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, ClusterLayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Real cluster coordination using SM90+ cluster APIs."""
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Check what's happening with cluster ranks
    var my_block_rank = Int(block_rank_in_cluster())
    var block_id = block_idx.x

    var shared_data = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[tpb]())

    # FIX: Use block_idx.x for data distribution instead of cluster rank
    # Each block should process different portions of the data
    var data_scale = Scalar[dtype](
        block_id + 1
    )  # Use block_idx instead of cluster rank

    # Phase 1: Each block processes its portion
    if global_i < size:
        shared_data[local_i] = input[global_i] * data_scale
    else:
        shared_data[local_i] = 0.0

    barrier()

    # Phase 2: Use cluster_arrive() for inter-block coordination
    # Signal this block has completed processing

    # FILL IN 1 line here

    # Block-level aggregation (only thread 0)
    if local_i == 0:
        # FILL IN 4 line here
        ...

    # Wait for all blocks in cluster to complete

    # FILL IN 1 line here

전체 파일 보기: problems/p34/p34.mojo

팁

블록 식별 패턴

block_rank_in_cluster()를 사용하여 클러스터 순위(0-3)를 얻습니다
그리드 실행에서 안정적인 블록 인덱싱을 위해 Int(block_idx.x)를 사용합니다
블록 위치에 따라 데이터 처리를 스케일링하여 고유한 결과를 만듭니다

공유 메모리 조정

stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[tpb]())으로 공유 메모리를 할당합니다 (Puzzle 8의 공유 메모리 기초 참고)
block_id + 1로 스케일링하여 블록마다 고유한 스케일링을 적용합니다
입력 데이터 접근 시 경계 검사를 사용합니다 (Puzzle 3의 가드 패턴)

클러스터 동기화 패턴

처리: 각 블록이 자신의 데이터 영역을 처리합니다
신호: cluster_arrive()로 처리 완료를 알립니다
연산: 블록 내부 연산 (리덕션, 집계)
대기: cluster_wait()로 모든 블록이 완료될 때까지 대기합니다

블록 내부 스레드 조정

클러스터 연산 전에 블록 내부 동기화를 위해 barrier()를 사용합니다 (Puzzle 29의 배리어 개념)
스레드 0만 최종 블록 결과를 기록해야 합니다 (블록 프로그래밍의 단일 쓰기 패턴)
안정적인 인덱싱을 위해 결과를 output[block_id]에 저장합니다

코드 실행

pixi run p34 --coordination

uv run poe p34 --coordination

예상 출력:

Testing Multi-Block Coordination
SIZE: 1024 TPB: 256 CLUSTER_SIZE: 4
Block coordination results:
  Block 0 : 127.5
  Block 1 : 255.0
  Block 2 : 382.5
  Block 3 : 510.0
✅ Multi-block coordination tests passed!

성공 기준:

4개 블록 모두 0이 아닌 결과를 생성합니다
결과가 스케일링 패턴을 보여줍니다: Block 1 > Block 0, Block 2 > Block 1 등
경쟁 상태나 조정 실패가 없어야 합니다

솔루션

def cluster_coordination_basics[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, ClusterLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayout, MutAnyOrigin],
    size: Int,
):
    """Real cluster coordination using SM90+ cluster APIs."""
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # Check what's happening with cluster ranks
    var my_block_rank = Int(block_rank_in_cluster())
    var block_id = block_idx.x

    var shared_data = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[tpb]())

    # FIX: Use block_idx.x for data distribution instead of cluster rank
    # Each block should process different portions of the data
    var data_scale = Scalar[dtype](
        block_id + 1
    )  # Use block_idx instead of cluster rank

    # Phase 1: Each block processes its portion
    if global_i < size:
        shared_data[local_i] = input[global_i] * data_scale
    else:
        shared_data[local_i] = 0.0

    barrier()

    # Phase 2: Use cluster_arrive() for inter-block coordination
    cluster_arrive()  # Signal this block has completed processing

    # Block-level aggregation (only thread 0)
    if local_i == 0:
        var block_sum: Float32 = 0.0
        for i in range(tpb):
            block_sum += shared_data[i][0]
        # FIX: Store result at block_idx position (guaranteed unique per block)
        output[block_id] = block_sum

    # Wait for all blocks in cluster to complete
    cluster_wait()

클러스터 조정 풀이는 신중하게 설계된 2단계 접근 방식을 통해 기본적인 멀티 블록 동기화 패턴을 보여줍니다:

1단계: 독립적 블록 처리

스레드 및 블록 식별:

global_i = block_dim.x * block_idx.x + thread_idx.x  # Global thread index
local_i = thread_idx.x                               # Local thread index within block
my_block_rank = Int(block_rank_in_cluster())         # Cluster rank (0-3)
block_id = Int(block_idx.x)                          # Block index for reliable addressing

공유 메모리 할당 및 데이터 처리:

각 블록이 자체 공유 메모리 작업 공간을 할당합니다: stack_allocation[dtype=dtype, address_space=AddressSpace.SHARED](row_major[tpb]())
스케일링 전략: data_scale = Float32(block_id + 1)로 각 블록이 다르게 데이터를 처리하도록 합니다
- Block 0: 1.0배, Block 1: 2.0배, Block 2: 3.0배, Block 3: 4.0배
경계 검사: if global_i < size:로 범위 밖 메모리 접근을 방지합니다
데이터 처리: shared_data[local_i] = input[global_i] * data_scale로 블록별 입력 데이터를 스케일링합니다

블록 내부 동기화:

barrier()는 각 블록 내 모든 스레드가 데이터 로딩을 완료한 후에야 다음 단계로 진행하도록 보장합니다
데이터 로딩과 이후의 클러스터 조정 사이의 경쟁 상태를 방지합니다

2단계: 클러스터 조정

블록 간 신호:

cluster_arrive()는 이 블록이 로컬 처리 단계를 완료했음을 알립니다
클러스터 하드웨어에 완료를 등록하는 논블로킹 연산입니다

로컬 집계 (스레드 0만):

if local_i == 0:
    var block_sum: Float32 = 0.0
    for i in range(tpb):
        block_sum += shared_data[i][0]  # Sum all elements in shared memory
    output[block_id] = block_sum        # Store result at unique block position

경쟁 상태를 피하기 위해 스레드 0만 합산을 수행합니다
output[block_id]에 결과를 저장하여 각 블록이 고유한 위치에 기록하도록 합니다

최종 동기화:

cluster_wait()는 클러스터 내 모든 블록이 작업을 완료할 때까지 대기합니다
이를 통해 전체 클러스터에 걸쳐 결정론적 완료 순서를 보장합니다

핵심 기술 인사이트

왜 my_block_rank 대신 block_id를 사용할까?

block_idx.x는 안정적인 그리드 실행 인덱싱을 제공합니다 (0, 1, 2, 3)
block_rank_in_cluster()는 클러스터 설정에 따라 다르게 동작할 수 있습니다
block_id를 사용하면 각 블록이 고유한 데이터 영역과 출력 위치를 확보할 수 있습니다

메모리 접근 패턴:

전역 메모리: 각 스레드가 input[global_i]를 정확히 한 번 읽습니다
공유 메모리: 블록 내부 통신과 집계에 사용됩니다
출력 메모리: 각 블록이 output[block_id]에 정확히 한 번 기록합니다

동기화 계층 구조:

barrier(): 각 블록 내 스레드를 동기화합니다 (블록 내부)
cluster_arrive(): 다른 블록에 완료를 알립니다 (블록 간, 논블로킹)
cluster_wait(): 모든 블록이 완료될 때까지 대기합니다 (블록 간, 블로킹)

성능 특성:

연산 복잡도: 블록당 로컬 합산에 O(TPB), 클러스터 조정에 O(1)
메모리 대역폭: 각 입력 요소를 한 번만 읽으며, 블록 간 통신은 최소화
확장성: 패턴이 더 큰 클러스터 크기에도 최소한의 오버헤드로 확장 가능

패턴 이해하기

클러스터 조정의 핵심 패턴은 단순하지만 강력한 구조를 따릅니다:

1단계: 각 블록이 할당된 데이터 영역을 독립적으로 처리합니다
신호: cluster_arrive()로 처리 완료를 알립니다
2단계: 다른 블록의 결과에 의존하는 연산을 안전하게 수행할 수 있습니다
동기화: cluster_wait()로 모든 블록이 완료된 후 다음으로 진행합니다

다음 단계: 더 고급 조정을 배울 준비가 되셨나요? 클러스터 전체 집합 연산 으로 이동하여 Puzzle 27의 block.sum() 패턴을 클러스터 규모로 확장하는 방법을 배워보세요. Puzzle 24의 워프 레벨 리덕션을 기반으로 합니다!

☸️ 클러스터 전체 집합 연산

개요

이전 섹션의 기본 클러스터 조정을 바탕으로, 이 도전에서는 클러스터 전체 집합 연산을 구현하는 방법을 배웁니다 - Puzzle 27에서 익힌 block.sum 패턴을 여러 스레드 블록에 걸쳐 확장합니다.

도전 과제: 4개의 조정된 블록에 걸쳐 1024개 요소를 처리하고, 각 블록의 개별 리덕션을 하나의 전역 결과로 합치는 클러스터 전체 리덕션을 구현합니다.

핵심 학습: 전체 클러스터 조정을 위한 cluster_sync()와 효율적인 최종 리덕션을 위한 elect_one_sync()를 배웁니다.

문제: 대규모 전역 합산

단일 블록은 (Puzzle 27에서 배웠듯이) 스레드 수와 Puzzle 8의 공유 메모리 용량에 의해 제한됩니다. 단일 블록 리덕션을 넘어서는 대규모 데이터셋의 전역 통계(평균, 분산, 합계)를 구하려면 클러스터 전체 집합 연산이 필요합니다.

과제: 다음과 같은 클러스터 전체 합산 리덕션을 구현하세요:

각 블록이 로컬 리덕션을 수행합니다 (Puzzle 27의 block.sum()과 유사)
Puzzle 29의 동기화를 사용하여 블록들이 부분 결과를 합칩니다
선출된 하나의 스레드가 워프 선출 패턴을 사용하여 최종 전역 합계를 계산합니다

문제 명세

알고리즘 흐름:

1단계 - 로컬 리덕션 (각 블록 내부): \[R_i = \sum_{j=0}^{TPB-1} input[i \times TPB + j] \quad \text{for block } i\]

2단계 - 전역 집계 (클러스터 전체): \[\text{Global Sum} = \sum_{i=0}^{\text{CLUSTER_SIZE}-1} R_i\]

조정 요구사항:

로컬 리덕션: 각 블록이 트리 리덕션으로 부분 합을 계산합니다
클러스터 동기화: cluster_sync()로 모든 부분 결과가 준비되었는지 보장합니다
최종 집계: 선출된 하나의 스레드가 모든 부분 결과를 합칩니다

설정

문제 크기: SIZE = 1024 요소
블록 설정: TPB = 256 블록당 스레드 수 (256, 1)
그리드 설정: CLUSTER_SIZE = 4 클러스터당 블록 수 (4, 1)
데이터 타입: DType.float32
메모리 레이아웃: 입력 row_major[SIZE](), 출력 row_major[1]()
임시 저장소: 부분 결과를 위한 row_major[CLUSTER_SIZE]()

예상 결과: 수열 0, 0.01, 0.02, ..., 10.23의 합 = 523,776

완성할 코드

def cluster_collective_operations[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, OutLayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    temp_storage: TileTensor[mut=True, dtype, ClusterLayoutType, MutAnyOrigin],
    size: Int,
):
    """Cluster-wide collective operations using real cluster APIs."""
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # FILL IN (roughly 24 lines)

전체 파일 보기: problems/p34/p34.mojo

팁

로컬 리덕션 패턴

Puzzle 27의 block sum에서 사용한 트리 리덕션 패턴을 활용합니다
stride = tpb // 2로 시작하여 매 반복마다 절반으로 줄입니다 (고전적인 Puzzle 12의 리덕션)
각 단계에서 local_i < stride인 스레드만 참여합니다
리덕션 단계 사이에 barrier()를 사용합니다 (Puzzle 29의 배리어 개념)

클러스터 조정 전략

안정적인 인덱싱을 위해 부분 결과를 temp_storage[block_id]에 저장합니다
전체 클러스터 동기화를 위해 cluster_sync()를 사용합니다 (arrive/wait보다 강력)
최종 전역 집계는 하나의 스레드만 수행해야 합니다

효율적인 선출 패턴

첫 번째 블록(my_block_rank == 0) 내에서 elect_one_sync()를 사용합니다 (워프 프로그래밍의 패턴)
중복 연산을 피하기 위해 하나의 스레드만 최종 합산을 수행하도록 보장합니다
선출된 스레드가 temp_storage에서 모든 부분 결과를 읽습니다 (Puzzle 8의 공유 메모리 접근과 유사)

메모리 접근 패턴

각 스레드가 경계 검사와 함께 input[global_i]를 읽습니다 (Puzzle 3의 가드)
블록 내부 리덕션을 위해 공유 메모리에 중간 결과를 저장합니다
블록 간 통신을 위해 부분 결과를 temp_storage[block_id]에 저장합니다
최종 결과는 output[0]에 기록합니다 (블록 조정의 단일 쓰기 패턴)

클러스터 API 참조

gpu.primitives.cluster 모듈:

cluster_sync(): 전체 클러스터 동기화 - arrive/wait 패턴보다 강력
elect_one_sync(): 효율적인 조정을 위해 워프 내에서 단일 스레드를 선출
block_rank_in_cluster(): 클러스터 내 고유한 블록 식별자를 반환

트리 리덕션 패턴

Puzzle 27의 전통적인 내적에서 배운 트리 리덕션 패턴을 떠올려 보세요:

Stride 128: [T0] += [T128], [T1] += [T129], [T2] += [T130], ...
Stride 64:  [T0] += [T64],  [T1] += [T65],  [T2] += [T66],  ...
Stride 32:  [T0] += [T32],  [T1] += [T33],  [T2] += [T34],  ...
Stride 16:  [T0] += [T16],  [T1] += [T17],  [T2] += [T18],  ...
...
Stride 1:   [T0] += [T1] → Final result at T0

이제 이 패턴을 클러스터 규모로 확장합니다 - 각 블록이 하나의 부분 결과를 생성한 뒤, 블록 간에 결합합니다.

코드 실행

pixi run p34 --reduction

uv run poe p34 --reduction

예상 출력:

Testing Cluster-Wide Reduction
SIZE: 1024 TPB: 256 CLUSTER_SIZE: 4
Expected sum: 523776.0
Cluster reduction result: 523776.0
Expected: 523776.0
Error: 0.0
✅ Passed: Cluster reduction accuracy test
✅ Cluster-wide collective operations tests passed!

성공 기준:

완벽한 정확도: 결과가 예상 합계(523,776)와 정확히 일치합니다
클러스터 조정: 4개 블록 모두가 부분 합에 기여합니다
효율적인 최종 리덕션: 선출된 단일 스레드가 최종 결과를 계산합니다

솔루션

def cluster_collective_operations[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, OutLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayout, MutAnyOrigin],
    temp_storage: TileTensor[mut=True, dtype, ClusterLayout, MutAnyOrigin],
    size: Int,
):
    """Cluster-wide collective operations using real cluster APIs."""
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var my_block_rank = Int(block_rank_in_cluster())
    var block_id = block_idx.x

    # Each thread accumulates its data
    var my_value: Float32 = 0.0
    if global_i < size:
        my_value = input[global_i][0]

    # Block-level reduction using shared memory
    var shared_mem = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[tpb]())
    shared_mem[local_i] = my_value
    barrier()

    # Tree reduction within block
    var stride = tpb // 2
    while stride > 0:
        if local_i < stride and local_i + stride < tpb:
            shared_mem[local_i] += shared_mem[local_i + stride]
        barrier()
        stride = stride // 2

    # FIX: Store block result using block_idx for reliable indexing
    if local_i == 0:
        temp_storage[block_id] = shared_mem[0]

    # Use cluster_sync() for full cluster synchronization
    cluster_sync()

    # Final cluster reduction (elect one thread to do the final work)
    if elect_one_sync() and my_block_rank == 0:
        var total: Float32 = 0.0
        for i in range(CLUSTER_SIZE):
            total += temp_storage[i][0]
        output[0] = total

클러스터 집합 연산 풀이는 분산 컴퓨팅의 고전적인 패턴을 보여줍니다: 로컬 리덕션 → 전역 조정 → 최종 집계:

1단계: 로컬 블록 리덕션 (전통적 트리 리덕션)

데이터 로딩 및 초기화:

var my_value: Float32 = 0.0
if global_i < size:
    my_value = input[global_i][0]  # Load with bounds checking
shared_mem[local_i] = my_value     # Store in shared memory
barrier()                          # Ensure all threads complete loading

트리 리덕션 알고리즘:

var stride = tpb // 2  # Start with half the threads (128)
while stride > 0:
    if local_i < stride and local_i + stride < tpb:
        shared_mem[local_i] += shared_mem[local_i + stride]
    barrier()          # Synchronize after each reduction step
    stride = stride // 2

트리 리덕션 시각화 (TPB=256):

Step 1: stride=128  [T0]+=T128, [T1]+=T129, ..., [T127]+=T255
Step 2: stride=64   [T0]+=T64,  [T1]+=T65,  ..., [T63]+=T127
Step 3: stride=32   [T0]+=T32,  [T1]+=T33,  ..., [T31]+=T63
Step 4: stride=16   [T0]+=T16,  [T1]+=T17,  ..., [T15]+=T31
Step 5: stride=8    [T0]+=T8,   [T1]+=T9,   ..., [T7]+=T15
Step 6: stride=4    [T0]+=T4,   [T1]+=T5,   [T2]+=T6,  [T3]+=T7
Step 7: stride=2    [T0]+=T2,   [T1]+=T3
Step 8: stride=1    [T0]+=T1    → Final result at shared_mem[0]

부분 결과 저장:

스레드 0만 기록합니다: temp_storage[block_id] = shared_mem[0]
각 블록이 자신의 합계를 temp_storage[0], temp_storage[1], temp_storage[2], temp_storage[3]에 저장합니다

2단계: 클러스터 동기화

전체 클러스터 배리어:

cluster_sync()는 cluster_arrive()/cluster_wait()보다 더 강력한 보장을 제공합니다
어떤 블록이든 다음으로 진행하기 전에 모든 블록이 로컬 리덕션을 완료하도록 보장합니다
클러스터 내 모든 블록에 걸친 하드웨어 가속 동기화입니다

3단계: 최종 전역 집계

효율적인 스레드 선출:

if elect_one_sync() and my_block_rank == 0:
    var total: Float32 = 0.0
    for i in range(CLUSTER_SIZE):
        total += temp_storage[i][0]  # Sum: temp[0] + temp[1] + temp[2] + temp[3]
    output[0] = total

왜 이 선출 전략을 사용할까?

elect_one_sync(): 워프당 정확히 하나의 스레드를 선택하는 하드웨어 기본 요소입니다
my_block_rank == 0: 단일 쓰기를 보장하기 위해 첫 번째 블록에서만 선출합니다
결과: 전체 클러스터에서 단 하나의 스레드만 최종 합산을 수행합니다
효율성: 1024개 전체 스레드에 걸친 중복 연산을 피합니다

핵심 기술 인사이트

3단계 리덕션 계층 구조:

스레드 → 워프: 개별 스레드가 워프 레벨 부분 합에 기여합니다
워프 → 블록: 트리 리덕션이 워프들을 하나의 블록 결과로 합칩니다 (256 → 1)
블록 → 클러스터: 단순 루프가 블록 결과를 최종 합계로 합칩니다 (4 → 1)

메모리 접근 패턴:

입력: 각 요소를 정확히 한 번 읽습니다 (input[global_i])
공유 메모리: 블록 내부 트리 리덕션을 위한 고속 작업 공간
임시 저장소: 저비용 블록 간 통신 (4개 값만)
출력: 단일 전역 결과를 한 번 기록

동기화 보장:

barrier(): 블록 내 모든 스레드가 각 트리 리덕션 단계를 완료하도록 보장합니다
cluster_sync(): 전역 배리어 - 모든 블록이 동일한 실행 지점에 도달합니다
단일 쓰기: 선출을 통해 최종 출력에 대한 경쟁 상태를 방지합니다

알고리즘 복잡도 분석:

트리 리덕션: O(log₂ TPB) = O(log₂ 256) = 블록당 8단계
클러스터 조정: O(1) 동기화 오버헤드
최종 집계: O(CLUSTER_SIZE) = O(4) 단순 덧셈
전체: 블록 내부는 로그, 블록 간은 선형

확장성 특성:

블록 레벨: 로그 복잡도로 수천 개의 스레드까지 확장 가능
클러스터 레벨: 선형 복잡도로 수십 개의 블록까지 확장 가능
메모리: 임시 저장소 요구량이 클러스터 크기에 비례하여 선형 증가
통신: 최소한의 블록 간 데이터 이동 (블록당 하나의 값)

집합 연산 패턴 이해하기

이 퍼즐은 분산 컴퓨팅에서 사용되는 고전적인 2단계 리덕션 패턴을 보여줍니다:

로컬 집계: 각 처리 단위(블록)가 자신의 데이터 영역을 리덕션합니다
전역 조정: 처리 단위들이 동기화하고 결과를 교환합니다
최종 리덕션: 선출된 하나의 단위가 모든 부분 결과를 합칩니다

단일 블록 방식과의 비교:

기존 block.sum(): 최대 256개 스레드 내에서만 동작합니다
클러스터 집합 연산: 여러 블록에 걸쳐 1000개 이상의 스레드로 확장됩니다
동일한 정확도: 둘 다 동일한 수학적 결과를 생성합니다
다른 규모: 클러스터 방식이 더 큰 데이터셋을 처리합니다

성능 이점:

더 큰 데이터셋: 단일 블록 용량을 초과하는 배열을 처리합니다
더 나은 활용률: 더 많은 GPU 연산 유닛을 동시에 사용합니다
확장 가능한 패턴: 복잡한 다단계 알고리즘의 기반이 됩니다

다음 단계: 최종 도전을 할 준비가 되셨나요? 고급 클러스터 알고리즘 으로 이동하여 워프 프로그래밍+블록 조정+클러스터 동기화를 결합한 계층적 패턴을 배워보세요. 성능 최적화 기법을 기반으로 합니다!

🧠 고급 클러스터 알고리즘

개요

이 마지막 도전에서는 워프 레벨 (Puzzle 24-26), 블록 레벨 (Puzzle 27), 클러스터 조정에 이르기까지 GPU 프로그래밍 계층 구조의 모든 레벨을 결합하여 GPU 활용률을 극대화하는 정교한 다단계 알고리즘을 구현합니다.

도전 과제: 워프 레벨 최적화 (elect_one_sync()), 블록 레벨 집계, 클러스터 레벨 조정을 하나의 통합된 패턴으로 사용하는 계층적 클러스터 알고리즘을 구현합니다.

핵심 학습: 고급 연산 워크로드에서 사용되는 프로덕션 수준의 조정 패턴과 함께 완전한 GPU 프로그래밍 스택을 배웁니다.

문제: 다단계 데이터 처리 파이프라인

실제 GPU 알고리즘은 GPU 계층 구조의 서로 다른 레벨(Puzzle 24의 워프, Puzzle 27의 블록, 클러스터)이 조정된 연산 파이프라인에서 각각 전문화된 역할을 수행하는 계층적 조정을 필요로 하는 경우가 많으며, 이는 Puzzle 29의 다단계 처리를 확장합니다.

과제: 다음과 같은 다단계 알고리즘을 구현하세요:

워프 레벨: 효율적인 워프 내부 조정을 위해 elect_one_sync()를 사용합니다 (SIMT 실행)
블록 레벨: 공유 메모리 조정을 사용하여 워프 결과를 집계합니다
클러스터 레벨: cluster_arrive() / cluster_wait() Puzzle 29의 단계적 동기화를 사용하여 블록 간 조정을 수행합니다

알고리즘 명세

다단계 처리 파이프라인:

1단계 (워프 레벨): 각 워프가 하나의 스레드를 선출하여 32개의 연속 요소를 합산합니다
2단계 (블록 레벨): 각 블록 내의 모든 워프 합계를 집계합니다
3단계 (클러스터 레벨): cluster_arrive() / cluster_wait()로 블록 간 조정을 수행합니다

입력: 테스트를 위한 (i % 50) * 0.02 패턴의 1024개 float 값 출력: 계층적 처리 효과를 보여주는 4개 블록 결과

설정

문제 크기: SIZE = 1024 요소
블록 설정: TPB = 256 블록당 스레드 수 (256, 1)
그리드 설정: CLUSTER_SIZE = 4 블록 (4, 1)
워프 크기: WARP_SIZE = 32 워프당 스레드 수 (NVIDIA 표준)
블록당 워프 수: TPB / WARP_SIZE = 8 워프
데이터 타입: DType.float32
메모리 레이아웃: 입력 row_major[SIZE](), 출력 row_major[CLUSTER_SIZE]()

처리 분배:

Block 0: 256 스레드 → 8 워프 → 요소 0-255
Block 1: 256 스레드 → 8 워프 → 요소 256-511
Block 2: 256 스레드 → 8 워프 → 요소 512-767
Block 3: 256 스레드 → 8 워프 → 요소 768-1023

완성할 코드

def advanced_cluster_patterns[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, ClusterLayoutType, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayoutType, ImmutAnyOrigin],
    size: Int,
):
    """Advanced cluster programming using cluster masks and relaxed synchronization.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x

    # FILL IN (roughly 26 lines)

전체 파일 보기: problems/p34/p34.mojo

팁

워프 레벨 최적화 패턴

elect_one_sync()를 사용하여 워프당 하나의 스레드를 연산용으로 선출합니다 (워프 프로그래밍 기초)
선출된 스레드가 32개의 연속 요소를 처리해야 합니다 (SIMT 실행 활용)
(local_i // 32) * 32로 워프 시작점을 계산하여 워프 경계를 찾습니다 (워프 개념의 Lane 인덱싱)
워프 결과를 선출된 스레드 위치의 공유 메모리에 저장합니다

블록 레벨 집계 전략

워프 처리 후 모든 워프 결과를 집계합니다 (Puzzle 27의 블록 조정 확장)
선출된 위치에서 읽습니다: 인덱스 0, 32, 64, 96, 128, 160, 192, 224
for i in range(0, tpb, 32) 루프로 워프 리더를 순회합니다 (리덕션 알고리즘의 패턴)
스레드 0만 최종 블록 합계를 계산해야 합니다 (배리어 조정의 단일 쓰기 패턴)

클러스터 조정 흐름

처리: 각 블록이 계층적 워프 최적화로 데이터를 처리합니다
신호: cluster_arrive()로 로컬 처리 완료를 알립니다
저장: 스레드 0이 블록 결과를 출력에 기록합니다
대기: cluster_wait()로 모든 블록이 완료될 때까지 대기합니다

데이터 스케일링 및 경계 검사

Float32(block_id + 1)로 입력을 스케일링하여 블록별 고유 패턴을 만듭니다
입력을 읽기 전에 항상 global_i < size를 검사합니다 (Puzzle 3의 가드)
블록 내 처리 단계 사이에 barrier()를 사용합니다 (동기화 패턴)
루프에서 워프 경계 조건을 주의 깊게 처리합니다 (워프 프로그래밍의 고려사항)

고급 클러스터 API

gpu.primitives.cluster 모듈:

elect_one_sync(): 효율적인 연산을 위한 워프 레벨 스레드 선출
cluster_arrive(): 단계적 클러스터 조정을 위한 완료 신호
cluster_wait(): 모든 블록이 동기화 지점에 도달할 때까지 대기
block_rank_in_cluster(): 클러스터 내 고유한 블록 식별자 반환

계층적 조정 패턴

이 퍼즐은 3단계 조정 계층 구조를 보여줍니다:

레벨 1: 워프 조정 (Puzzle 24)

Warp (32 threads) → elect_one_sync() → 1 elected thread → processes 32 elements

레벨 2: 블록 조정 (Puzzle 27)

Block (8 warps) → aggregate warp results → 1 block total

레벨 3: 클러스터 조정 (이 퍼즐)

Cluster (4 blocks) → cluster_arrive/wait → synchronized completion

결합 효과: 1024개 스레드 → 32개 워프 리더 → 4개 블록 결과 → 조정된 클러스터 완료

코드 실행

pixi run p34 --advanced

uv run poe p34 --advanced

예상 출력:

Testing Advanced Cluster Algorithms
SIZE: 1024 TPB: 256 CLUSTER_SIZE: 4
Advanced cluster algorithm results:
  Block 0 : 122.799995
  Block 1 : 247.04001
  Block 2 : 372.72
  Block 3 : 499.83997
✅ Advanced cluster patterns tests passed!

성공 기준:

계층적 스케일링: 결과가 다단계 조정 효과를 보여줍니다
워프 최적화: elect_one_sync()가 중복 연산을 줄입니다
클러스터 조정: 모든 블록이 처리를 성공적으로 완료합니다
성능 패턴: 더 높은 블록 ID가 비례적으로 더 큰 결과를 생성합니다

솔루션

def advanced_cluster_patterns[
    tpb: Int
](
    output: TileTensor[mut=True, dtype, ClusterLayout, MutAnyOrigin],
    input: TileTensor[mut=False, dtype, InLayout, MutAnyOrigin],
    size: Int,
):
    """Advanced cluster programming using cluster masks and relaxed synchronization.
    """
    var global_i = block_dim.x * block_idx.x + thread_idx.x
    var local_i = thread_idx.x
    var my_block_rank = Int(block_rank_in_cluster())
    var block_id = block_idx.x

    var shared_data = stack_allocation[
        dtype=dtype, address_space=AddressSpace.SHARED
    ](row_major[tpb]())

    # Compute cluster mask for advanced coordination
    # base_mask = cluster_mask_base()  # Requires cluster_shape parameter

    # FIX: Process data with block_idx-based scaling for guaranteed uniqueness
    var data_scale = Scalar[dtype](block_id + 1)
    if global_i < size:
        shared_data[local_i] = input[global_i] * data_scale
    else:
        shared_data[local_i] = 0.0

    barrier()

    # Advanced pattern: Use elect_one_sync for efficient coordination
    if elect_one_sync():  # Only one thread per warp does this work
        var warp_sum: Float32 = 0.0
        var warp_start = (local_i // 32) * 32  # Get warp start index
        for i in range(32):  # Sum across warp
            if warp_start + i < tpb:
                warp_sum += shared_data[warp_start + i][0]
        shared_data[local_i] = warp_sum

    barrier()

    # Use cluster_arrive for staged synchronization in sm90+
    cluster_arrive()

    # Only first thread in each block stores result
    if local_i == 0:
        var block_total: Float32 = 0.0
        for i in range(0, tpb, 32):  # Sum warp results
            if i < tpb:
                block_total += shared_data[i][0]
        output[block_id] = block_total

    # Wait for all blocks to complete their calculations in sm90+
    cluster_wait()

고급 클러스터 패턴 풀이는 GPU 활용률을 극대화하기 위해 워프, 블록, 클러스터 조정을 결합하는 정교한 3단계 계층적 최적화를 보여줍니다:

레벨 1: 워프 레벨 최적화 (스레드 선출)

데이터 준비 및 스케일링:

var data_scale = Float32(block_id + 1)  # Block-specific scaling factor
if global_i < size:
    shared_data[local_i] = input[global_i] * data_scale
else:
    shared_data[local_i] = 0.0  # Zero-pad for out-of-bounds
barrier()  # Ensure all threads complete data loading

워프 레벨 스레드 선출:

if elect_one_sync():  # Hardware elects exactly 1 thread per warp
    var warp_sum: Float32 = 0.0
    var warp_start = (local_i // 32) * 32  # Calculate warp boundary
    for i in range(32):  # Process entire warp's data
        if warp_start + i < tpb:
            warp_sum += shared_data[warp_start + i][0]
    shared_data[local_i] = warp_sum  # Store result at elected thread's position

워프 경계 계산 설명:

스레드 37 (워프 1): warp_start = (37 // 32) * 32 = 1 * 32 = 32
스레드 67 (워프 2): warp_start = (67 // 32) * 32 = 2 * 32 = 64
스레드 199 (워프 6): warp_start = (199 // 32) * 32 = 6 * 32 = 192

선출 패턴 시각화 (TPB=256, 8 워프):

Warp 0 (threads 0-31):   elect_one_sync() → Thread 0   processes elements 0-31
Warp 1 (threads 32-63):  elect_one_sync() → Thread 32  processes elements 32-63
Warp 2 (threads 64-95):  elect_one_sync() → Thread 64  processes elements 64-95
Warp 3 (threads 96-127): elect_one_sync() → Thread 96  processes elements 96-127
Warp 4 (threads 128-159):elect_one_sync() → Thread 128 processes elements 128-159
Warp 5 (threads 160-191):elect_one_sync() → Thread 160 processes elements 160-191
Warp 6 (threads 192-223):elect_one_sync() → Thread 192 processes elements 192-223
Warp 7 (threads 224-255):elect_one_sync() → Thread 224 processes elements 224-255

레벨 2: 블록 레벨 집계 (워프 리더 조정)

워프 간 동기화:

barrier()  # Ensure all warps complete their elected computations

워프 리더 집계 (스레드 0만):

if local_i == 0:
    var block_total: Float32 = 0.0
    for i in range(0, tpb, 32):  # Iterate through warp leader positions
        if i < tpb:
            block_total += shared_data[i][0]  # Sum warp results
    output[block_id] = block_total

메모리 접근 패턴:

스레드 0이 다음 위치에서 읽습니다: shared_data[0], shared_data[32], shared_data[64], shared_data[96], shared_data[128], shared_data[160], shared_data[192], shared_data[224]
이 위치들에는 선출된 스레드가 계산한 워프 합계가 저장되어 있습니다
결과: 8개 워프 합계 → 1개 블록 합계

레벨 3: 클러스터 레벨 단계적 동기화

단계적 동기화 접근:

cluster_arrive()  # Non-blocking: signal this block's completion
# ... Thread 0 computes and stores block result ...
cluster_wait()    # Blocking: wait for all blocks to complete

왜 단계적 동기화를 사용할까?

cluster_arrive() 를 최종 연산 이전에 호출하면 작업 중첩이 가능합니다
다른 블록이 아직 처리 중인 동안에도 블록이 자체 결과를 계산할 수 있습니다
cluster_wait() 로 결정론적 완료 순서를 보장합니다
독립적인 블록 연산의 경우 cluster_sync()보다 더 효율적입니다

고급 패턴 특성

계층적 연산 축소:

256개 스레드 → 8개 선출 스레드 (블록당 32배 축소)
8개 워프 합계 → 1개 블록 합계 (블록당 8배 축소)
4개 블록 → 단계적 완료 (동기화된 종료)
전체 효율: 블록당 중복 연산 256배 축소

메모리 접근 최적화:

레벨 1: input[global_i]에서 병합된 읽기, 공유 메모리에 스케일링된 쓰기
레벨 2: 선출된 스레드가 워프 레벨 집계를 수행합니다 (256개 대신 8개 연산)
레벨 3: 스레드 0이 블록 레벨 집계를 수행합니다 (8개 대신 1개 연산)
결과: 계층적 리덕션을 통해 메모리 대역폭 사용량을 최소화합니다

동기화 계층 구조:

barrier(): 블록 내부 스레드 동기화 (데이터 로딩 및 워프 처리 후)
cluster_arrive(): 블록 간 신호 (논블로킹, 작업 중첩 가능)
cluster_wait(): 블록 간 동기화 (블로킹, 완료 순서 보장)

왜 “고급“인가:

다단계 최적화: 워프, 블록, 클러스터 프로그래밍 기법을 결합합니다
하드웨어 효율: elect_one_sync()를 활용하여 워프 활용률을 최적화합니다
단계적 조정: 고급 클러스터 API를 사용하여 유연한 동기화를 구현합니다
프로덕션 수준: 실제 GPU 라이브러리에서 사용되는 패턴을 보여줍니다

실제 성능 이점:

메모리 부하 감소: 동시에 공유 메모리에 접근하는 스레드 수가 적어집니다
더 나은 워프 활용: 선출된 스레드가 집중적인 연산을 수행합니다
확장 가능한 조정: 단계적 동기화가 더 큰 클러스터 크기를 처리합니다
알고리즘 유연성: 복잡한 다단계 처리 파이프라인의 기반이 됩니다

복잡도 분석:

워프 레벨: 선출된 스레드당 O(32) 연산 = 블록당 총 O(256)
블록 레벨: 블록당 O(8) 집계 연산
클러스터 레벨: 블록당 O(1) 동기화 오버헤드
전체: 대규모 병렬화 이점을 가진 선형 복잡도

완전한 GPU 계층 구조

축하합니다! 이 퍼즐을 완료함으로써 완전한 GPU 프로그래밍 스택을 학습했습니다:

✅ 스레드 레벨 프로그래밍: 개별 실행 단위
✅ 워프 레벨 프로그래밍: 32개 스레드 SIMT 조정
✅ 블록 레벨 프로그래밍: 멀티 워프 조정과 공유 메모리
✅ 🆕 클러스터 레벨 프로그래밍: SM90+ API를 활용한 멀티 블록 조정
✅ 클러스터 동기화 기본 요소로 여러 스레드 블록을 조정
✅ 클러스터 API를 사용하여 단일 블록 한계를 넘어 알고리즘을 확장
✅ 워프 + 블록 + 클러스터 조정을 결합한 계층적 알고리즘을 구현
✅ SM90+ 클러스터 프로그래밍으로 차세대 GPU 하드웨어를 활용

실전 응용

이 퍼즐의 계층적 조정 패턴은 다음 분야의 기반이 됩니다:

고성능 컴퓨팅:

멀티 그리드 기법: 각 레벨이 서로 다른 해상도의 그리드를 처리합니다
도메인 분해: 문제의 하위 도메인에 걸친 계층적 조정
병렬 반복법: 워프 레벨의 로컬 연산과 클러스터 레벨의 전역 통신

딥러닝:

모델 병렬 처리: 각 블록이 모델의 서로 다른 구성 요소를 처리합니다
파이프라인 병렬 처리: 여러 트랜스포머 레이어에 걸친 단계적 처리
기울기 집계: 분산 학습 노드에 걸친 계층적 리덕션

그래픽스 및 시각화:

멀티 패스 렌더링: 복잡한 시각 효과를 위한 단계적 처리
계층적 컬링: 각 레벨이 서로 다른 세분도에서 컬링합니다
병렬 지오메트리 처리: 조정된 변환 파이프라인

다음 단계

이제 최신 하드웨어에서 사용 가능한 최첨단 GPU 프로그래밍 기법을 배웠습니다!

더 많은 도전을 할 준비가 되셨나요? 다른 고급 GPU 프로그래밍 주제를 탐구하고, Puzzle 30-32의 성능 최적화 기법을 복습하고, NVIDIA 도구의 프로파일링 방법론을 적용하거나, 이 클러스터 프로그래밍 패턴을 기반으로 자신만의 연산 워크로드를 구축해 보세요!