Puzzle 24: 워프 기초

개요

Part VII: 워프 레벨 프로그래밍에서는 GPU의 워프 레벨 기본 요소 - 워프 내 동기화된 스레드 실행을 활용하는 하드웨어 가속 연산을 소개합니다. 복잡한 공유 메모리 패턴을 간단하고 효율적인 함수 호출로 대체하는 내장 워프 연산을 배웁니다.

목표: 복잡한 공유 메모리 + 배리어 + 트리 리덕션 패턴을 하드웨어 동기화를 활용하는 효율적인 워프 기본 요소 호출로 대체합니다.

핵심 통찰: GPU 워프는 록스텝(lockstep)으로 실행됩니다 - Mojo의 워프 연산은 이 동기화를 활용하여 명시적 동기화 없이 강력한 병렬 기본 요소를 제공합니다.

배울 내용

GPU 워프 실행 모델

GPU 병렬성의 기본 하드웨어 단위를 이해합니다:

GPU 블록 (예: 256 스레드)
├── 워프 0 (32 스레드, SIMT 록스텝 실행)
│   ├── 레인 0  ─┐
│   ├── 레인 1   │ 모든 스레드가 같은 명령을
│   ├── 레인 2   │ 동시에 실행 (SIMT)
│   │   ...      │
│   └── 레인 31 ─┘
├── 워프 1 (32 스레드, 독립적)
├── 워프 2 (32 스레드, 독립적)
└── ...

하드웨어 현실:

NVIDIA GPU에서 워프당 32 스레드 (WARP_SIZE=32)
AMD GPU에서 워프당 32 또는 64 스레드 (WARP_SIZE=32 or 64)
록스텝 실행: 워프 내 모든 스레드가 동일한 명령을 동시에 실행합니다
동기화 비용 제로: 워프 연산은 각 워프 내에서 즉시 수행됩니다

Mojo에서 사용 가능한 워프 연산

gpu.primitives.warp의 핵심 워프 기본 요소를 배웁니다:

sum(value): 워프의 모든 레인에서 값을 합산
shuffle_idx(value, lane): 특정 레인에서 값을 가져오기
shuffle_down(value, delta): lane+delta 위치의 값을 가져오기
prefix_sum(value): 레인 전체에 걸쳐 누적 합 계산
lane_id(): 현재 스레드의 레인 번호 반환 (0-31 또는 0-63)

성능 변환 예시

# 1. 공유 메모리를 통한 리덕션
# 앞서 살펴본 복잡한 패턴 (p12.mojo):
shared = TileTensor[
    dtype,
    row_major[WARP_SIZE](),
    MutAnyOrigin,
    address_space = AddressSpace.SHARED,
].stack_allocation()
shared[local_i] = partial_product
barrier()

# 공유 메모리를 통한 안전한 트리 리덕션은 각 단계마다 배리어가 필요합니다:
stride = WARP_SIZE // 2
while stride > 0:
    if local_i < stride:
        shared[local_i] += shared[local_i + stride]

    barrier()
    stride //= 2

# 2. 워프 기본 요소를 활용한 리덕션
# 워프 기본 요소를 사용한 안전한 트리 리덕션은 공유 메모리나 각 단계의 배리어가
# 필요하지 않습니다.
# Mojo의 워프 레벨 sum 연산은 내부적으로 워프 기본 요소를 사용하여 이 모든 복잡성을
# 숨깁니다:
total = sum(partial_product)  # 내부적으로 배리어도, 경쟁 상태도 없습니다!

워프 연산이 빛나는 순간

성능 특성을 이해합니다:

문제 규모              기존 방식        워프 연산
단일 워프 (32)         빠름            가장 빠름 (배리어 없음)
소수 워프 (128)        좋음            우수 (오버헤드 최소)
다수 워프 (1024+)      좋음            뛰어남 (선형 확장)
대규모 (16K+)          병목 발생        메모리 대역폭 제한

선수 지식

워프 프로그래밍에 들어가기 전에 다음 내용에 익숙해야 합니다:

Part VI 함수형 패턴: elementwise, tiled, vectorize 접근 방식
GPU 스레드 계층 구조: 블록, 워프, 스레드에 대한 이해
TileTensor 연산: 로드, 저장, 텐서 조작
공유 메모리 개념: 배리어와 트리 리덕션이 왜 복잡한지

학습 경로

1. SIMT 실행 모델

→ 워프 레인과 SIMT 실행

워프 연산을 가능하게 하는 하드웨어 기반을 이해합니다.

배울 내용:

SIMT(Single Instruction, Multiple Thread) 실행 모델
워프 분기와 수렴 패턴
워프 내 레인 동기화
하드웨어 vs 소프트웨어 스레드 관리

핵심 통찰: 워프는 GPU 실행의 기본 단위입니다 - SIMT를 이해하면 워프 프로그래밍의 문이 열립니다.

2. 워프 sum 기초

→ warp.sum()의 핵심

내적 구현을 통해 가장 중요한 워프 연산을 배웁니다.

배울 내용:

공유 메모리 + 배리어를 sum()으로 대체
GPU 아키텍처 간 호환성 (WARP_SIZE)
워프를 활용한 커널 vs 함수형 프로그래밍 패턴
기존 방식과의 성능 비교

핵심 패턴:

partial_result = compute_per_lane_value()
total = sum(partial_result)  # 마법이 일어나는 곳!
if lane_id() == 0:
    output[0] = total

3. 언제 워프 프로그래밍을 사용할까

→ 언제 워프 프로그래밍을 사용할까

대안 대비 워프 연산을 선택하기 위한 의사결정 프레임워크를 배웁니다.

배울 내용:

워프 연산에 유리한 문제 특성
워프 수에 따른 성능 확장 패턴
메모리 대역폭 vs 연산량 트레이드오프
워프 연산 선택 가이드라인

의사결정 프레임워크: 리덕션 연산이 병목이 될 때, 워프 기본 요소가 돌파구를 제공하는 경우가 많습니다.

핵심 개념

하드웨어-소프트웨어 정렬

Mojo 워프 연산이 GPU 하드웨어에 매핑되는 방식을 이해합니다:

SIMT 실행: 모든 레인이 동일한 명령을 동시에 실행합니다
내장 동기화: 워프 내에서 명시적 배리어가 필요하지 않습니다
크로스 아키텍처 지원: WARP_SIZE가 NVIDIA와 AMD의 차이를 처리합니다

패턴 변환

복잡한 병렬 패턴을 워프 기본 요소로 변환합니다:

트리 리덕션 → sum()
누적 합 연산 → prefix_sum()
데이터 셔플 → shuffle_idx(), shuffle_down()

성능 특성

워프 연산이 이점을 제공하는 경우를 파악합니다:

소~중규모 문제: 배리어 오버헤드를 제거합니다
대규모 문제: 메모리 트래픽을 줄이고 캐시 활용을 개선합니다
규칙적인 패턴: 예측 가능한 접근 패턴에서 워프 연산이 탁월합니다

시작하기

SIMT 실행 모델을 이해하는 것으로 시작하여, 실용적인 warp.sum 구현을 다루고, 전략적 의사결정 프레임워크로 마무리합니다.

💡 성공 팁: 워프를 독립적인 스레드가 아닌 동기화된 벡터 유닛으로 생각하세요. 이 멘탈 모델이 효과적인 워프 프로그래밍 패턴으로 안내할 것입니다.

학습 목표: Part VII을 마치면, 워프 연산이 복잡한 동기화 패턴을 대체할 수 있는 상황을 인식하여 더 간단하고 빠른 GPU 코드를 작성할 수 있게 됩니다.

시작하기: 워프 레인과 SIMT 실행 에서 워프 레벨 프로그래밍의 힘을 만나보세요!