Mojo🔥 GPU Puzzles

핵심 개념

이 퍼즐에서 배우는 내용:

기본 GPU 커널 구조
thread_idx.x를 사용한 스레드 인덱싱
간단한 병렬 연산
병렬성: 각 스레드가 독립적으로 실행됩니다
스레드 인덱싱: i = thread_idx.x 위치의 요소에 접근합니다
메모리 접근: a[i]에서 읽고 output[i]에 씁니다
데이터 독립성: 각 출력은 해당 입력에만 의존합니다

완성할 코드

comptime SIZE = 4
comptime BLOCKS_PER_GRID = 1
comptime THREADS_PER_BLOCK = SIZE
comptime dtype = DType.float32


def add_10(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    # FILL ME IN (roughly 1 line)

전체 코드 보기: problems/p01/p01.mojo

팁

thread_idx.x를 i에 저장합니다
a[i]에 10을 더합니다
결과를 output[i]에 저장합니다

코드 실행

솔루션을 테스트하려면 터미널에서 다음 명령어를 실행하세요:

pixi run p01

pixi run -e amd p01

pixi run -e apple p01

uv run poe p01

퍼즐을 아직 풀지 않았다면 출력이 다음과 같이 나타납니다:

out: HostBuffer([0.0, 0.0, 0.0, 0.0])
expected: HostBuffer([10.0, 11.0, 12.0, 13.0])

솔루션

def add_10(
    output: UnsafePointer[Scalar[dtype], MutAnyOrigin],
    a: UnsafePointer[Scalar[dtype], MutAnyOrigin],
):
    var i = thread_idx.x
    output[i] = a[i] + 10.0

이 솔루션은:

i = thread_idx.x로 스레드 인덱스를 가져옵니다
입력값에 10을 더합니다: output[i] = a[i] + 10.0