Puzzle 8: 공유 메모리

개요

벡터 a의 각 위치에 10을 더해 벡터 output에 저장하는 커널을 구현해 보세요.

참고: 블록당 스레드 수가 a의 크기보다 작습니다.

공유 메모리 시각화 공유 메모리 시각화

구현 방식

🔰 원시 메모리 방식

공유 메모리와 동기화를 수동으로 관리하는 방법을 알아봅니다.

📐 LayoutTensor 버전

LayoutTensor에 내장된 공유 메모리 관리 기능을 활용합니다.

💡 참고: LayoutTensor가 성능을 유지하면서도 공유 메모리 연산을 얼마나 간소화하는지 경험해 보세요.