Puzzle 8: 공유 메모리
개요
벡터 a의 각 위치에 10을 더해 벡터 output에 저장하는 커널을 구현해 보세요.
참고: 블록당 스레드 수가 a의 크기보다 작습니다.
구현 방식
🔰 원시 메모리 방식
공유 메모리와 동기화를 수동으로 관리하는 방법을 알아봅니다.
📐 LayoutTensor 버전
LayoutTensor에 내장된 공유 메모리 관리 기능을 활용합니다.
💡 참고: LayoutTensor가 성능을 유지하면서도 공유 메모리 연산을 얼마나 간소화하는지 경험해 보세요.