7. 최신 프로세서 이해하기

이외의 최적화 기법

<aside> 💡

머신을 고려한 최적화 기법

</aside>

프로세서의 마이크로구조단에서 이루어질 수 있는 최적화 방법을 찾을 필요성
이러한 프로세서들의 이해를 위한 현대 프로세서 구조의 소개

현대 프로세서 구조

<aside> 💡

최신 프로세서의 블록 다이어그램 (CSAPP Fig. 5.11)

</aside>

인스트럭션 수준 병렬성
- 프로세서에서 많은 인스트럭션들은 동시에 처리
  
  처리 : 명령의 실행 → R, M에 값 Fetch → 연산 수행 → 결과를 R, M에 저장 등
- 이러한 병렬을 실행하는 동작
  - 기계 수준 프로그램이 요구하는 순차 의미모델(Semantic Model)을 정확하게 구현하도록 하기 위해 정교한 매커니즘이 사용
- 프로그램 최대 성능을 결정짓는 하위 경계값 (Lower Bounds)
  - 지연시간 경계값
    - 일련의 연산들이 엄격하게 순서를 준수하여 수행될 때 발생
  - 처리량 경계값
    - 프로세서의 기능 유닛들의 기본 계산 능력을 결정

프로세서의 전체적인 동작

<aside> 💡

최신 프로세서의 블록 다이어그램 (CSAPP Fig. 5.11)

특징

산업계에서의 Super Scala

다수의 연산을 매 클럭 사이클마다 수행

무순서 수행 - 인스트럭션의 실행 순서 ≠ 기계어 수준 프로그램에서의 순서

</aside>

구조

<aside> 💡

Instruction Control Unit, ICU

</aside>
- 명령어 캐시에서 메모리에서 읽고 디코드하여 프로그램 데이터에 수행할 기본 연산의 집합 생성
- Branch Prediction + Speculative Execution (분기 예측 + 추정 실행)
  - 분기 예측을 통해 미리 명령어를 가져와 실행
  - 예측 실패 시 해당 결과 폐기 후 올바른 경로 재실행.
- Fetch Control
  - Branch Prediction과 연동하여 어떤 명령을 Fetch할지 결정하는 일 수행
- Instruction Decode
  - 기본 연산의 집합(Microoperations으로 변환
  - 세개의 연산
    - 값을 Memory → Processor 로드
    - 값을 Register 더하기
    - 결과를 메모리에 기록
- Retirement Unit
  - 지속적으로 진행되고 있는 처리 작업들을 추적
  - 기계어 수준 프로그램의 순차적 의미를 준수하는지 보장
<aside> 💡

Execution Unit, EU

</aside>
- 디코드된 연산을 실행 → Functional Units으로 보내짐
  - 특정 유형의 연산을 처리하도록 특화
- Load Unit
  - 메모리에서 프로세서로 데이터를 읽어옴 + 덧셈기(주소 계산)
- Store Unit
  - 프로세서에서 메모리로 데이터를 쓰는 연산 + 덧셈기(주소 계산)
- Load & Store = 데이터 캐시를 통해 메모리를 접근
- 추정 실행을 사용하여 연산들이 계산
<aside> 💡

Arithmetic Unit

</aside>
- 정수 / 부동소수점 연산 모두 지원, 다중 기능 유닛 구성
- Operation Result
  - 한 개의 명령에서 다른 명령으로 결과들을 주고받는 과정을 촉진하기 위한 도구
  - 이러한 오퍼랜드 교환의 제어 방법 : Register Renaming
- Register Renaming
  - 데이터 종속성 제거 및 빠른 전달을 위해 레지스터에 태그를 붙여 결과를 직접 전달(data forwarding) 가능

함수유닛의 성능

<aside> 💡

Latency : 연산 완료까지 필요한 전체 클럭 사이클 수.

Issue Time : 같은 종류의 독립 연산 간의 최소 클럭 사이클 수

Capacity : 해당 연산을 동시에 수행 가능한 유닛 개수

</aside>

문제 상황
1. 정수 → 부동소수점 연산으로 갈수록 latency 증가
2. 덧셈과 곱셈은 모두 issue time이 1 → 매 클록 주기마다 새로운 연산 시작 가능 → Fully Pipelined
3. 나눗셈 연산기는 Not-Pipelined → issue time = latency
  - 입력 조합에 따라 시간 변동
  - 긴 latency로 인해 비용이 큰 연산.
4. Throughput = 발급시간의 역수
  - 완전 파이프라인 → 최대 1연산/사이클
  - 복수 기능 유닛이 있으면 throughput = C / I (capacity / issue time)로 증가
    - 예: 부동소수점 곱셈기 2개 → 2연산 / 사이클.
5. CPU 설계 시 칩 면적 제약 때문에 기능 유닛 개수 / 성능 균형 필요
- Latency Bound (지연 시간 경계값)
  - 정해진 순서로 연결하는 연산을 수행해야 하는 모든 함수들에 대해 최소 CPE값 제공
- Throughput Bound (처리량 경계값)

프로세서 동작의 추상화 모델

<aside> 💡

</aside>