인텔 메인보드 칩셋 히스토리 : 4부 :: 2009/01/10 19:09

인텔(Intel)의 데스크톱 칩셋의 흐름은 4시리즈 이후 대 변화를 예고하고 있다. 네할렘(Nehalem) 아키텍처는 프로세서 바깥에 있던 메모리 컨트롤러를 프로세서 안으로 불러들였으며, 앞으로 더 많은 것을 불러들일 것이 확실시된다. 이는 지난 칩셋의 역사를 되돌아 보았을 때, 언제나 거듭되었던 '패턴'이 다시 한번 나타난 셈이다.

메인보드 칩셋은 프로세서와 주변 장치들 중 어느 하나만 보고 갈 수 없는 존재이다. 언제나 둘 사이에서 적절한 균형을 맞추어야 한다. 또한, 메인보드 칩셋은 프로세서의 흐름에 맞추어 주변 기기들의 트렌드를 이동시키는 역할 또한 수행했다. 프로세서가 한 세대가 지나갈 동안, 칩셋은 여러 모델, 여러 세대가 나오는 것은 이런 이유이다.

칩셋 역할, 대폭 '축소'된다

현재 인텔은 네할렘 아키텍처를 위해 5 시리즈 칩셋을 준비했다. 블룸필드에는 하이엔드 레벨의 X58을 사용하고, 메인스트림 급으로 나올 린필드(Lynnfield)를 위해서는 P55 (Ibex Peak)를 사용할 것으로 알려지고 있다.

네할렘 아키텍처 이후에는 프로세서와 칩셋의 역할 분담이 재정의되고, 칩셋의 역할이 대폭 축소된다. 현재 블룸필드의 경우 메모리 컨트롤러가 프로세서에 들어감으로써 당장 MCH(Memory Controller Hub)가 I/O Hub로 명칭이 바뀌어 버렸다.

린필드에서는 I/O Hub 자체가 사라지고, ICH(I/O Controller Hub) 원 칩(One Chip) 솔루션으로 프로세서가 연결되는 구조가 되었다. 린필드를 시발점으로 과거 노스/사우스 브릿지, 메모리/IO 허브(Hub) 식으로 이원화되어 유지되던 인텔 플랫폼 체계가 종식된다.

▲ X58에 와서 칩셋구조가 ICH 기준으로 조정된다.


블룸필드와 X58을 보면, 현재의 구조는 프로세서와 I/O Hub, ICH로 이루어져 있다. 현재 블룸필드에는 메모리 컨트롤러만이 들어가 있고, 나머지는 예전 구조를 그대로 사용하기 때문이다. 물론 연결에 FSB 대신 QPI를 사용하지만, 예전 모습이 더 많이 남아있다.

하지만 린필드와 P55의 경우, 이제는 프로세서와 ICH만으로 구성된다. 원 칩 솔루션이므로 칩셋이라 부르기도 난감해진 것이다. 린필드는 프로세서 안에 PCI Express 컨트롤러와 그래픽 컨트롤러까지 내장하고, ICH와는 기존의 DMI 링크를 다중 접속하여 대역폭을 맞추는 방식이다. 이는 X58 IOH의 기능이 모두 프로세서로 통합되기 때문에 가능하다.

이런 추세는 프로세서 입장에서는 단일화된 플랫폼을 통해 일정 수준 이상의 균일한 성능을 보장할 수 있다는 장점이 있다. 메모리 컨트롤러와 PCI Express 등의 주요 고속 컨트롤러들을 프로세서에 내장함으로써 더 빠르고 안정적인 성능을 기대할 수 있다. 또한 메인보드 설계시 칩이 하나라도 줄면 그만큼 설계가 유연해진다.

물론 장점만 있는 건 아니다. 프로세서에 주요 컨트롤러를 통합하게 되면 각종 규격들이 프로세서에 지나치게 종속되는 결과가 생긴다. 플랫폼 자체가 정형화된다는 것은 호불호가 갈릴 부분이지만, 일단 유저의 선택권이 줄어든다는 것은 확실하다.

그렇다면 왜, X58에는 P55와 다르게 IOH와 QPI를 사용했을까? 그 이유는 아주 간단하다. X58은 칩셋 차원에서 듀얼 프로세서 구성이 가능하기 때문이다. 두 개의 프로세서와 IOH를 연결하기 위해 X58은 두 개의 QPI 연결을 지원하고, 이는 추후에 듀얼 프로세서 구성을 지원하는 네할렘 기반의 프로세서가 나오면 사용할 수 있게 된다.

반면, P55의 경우 같이 조합되는 린필드는 싱글 프로세서 시스템 구성만을 지원한다. IOH를 모두 프로세서 안으로 옮길 경우엔 굳이 QPI 연결이 없어도 된다. 시스템이 단순해지는 건 당연히 따라오는 결과이다.

한편, 칩셋 차원에서의 또 다른 변화는, 이제 같은 세대의 프로세서 안에서도 지원 칩셋이 명확하게 갈라진다는 것이다. 지금까지 인텔은 같은 세대 안에서는 최상위 익스트림급 프로세서부터 엔트리급 셀러론 프로세서까지 모두 같은 소켓을 사용했다. 칩셋 또한 같은 세대의 모든 라인업에서 같은 프로세서를 사용할 수 있었다. 이는 펜티엄 이후로 확고하게 지켜져 온 전통이다.

그러나 네할렘 아키텍처의 프로세서들은 이 전통에서 벗어난다. 현재의 블룸필드의 소켓과, 추후의 린필드의 소켓은 달라지고, 당연히도 서로 호환은 되지 않는다. 또한 X58은 블룸필드만을 지원하며, P55는 린필드만을 지원한다. 예전처럼 복잡한 프로세서 지원 목록을 놓고 머리아플 필요는 없어지지만, 플랫폼 자체가 획일화되는 만큼 일부 유저들에게는 서운함을 안겨 주기도 할 것으로 보인다.

▲ P55 기반 시스템은 아예 프로세서와 IOH, 이 둘만으로 돌아간다.


칩셋, 완전히 사라질 것인가?

현재의 네할렘 아키텍처는 기존의 칩셋이 가지고 있던 기능들을 흡수하기 시작했다. 현재 블룸필드는 메모리 컨트롤러를, 린필드는 PCI Express 컨트롤러까지도 흡수하며, 내장 그래픽 컨트롤러까지 프로세서 안에 들어갈 예정이다.

그렇다면, 프로세서가 칩셋의 기능을 계속 흡수하면 앞으로 칩셋 없이 프로세서와 PCB만으로 시스템 한 대를 구성할 수 있을 것인가? 실제로 많은 프로세서 업체들이 이 목표를 위해 노력하고 있으며, 모바일 솔루션에서는 심심치 않게 보이기도 한다.

시스템 구성에 필요한 모든 컨트롤러가 프로세서에 들어간다면 일단 시스템 제조사 입장에서는 좋은 일이다. 호환성이나 기능 걱정을 할 필요가 없으며, PCB 제조도 비교적 편리해지기 때문이다. 또한 부품이 줄어들수록 불량률 또한 내려가므로 제조상 손실도 줄어든다.

성능 또한 프로세서와 직결된다면 대역폭 걱정을 할 필요도 없으니 좋아지는 건 당연하다. 하지만, 이런 좋은 점들을 알면서도 지금까지 프로세서 내장은커녕 원 칩 솔루션도 그리 성공을 거두지 못한 이유는 결국 기회 비용 때문이다.

프로세서 안의 공간에는 엄연한 한계가 있다. 또한 프로세서 안의 공간은 공간 대비 비용이 아주 비싸다. 아무리 네할렘 아키텍처가 블록 구조로 이루어져서 재조합이 쉽다고는 하지만, 물리적인, 공간적인 한계가 존재한다.

프로세싱 유닛과 메모리 컨트롤러, 캐시를 넣고 남는 공간은 사실 얼마 없다. 일반적으로는 이 남는 공간에 최대한 캐시를 집어넣는 게 보통이다. 캐시는 성능에 비교적 크게 영향을 주기 때문이다.

▲ 저속 I/O들은 프로세서나 IOH로 통합하는 것보다 ICH로 분리하는 게 경제적이다.


결국 프로세서 안에 들어가느냐 마느냐는 비용의 문제로 귀결된다. 메모리 컨트롤러는 현재 1GHz 이상으로 동작하며, 캐시는 이미 코어와 1:1로 작동한다. 반면 SATA 컨트롤러는 이제 겨우 최대 대역폭 300MB/s 정도이며, PCI-Express 컨트롤러는 100MHz로 동작한다.

더 심하게는 PCI 컨트롤러는 33MHz정도까지 내려간다. 이 모든 컨트롤러의 동작 전압과 클럭을 맞춰주기엔 프로세서 구조가 너무 복잡해지고, 성능 향상에 비해 비용이 너무 많이 든다는 문제가 생긴다.

결국, 어떤 컨트롤러가 프로세서로 들어갈 것인가는 효율성에 달려 있다. 그리고 이런 측면에 있어 가장 효과적인 방안은 기존 MCH, IOH의 프로세서 내장이다. 메모리 컨트롤러와 고속 I/O 컨트롤러의 경우 프로세서에 내장했을 때 큰 성능 향상을 기대할 수 있다.

반면 저속 I/O 같은 경우엔 어디에 있어도 큰 속도 차이가 나지 않는다. 또한 아예 분리해서 별도로 연결하는 것이 비용은 물론 디자인 면이나 활용 면에서 더 유연하다. 기존의 칩셋이 둘로 나뉘어 있었던 이유는 이런 효율 문제 때문인 것이다.

인텔은 예전부터 프로세서 안에 많은 것을 내장하겠다고 밝혀 온 바 있다. 그리고, 네할렘 아키텍처에서 그 첫 걸음을 내딛었다. 앞으로 프로세서에 내장될 것으로는 메모리 컨트롤러, PCI Express 컨트롤러와 함께, 현재엔 GMCH에 포함되는 내장 그래픽 프로세서까지 통합할 것이라 밝힌 바 있다.

하지만, 여기에 현재의 ICH까지 모두 통합할 것이라고는 생각하기 힘들다. 비용이가장 큰 걸림돌이다. 비교적 프로세서와 상관없는 라이프사이클을 가지는 ICH를 통합할 경우, 향후 장치 지원 면에서 문제가 생길 소지도 크다. 한 패키지로 완제품 형태가 주를 이루는 모바일과 랩톱 플랫폼이라면 이런 핸디캡이 크지 않지만, 데스크톱 플랫폼이라면 이 핸디캡은 무시할 수 없는 테마다.

인텔 플랫폼 시스템 구조의 변화

▲ 기존 인텔 x86 플랫폼은 'UMA(Uniform Memory Access)' 구조였다.


데스크톱 플랫폼 수준에서는 일반적으로 단일 프로세서 시스템을 사용하고, 이 경우 네할렘과 X58이 내세운 QPI는 단순한 데이터 전송 속도가 올라갔다는 정도의 의미밖에 없다. 메모리 컨트롤러가 내장되었다는 것 또한, 대역폭의 증가라는 의미 외에는 다른 의미를 찾기 힘들다. IOH를 사용하지 않는 린필드와 P55가 QPI를 사용하지 않는 이유도 그것이다.

하지만, 이게 서버로 옮겨 가면 의미가 달라진다. QPI 인터페이스는 애초에 다중 프로세서 환경을 감안하고 만든 인터페이스이고, 이를 사용한 시스템 구성은 기존의 인텔 프로세서 기반 서버와는 아예 기본 개념이 달라진다. 네할렘 마이크로아키텍처가 데스크톱 보다 서버, 워크스테이션 시장에서 더 심각하게 다뤄지는 것은 이 때문이다.

기존의 인텔 프로세서 기반 서버는 UMA(Uniform Memory Access) 구조였다. MCH가 프로세서와 메모리 사이를 연결하며, 프로세서에서의 메모리 접근 속도는 여러 프로세서를 쓴다고 해도 같았다. 이런 구성은 SMP 환경에서 비교적 일관된 성능을 보여줄 수 있다. 또 설계가 비교적 간단하다는 장점이 있었다.

하지만 이 구조의 최대 단점은, 프로세서가 추가됨에 따라 데이터 버스에 병목 현상이 심각해진다는 것이다. 특히 모든 프로세서가 메모리를 공유하므로 메모리 버스에는 상상을 초월하는 부하가 걸리게 되며, 이는 프로세서의 효율을 낮추는 원인 중 하나였다.

이를 해결하기 위해 기존의 5000, 7000 시리즈 칩셋은 메모리 구성을 쿼드 채널까지 늘렸지만, 쿼드 채널 구성에서도 4개의 프로세서가 요구하는 최대 대역폭의 절반 정도밖에 만족시키지 못했다.

▲ 네할렘 마이크로아키텍처에서는 'NUMA' 구조를 채택했다.


반면, 네할렘 기반의 서버 프로세서와 이를 지원하는 칩셋의 구조는 NUMA(Non-Uniform Memory Access) 기반이다. 이 구조는 모든 프로세서에서의 메모리 접근 속도가 동일하지 않은 구조이다. 네할렘 아키텍처에서는 메모리가 프로세서에 직접 연결되고, 프로세서간 QPI 연결을 통해 이 메모리를 공유하는 형태로 구성된다.

이 구조의 장점은 모든 데이터가 주 버스 위에서 움직이지 않아도 된다는 것이다. 프로세서는 모두 독립적인 메모리 컨트롤러와 메모리 버스를 가지며, 전체적으로 이를 동기화시켜 사용하게 된다. 관리의 경우, 현재 운영체제 수준에서 여전히 다루는 것이 가능하다.

현재 QPI 연결은 25.6GB/s의 대역폭을 가진다. 이는 현재 블룸필드가 가지는 트리플 채널 DDR3의 최대 대역폭과 맞먹으며, QPI는 프로세서 사이를 독립적으로 직접 연결한다. 즉, 프로세서 입장에서는 다른 프로세서에 있는 메모리를 사용할 때 다소의 손해가 생기긴 하지만, 기존의 UMA 구조에서처럼 심각한 병목 현상은 피할 수 있다.

또한 NUMA 구조의 경우 프로세서의 확장이 비교적 편리하다. 현재 인텔의 x86 기반 서버는 주로 4way 정도를 지원했다. 이는 UMA에서 무턱대고 프로세서를 늘리다가는 메모리 대역폭을 도저히 맞출 수 없기 때문이다.

현재 4way 구성에서도 실상은 대역폭을 모두 맞춰 주지 못하고 있다. 또한 MCH를 여러 개 장착하여 프로세서 확장을 한다고 하더라도 이들간의 연결이 복잡해지고, 아예 시스템 컨셉이 흔들리기도 한다. 하지만 'NUMA'는 컨셉 자체가 클러스터링에 가깝다.

기존의 UMA 구조에서는 두 개 이상의 MCH를 연결해서 4개 이상의 프로세서를 연결할 경우, MCH간 연결도 결국 FSB로 연결된다. 이 부분에서 심각한 병목현상이 나타났다. 하지만 QPI를 사용할 경우엔 4way 이상을 연결한다고 생각했을 때, IOH 레벨에서 단순히 QPI 연결만을 지원해 주면 IOH들의 링크를 통해서 비교적 쉽게 확장이 가능하다.

IOH를 QPI 허브로 사용해 모든 프로세서간의 연결을 QPI로 이루어진 것처럼 보이게 할 수 있는 것이다. 이 때 IOH간 연결 대역폭의 문제는 QPI의 링크 수로 해결이 가능하다. 4way 단위로 모듈화 설계까지 감안할 경우, 이제는 수십 개의 프로세서를 사용해 본격적인 고성능 슈퍼컴퓨터 시장에서도 인텔이 경쟁에 뛰어들 수 있게 만들어 주는 원동력이 된다.

인텔, 상상했던 것 그 이상을 보여준다!

▲ QPI의 채택을 통해 인텔은 참으로 많은 '선택'이 가능해졌다.



현재 반도체 공정은 이제 물리학의 한계에 다다르고 있다. 현재의 전자를 사용한 2차원의 반도체 구조는 이론적으로 전자의 크기인 10nm 근처가 한계가 되고, 실제로는 전류를 인가할 경우 내부 전기장 등으로 인해 30nm 근처가 한계라고 보는 시각이 많다. 현재 로드맵에서는 네할렘의 다음 공정은 32nm 공정이니, 슬슬 한계가 보일 시점이다.

프로세서가 빨라지기 위해서는 보통 두 가지 방법이 있다. 공정을 미세화해서 많은 트랜지스터를 집적하거나, 클럭을 한없이 높이는 방법이다. 현재 이 두 가지 방법 모두 물리적인 벽에 마주한 상태이다. 클럭은 현재 반도체 재료로는 절연체의 한계 속도에 다다랐고, 트랜지스터 집적 또한 공정 미세화의 벽이 보이기 시작했다.

이도 저도 안된다면 생각을 바꾸어야 한다. 위로 올라가지 못한다면 옆으로 가면 된다. 그래서 나온 것이 병렬 연결 구조이고, 현재 대세가 된 멀티 코어 프로세서와 멀티 프로세서 시스템이다. 현재 프로세서는 급격한 병렬 확장을 통해 성능을 높여가고 있고, 칩셋 또한 이런 추세에 맞추어 움직이고 있다. 이런 움직임은 X58과 QPI가 명확히 보여주고 있다.

결국 메인보드 칩셋이란 전체적인 시스템 구조의 베이스라인이 된다. 칩셋과 프로세서는 따로 떼어 놓고 생각할 수 없는 존재이다. 전체적인 시스템의 성능은 칩셋이 정의하는 시스템 구조가 큰 영향을 미쳤고, 상상한 것 그 이상을 보여주기 위해서 프로세서만 아니라 칩셋 또한 계속 바뀌어갈 것이다.


출처 : http://www.acrofan.com/ko-kr/consumer/content/content/?mode=view&cate=0002&wd=20081123&seq=945&ucode=0000020001

이올린에 북마크하기(0) 이올린에 추천하기(0)

Trackback Address :: http://fightingpeople.tistory.com/trackback/424 관련글 쓰기
Name
Password
Homepage
Secret
< PREV | 1|2|3|4|5| ... 400| NEXT >