AMD Trinity od środka - co wnoszą nowe APU serii A?
AMD Trinity, APU drugiej generacji, diametralnie różnią się od swoich poprzedników. Wspólny jest w zasadzie tylko kierunek zmian - ewolucja ku architekturze heterogenicznej. Wnętrze jest całkowicie nowe.
Zarządzanie energią, zmiany w mikroarchitekturze rdzeniCzas na moduły – architektura PiledriverZarządzanie energią i nowy tryb Turbo Core 3.0
Już sam fakt, że APU AMD Trinity wykorzystują architekturę Piledriver, będącą ewolucyjnym rozwinięciem Bulldozera, niektórych może zniechęcić. Jak wiadomo, procesory AMD FX, które trafiły do sprzedaży w ubiegłym roku, ani nie są zbyt energooszczędne, ani też tak wydajne, jak by się chciało. Co więcej, nadal nie zmienił się proces litograficzny - w dalszym ciągu jest to dość kosztowny 32-nm SOI (Silicon on Insulator). W rezultacie udało się upakować 1,303 mld tranzystorów na powierzchni 246 mm[sup]2[/sup]. Dla porównania rdzenie Ivy Bridge (22 nm) zajmują zaledwie 160 mm[sup]2[/sup] przy 1,4 mld tranzystorów.
Nie ma się jednak czego obawiać - AMD kierowane przez Rory'ego Reada (CEO) wie, co robi. I tak choć litografia jest ta sama, pobór energii jest zdecydowanie mniejszy. Zastosowano opracowaną przez firmę Cyclos nową metodę dystrybucji sygnału zegarowego. W rezonansowej sieci zegarowej, na najwyższych warstwach metalowych, umieszczono cewki indukcyjne, które są używane podczas zmian stanów logicznych do magazynowania energii i ponownego ładowania sieci.
W praktyce pozwala to obniżyć konsumpcję energii elektrycznej przez układ średnio o ok. 10% (a nawet 24-30% przy wysokich częstotliwościach pracy), a więc całkiem sporo. Pierwsze testy potwierdzają, że konstrukcje z APU Trinity faktycznie są zdecydowanie bardziej energooszczędne i w niektórych scenariuszach mogą konkurować z mobilnymi procesorami Intel Core 3. generacji. TDP dla standardowych wersji mobilnych wynosi 35 W dla niskonapięciowych 25 W lub 17 W.
W AMD Trinity zmienił się także sposób gospodarowania energią. W końcu CPU i GPU mają wspólny budżet energetyczny, dzielony między nie w dowolnych proporcjach. Teraz Turbo Core 3.0 jest zdecydowanie bardziej elastyczne i pod względem działania bardziej przypomina Turbo Boost Intela. I tak gdy obciążony jest jeden rdzeń x86, pozostałe, o ile są nieużywane, mogą zostać całkowicie wyłączone, a ten maksymalnie przyspieszony.
To samo tyczy się GPU. Gdy korzystamy zeń np. do obliczeń GPGPU i rdzenie x86 nie są zbytnio angażowane, jego taktowanie rośnie. W sytuacji, gdy moduły (rdzenie) są obciążone w 100%, częstotliwość ich pracy spada do wartości bazowych. Z obliczeń AMD wynika, że taka implementacja Turbo Core 3.0 pozwala w skrajnych przypadkach na uzyskanie o około 20% wyższej wydajności. To sporo, ale do Turbo Boost 2.0 nadal trochę brakuje.
Oczywiście na częstotliwości pracy oraz napięcia zasilające, które zmieniają się na bieżąco tak, aby zużycie energii było jak najmniejsze, mają wpływ bilans energetyczny i cieplny. Co ciekawe również pamięć RAM jest taktowana ze zmienną częstotliwością. Na plus należy zaliczyć możliwość odcinania zasilania od wielu nieużywanych w danej chwili stref. Chip AMD Trinity, może odłączyć np. nieaktywny moduł, rdzeń graficzny czy wbudowany mostek północny (Unified Northbridge).
Co więcej, gdy komputer jest w stanie bezczynności i tylko odświeżana jest zawartość ekranu, AMD Trinity przenosi wszystkie istotne dane do jednego kanału pamięci i, jeśli to możliwe, obniża jego taktowanie, drugi zaś całkowicie wyłącza. Dezaktywowane są też nieużywane wyjścia obrazu, podobnie jak dekoder wideo (UVD 3). A to i tak nie wszystkie elementy, które APU wyłącza.
Zmiany w mikroarchitekturze
APU AMD Llano, wykorzystujące rdzenie Husky, dysponowały ubogim zestawem instrukcji. AMD Trinity to ich zupełne przeciwieństwo. Zestaw ISA obejmuje praktycznie wszystkie możliwe zestawy SSE, instrukcje wektorowe AVX oraz AVX 1.1, kryptograficzne AES-NI, AMD-V (wirtualizacja), F16C, XOP oraz FMA3 i FMA4. Co ciekawe dwóch ostatnich nie obsługują chipy Intel Core 3. generacji – FMA3 ma pojawić się dopiero w procesorach Haswell, które zadebiutują w 2013 roku.
Podobnie jak układy AMD FX, APU Trinity mają budowę modułową. Na jeden moduł składają się dwa "niepełnosprawne" rdzenie, które współdzielą komponenty odpowiedzialne za dekodowanie i kolejkowanie rozkazów, jednostkę zmiennoprzecinkową oraz pamięć podręczną L2. W rezultacie moduł jest nieco mniej wydajny niż 2 pełnowartościowe rdzenie (~80%), ale szybszy niż pojedynczy rdzeń obsługujący wielowątkowość współbieżną (SMT), jak Hyper-Threading w Intel Core.
Aby poprawić wydajność zoptymalizowano schedulery i prefetchery odpowiadające za ładowanie danych z wyprzedzeniem, poprawiono przewidywanie skoków i poszerzono okno instrukcji tak, by zmaksymalizować wykorzystanie jednostek obliczeniowych i ograniczyć czas ich oczekiwania. Zoptymalizowano też działanie pamięci podręcznej L2 i powiększono bufor TLB pierwszego poziomu, który przechowuje fragmenty tablicy stron pamięci głównej komputera.
Te wszystkie zabiegi zaowocowały zwiększeniem współczynnika IPC (ang. Instructions Per Clock – instrukcje na takt zegara) względem starej generacji APU oraz procesorów FX opartych na mikroarchitekturze Bulldozer.
Nowy kontroler pamięci, Unified Northbridge i IOMMU v2
W chipach AMD Trinity zaimplementowano nowy, dwukanałowy kontroler pamięci. Całkowita szerokość magistrali to 128-bitów (po 64-bity na kanał). Obsługuje on, jak już wspomniałem wyżej, stany P (wydajności) dla pamięci wraz ze zmianą częstotliwości jej pracy "w locie". Doszło też wsparcie dla modułów DDR3L (Low Voltage) i DDR3U (Ultra Low Voltage) o napięciu zasilającym 1,25 V, co w segmencie mobilnym nie jest bez znaczenia.
Mobilne wersje APU AMD Trinity są w stanie zaadresować do 32 GB pamięci RAM, desktopowe natomiast dwukrotnie więcej. Maksymalna, obsługiwana częstotliwość pracy modułów DDR3 to 1866 MHz (desktop) i 1600 MHz (mobilne). Kolejną nowością jest zunifikowany mostek północny (Unified Northbridge), pozbawiony magistrali HyperTransport. Teraz do bezpośredniej komunikacji między urządzeniami wejścia/wyjścia wykorzystywana jest magistrala PCIe.
Ostatnim elementem wartym uwagi jest jednostka IOMMU v2, odpowiedzialna za translację adresów przestrzeni I/O na fizyczne adresy w pamięci operacyjnej RAM. W APU AMD Trinity urządzenia korzystające z tej przestrzeni mogą uzyskać bezpośredni dostęp do pamięci operacyjnej. Poczyniono zatem kolejny krok w stronę spójnej architektury heterogenicznej (HSA), którą mają wykorzystywać wszystkie jednostki AMD już w 2013 roku.
IGP, użyteczne technologie, podsumowanieZintegrowany GPU – mocny i funkcjonalny
Dzięki temu wzrosła efektywność i wydajność obliczeniowa, zwłaszcza na liczbach podwójnej precyzji. W AMD Trinity IGP ma maksymalnie 384 procesory strumieniowe (SPU) do 24 jednostek teksturujących TMU i 8 rasteryzujących (ROP) i taktowanie w trybie Turbo Core 3.0 dochodzące nawet do 686 MHz. Oczywiście obsługiwane są API DirectX 11.1 i OpenCL 1.1. Jest to o tyle ważne, że z tego ostatniego korzysta coraz więcej aplikacji.
AMD doskonale zdaje sobie z tego sprawę i współpracuje z twórcami oprogramowania tak, by jak największa liczba użytecznych aplikacji potrafiła korzystać z potencjału GPU zintegrowanego w APU. Pierwsze efekty już są – takie programy jak Adobe Photoshop CS6, WinZip 16.5, GIMP, Media Espresso czy Media Converter działają znacznie szybciej po uaktywnieniu akceleracji sprzętowej przez GPU.
Na tym jednak nie koniec nowości. W AMD Trinity pojawił się HD Media Accelerator. W jego skład wchodzi dekoder UVD 3, sprzętowo przyspieszający dekodowanie strumieni wideo (m.in. H264, VC-1, MPEG 2, MVC, DivX i WMV), sprzętowy koder (VCE) usprawniający proces konwersji multimediów. Niestety, w odróżnieniu od Intel Quick Sync Video, nie obniża on poboru energii podczas transkodowania, a jedynie przyspiesza proces (co ostatecznie pozwala zaoszczędzić nieco energii).
Wydajnościowo także rozwiązanie AMD odstaje od Quick Sync, ale i tak skraca czas potrzebny na wykonanie operacji tylko przy pomocy samego CPU. Dobrze zatem, że jest. Inne ciekawe funkcje to Quick Stream i Steady Video. Pierwsza, realizowana programowo, nadaje wyższy priorytet strumieniowej transmisji wideo. Dzięki temu ewentualność, że aplikacja obciążająca łącze doprowadzi do zatrzymania odtwarzania wideo spada.
How AMD Steady Video works?
Funkcja Steady Video stabilizuje natomiast obraz w przypadku drżących czy poruszonych treści wideo. Aby z niej skorzystać trzeba aktywować ją z poziomu sterowników. Działanie co prawda nie zawsze jest idealne, czasami ostrość projekcji intensywnie korzystającej ze stabilizacji spada, ale generalnie efekt jest widoczny gołym okiem. Na koniec nie sposób nie wspomnieć o dwóch technologiach wspieranych przez AMD Trinity.
Otóż APU drugiej generacji są w stanie obsłużyć do 4 monitorów dzięki technologii Eyefinity. Trzy wyświetlacze można podłączyć bezpośrednio. Aby podpiąć czwarty trzeba skorzystać z rozdzielacza DisplayPort. Zaimplementowano bowiem tylko trzy generatory sygnału zegarowego dla wyjść obrazu. Co ważne IGP obsługuje interfejsy HDMI, DVI i DisplayPort. Starsze, w tym analogowe VGA, obsługuje mostek A70M.
Ostatnia technologia, znana z poprzedniej generacji APU, to AMD Dual Graphics, czyli asymetryczny Crossfire. Układy graficzne zintegrowane w AMD Trinity mogą współpracować z dedykowanymi GPU AMD Radeon, podnosząc wydajność w grach. Co istotne, teraz na przyspieszenie można liczyć także w przypadku tytułów korzystających z API DirectX 9, a nie tylko DX10 i DX11 jak dotychczas. Jest jednak jedno ograniczenie.
Otóż w tryb Crossfire można zestawiać tylko karty oparte na mikroarchitekturach VLIW4 i VLIW5. To oznacza, że najmocniejszą kartą, którą może pracować w parze z IGP jest AMD Radeon HD 7690M XT. Radeony HD 7700M i wyższe korzystają już z mikroarchitektury GCN. W trybie AMD Dual Graphics każdy z układów działa niezależnie, a klatki są łączone w trybie Alternate Frame Rendering (AFR).
AMD Trinity – realna konkurencja dla Intel Core?
Jednostki APU AMD Trinity to bez wątpienia milowy krok naprzód. Liczba usprawnień i większych lub mniejszych modyfikacji jest długa. Pierwsze testy, przeprowadzane jeszcze na inżynieryjnej wersji platformy pokazują, że w trybie wielowątkowym najmocniejsze APU AMD A10-4600M plasuje się wydajnościowo mniej więcej na poziomie Intel Core i3 drugiej generacji, czasami nieco wyżej.
Szybkość przetwarzania jednowątkowego jest nieco lepsza niż w APU Llano, ale nadal jest to poziom bliższy Pentiumowi B960 niż Core i3-2310M. W aplikacjach wykorzystujących GPU (OpenCL) osiągi są lepsze i niekiedy udaje się wyprzedzić i5 drugiej generacji, a nawet zbliżyć do i7. Z 3. generacją Core może być problem, bo nie dość, że wydajność chipów Ivy Bridge jest jeszcze wyższa, to HD Graphics 4000 także, w odróżnieniu od HD 3000, natywnie wspiera OpenCL.
Wydajność zintegrowanych w APU AMD Trinity GPU, która miała być atutem tychże, jest bardzo dobra, ale, jak wyliczyli redaktorzy Anandtecha na podstawie wyników pomiarów dokonanych w 15 nowych grach, najmocniejszy IGP (AMD Radeon HD 7660G) jest średnio ok. 20% szybszy niż HD Graphics 4000. Aż tyle i... tylko tyle. Wystarczy rzut oka na specyfikacje by mieć wątpliwości, czy słabsze integry AMD będą w stanie skutecznie konkurować z GPU Intela. Czas i testy pokażą.