OpenCL

  1. AMD Trinity od środka - co wnoszą nowe APU serii A?

    AMD Trinity APU die

    AMD Trinity APU die

    AMD Trinity, APU drugiej generacji, diametralnie różnią się od swoich poprzedników. Wspólny jest w zasadzie tylko kierunek zmian – ewolucja ku architekturze heterogenicznej. Wnętrze jest całkowicie nowe.


    Czas na moduły – architektura Piledriver

    Zarządzanie energią i nowy tryb Turbo Core 3.0

    Już sam fakt, że APU AMD Trinity wykorzystują architekturę Piledriver, będącą ewolucyjnym rozwinięciem Bulldozera, niektórych może zniechęcić. Jak wiadomo, procesory AMD FX, które trafiły do sprzedaży w ubiegłym roku, ani nie są zbyt energooszczędne, ani też tak wydajne, jak by się chciało. Co więcej, nadal nie zmienił się proces litograficzny – w dalszym ciągu jest to dość kosztowny 32-nm SOI (Silicon on Insulator). W rezultacie udało się upakować 1,303 mld tranzystorów na powierzchni 246 mm2. Dla porównania rdzenie Ivy Bridge (22 nm) zajmują zaledwie 160 mm2 przy 1,4 mld tranzystorów.

    AMD Trinity - specyfikacja

    AMD Trinity - specyfikacja

    Nie ma się jednak czego obawiać – AMD kierowane przez Rory’ego Reada (CEO) wie, co robi. I tak choć litografia jest ta sama, pobór energii jest zdecydowanie mniejszy. Zastosowano opracowaną przez firmę Cyclos nową metodę dystrybucji sygnału zegarowego. W rezonansowej sieci zegarowej, na najwyższych warstwach metalowych, umieszczono cewki indukcyjne, które są używane podczas zmian stanów logicznych do magazynowania energii i ponownego ładowania sieci.

    Ile rdzeni w laptopie tak naprawdę potrzeba?

    W praktyce pozwala to obniżyć konsumpcję energii elektrycznej przez układ średnio o ok. 10% (a nawet 24-30% przy wysokich częstotliwościach pracy), a więc całkiem sporo. Pierwsze testy potwierdzają, że konstrukcje z APU Trinity faktycznie są zdecydowanie bardziej energooszczędne i w niektórych scenariuszach mogą konkurować z mobilnymi procesorami Intel Core 3. generacji. TDP dla standardowych wersji mobilnych wynosi 35 W dla niskonapięciowych 25 W lub 17 W.

    AMD Turbo Core 3.0

    AMD Turbo Core 3.0

    W AMD Trinity zmienił się także sposób gospodarowania energią. W końcu CPU i GPU mają wspólny budżet energetyczny, dzielony między nie w dowolnych proporcjach. Teraz Turbo Core 3.0 jest zdecydowanie bardziej elastyczne i pod względem działania bardziej przypomina Turbo Boost Intela. I tak gdy obciążony jest jeden rdzeń x86, pozostałe, o ile są nieużywane, mogą zostać całkowicie wyłączone, a ten maksymalnie przyspieszony.

    To samo tyczy się GPU. Gdy korzystamy zeń np. do obliczeń GPGPU i rdzenie x86 nie są zbytnio angażowane, jego taktowanie rośnie. W sytuacji, gdy moduły (rdzenie) są obciążone w 100%, częstotliwość ich pracy spada do wartości bazowych. Z obliczeń AMD wynika, że taka implementacja Turbo Core 3.0 pozwala w skrajnych przypadkach na uzyskanie o około 20% wyższej wydajności. To sporo, ale do Turbo Boost 2.0 nadal trochę brakuje.

    Niektóre usprawnienia w architekturze Piledriver

    Niektóre usprawnienia w architekturze Piledriver

    Oczywiście na częstotliwości pracy oraz napięcia zasilające, które zmieniają się na bieżąco tak, aby zużycie energii było jak najmniejsze, mają wpływ bilans energetyczny i cieplny. Co ciekawe również pamięć RAM jest taktowana ze zmienną częstotliwością. Na plus należy zaliczyć możliwość odcinania zasilania od wielu nieużywanych w danej chwili stref. Chip AMD Trinity, może odłączyć np. nieaktywny moduł, rdzeń graficzny czy wbudowany mostek północny (Unified Northbridge).

    Co więcej, gdy komputer jest w stanie bezczynności i tylko odświeżana jest zawartość ekranu, AMD Trinity przenosi wszystkie istotne dane do jednego kanału pamięci i, jeśli to możliwe, obniża jego taktowanie, drugi zaś całkowicie wyłącza. Dezaktywowane są też nieużywane wyjścia obrazu, podobnie jak dekoder wideo (UVD 3). A to i tak nie wszystkie elementy, które APU wyłącza.

    Zmiany w mikroarchitekturze

    APU AMD Llano, wykorzystujące rdzenie Husky, dysponowały ubogim zestawem instrukcji. AMD Trinity to ich zupełne przeciwieństwo. Zestaw ISA obejmuje praktycznie wszystkie możliwe zestawy SSE, instrukcje wektorowe AVX oraz AVX 1.1, kryptograficzne AES-NI, AMD-V (wirtualizacja), F16C, XOP oraz FMA3 i FMA4. Co ciekawe dwóch ostatnich nie obsługują chipy Intel Core 3. generacji – FMA3 ma pojawić się dopiero w procesorach Haswell, które zadebiutują w 2013 roku.

    Rdzeń Piledriver

    Rdzeń Piledriver

    Podobnie jak układy AMD FX, APU Trinity mają budowę modułową. Na jeden moduł składają się dwa „niepełnosprawne” rdzenie, które współdzielą komponenty odpowiedzialne za dekodowanie i kolejkowanie rozkazów, jednostkę zmiennoprzecinkową oraz pamięć podręczną L2. W rezultacie moduł jest nieco mniej wydajny niż 2 pełnowartościowe rdzenie (~80%), ale szybszy niż pojedynczy rdzeń obsługujący wielowątkowość współbieżną (SMT), jak Hyper-Threading w Intel Core.

    Podkręcanie karty graficznej i procesora w laptopie – jak to zrobić? Czy to ma sens?

    Aby poprawić wydajność zoptymalizowano schedulery i prefetchery odpowiadające za ładowanie danych z wyprzedzeniem, poprawiono przewidywanie skoków i poszerzono okno instrukcji tak, by zmaksymalizować wykorzystanie jednostek obliczeniowych i ograniczyć czas ich oczekiwania. Zoptymalizowano też działanie pamięci podręcznej L2 i powiększono bufor TLB pierwszego poziomu, który przechowuje fragmenty tablicy stron pamięci głównej komputera.

    Te wszystkie zabiegi zaowocowały zwiększeniem współczynnika IPC (ang. Instructions Per Clock – instrukcje na takt zegara) względem starej generacji APU oraz procesorów FX opartych na mikroarchitekturze Bulldozer.

    Nowy kontroler pamięci, Unified Northbridge i IOMMU v2

    W chipach AMD Trinity zaimplementowano nowy, dwukanałowy kontroler pamięci. Całkowita szerokość magistrali to 128-bitów (po 64-bity na kanał). Obsługuje on, jak już wspomniałem wyżej, stany P (wydajności) dla pamięci wraz ze zmianą częstotliwości jej pracy „w locie”. Doszło też wsparcie dla modułów DDR3L (Low Voltage) i DDR3U (Ultra Low Voltage) o napięciu zasilającym 1,25 V, co w segmencie mobilnym nie jest bez znaczenia.

    UNB & kontroler pamięci

    UNB & kontroler pamięci

    Mobilne wersje APU AMD Trinity są w stanie zaadresować do 32 GB pamięci RAM, desktopowe natomiast dwukrotnie więcej. Maksymalna, obsługiwana częstotliwość pracy modułów DDR3 to 1866 MHz (desktop) i 1600 MHz (mobilne). Kolejną nowością jest zunifikowany mostek północny (Unified Northbridge), pozbawiony magistrali HyperTransport. Teraz do bezpośredniej komunikacji między urządzeniami wejścia/wyjścia wykorzystywana jest magistrala PCIe.

    Ostatnim elementem wartym uwagi jest jednostka IOMMU v2, odpowiedzialna za translację adresów przestrzeni I/O na fizyczne adresy w pamięci operacyjnej RAM. W APU AMD Trinity urządzenia korzystające z tej przestrzeni mogą uzyskać bezpośredni dostęp do pamięci operacyjnej. Poczyniono zatem kolejny krok w stronę spójnej architektury heterogenicznej (HSA), którą mają wykorzystywać wszystkie jednostki AMD już w 2013 roku.


    Zintegrowany GPU – mocny i funkcjonalny

    W APU AMD Trinity zintegrowano szybkie układy graficzne oparte na mikroarchitekturze VLIW4 (Very Long Instruction Word), znanej z kart AMD Radeon HD 6000 (Nothern Islands). Teraz w pojedynczym procesorze strumieniowym są 4 uniwersalne jednostki, które mogą wykonywać takie same typy obliczeń. Stanowi to istotny progres – w APU Llano GPU miały po 4 jednostki zajmujące się prostymi obliczeniami i jedną do bardziej złożonych.

    IGP w Trinity

    IGP w Trinity

    Dzięki temu wzrosła efektywność i wydajność obliczeniowa, zwłaszcza na liczbach podwójnej precyzji. W AMD Trinity IGP ma maksymalnie 384 procesory strumieniowe (SPU) do 24 jednostek teksturujących TMU i 8 rasteryzujących (ROP) i taktowanie w trybie Turbo Core 3.0 dochodzące nawet do 686 MHz. Oczywiście obsługiwane są API DirectX 11.1 i OpenCL 1.1. Jest to o tyle ważne, że z tego ostatniego korzysta coraz więcej aplikacji.

    AMD doskonale zdaje sobie z tego sprawę i współpracuje z twórcami oprogramowania tak, by jak największa liczba użytecznych aplikacji potrafiła korzystać z potencjału GPU zintegrowanego w APU. Pierwsze efekty już są – takie programy jak Adobe Photoshop CS6, WinZip 16.5, GIMP, Media Espresso czy Media Converter działają znacznie szybciej po uaktywnieniu akceleracji sprzętowej przez GPU.

    Aplikacje korzystające z GPU - będzie tego sporo

    Aplikacje korzystające z GPU - będzie tego sporo

    Na tym jednak nie koniec nowości. W AMD Trinity pojawił się HD Media Accelerator. W jego skład wchodzi dekoder UVD 3, sprzętowo przyspieszający dekodowanie strumieni wideo (m.in. H264, VC-1, MPEG 2, MVC, DivX i WMV), sprzętowy koder (VCE) usprawniający proces konwersji multimediów. Niestety, w odróżnieniu od Intel Quick Sync Video, nie obniża on poboru energii podczas transkodowania, a jedynie przyspiesza proces (co ostatecznie pozwala zaoszczędzić nieco energii).

    Wydajnościowo także rozwiązanie AMD odstaje od Quick Sync, ale i tak skraca czas potrzebny na wykonanie operacji tylko przy pomocy samego CPU. Dobrze zatem, że jest. Inne ciekawe funkcje to Quick Stream i Steady Video. Pierwsza, realizowana programowo, nadaje wyższy priorytet strumieniowej transmisji wideo. Dzięki temu ewentualność, że aplikacja obciążająca łącze doprowadzi do zatrzymania odtwarzania wideo spada.

    Funkcja Steady Video stabilizuje natomiast obraz w przypadku drżących czy poruszonych treści wideo. Aby z niej skorzystać trzeba aktywować ją z poziomu sterowników. Działanie co prawda nie zawsze jest idealne, czasami ostrość projekcji intensywnie korzystającej ze stabilizacji spada, ale generalnie efekt jest widoczny gołym okiem. Na koniec nie sposób nie wspomnieć o dwóch technologiach wspieranych przez AMD Trinity.

    Otóż APU drugiej generacji są w stanie obsłużyć do 4 monitorów dzięki technologii Eyefinity. Trzy wyświetlacze można podłączyć bezpośrednio. Aby podpiąć czwarty trzeba skorzystać z rozdzielacza DisplayPort. Zaimplementowano bowiem tylko trzy generatory sygnału zegarowego dla wyjść obrazu. Co ważne IGP obsługuje interfejsy HDMI, DVI i DisplayPort. Starsze, w tym analogowe VGA, obsługuje mostek A70M.

    Karta graficzna w laptopie – jaka do gier, a jaka do pracy? [poradnik]

    Ostatnia technologia, znana z poprzedniej generacji APU, to AMD Dual Graphics, czyli asymetryczny Crossfire. Układy graficzne zintegrowane w AMD Trinity mogą współpracować z dedykowanymi GPU AMD Radeon, podnosząc wydajność w grach. Co istotne, teraz na przyspieszenie można liczyć także w przypadku tytułów korzystających z API DirectX 9, a nie tylko DX10 i DX11 jak dotychczas. Jest jednak jedno ograniczenie.

    Otóż w tryb Crossfire można zestawiać tylko karty oparte na mikroarchitekturach VLIW4 i VLIW5. To oznacza, że najmocniejszą kartą, którą może pracować w parze z IGP jest AMD Radeon HD 7690M XT. Radeony HD 7700M i wyższe korzystają już z mikroarchitektury GCN. W trybie AMD Dual Graphics każdy z układów działa niezależnie, a klatki są łączone w trybie Alternate Frame Rendering (AFR).

    AMD Trinity – realna konkurencja dla Intel Core?

    Jednostki APU AMD Trinity to bez wątpienia milowy krok naprzód. Liczba usprawnień i większych lub mniejszych modyfikacji jest długa. Pierwsze testy, przeprowadzane jeszcze na inżynieryjnej wersji platformy pokazują, że w trybie wielowątkowym najmocniejsze APU AMD A10-4600M plasuje się wydajnościowo mniej więcej na poziomie Intel Core i3 drugiej generacji, czasami nieco wyżej.

    Szybkość przetwarzania jednowątkowego jest nieco lepsza niż w APU Llano, ale nadal jest to poziom bliższy Pentiumowi B960 niż Core i3-2310M. W aplikacjach wykorzystujących GPU (OpenCL) osiągi są lepsze i niekiedy udaje się wyprzedzić i5 drugiej generacji, a nawet zbliżyć do i7. Z 3. generacją Core może być problem, bo nie dość, że wydajność chipów Ivy Bridge jest jeszcze wyższa, to HD Graphics 4000 także, w odróżnieniu od HD 3000, natywnie wspiera OpenCL.

    Pozycjonowanie laptopów z AMD Trinity w USA

    Pozycjonowanie laptopów z AMD Trinity w USA

    Wydajność zintegrowanych w APU AMD Trinity GPU, która miała być atutem tychże, jest bardzo dobra, ale, jak wyliczyli redaktorzy Anandtecha na podstawie wyników pomiarów dokonanych w 15 nowych grach, najmocniejszy IGP (AMD Radeon HD 7660G) jest średnio ok. 20% szybszy niż HD Graphics 4000. Aż tyle i… tylko tyle. Wystarczy rzut oka na specyfikacje by mieć wątpliwości, czy słabsze integry AMD będą w stanie skutecznie konkurować z GPU Intela. Czas i testy pokażą.

    Czy są zatem powody do narzekania? Moim zdaniem nie. Wydajność całości jest na tyle dobra, że większość użytkowników domowych, którzy wykorzystują laptop do podstawowych zadań (Internet, office, filmy, muzyka) z pewnością będzie zadowolona. Dodatkowo wbudowana integra jest na tyle mocna, że da się grać w nowe tytuły przy rozsądnych ustawieniach. Biorąc pod uwagę fakt, że najtańsze laptopy z AMD A10 mają kosztować raptem ~2400 zł jestem pewny, że będą ciekawą opcją w przedziale do 2500, a nawet 3000 zł.

    Zobacz także

    Procesory Intel Core 3. generacji – co wnoszą?

    Procesory Intel Core 2. generacji – co wnoszą?

     

  2. AMD Trinity – garść informacji o APU drugiej generacji

    [...] nie ma współdzielonej pamięci L3. Jest za to wsparcie OpenCL i popularnych kodeków wideo: H.264, MPEG-2, VC-1, MVC[...]

    AMD Trinity – garść informacji o APU drugiej generacji
  3. Asus N56VM – multimedialna piętnastka z Ivy Bridge [test]

    [...].1 i OpenCL 1.1 oraz technologię Quick Syn c 2.0. Taktowanie bazowe IGP wynosi 650 MHz, natomiast w trybie[...]

    Asus N56VM – multimedialna piętnastka z Ivy Bridge [test]
  4. Asus N56VM - test piętnastki z Ivy Bridge

    [...].1 i OpenCL 1.1 oraz technologię Quick Syn c 2.0. Taktowanie bazowe IGP wynosi 650 MHz, natomiast w trybie[...]

    Asus N56VM – test piętnastki z Ivy Bridge
  5. Intel Core i5-3550 z HD Graphics 2500 – co potrafi Ivy Bridge ze średniej półki? [test]

    [...] MHz/1150 MHz; jednostki wykonawcze (EU): 6 szt.; obsługiwane API: DirectX 11, OpenGL 3.1, OpenCL 1[...]

    Intel Core i5-3550 z HD Graphics 2500 – co potrafi Ivy Bridge ze średniej półki? [test]
  6. Procesory Intel Core trzeciej generacji – co wnoszą?

    [...] GPU obsługują API DirectX 11 i OpenGL 3.1, a także OpenCL 1.1 (GPGPU). W związku z tym jednostki[...]

    Procesory Intel Core trzeciej generacji – co wnoszą?
  7. Karta graficzna w laptopie – jaka do gier, a jaka do pracy?

    [...] OpenCL i DirectCompute. Z tego pierwszego korzysta m.in. Adobe Photoshop CS6 .http[...]

    Karta graficzna w laptopie – jaka do gier, a jaka do pracy?
  8. Vertex3D Radeon HD 6870 X2 - "kanapka" dla graczy już w Polsce!

    [...]X 11 i OpenGL 4.1 oraz technologie takie jak APP (Accelerated Parallel Processing), OpenCL, Direct[...]

    Vertex3D Radeon HD 6870 X2 – „kanapka” dla graczy już w Polsce!
  9. Nvidia GeForce GTX 580M - monstrum dla mobilnych graczy

    [...]GL, a także technologie Nvidia CUDA, DirectCompute i OpenCL wykorzystywane do obliczeń równoległych (GPGPU). Nie zabrakło[...]

    Nvidia GeForce GTX 580M – monstrum dla mobilnych graczy
  10. Ivy Bridge - Intel odsłania karty. Nowe informacje o Haswell

    [...], OpenGL 3.1 i OpenCL 1.1. Kolejna wersja technologii Intel Quick Sync ma oferować nie tylko lepsze[...]

    Ivy Bridge – Intel odsłania karty. Nowe informacje o Haswell
  11. MSI CR650 - zbliża się APUofensywa!

    [...] 6310 mającym 80 procesorów strumieniowych.Dzięki zgodności z takimi standardami, jak OpenCL i Direct[...]

    MSI CR650 – zbliża się APUofensywa!
  12. Nvidia Quadro - nowe GPU dla mobilnych profesjonalistów

    [...] technologie CUDA, DirectCompute i OpenCL oraz API DirectX 11 i OpenGL 4.1. Nie zabrakło 30-bitowego[...]

    Nvidia Quadro – nowe GPU dla mobilnych profesjonalistów
  13. Toshiba NB550D - żywotny i wydajny netbook z... AMD!

    [...] Radeon HD 6250M, zgodne m.in. z DirectX 11, OpenGL 3.2 i OpenCL.Współpracuje ona z 1 GB pamięci DDR3 RAM[...]

    Toshiba NB550D – żywotny i wydajny netbook z… AMD!
  14. AMD Brazos - nadchodzi koniec dominacji Intela? [wideo]

    [...] w sobie funkcjonalność CPU i GPU. Ponoć nie zabraknie obsługi DirectX 11 i OpenCL .Choć Q1 to okres zimowy, za sprawą[...]

    AMD Brazos – nadchodzi koniec dominacji Intela? [wideo]
  15. Komputer dla studenta - jaki wybrać? Czego jeszcze potrzebuje nowoczesny student?

    [...] lub Nvidia (dobre wsparcie OpenGL oraz GPGPU, tj. CUDA/APP, DirectCompute/OpenCL). Podczas programowania[...]

    Komputer dla studenta – jaki wybrać? Czego jeszcze potrzebuje nowoczesny student?
  16. Ivy Bridge i Haswell - czego można się spodziewać po następcach Sandy Bridge?

    [...] jednostek wykonawczych (EU) z 12 do 16. Ponadto GPU ma obsługiwać API DirectX 11 , technologie OpenCL 1[...]

    Ivy Bridge i Haswell – czego można się spodziewać po następcach Sandy Bridge?
  17. Asus Lamborghini VX6S – wściekła mandarynka [test]

    [...] i wynoszą odpowiednio 750 MHz, 750 MHz i 900 MHz. AMD Radeon HD obsługuje technologie Stream/APP, OpenCL[...]

    Asus Lamborghini VX6S – wściekła mandarynka [test]
  18. Nvidia GeForce GTX 580 - graficzny potwór w sprzedaży!

    [...] technologii, wśród których znajdziemy Nvidia 3D Vision i 3D Vision Surround, DirectX 11, OpenCL, PhysX i CUDA[...]

    Nvidia GeForce GTX 580 – graficzny potwór w sprzedaży!
  19. Sony VAIO CA - stylowy notebook nie tylko na lato [test cz. 2]

    [...] 6470M obsługuje API DirectX 11, a także technologie Stream, OpenCL i DirectCompute. Dzięki temu[...]

    Sony VAIO CA – stylowy notebook nie tylko na lato [test cz. 2]
  20. Acer Aspire 5625G - test niedrogiego triple-core [część 2]

    [...] graficzny obsługuje biblioteki DirectX 11 oraz obliczenia z wykorzystaniem DirectCompute 5.0 (oraz OpenCL[.] po doinstalowaniu ATI OpenCL SDK). Zegary taktujące można uznać za bardzo dobre. Referencyjna wartość[...]

    Acer Aspire 5625G – test niedrogiego triple-core [część 2]
  21. Toshiba Satellite P750 - mobilne centrum rozrywki [test cz. 2]

    [...] i obsługuje API DirectX 11, technologie CUDA, OpenCL i PhysX oraz Optimus (dzięki czemu działa tylko wtedy[...]

    Toshiba Satellite P750 – mobilne centrum rozrywki [test cz. 2]
  22. Nadchodzą Radeony HD 5750 i HD 5770

    [...] Model 5.0 oraz OpenCL 1.0 . Warto też wspomnieć o technologii AMD Eyefinity , która pozwala[...]

    Nadchodzą Radeony HD 5750 i HD 5770
  23. Toshiba Satellite A660 - test [część 2]

    [...] wiekowe i nie obsługują obliczeń z wykorzystaniem OpenCL. Niestety, od producenta laptopa nowszych[...]

    Toshiba Satellite A660 – test [część 2]