AMD GCN4 (Polaris, Radeon 400/500) & GCN5 (Vega)

Ich liebe deine Kommentare xD so ein Bullshit hab ich selten gelesen, natürlich ist der Wettkampf um das Schnellste und Beste der Grund für Innovation und Entwicklung und es liegt in der Natur des Menschen immer nach dem Besten zu streben denn wenn sich jeder mit der Mittelmäßigkeit zufrieden gibt hat doch schon verloren ...
Das sind Vertriebssprüche und sonst nichts weiter. Hast du schon mal mit Personal zu tun gehabt und wie viel von denen tatsächlich Ehrgeiz entwickeln und wie viele von denen einfach den Weg des geringsten Widerstands suchen? Mittelmäßigkeit ist genau das was die meisten anstreben. Nicht zu gut und nicht zu schlecht - nur nicht auffallen und mit dem Strom schwimmen. Nur weil du ein ehrgeiziger Mensch bist, ist das nicht die Lebenseinstellung aller Menschen die nicht "schon verloren" haben.

--- Update ---

Das Geschäft wird zwar nicht mit den High-End Modellen gemacht, aber ein sehr relevanter Teil vom Image färbt von den Prestigemodellen auf das Mainstreamsegment ab. Was man vorallem bei nicht all zu gut informierten Käufern beobachten kann, wird sehr oft von den Topmodellen auf kleinere geschlossen, obwohl dann vieles gar nicht mehr zutrifft.
Und genau das ist der Grund für die High-End Modelle und warum die für das Marketing wichtig sind. Es stellt sich ja auch nicht jeder einen Silberpfeil oder McLaren in die Garage, sondern kauft dann brav die C-Klasse und die E-Klasse um etwas von dem Formel 1 Glanz abzubekommen. Wie der hungrige der in das Brot beisst und von der Wurst träumt.
 
Schw***vergleich als Innovationsmotor - wenn man denkt man hat schon alles an Blödsinn gelesen kommt so etwas :P
Sorry aber das ist ganz sicher nicht der Grund warum wir nicht alle noch Geforce2 verbauen. Und die meisten Menschen haben überhaupt kein Problem damit zweiter zu sein, Golf zu fahren und dafür lieber einmal mehr Urlaub im Jahr zu machen. Denen reicht auch eine Mainstream-GPU
Völlig normale Marketingpraxis. Nvidia Titan, Intel >1000,- CPUs?
Marketing, Image, was darauf baut, tut das, weil es funktioniert! Marktforschung um Konsumverhalten richten Marketingsstrategien darauf aus, evolutionär gewachsene psychische Eigenheiten des Menschen für schnöde Konsummaximierung umzuformen.
Was ist denn daran neu? Ist dir das echt entgangen?


Weder liegt das in der Natur des Menschen, noch wäre das irgendwie gut. Es liegt in der Natur eines unglücklichen und gestörten Geistes, wenn er Kompensationen sucht wo sie nicht zu finden sind.
Das ist eher eine philosophische Frage. Denn so könnte man noch weiter fragen: Warum sollte man seine Zeit damit verbringen, Pixel zu schubsen und virtuelle Welten realen vorzuziehen?
 
Wenn es nur Vertriebssprüche und Marketing sind, aber die Normalen Menschen eh nur das Mittelmaß anstreben wäre das ganze zeug absolut wirkungslos und genau das ist es eben nicht ....

Und Ja ich habe mit Personal zutun, mit reichlich sogar. Jeder von denen macht alles nötige um Befördert zu werden, du scheinst in einer Komischen Welt zu leben wo es nur Menschen gibt die sich mit dem zufrieden geben was sie haben und nicht nach mehr streben. In der normalen Welt sieht das jedoch anders aus.
 
Und genau das ist der Grund für die High-End Modelle und warum die für das Marketing wichtig sind. Es stellt sich ja auch nicht jeder einen Silberpfeil oder McLaren in die Garage, sondern kauft dann brav die C-Klasse und die E-Klasse um etwas von dem Formel 1 Glanz abzubekommen. Wie der hungrige der in das Brot beisst und von der Wurst träumt.
Es wirkt wie beschrieben.
 
Es soll hier bloß niemand etwas gegen eine silberne C-Klasse sagen *elch**nono**lol*;D*engel*
 
Es soll hier bloß niemand etwas gegen eine silberne C-Klasse sagen *elch**nono**lol*;D*engel*


:P Die Gehört direkt neben dieses Modell hier .

Es gibt immer genug die mehr kaufen als sie Benötigen, bin zwar kaum am Gamen, für IT setze ich mir ein Budget jedes Jahr. Benötige ich es nicht, steht mir dieses im nächsten Jahr zusätzlich zur Verfügung (die Werbugn versucht dies zu verhindern und erreicht es auch ab und zu). Alte HW wird weitergegeben in der Familie und wenn man was dafür geben will kann man das tun.
 
Um nochmal auf die 232 mm² Die-Größe von vor einiger Zeit zurück zu kommen: NVidia hat Transistor- und Flächendaten für GP100 in 16nm FinFet genannt. Grob überschlagen kommen die auf 1,8843x soviele Transistoren pro mm², das würde heißen ein 232 mm² Polaris Die dürfte im schlimmsten Fall ~5.819 Millionen Transistoren haben (Hawaii XT wird mit 6.200 Millionen genannt). NVidia erreicht angeblich 1328-1480 MHz bei 300W TDP bei ihrem 610 mm² 16nm FinFet Die, das wären also auch ~400 MHz mehr als im alten Prozess. Ich würde sagen, für die R9 400 Reihe ist noch alles offen, auch ohne Killer-Greenland-Die.

Edit: Interessantes AMD-Patent gepostet im SA-Forum:

Heterogeneous Function Unit Dispatch in a Graphics Processing Unit

A compute unit configured to execute multiple threads in parallel is presented. The compute unit includes one or more single instruction multiple data (SIMD) units and a fetch and decode logic. The SIMD units have differing numbers of arithmetic logic units (ALUs), such that each SIMD unit can execute a different number of threads. The fetch and decode logic is in communication with each of the SIMD units, and is configured to assign the threads to the SIMD units for execution based on such differing numbers of ALUs.
 
Zuletzt bearbeitet:
5.000 != 5,000: Wir sind hier immer noch in Deutschland.
 
Man könnte auch einfach diesen schlechten Schreibstil der Amerikaner mit 1000er Trennzeichen sein lassen. Mit großen Zahlen alleine brauchen wir hier niemanden beeindrucken ;)
 
Man könnte auch einfach diesen schlechten Schreibstil der Amerikaner mit 1000er Trennzeichen sein lassen. Mit großen Zahlen alleine brauchen wir hier niemanden beeindrucken ;)

Man könnt sich auch angewöhnen richtig zu lesen, den nicht mal ein Depp verwendet sowohl , als auch . für Dezimaltrennzeichen. Bei Vergleich von Zahlen gleicher Grössenordnung kann man auch ;) als 1000 Trennzeichen verwenden. Wobei, wieso verwendet man das bei weniger als 5 Stellen.

Der Text ist eindeutig, da würde ich mich mehr über die 1,8837 aufregen die Genauigkeit hat man nicht, wenn man grob überschlägt genauer als 1.9 oder 2 ist eigentlich unangebracht, beeindruckt auch keiner. :]
 
Naja, wenn man mit Milliarden rechnet, da kann so eine Kommastelle schon mal einen Unterschied machen ...

Ist aber alles unerheblich. Wichtig ist: Der große Polaris dürfte schneller als Hawaii sein, sofern der Takt nicht künstlich unten gehalten wird.
 
Naja, mal abwarten und Tee rauchen...

Um noch mal zu den 5 Mio Transistoren zu kommen und bei AMD/ATi zu bleiben:
Der Rage 128 hatte schon 8Mio Transistoren...
 
WCCFTECH:AMD Polaris 11 Radeon 470 GPU Specs Leaked On Compubench – 1024 GCN 4.0 Cores And 128bit Memory Bus.

The specifications that have leaked are for an SKU with the device ID 67FF which is the most cut back, lowest end, Polaris 11 SKU there is. This means that the full Polaris 11 GPU will have more than 1024 GCN cores.

WqQ9JFq.png


This indicates that the full chip will likely have 1280 GCN cores and will be a replacement for AMD’s Pitcairn GPU – 370, 270 & 7800 series cards – in terms of pricing and market positioning. So it’s very likely we’re looking at the R9 470 here. The SKU in question also features a 128bit memory interface, however the memory capacity data is missing. But 4GB and 2GB of GDDR5/X memory are two likely configurations for this GPU.

Sieht doch ganz gut aus.
 
1024 GCN 4.0 Cores And 128bit Memory Bus
AMD kommt gelegen, dass nvidia bei der GeForce GTX 960 mit einem 128-Bit MC in der Mittelklasse vorgeprescht ist und dafür Prügel einstecken musste.

Jetzt dürften sich die Wogen geglättet haben und der halbierte Speicherbus trägt sicher seinen Teil zur (versprochenen) hohen Energieeffizienz bei.
 
Hier wird auf Parallelen der neuen NV-Architektur zu GCN hingewiesen.

- GCN hat eine eigene programmierbare skalare Einheit mit eigener Registerfile, mit Cache (für 4 CUs), bei NV wird das alles noch mit FF-Einheiten gelöst sein.
- GCN hat einen globalen Scheduler, NV nur Zwei mit eigenen dedizierten Einheiten (1/2 FP32 SIMD32/16, 1 FP64 SIMD16, 1 LDS SIMD16, 1 SF SIMD16). GCN hat 4 16er SIMDs (FP32, FP64, SFs). LoadStores (afaik) über die TexturLoadStore-Einheiten realisiert, werden also auf extra Einheiten gemappt.
- GCN kann somit 5 Ops pro Takt issuen und Pascal maximal 4.
- GCN kann deutlich mehr Threads verwalten. GCN hat 4 Instruction Buffer, mit je 10 Wavefronts. Pascal hat 2 Warpscheduler, welche je 16 Warps halten kann. GCN kann somit (Wavefront=64 Threads) 2560 Threads verwalten, Pascal maximal 1024 (Warp=32 Threads).
- Vorteil für Pascal und NV. 32 Warps sind kleinerer Verschnitt, jedoch müssen doppelt soviele Warps auf die SMs gemappt werden, bis gleiche Thread-Zahl erreicht ist.

Ansonsten sind viele Sachen identisch, wie Registerfile-Größe, SharedMemory~LDS, L2-Cache-Bandbreite pro Cacheblock (64B/clk), etc...
Wie gesagt, NV ging mit Pascal Richtung GCN.

Könnte das zur Folge haben das die jetzigen NV-Karten noch schneller raus altern, weil die Applikationsentwickler nur noch auf NV-Neu und GCN optimieren?
 
Wenn Ihr Euch mal das verlinkte Patent durchlesen würdet, dann könntet Ihr feststellen, dass es sehr wohl möglich ist, dass GCN4 eine andere SIMD-Struktur hinter den CUs hat, und einen neuen Scheduler für die Wavefronts:

[...]
multiple data (SIMD) units, wherein the SIMD units have differing numbers of arithmetic logic units [...] (one, two, four, eight, or sixteen ALUs)
[...]
assign the threads to the SIMD units for execution such that no thread will be predicated off.
[...]
the unused SIMD units are deactivated while the other SIMD units execute the threads
[...]

Die Struktur unter den CUs könnte vollkommen unterschiedlich sein - ich würde sogar darauf tippen, dass die SP-Anzahl pro CU (bzw die Summe insgesamt) nicht korrekt ausgegeben wird, um mehr Optimierungen zu ermöglichen. Da die Einheiten unterschiedlich groß sind, würde ich die kleineren Einheiten zusätzlich auf den Chip packen, quasi ohne der Software etwas davon zu sagen, um immer 100% von dem was die GPU hingeworfen bekommt abarbeiten zu können.
 
Im Anandforum sind Grafiken dazu aufgetaucht:
http://forums.anandtech.com/showpost.php?p=38158614&postcount=115

GCN 3

UHMmBIL.jpg

GCN4?
onf4yQR.jpg

Noch ein Zitat 2 Seiten weiter:
It is noted that while the compute unit 400 is shown with two scalar ALUs 404, one two thread wide vector SIMD unit 406, one four thread wide vector SIMD unit 412, and one eight thread wide vector SIMD unit 418, the compute unit 400 may be constructed with different numbers of the scalar units and the SIMD units without affecting the overall operation of the compute unit 400.
Alternatively, SIMD units 406, 412, and 418 may initially have the same width (e.g., each being an eight thread wide SIMD unit) but may be configured (on a demand basis) to deactivate (e.g., through gating mechanisms, disabling, powering off, etc.) to have different widths (e.g., a two thread wide, a four thread wide, and an eight thread wide SIMD unit, as described above, by deactivating, six, four, and zero, respectively, pipes or ALUs in each unit).
 
Das beschreibt erst mal nur, dass man SIMDs unterschiedlicher Größe kombinieren kann, oder eben auch nicht. Und dass man einzelne ALUs in einem SIMD Cluster deaktivieren kann.
Selbst wenn AMD das für GCN4 nutzen wird, weiß man also noch nicht wie sie die SIMDs dort organisieren werden.
Nach dem Paper könnte auch eine Struktur nach dem Muster 4*1 + 3*4 + 3*16 Threads erstellt werden oder man lässt sie so wie bisher nur mit der Möglichkeit durch Teilabschaltung verkleinerte SIMD Arrays zu erzeugen. Dann wäre das eine reine Energiesparmaßnahme wenn man die SIMDs nicht voll auslasten kann. Letzteres erscheint mir dann am Wahrscheinlichsten.
 
Oder wäre es damit möglich, die Die Ausbeute zu verbessern?
 
Da steht auch, dass wenn man Teile deaktiviert/runter takten kann, dass dafür z.B. andere Teile für kritische Threads höher getaktet werden können. Inkl. Voltage Islands, etc.

Insgesamt dürfte das die Effizienz immens steigern, wenn es kommt. Und es dürfte auch für die Performance etwas bringen am Ende. Abgesehen davon passen natürlich viel mehr kleinere Einheiten auf den Chip. Könnte also auch sein, dass die Shader-Anzahl aus den Leaks ganz und gar nicht stimmt, auf Grund der anderen Organisation. Ich würde ja die kleineren Einheiten zusätzlich drauf packen, ohne der Software was davon zu sagen, um eine bessere Auslastung zu erreichen (so hätte man bei einer theoretischen 100% Auslastung doch noch immer eine Reserve und müsste nie bei 100% Verbrauch arbeiten, und kann immer noch Teile hoch/runter takten).
 
Denke ich auch. Schaut vor allem aus Sicht der Energieeffizienz interessant aus.
 
Also wenn ich das richtig sehe:

Code:
[URL="https://cgit.freedesktop.org/~agd5f/linux/commit/?h=drm-next-4.7-wip-polaris&id=d4ab6c938d0da811b9e6176ba015f9ada51b604d"]drm/amd/dal: add core support for Polaris family (v2)[/URL]:

[...]

+	switch (cntl->color_depth) {
+	case COLOR_DEPTH_888:
+		params.ucBitPerColor = PANEL_8BIT_PER_COLOR;
+		break;
+	case COLOR_DEPTH_101010:
+		params.ucBitPerColor = PANEL_10BIT_PER_COLOR;
+		break;
+	case COLOR_DEPTH_121212:
+		params.ucBitPerColor = PANEL_12BIT_PER_COLOR;
+		break;
+	case COLOR_DEPTH_161616:
+		params.ucBitPerColor = PANEL_16BIT_PER_COLOR;
+		break;
+	default:
+		break;
+	}

[...]

+	case BW_CALCS_VERSION_ELLESMERE:
+		vbios.number_of_dram_channels = 8;
+		vbios.dram_channel_width_in_bits = 32;
+		vbios.number_of_dram_banks = 8;
+		vbios.high_yclk = bw_int_to_fixed(6000);
+		vbios.mid_yclk = bw_int_to_fixed(3200);
+		vbios.low_yclk = bw_int_to_fixed(1000);
+		vbios.low_sclk = bw_int_to_fixed(300);
+		vbios.mid_sclk = bw_int_to_fixed(974);
+		vbios.high_sclk = bw_int_to_fixed(1154);

[...]

+ dceip.number_of_graphics_pipes = 6;

[...]

+	case BW_CALCS_VERSION_BAFFIN:
+		vbios.number_of_dram_channels = 4;
+		vbios.dram_channel_width_in_bits = 32;
+		vbios.number_of_dram_banks = 8;
+		vbios.high_yclk = bw_int_to_fixed(6000);
+		vbios.mid_yclk = bw_int_to_fixed(3200);
+		vbios.low_yclk = bw_int_to_fixed(1000);
+		vbios.low_sclk = bw_int_to_fixed(300);
+		vbios.mid_sclk = bw_int_to_fixed(974);
+		vbios.high_sclk = bw_int_to_fixed(1154);

[...]

+ dceip.number_of_graphics_pipes = 5;

[...]

Theoretisch bis zu 16Bit pro Farbkanal; Default-Frequenz: 1154/6000 MHz; Außerdem maximal 5 bzw 6 Displays.

Außerdem:

Code:
[URL="https://cgit.freedesktop.org/~agd5f/linux/commit/?h=drm-next-4.7-wip-polaris&id=4bf04e8f7d0eb36743b0b1c6898ff20b0dac9170"]drm/amd/powerplay: add GFX per cu powergating for Baffin[/URL]:

[...]

+/* This function is for Baffin only for now,
+ * Powerplay will only control the static per CU Power Gating.
+ * Dynamic per CU Power Gating will be done in gfx.
+ */

[...]

Das dürfte Teil von dem bereits oben erwähnten sein.

Edit: Ich schätze aktuell mal folgendes:

R9 480: Ellesmere Pro @ ~1154 Mhz / 4 GB (?) GDDR5 (@192 GB/s)
R9 480X: Ellesmere XT @ ~1154 Mhz / 8 GB GDDR5 (@256 GB/s)

R9 490: Ellesmere Pro @ ~1250 MHz / 8 GB GDDR5X (@384 GB/s)
R9 490X: Ellesmere XT @ ~1250 MHz / 8 GB GDDR5X (@416 GB/s)

Die 490er kommen möglicherweise etwas später wegen GDDR5X-Verfügbarkeit.
 
Zuletzt bearbeitet:
Ich denke nicht, dass Polaris 10 / Ellesmere genügen Rechenleistung hat um als R9 490 verkauft zu werden. Bei P10 @ 1154MHz käme eine Rechenleistung knapp über Hawaii XT heraus (angenommen 2560 Shader-Einheiten), was ein guter und erwarteter Wert für eine R9 480 wäre. Der Abstand zwischen R9 480 und R9 490 wäre aber mit <10% deutlich zu klein. Natürlich könnte der GDDR5X zusätzlich Vorteile bringen, allerdings gibt es bisher keinerlei Hinweise darauf, dass AMD mit GDDR5X plant. Für eine Leistung im Bereich von Hawaii reicht 256-Bit GDDR5 aus wie man an der GTX980 sieht.
 
Zurück
Oben Unten