Was kommt (nach den ersten Deneb (K10.5+)) fuer den Desktop bis zum Launch der BD(APUs)?

Da isser, der high-k Wafer aus GFs Broschüre:
ARM Physical IP
ARM also will be showcasing the first 28nm wafer with High-K Metal Gate (HKMG) processtechnology; demonstrating the advantages of early enablement with their foundry Partners to accelerate the migration to advance node design in next-generation SoCs.
http://www.arm.com/about/newsroom/a...ology-at-2010-gsma-mobiile-world-congress.php

Aber nicht von AMD ..

Da sollte sich AMD mal nicht anstellen, und Ontario auch gleich @28nm bringen ^^

ciao

Alex
 
Zuletzt bearbeitet:
Hallo,
ich hab mal eine Frage: kleinerer Cache ist schneller, aber was bringt dann größerer Cache für Vorteile?

MfG
Dackelkatz
 
Wenn der kleinere Cache "überläuft" muss auf den nächst höheren, welcher wiederum langsamer ist (Zugriff+Transfer), zurückgegriffen werden.... bei einem größeren und etwas langsameren Cache passiert das nicht so schnell.
 
Weiß nicht, wo ich's gerade hinpacken soll:
Hiroshige Goto schreibt zum 48-Core-Artikel:
http://pc.watch.impress.co.jp/docs/column/kaigai/20100216_349232.html
Übersetzt:
http://translate.googleusercontent....le.com&usg=ALkJrhgzZNFtuGiPAnU1qbV_l6GnNDojZQ

Er scheint sich locker aus den ISSCC-Papers zu bedienen. Jemand bot mir das Llano-Paper an, aber dazu darf ich dann auch noch nix schreiben.
.
EDIT :
.

Noch was Uraltes, das ich gerade noch in einem alten Post gefunden habe, K9 Spekulationen von 2003 *chatt*
(War vielleicht der erste Bulldozer Thread, also alle Infos bitte ab sofort da rein *lol* (Spass))
You can consider it a fake, as these distant rumours can’t be proved for now. However, if you are still interested, you might want to know of probable technological features of next-generation AMD processors - K9.
It seems, K9 will have an integrated DDRII controller
Processor will feature speculative branching (up to 8 branches), and probably some rollback cache in case a branch is predicted wrong...
Processor will probably have 3 (!) fully-fledged x87 blocks, 3 SSE2 and 2 ALU blocks. Decoders will be capable of organizing them by three (FPU + SSE2 + ALU) for maximum performance.
K9 will possibly utilize AMD’s old patent, describing integrated Peltier element packaging
Processor might have several buffers, a kind of L0 cache. For example, a 4Kb buffer will precede and follow FPU for making its operation (SSE2, 3DNow) continuous.
K9 might also support L3 cache for commented code. I.e. decoder will be capable of acting right in L3 inserting comments into special fields.
Pipeline will probably feature 15 ALU stages, 20 FPU stages.
I-cache and decoder will perform at double speed.
AMD might situate L3 cache on crystal using 1T-SRAM.
Hyper Transport II – expected to be something like Octal Data Rate (Yellowstone) with about 1GHz carrier clock. As a result throughput will reach 25Gb/s in 16x16 configuration.
Interprocessor protocol (MOESI) will be updated and improved.
The very fast bus will provide a very interesting feature of sharing free executive units between two processors. I.e. if the first has FPU loaded and the second has it free, then the latter can handle requests from the decoder of the former.
http://www.planet3dnow.de/vbulletin/showthread.php?p=925104#post925104
Die SSE2/FP Infos sind natürlich mittlerweile olle Kamellen, aber da wir gerade beim double pumped waren ... ist die Story mit dem Decoder ganz interessant.
Mit einem doppelt getakteten 4issue Decoder könnte man natürlich 2x4issue INT Pipes auch gut versorgen.
Weils so lustig ist.. :) Bin woanders wieder drüber gestolpert und habe mich nun an dein Posting erinnert.

Ich habe noch paar interessante Stellen (außer den Decodern) hervorgehoben. Ein paar Dinge sind doch recht auffällig. Auch, wenn es für Z-RAM und nun T-RAM zeitlich noch nicht reicht (reichen sollte?).
 
Da isser, der high-k Wafer aus GFs Broschüre:
http://www.arm.com/about/newsroom/a...ology-at-2010-gsma-mobiile-world-congress.php

Aber nicht von AMD ..

Da sollte sich AMD mal nicht anstellen, und Ontario auch gleich @28nm bringen ^^

ciao

Alex

In dem GF-Prospekt heißt es:
"Initial 32nm CPU products will be sampong in 2010. The 32nnm HKMG ramp will precede the 28nm HKMG ramp of other Globalfoundreis customers by about one Quarter"

Zudem wissen wir, das AMD Llano noch in H1/10 samplen will.
Das heißt für mich, dass Llano schon weiter sein müsste, also erste Wafer von Llano wohl eher schon in Q4/09 existiert haben dürften. Interessant, dass sich AMD damit so zurück hält.

Und wenn Llano schon so weit ist, ist damit die darin enthaltene 32nm-SOI-GPU mindestens so weit oder wohl eher noch ein Stückchen weiter. Demanch könnte der GPU-Refresh womöglich doch schon auf 32nm-SOI basieren. Womöglich wird AMD einen Teil (Lowend und Highend?) der GPUs auf 32nm-SOI bringen und dann womöglich die Massen/Mainstream-GPU in 28nm-bulk?
.
EDIT :
.

"GlobalFoundries is due to begin shipping chips made on the 32-nm SOI process, which also includes HKMG, to AMD at mid-year 2010."
aus eetimes: http://http://www.eetimes.com/news/design/showArticle.jhtml;jsessionid=0P3D1LXSI3LUDQE1GHOSKH4ATMY32JVN?articleID=222900313&pgno=2
 
Das klingt nicht unplausibel, wenn AMD die GPUs jetzt auch für CPUs designt, dieses Design auf die restliche GPU-Linien zu übertragen. Damit könnten SOI-GPUs tatsächlich Realität werden.
 
Auch, wenn es für Z-RAM und nun T-RAM zeitlich noch nicht reicht (reichen sollte?).
Beim Blick auf den SRAM-Friedhof selbst eines Hexacore blickt man wehmütig auf jene Techniken.

Oder wenn Intel munter den L3 immer weiter aufbohrt für die Server-CPUs.
Gerade bei immer höherer Corezahl bremst sich AMD vs. Intel aus.
Wobei Intel mit steigender Core-Zahl immer weniger Vorteile aus SMT ziehen dürfte.

AMD hinkt als hier hinterher ohne tatsächlich Fertigungskosten zu sparen oder höhere Umsätze kreieren zu können. Und der 'alte Technologiepartner IBM' setzt munter auch auf große L3 mit alternativen Speicherzellen ähnlich zu oben.

Wenn aber Intel UND IBM große L3 einbauen während AMD es mit Kleinen versucht bleibt nur Kopfschütteln übrig.
Zudem wäre SRAM viel besser als L2-Erweiterung auf 1MB je Core geeignet als lausige L3-Aufgaben erfüllen zu müssen.
Mal fiktiv Hexacore mit 6* 1MB L2 SRAM und 12 MB T_RAM betrachtet. Da wären locker 10% mehr IPC im Mittel zu erwarten.
Wie http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1266322224 zeigt klappt Magny-Core nur bei 2,2 GHz. 10% mehr IPCC wg. L2/L3 Optimierung würden wie fiktiv 2,4-2,5 GHz K10.5 wirken. Das sähe doch schon anders aus ?
Und AMD nicht mal irgendwann erklärt dass sein obiges Design mit 6* 512k L2 und 6 MB L3 in SRAM ein Überflieger vs. anderen Cachebestückungen ist.
 
Evtl. wird der nächste Notebook-OEM Zyklus für Llano abgewartet und es muss vlt noch an etwas ähnlichem zu Optimus gebastelt werden, weil jetzt da alle ganz scharf drauf sind.

Greetz,
GHad
 
Evtl. wird der nächste Notebook-OEM Zyklus für Llano abgewartet und es muss vlt noch an etwas ähnlichem zu Optimus gebastelt werden, weil jetzt da alle ganz scharf drauf sind.

Viel müssen sie da eigentlich nicht basteln, sondern hauptsächlich die Software entsprechend verbessern. Aber das ist ein Punkt, wo ich bei ATI manchmal den Eindruck habe das deren Entwicklungsabteilung deutlich kleiner ist - beim Softwaresupport ist Nvidia zurzeit eindeutig besser (auch wenn man wenn man nur spielen will das nicht wirklich mitbekommt).
Naja, einen Vorteil muss man den Grünen ja auch noch eingestehen. ;)
 
Wie http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1266322224 zeigt klappt Magny-Core nur bei 2,2 GHz. 10% mehr IPCC wg. L2/L3 Optimierung würden wie fiktiv 2,4-2,5 GHz K10.5 wirken. Das sähe doch schon anders aus ?
Und AMD nicht mal irgendwann erklärt dass sein obiges Design mit 6* 512k L2 und 6 MB L3 in SRAM ein Überflieger vs. anderen Cachebestückungen ist.

Wenn dann dank nicht ausgereifter Technik die Chips nur noch 1,7 GHz schaffen, gibts auch wieder "Mecker".

BTW, es gibt schon 2,3 GHz Magny Cours zu kaufen:
http://investorvillage.com/smbd.asp?mb=476&mn=168568&pt=msg&mid=8601873
 
Wenn dann dank nicht ausgereifter Technik die Chips nur noch 1,7 GHz schaffen, gibts auch wieder "Mecker".
http://de.wikipedia.org/wiki/AMD_Athlon_64

Da lag doch der gute alte Winchester D0 mit 1,8 GHz höher ?

Das ist SE Modell - hot !;D

Ok, 'Magny Cours' packt eben nur 10 Watt je Core max.
Wobei 32nm später ja auch dann sehr deutlich unter 3 GHz bleiben muß da ja schon der K10.5 in 32nm bis 25 Watt bei ca. 3 GHz benötigt.

Sicherlich gibts viele Anwender der mehr Cores ohne hohe Ansprüche an den CPU-Takt haben. Aber Magny Cours muß sich gegen Intel 8-fach SMT Cores durchsetzen. Das wird ganz schön hart werden besonders da AMD den Socket jetzt ändern muß.
 
Auch, wenn es für Z-RAM und nun T-RAM zeitlich noch nicht reicht (reichen sollte?).
Hmm also T-RAM wurde ja für 32nm angekündigt, und die kolpotierten L2 Cache Größen mit 2MB sind ja überraschend "dick" ...

Da würde ich TRAM jetzt mal nicht 100% ausschließen wollen, auch wenn man vielleicht erst nur an L3 als TRAM Einsatzgebiet dachte.

Aber naja abwarten.

Das wird ganz schön hart werden besonders da AMD den Socket jetzt ändern muß.
Blödsinn :)
Bei Intel hat sich schließlich auch keiner beschwert. Solange das alles langfristig mit den OEMs kommuniziert ist, ist da gar nichts "hart".

ciao

Alex
 
Bei Intel hat sich schließlich auch keiner beschwert. Solange das alles langfristig mit den OEMs kommuniziert ist, ist da gar nichts "hart".[/
QUOTE]
Die OEMs produzieren nur - letztlich ist der Kunde König.

AMD muß erst einmal seine aktuellen Kunden gewinnen eine neues System incl. jenem Socket zu kaufen.
Im Unterschied zu den früheren Jahren ist nun aber Intel performanter und ähnlich teuer wie AMD.
 
Das ist SE Modell - hot !;D

Ok, 'Magny Cours' packt eben nur 10 Watt je Core max.
Wobei 32nm später ja auch dann sehr deutlich unter 3 GHz bleiben muß da ja schon der K10.5 in 32nm bis 25 Watt bei ca. 3 GHz benötigt.
Wie war das mit K10.5 @ 32?!
2,5 (bis 25) Watt.
Im Auge des Betrachters.

Sicherlich gibts viele Anwender der mehr Cores ohne hohe Ansprüche an den CPU-Takt haben. Aber Magny Cours muß sich gegen Intel 8-fach SMT Cores durchsetzen.
Und wenn AMD es mit veralteter Architektur & Feritung schafft, gegen Intels 8-Fach SMT-Core mitzuhalten, ist das eben beachtlich.

AMD macht ja nichts anderes, als eine neue Plattform Einzuführen.
Und der 6x0mm²-8-Core-Die von Intel ist auch nicht ohne.

Das wird ganz schön hart werden besonders da AMD den Socket jetzt ändern muß.
Lanfristig sowie von der Ausrichtugn hört sich aber der neue AMD-Sockeln sehr gut an.
(High-Performance @ G34 oder Effizienz @ G32)

Ich schätze, weil sich AMD da jetzt so viele Zeit für die Plattform-Einführung genommen hat, dürfte die Aufrüstbarkeit noch sehr lange & gut möglich sein. Also, nicht "nur" Bulldozer sondern vielleicht bis 22nm.

Im Unterschied zu den früheren Jahren ist nun aber Intel performanter und ähnlich teuer wie AMD
Im Unterschied zu früher, kann ATI jetzt per CPU & GPU & Chipsatz alles anbieten.
Und jetzt ist auch das Image deutlich besser als in der jüngeren Vergangenheit mit K10-B2

Mit Instanbul hat AMD IMO wieder Zuverlässigkeit bewiesen. Vorallem, weil viel der Top-Ten Super-Computer von Quad auf Instanbul aufgerüstet haben.
Dazu hatten sie in dieser Zeit auch die eigenen Chips am Markt erproben können. Sieht so aus, als ob das auch geklappt hat.
 
Zuletzt bearbeitet:
AMD muß erst einmal seine aktuellen Kunden gewinnen eine neues System incl. jenem Socket zu kaufen.
Im Unterschied zu den früheren Jahren ist nun aber Intel performanter und ähnlich teuer wie AMD.
Und ? Mit Socket-F wäre Intel noch mehr "performant", ausserdem verbraucht DDR3 weniger Strom, mit dem kommenden Low-Power DDR3 @1,35V erst recht. ... also der neue Sockel ist da überhaupt kein Grund irgendetwas zu bemäkeln ...
Die neuen Systeme werden sich sicher ganz gut schlagen, und Ihre Nische finden. V.a. darf man nicht vergessen, dass die K10 FPU im HPC Bereicht immernoch sehr gut wenn nicht besser dasteht. Mit 16FPUs im Gehäuse hat man da nicht viel zu verlieren, selbst bei nur 2,2 oder 2,3 GHz.

Die Masse machts :)

ciao

Alex
 
Und ? Mit Socket-F wäre Intel noch mehr "performant", ausserdem verbraucht DDR3 weniger Strom, mit dem kommenden Low-Power DDR3 @1,35V erst recht. ... also der neue Sockel ist da überhaupt kein Grund irgendetwas zu bemäkeln ...
Die neuen Systeme werden sich sicher ganz gut schlagen, und Ihre Nische finden. V.a. darf man nicht vergessen, dass die K10 FPU im HPC Bereicht immernoch sehr gut wenn nicht besser dasteht. Mit 16FPUs im Gehäuse hat man da nicht viel zu verlieren, selbst bei nur 2,2 oder 2,3 GHz.

Die Masse machts :)

ciao

Alex

und weswegen halbiert (2 INT-Cluster vs eine FPU) man dann die FPU im Bulldozer?
 
AMD hat m.M.n. den Sockel F sehr lang bedient - sodass es an der Zeit war, endlich den Sockel zu wechseln - nicht nur wegen rDDR3... immerhin ist der Sockel F schon 5 Jahre alt !

Auch wird AMD wenigstens noch 2 Jahre lang Shanghai und Istanbuls für Sockel Fr5/6 anbieten.

Sockel G34: feine Sache ... nur die momentane Begrenzung auf 4 Sockel ist noch nicht so überzeugend - immerhin liegen ja einige HT-Links offen/frei, sodass ein späterer Anstieg auf 8 ohne bzw 32 mit Chips gehen könnte !

Einzig die Größe des Sockels macht mir Sorgen:
- 1944 Kontakte, die verbogen werden können
- es gibt noch keine Wakü-Teile !

Zum Glück sind es ja nur noch 4 Wochen bis es endlich los geht ....

Ps - ich kenne keinen Intelsockel der so lange mitgemacht hat

Hist des Sockel F:
- Dualcore
- Quadcore
- Hexacore
- HT1, HT3
- rDDR2 bis 1066
- von 90nm runter auf 45nm
 
und weswegen halbiert (2 INT-Cluster vs eine FPU) man dann die FPU im Bulldozer?
Öh ... wer redet von Halbieren ?
Die aktuelle Informationslage ist die, dass es anstatt 2x128bit (zwei K10 Kerne) 1x256bit (für ein Bulldozer Modul = 2 INT Cluster), mit der Möglichkeit 2x128bit µOps zu verarbeiten, geben wird ... passt doch *kopfkratz *noahnung*

Oder hast Du andere Infos ?

Sockel G34: feine Sache ... nur die momentane Begrenzung auf 4 Sockel ist noch nicht so überzeugend - immerhin liegen ja einige HT-Links offen/frei, sodass ein späterer Anstieg auf 8 ohne bzw 32 mit Chips gehen könnte !
Jo, das hat JF schon angesprochen.
Jeder OEM der will, darf sich gerne dran versuchen, aber nachdem es mittlerweile gleich 16 Kerne pro *Sockel* gibt, ist die Sockelanzahl langsam ziemlich uninteressant.

Früher brauchte man mit Dual Core CPUs für 16 Kerne 8 Sockel ... jetzt reicht einer *lol*

Wird wohl nur für ganz dicke Setups à la Nehalem EX / Itanium / POWER interessant, in die Richtung geht wohl die aktuelle Hypertransport HNC Spezifikation.

ciao

Alex
 
Langsam bekommen aber auch die Betriebssysteme Probleme mit sovielen Recheneinheiten (egal ob HTT oder echt):

Windows 2000 bis 2003 können nur bis 64
Windows 2008 und R2 können mit Patch bis 256
aber es entsteht viel "Nebenverbrauch" der CPUs nur durch die Verwaltung ... wer soll so viele Threads sinnvoll verwalten ?

Naja für ca 4T€ kann man schon ein schönes Dual-Sockel-G34-System bauen .... und ich muss mal wieder sparen ... *lol*
 
Öh ... wer redet von Halbieren ?
Die aktuelle Informationslage ist die, dass es anstatt 2x128bit (zwei K10 Kerne) 1x256bit (für ein Bulldozer Modul = 2 INT Cluster), mit der Möglichkeit 2x128bit µOps zu verarbeiten, geben wird ... passt doch *kopfkratz *noahnung*

Oder hast Du andere Infos ?
Nein habe ich nicht, womöglich habe ich es anders aufgefasst.
Btw. was passiert, wenn zwei Threads jeweils eine 256Bit AVX-Instruction ausführen möchten?
 
Btw. was passiert, wenn zwei Threads jeweils eine 256Bit AVX-Instruction ausführen möchten?
Dann gibts natürlich Stau in der FPU Queue - falls alles so in Silizium gegossen wird, wie wir vermuten.

Der Fall sollte aber erst einmal die Ausnahme sein - die Vorteile der Lösung - weniger DIE Fläche/Transistoren / Stromverbrauch liegen auf der Hand. Das lohnt sich schon das so zu machen.

Ausserdem hat ein 8 Kern Bulldozer in einem Turbo Mode und den abgeschalteten zweiten INT Clustern ja die komplette 256bit FPU. Wenn man also 100% single Thread Leistung haben will - kein Problem.

ciao

Alex
 
Zur der z-ram Geschichte hab ich was gefunden ist zwar schon ein bisschen älter
Bereits Anfang 2006 hat der Prozessorbauer AMD eine Lizenz der Z-RAM-Technik von ISi erworben. AMD produziert bereits seit 2003 seine CPUs in SOI, daher wäre Z-RAM eine mögliche Alternative für die recht flächenintensiven 6T-SRAM-Zellen der Caches. Bisher hat AMD aber noch nicht bekannt gegeben, ob und wann sie die neue Technik einsetzen wollen. (chh)
hxxp://xxx.heise.de/newsticker/meldung/Kompakter-Arbeitsspeicher-dank-Z-RAM-163124.html




mfG
Dackel
 
Zuletzt bearbeitet:
Dann gibts natürlich Stau in der FPU Queue - falls alles so in Silizium gegossen wird, wie wir vermuten.

Der Fall sollte aber erst einmal die Ausnahme sein - die Vorteile der Lösung - weniger DIE Fläche/Transistoren / Stromverbrauch liegen auf der Hand. Das lohnt sich schon das so zu machen.

Ausserdem hat ein 8 Kern Bulldozer in einem Turbo Mode und den abgeschalteten zweiten INT Clustern ja die komplette 256bit FPU. Wenn man also 100% single Thread Leistung haben will - kein Problem.

ciao

Alex

Ja klar, aber in deinem zu vor skizzierten HPC-Bereich, wo es auf jede FPU ankommt... wäre die Wahrscheinlichkeit dennoch sehr hoch das es eben zu diesem vermutlichen Stau kommen könnte. Deshalb meine Frage nach dem Warum ;) [Oder ist BD garnicht für HPC ?]
 
Zuletzt bearbeitet:
Ja klar, aber in deinem zu vor skizzierten HPC-Bereich, wo es auf jede FPU ankommt... wäre die Wahrscheinlichkeit dennoch sehr hoch das es eben zu diesem vermutlichen Stau kommen könnte. Deshalb meine Frage nach dem Warum ;) [Oder ist BD garnicht für HPC ?]
Ist eine Auslastungsfrage, ob auch im schärfsten HPC Code nur 100% FPU µOps kommen, oder doch auch ein bisschen Leerlauf dabei ist. Schlechter wirds auf keinen Fall werden, davon gehen ich mal aus :)
Im schlechtesten Fall sollte theoretisch eigentlich immer noch soviel SpeedUp wie bei Intels Hyperthreading drin sein. Ist zumindest Pi*Daumen dann beim Teilaspekt FPU Code vergleichbar.

Also das Warum ist eigentlich klar: bestes Preis / Leistungsverhalten :)

ciao

Alex
P.S: FMA4 darf man bei HPC Code ebenfalls nicht vergessen :)
Neukompilieren muss man für 256bit AVX ja sowieso. Einziges Problem ist AMDs OpenSource Compiler ^^
Bin gespannt, wie sie den bis 2011 hinbekommen ^^
 
Zuletzt bearbeitet:
Langsam bekommen aber auch die Betriebssysteme Probleme mit sovielen Recheneinheiten (egal ob HTT oder echt):

Windows 2000 bis 2003 können nur bis 64
Windows 2008 und R2 können mit Patch bis 256
aber es entsteht viel "Nebenverbrauch" der CPUs nur durch die Verwaltung ... wer soll so viele Threads sinnvoll verwalten ?

Naja für ca 4T€ kann man schon ein schönes Dual-Sockel-G34-System bauen .... und ich muss mal wieder sparen ... *lol*

dafür gibts dann linux 512 beim standard kernel und mit patches dann 4096 oder mehr. *chatt*
.
EDIT :
.

Dann gibts natürlich Stau in der FPU Queue - falls alles so in Silizium gegossen wird, wie wir vermuten.

Der Fall sollte aber erst einmal die Ausnahme sein - die Vorteile der Lösung - weniger DIE Fläche/Transistoren / Stromverbrauch liegen auf der Hand. Das lohnt sich schon das so zu machen.

Ausserdem hat ein 8 Kern Bulldozer in einem Turbo Mode und den abgeschalteten zweiten INT Clustern ja die komplette 256bit FPU. Wenn man also 100% single Thread Leistung haben will - kein Problem.

ciao

Alex

wäre interessant zu wissen wie man das am besten handhabt.

wenn man maximale Leistung will sollte möglichst immer nur ein Fpu-intensiver Prozess auf einem Cluster arbeiten. Damit könnte man 4 Cores ohne Nachteile voll Auslasten und die anderen 4 sollten dann möglichst ohne FPU Zugriffe auskommen.

Problem ist hierbei eigentlich, ob das OS darüber Bescheid weiß und das so ausbalancieren kann, oder ob die Prozesse einfach zufällig angeordnet werden und dadurch mehr Kollisionen entstehen als notwendig wären.
 
Zurück
Oben Unten