Intel Nehalem

Desti · 17.09.2007

Einiges ist ja bereits zum Nehalem bekannt, zum IDF wird es jetzt konkreter:

http://pc.watch.impress.co.jp/docs/2007/0916/kaigai386.htm

Samples bereits dieses Jahr, Auslieferung in einem Jahr.

Mit drei Memorychannels wird er 50% mehr Speicherbandbreite als AMDs Shanghai bieten. Als Speicher wird DDR3 und RDDR3 vorgesehen.

Verschiedene Kombinationsmöglichkeiten für 1 und 2 Sockel Server.

p4z1f1st · 17.09.2007

Du meinst 50% mehr Speicherbandbreite, die komplett flau daliegen wird, so wie es die Bandbreite der HT-Anbindung von AMD tut?

Ragas · 18.09.2007

p4z1f1st schrieb:
Du meinst 50% mehr Speicherbandbreite, die komplett flau daliegen wird, so wie es die Bandbreite der HT-Anbindung von AMD tut?

hm.. vergleichtst du nicht ein bisschen Äpfel mit Birnen?!

Allerdings müssen 50% in der theorie noch nichts heißen, denn eine schlechte Effizienz der controller kann das ganz schnell wieder auffressen. mal sehen, vileicht ist es auch soviel bandbreite, um ein besseres prefetching zu ermöglichen.

Opteron · 18.09.2007

Desti schrieb:
Mit drei Memorychannels wird er 50% mehr Speicherbandbreite als AMDs Shanghai bieten. Als Speicher wird DDR3 und RDDR3 vorgesehen.

Hmm also ich würd sagen, dass Intel 33% mehr Bandbreite hat ... ansonsten müsste AMD ja 1,5 Speicherkanäle haben ...
So oder so, die 4 Kerne mit Intels agressivem Prefetch und v.a. mit SMT (2fach?) werden die Speicherkanäle schon auslasten ... das sieh nicht gut aus für AMD, da muss man als AMD-Fan 2008 wohl wieder auf die nächste CPU Generation (Bulldozer) hoffen. Aber gut, Nehalem komm tja erst in H2/08, also nicht soo dramatisch, falls sich AMD nicht wieder verspätet

Edit:
Frage .. wie baut man 4P Systeme auf ? Laut Grafik gibts da nur 2 Links ...

Edit2:
Alles klar .. dafür gibts in der Übersichtsgrafik ganz oben ja die "Beckton" Version, aber die wird anscheinend erst 2009 nachgeschoben.

ciao

Alex

NOFX · 18.09.2007

Kein FB-Dimm mehr? Nurnoch DDR3 und Registered DDR3, oder hab ich was falsch verstanden?

@Opteron: Der K10 hätte 33% weniger Bandbreite, der Nehalem hat aber 50% mehr...

OBrian · 18.09.2007

8 Mb Cache halte ich für arg viel. Zwar wird immer behauptet, Intel hätte soviel Fab-Kapazität, daß sie gar nicht wissen, wie sie ihre Diefläche verballern sollen, aber das ist doch Unsinn, niemand baut soviel Cache drauf, wenn es nichts bringt.

Wenn das Teil im Prinzip so ähnlich aufgebaut ist wie die AMDs, sollte der interne Memory-Controller doch für gute Latenzen sorgen, und zusammen mit der wirklich ausreichenden Bandbreite würde das bedeuten, daß ein Mehr an Cache die Performance längst nicht so stark verbessert wie das beim aktuellen Core2 mit FSB ist.

Weiterhin sollte man doch auch davon ausgehen, daß es nicht nötig ist, mit hohem Aufwand noch jedes mögliche Fitzelchen Leistung rauszuquetschen, denn wie wir auch beim Sprung von K7 zu K8 gesehen haben, bringt so ein integrierter Memorycontroller locker mal 20-30% mehr.

Also entweder sind die Latenzen dann trotzdem nicht so gut, wie man denken würde, oder Intel hat Angst vor Bulldozer - aber letzteres halte ich für unwahrscheinlich, denn wie üblich bei AMD wird sich das Teil mindestens ein Jahr verspäten und Intel könnte mit gewohnt überragender Fertigungstechnik sowieso alles abfangen, falls es eng wird.

Übrigens glaube ich wegen der o.g. 20-30% zu erwartender Mehrleistung nicht, daß der eigentliche Kern wesentlich anders ist als beim Core2. Wenn er erstmal "frei atmen" kann, dürfte da noch einiges rauszuholen sein; eine grundsätzlich neue Architektur kann man dann im nächsten Schritt immer noch bringen, statt unnötigerweise zwei Schritte auf einmal zu machen.

gast_003 · 18.09.2007

Der Sprung vom K7 zum K8 war aber ein bischen mehr als nur die Integration des Speichercontrollers.

Rechne dort bei Intel lieber mit schätzungsweise 5% Mehrleistung, denn der grosse L2 Cache fängt ohnehin viele zugriffe ab und frisst somit den Latenzvorteil wieder auf.....was wohl auch der Grund dafür sein wird warum es Versionen ohne nutzbaren Speichercontroller geben wird.

Opteron · 18.09.2007

NOFX schrieb:
@Opteron: Der K10 hätte 33% weniger Bandbreite, der Nehalem hat aber 50% mehr...

Naja .. also ich setze beim Prozentrechnen gerne Maximum = 100%. Also im dem Fall Max = 3 Speicherkontroller = 100%. Setzt man den Opteron als 100%, dann hätte Nehalem 150%, das stimmt, aber Prozente über 100% finde ich nicht wirklich sinnvoll ... naja egal, ich weiss was gemeint ist

OBrian schrieb:
8 Mb Cache halte ich für arg viel. Zwar wird immer behauptet, Intel hätte soviel Fab-Kapazität, daß sie gar nicht wissen, wie sie ihre Diefläche verballern sollen, aber das ist doch Unsinn, niemand baut soviel Cache drauf, wenn es nichts bringt.

Wieso viel Cache ? AMD hat da auch nicht weniger bei 45nm. Shanghai hat 4x512 L2 + 6MB L3 = 8 MB gesamt. Intel kann die allemal brauchen, das SMT verlangt neben der dickeren Speicherbandbreite auch mehr Cache. Wobei ich mich dann ernsthaft frage, ob sich die 8 logischen Kerne nicht gegenseitig die Daten aus dem, meiner Meinung nach eher kleinen, 8 MB L2 hauen.

Vor-/Nachteil von L2 gegen L3:
L2 spart eine Stufe zum RAM ein -> bessere Latenz ohne L3
Ingesamt wird der L2 aber langsamer werden da jeder Core drauf zugreifen muss. AMDs lokaler L2 sollte auf alle Fälle schneller werden. Hätte AMD auch SMT würde ich AMDs Konzept zum Gewinner küren, so aber ... bin ich nur gespannt

ciao

Alex

mtb][sledgehammer · 18.09.2007

Opteron schrieb:
Wieso viel Cache ? AMD hat da auch nicht weniger bei 45nm. Shanghai hat 4x512 L2 + 6MB L3 = 8 MB gesamt. Intel kann die allemal brauchen, das SMT verlangt neben der dickeren Speicherbandbreite auch mehr Cache. Wobei ich mich dann ernsthaft frage, ob sich die 8 logischen Kerne nicht gegenseitig die Daten aus dem, meiner Meinung nach eher kleinen, 8 MB L2 hauen.

Ich denke mit Nahelem bekommt Intel eben das Problem, was AMD heute mit Barcelona hat: es muss ein einzelner Die sein, welcher außer den 4 Kernen samt Cache noch die Northbridge, und die Speichercontroller beinhaltet. Und da kann Intel eben nicht einfach fröhlich mit MBs prahlen, wie das heute noch im Unverstand möglich ist.

Bin mal echt gespannt, wie das klappt mit für physikalischen und 8 logischen Kernen, die auf nur einen L2 Cache zugreifen. Insbesondere, falls Intel nicht die L1 Caches vergrößert. Das sind einfach gigantische Bandbreiten, die der L2 Cache liefern muss, um genügend Performance zu bieten.

mocad_tom · 18.09.2007

Intel muss innerhalb einer Generation lernen, was AMD in den letzten 5 Jahren kontinuierlich aufbauen konnte. Eine Direct-Connect-Architektur, die Integration der Northbridge, die Snoop-Mechanismen so mit den Caches verheiraten, das es nicht stark langsamer wird. Getrennte Stromversorgungen für Speichercontroller&Kerne.
Wie will Intel seine Kerne runtertakten, den Takt des L2-Caches aber oben behalten?

Ein 4-Port-L2-Chache ist deutlich komplexer.

B.t.w. ich dachte es war mal angedacht eine zusätzliche Cache-Hierarchie zu integrieren?

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=2955&p=3

>Nehalem will also use multi-level shared cache. Pat Gelsinger indicated that
>only the highest level of cache would be shared, meaning that Nehalem could
>very well have a similar cache hierarchy to AMD's Barcelona (independent L1/L2
>caches per core, but a shared L3 cache). The power of each core is "dynamically
>managed" which might indicate that Nehalem goes one step further than AMD's
>Barcelona core: it could have independent power planes.

Die Mainboard-Layouter müssen erst ihre Erfahrungen machen usw.
Mit Whitefield ist bei Intel bereits ein CSI+Mem-Controller-Multisockel-Prozessor flöten gegangen.

Ich bin hier sehr misstrauisch, ich bin auch bis heute noch nicht sicher, ob Intel wirklich beide Kerne getrennt voneinander runtertakten kann. Ich verstehe nämlich die neue "Performance-Boost-Technologie" des Penryn nicht so ganz.
Wieso muss ein Core in C3 sein?
http://www.tecchannel.de/pc_mobile/news/467464/
Es müsste doch reichen, wenn einer runtergetaktet ist(800Mhz) und der andere über die spezifizierte Grenze geht. Damit kann ein Core Hintergrund-Jobs bearbeiten, der andere einen einzelnen grossen Thread bearbeiten. Original TDP-Aufteilung: 17,5+17,5W, mit 800MHz wird ein Kern noch 8W verbraten -> 27W+8W -> daraus folgt: es reicht wenn Kern 2
nur runtergetaktet wird.

C3 bedeutet aber, das ein Core taktmässig sehr weit unten ist, auch der Cache muss nach dem Aufwachen zunächst wieder restauriert werden.

Grüße,
Tom

Opteron · 18.09.2007

mocad_tom schrieb:
B.t.w. ich dachte es war mal angedacht eine zusätzliche Cache-Hierarchie zu integrieren?

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=2955&p=3

>Nehalem will also use multi-level shared cache. Pat Gelsinger indicated that
>only the highest level of cache would be shared, meaning that Nehalem could
>very well have a similar cache hierarchy to AMD's Barcelona (independent L1/L2
>caches per core, but a shared L3 cache). The power of each core is "dynamically
>managed" which might indicate that Nehalem goes one step further than AMD's
>Barcelona core: it could have independent power planes.

Auch wieder wahr ... auf den obigen Folien steht nix von L2 oder L3, da ist nur die Rede von "shared" Cache. Das könnte also auch L3 sein, und den L2 könnte der Hiroshige einfach zum jeweiligen CPU-Kern dazugeschlagen haben ... gut aufgepasst

ciao

Alex

Desti · 18.09.2007

L3 Cache kommt wohl nur bei den großen Multiprozessorversionen.

Opteron · 18.09.2007

Desti schrieb:
L3 Cache kommt wohl nur bei den großen Multiprozessorversionen.

Wobei sich mir dann irgendwie nicht der Sinn von shared L2 *und* shared L3 erschließen will ..ok klar, ginge, aber schaut irgendwie "unpraktisch" aus. Dagegen spräche das Intel das früher beim P4 auch so gemacht hatte, da gabs ja die P4 XEON mit 4 MB L3, das waren Geräte ..

Naja mal schauen, was noch so an Infos plätschert, während der IDF.

ciao

Alex

Desti · 18.09.2007

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3101&p=2

gast_003 · 18.09.2007

Ich würde sagen soviel zum shared L2 Cache für alle 4 kerne.
Schaut mir auf dem Foto eher so aus als wenn sich immer 2 Kerne einen L2 Cache teilen...erinnert mich irgendwie an das damalige Pentium D konzept. *suspect*

Ragas · 18.09.2007

sompe schrieb:
Ich würde sagen soviel zum shared L2 Cache für alle 4 kerne.
Schaut mir auf dem Foto eher so aus als wenn sich immer 2 Kerne einen L2 Cache teilen...erinnert mich irgendwie an das damalige Pentium D konzept.

hmmm wozu packen die dann alle cores wieder auf einen die?! da musses doch irgend ne direkte Verbindung zwischen denen geben.

p4z1f1st · 18.09.2007

Ja, sieht mir auch nach 2x L2 aus...und ein shared L3 erkenne ich nicht

gast_003 · 18.09.2007

Ragas schrieb:
hmmm wozu packen die dann alle cores wieder auf einen die?! da musses doch irgend ne direkte Verbindung zwischen denen geben.

Wenn ich den kranz drumherum richtig deute, dann dürfte da Northbridge, Speichercontroller und co sein.....wie bei AMD ebend.

Opteron · 18.09.2007

sompe schrieb:
Ich würde sagen soviel zum shared L2 Cache für alle 4 kerne.
Schaut mir auf dem Foto eher so aus als wenn sich immer 2 Kerne einen L2 Cache teilen...erinnert mich irgendwie an das damalige Pentium D konzept.

Das wird schon passen, schau Dir mal Suns T2 an ... sind halt nur 2(oder mehr) Bänke.

ciao

Alex

gast_003 · 18.09.2007

Angesichts der Anordnung der Kerne dürfte es ohnehin interessant werden wie diese coordiniert werden, denn mit gleichen Signalwegen dürfte mit der Reihenanordnung ja essig sein.
Hier wäre wohl eine genauer Plan zur Aufteilung der CPU interessant aber vom ersten Bild her tippe ich ebend auf die Crossbar zwischen dem zweiten und dritten Kern, sowie 2 getrennten L2 Caches, die ev. noch über die crossbar miteinander kommunizieren.
letztenendes erinnert das aber dennoch an 2 zusammengebappte und im design angepasste Dualcores...nur nicht ganz so schlimm wie beim Pentium D, wo die Kerne ja über den FSB kommunizierten.

Ich lasse mich aber gerne eines besseren belehren.

Opteron · 18.09.2007

sompe schrieb:
letztenendes erinnert das aber dennoch an 2 zusammengebappte und im design angepasste Dualcores...nur nicht ganz so schlimm wie beim Pentium D, wo die Kerne ja über den FSB kommunizierten.

Kollege, wo sollen die L2s denn hin ... irgendwo musst Du die aufs DIE pflanzen ...

Zwischen den beiden Teilen wird der L2 Controller sein, das ist bei AMD und L3 genauso, und da kam bis jetzt auch keiner auf die Idee, dass der L3 in 2x1MB für je 2 Kerne aufgeteilt ist ...

ciao

Alex

gast_003 · 18.09.2007

Gegenüberliegend wäre da eine Möglichkeit aber das würde den Chip dann in die Länge ziehen.

Dann würde der L2 Cache quasi von oben und unten von den Kernen angesprochen aber wohin dann mit der crossbar? Entweder an die Seite oder das Teil kreuzt dann wieder den L2 Cache. Ich vermute allerdings weiterhin das der L2 Cache hier durch die crossbar geteilt wird und diese dann wie beim K10 die Vermittlungsarbeit übernimmt (ich meine mich zu erinnern das beim K10 ein Kern auch auf die Daten des L2 Cache eines anderen Kerns zugreifen kann).....wäre wohl denkbar ungünstig wenn alle 4 Kerne gleichzeitig auf die Daten zugreifen wollen.

mocad_tom · 18.09.2007

Ich schließe mich sompe an, es sind 2x4mb l2 und nicht ein 8mb-4-port-l2
Es sieht stark nach nem dual-opteron ähnlichen aufbau aus.

Zwei Core-2-Duo werden mit einer Infrastruktur verbunden, die der Dual-Opteron-Infrastruktur(Crossbar,SRQ) sehr nahe kommt.
Ich habe vor fast 2 Jahren mal einen Die gezeichnet, wie ein 8-Kern-Opteron aussehen könnte:
http://www.planet3dnow.de/vbulletin/showthread.php?p=2482859#post2482859

Offensichtlich hat Intel das Bildchen mal zu sehen bekommen.

Grüße,
Tom

Desti · 18.09.2007

Größer.

Desti · 18.09.2007

mocad_tom schrieb:
Ich schließe mich sompe an, es sind 2x4mb l2 und nicht ein 8mb-4-port-l2
Es sieht stark nach nem dual-opteron ähnlichen aufbau aus.

Zwei Core-2-Duo werden mit einer Infrastruktur verbunden, die der Dual-Opteron-Infrastruktur(Crossbar,SRQ) sehr nahe kommt.
Ich habe vor fast 2 Jahren mal einen Die gezeichnet, wie ein 8-Kern-Opteron aussehen könnte:
http://www.planet3dnow.de/vbulletin/showthread.php?p=2482859#post2482859

Offensichtlich hat Intel das Bildchen mal zu sehen bekommen.

Grüße,
Tom

Dann hat der Penryn also auch keinen Shared Cache, sondern 2*3 MiB, sieht schließlich genauso aus.

Intel Nehalem

Moderator☆☆☆☆☆☆

Grand Admiral Special

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Moderation MBDB, ,

gast_003

Guest

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Admiral Special

Redaktion☆☆☆☆☆☆

Moderator☆☆☆☆☆☆

Redaktion☆☆☆☆☆☆

Moderator☆☆☆☆☆☆

gast_003

Guest

Grand Admiral Special

Grand Admiral Special

gast_003

Guest

Redaktion☆☆☆☆☆☆

gast_003

Guest

Redaktion☆☆☆☆☆☆

gast_003

Guest

Admiral Special

Moderator☆☆☆☆☆☆

Moderator☆☆☆☆☆☆

Ähnliche Themen

Moderator
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Moderator
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Moderator
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Moderator
☆☆☆☆☆☆

Moderator
☆☆☆☆☆☆