FB-DIMM. UneigennützigerSegen oder Kampfansage?

Bokill · 24.02.2004

In dem Thread XDR-Memorycontroller für den A64 möglich von p4z1f1st wurde die Frage gestellt, ob der Hammer oder auch der K9 irgenwie einen anderen integrierten Speicherkontroller bekommen kann.

Vermutlich ja ist eigentlich die Antwort, da ja die Baugruppen des K8 Modulweise eingebaut sind... dennoch wäre dies schon ein schwerer Eingriff in die Architektur. X-DR von Rambus ist nun mal gänzlich anders gestrickt, als DDR Speicher.

Intel hat aber derzeit "zufälligerweise" einen eigenen Vorschlag unterbreitet. Allianzpartner haben sie auch... die üblichen Verdächtigen.
ATP Electronics, Buffalo Technology, Corsair Memory Corporation, Denali Software, Inc., Elpida Memory, Inc., Hynix Semiconductor, Inc., IDT Corporation, Infineon Corporation, Kingston Technology, Inc., Micron Technology, Inc., Nanya Technology Corporation, Samsung Corporation and WinTec Industries Inc.
und natürlich Dell und HP

Wesentlich am Vorschlag ist, dass eine eigene IO-Einheit direkt auf dem SpeicherPCB sitzt. Von dort sind die Speichermodule auf dem Riegel sehr direkt mit dem IO-Chip verbunden.
Die Aussenkommunikation ist "zufälligerweise" PCI-Express ähnlich. So ein "Zufall" aber auch.

"Zufälligerweise" ist dies als Übergangslösung zu DDR3 angedacht. Und "zufälligerweise" sollen die gar im nächsten Jahr schon herauskommen.

Bild FB-DIMM Speicher mit aufgesetztem IO-Chip

Und die Seite mit entsprechenden Infos:
http://www.vr-zone.com/?i=506&s=1
bzw. die Heisemeldung http://www.heise.de/newsticker/meldung/44738

Zufälligerweise will Intel innerhalb eines Jahres einen neuen Standard jenseits von der JEDEC einführen. Dieser Standard setzt auf ein Speicherinterface, welches nicht auf dem Prozessor, wie der Hammer, sondern direkt auf dem Speichermodul sitzt.
Zufälligerweise ist diese IO-Verbindung PCI-Express ähnlich.

Und zufälligerweise soll eine ganz späte Itani(c)umversion einen integrierten Speicherkontroller haben.

Vorteile liegen aber auch klar auf der Hand, die Anzahl der leitungen soll deutlich reduziert werden , wie auch bei Rambus und auch X-DR.

1. Wird der Vorschlag Erfolg haben?

2. Sind die technischen Vorteile wirklich überzeugend?

3. Werden damit wirklich die Latenzen verkürzt? Wie ist es mit stark fragmentierten Speicherzugriffen?

4. Ist die Hoffnung realistisch innerhalb von 1 Jahr dieses einzuführen?
a. Was spricht für eine schnelle Einführung?
b. Was spricht dagegen?

5. Welche weiteren Motive treiben Intel?

6. Ist mit einem deutlichen Architekturbruch innerhalb der nächsten 2 Jahre seitens Intels zu rechnen?

Eigentlich hätte man diesen Ínhalt auch in den Thread zu XDR reinpappen können oder auch in den Thread von Treverer itanium - und die nächsten 36 monate aber dies hätte auf der einen Seite zu sehr noch XDR angesprochen, oder den Itani(c)um zu sehr betont.

Der Thread Strategische Überlegungen64Bit; IBM SUN AMD Intel ist naturgemäss noch viel allgemeiner. Allerdings baut der Power5 und Power4+ von IBM auf DDRI und DDRII und diese Prozessoren sind nicht nur für morgen ausgelegt. Sun hat da ähnliche Überlegungen wie IBM.

Ich denke da liegt noch viel Musik drin, vor allem wenn man noch die jüngsten OC-Geschichten zum Speicherkontroller des Hammers dazu nimmt und Berichte von OC-Hardcorefreaks ernst nimmt.

MFG Bokill

rkinet · 24.02.2004

Also, zunächst wurde mit HTr 2.0 ein Kommunikationsprotokoll optimiert für PCI-Express eingeführt.

AMD dürfte dies in absehbarer Zeit auch implementieren. Das per HTr auch auf RAM benachbarter CPUs zugegriffen werden kann, könnte AMD bei Bedarf auch eine PCI-Express u.ä. RAM-Schnittstelle schaffen.

Aber mal realistisch bleiben. Heutige CPUs leiden wahrlich NICHT unter einem zu langsamen Memory. Anwendungen profitieren zwar von schnellerem RAM, aber ein höherer CPU-Takt, 64 statt 32 Bit intern und Dualcore etc. wirken sich weitaus stärker aus.

AMD kann daher in Ruhe abwarten, was sich technisch so abzeichnet.
DDR-I 400 reicht noch eine Weile, DDR-II 667/800 dürfte vielen HighSpeed Ansätzen von Intel noch länger Parolie bieten können. Und könnte von AMD mit den derzeitigen Sockets/ geplanten Sockets realisierbar sein.

Im 'Notfall' und bei preiswerten FastSpeed RAMs könnte AMD auch einen L3 auf dem DIE-Träger zusätzlich aufbringen. Und ein 16-64 MB L3 in FastSpeed könnte nahezu die Performance eines reinen FastSpeed-RAM kompensieren.

Bokill, irgendwie erinnert das Intel-Projekt an die bisherigen 'Wundertechniken' von Intel, s. RAMBUS, HT oder 90 nm Super-CPUs.
Verlieren ihren 'Schrecken', sobald die Serienproduktion dann mal startet.

Bem: Meiner Meinung nach 'schwitzt' bei Intel die Forschung. 90 nnm und 65 nm ersticken am Strombedarf der Chips, das Memory an der Nortbridge statt CPU läßt enorm viel Leistung verpuffen. Statt Insolvenz anzumelden, fertigt AMD eine 'Sensation' nach der anderen und hat sowohl schaltungstechnisch als auch fertigungstechnisch Trümpfe in der Pipeline.
Intel war fast) noch nie ernsthafte Konkurrenz gewöhnt und sucht jetzt verzweifelt nach Technologien.

Crashman · 24.02.2004

Es ist natürlich eine interessante Idee.

Speicher würde dadurch allerdings wieder recht teuer werden. Desweiteren dürfte die Architektur immer komplizierter werden. Früher oder später packen die Speicherhersteller noch eigene Caches aus den Speicherriegel usw...
Andererseits wäre AMD aus dem Speichercontroller Dilemma raus. Sie müssten nicht für jeden Speichertyp ne andere CPU bringen.
Stellt sich mir nur eine Frage: AMD hat Hypertransport, welches sich als Anbindung wohl ziemlich gut eignen würde. Intel wird auf keinen FalL HTr einsetzen. Kann man den Speicher so auslegen, dass beide Lösungen unterstützt werden ?

MfG

p4z1f1st · 24.02.2004

Original geschrieben von Crashman
Es ist natürlich eine interessante Idee.

Speicher würde dadurch allerdings wieder recht teuer werden. Desweiteren dürfte die Architektur immer komplizierter werden. Früher oder später packen die Speicherhersteller noch eigene Caches aus den Speicherriegel usw...
Andererseits wäre AMD aus dem Speichercontroller Dilemma raus. Sie müssten nicht für jeden Speichertyp ne andere CPU bringen.
Stellt sich mir nur eine Frage: AMD hat Hypertransport, welches sich als Anbindung wohl ziemlich gut eignen würde. Intel wird auf keinen FalL HTr einsetzen. Kann man den Speicher so auslegen, dass beide Lösungen unterstützt werden ?

MfG

is das net schon der Prefetch-puffer im gewissen maße ?

Crashman · 24.02.2004

Es würde mit sicherheit darauf hinauslaufen.

MfG

Treverer · 24.02.2004

Original geschrieben von rkinet

Aber mal realistisch bleiben. Heutige CPUs leiden wahrlich NICHT unter einem zu langsamen Memory. Anwendungen profitieren zwar von schnellerem RAM, aber ein höherer CPU-Takt, 64 statt 32 Bit intern und Dualcore etc. wirken sich weitaus stärker aus.

natürlich leiden sie vor allem darunter. und zwar ganz konkret unter der hohen latenz. jeder fortschritt dort würde viel bringen...was meinst du denn sonst ist der grund für l3 cache

rkinet · 24.02.2004

Natürlich wird eine CPU mit L3 schneller.

Aber selbst bei eine sehr schnellen Hauptspeicher auf L2-Niveau incl. dessen Latenzzeiten, bleibt es ein Faktum, daß CPUs weitgehend Programmschleifen abarbeiten oder vielfach auf Grafikkarten etc. warten.

Die Steigerung um gut 10% beim P4-EE ist beachtlich, aber ein Super Hauptspeicher würde irgendwo zwischen 10-20% (bzw. ca. 0-10% im Vergleich zu L3) landen bei extremen Kosten.

Daher: kein Leiden, sondern eine gemäßigte 'Verlangsamung' des Systems.

Außere bei HighEnd Systemen, brächte RAM-Optimierung, Grafikkarte oder CPU-Takt da mit bescheidenerem Aufwand mehr.

Bokill · 24.02.2004

Öhmm wozu denn L3 wenn der Speicher schon rattenschnell wäre? Bzw. weswegen dann überhaupt Cache?

Was ist das Mantra von Hannibal Stokes von arstechnika.com ?

Verstecken der leidigen Latenzen.

Ich würde mich nicht wundern, wenn der sich jetzt Gedanken eben über diesen Vorschlag von Intel und Rambus macht. Leider hat er dazu keine Artikel mehr... da müssen wir uns selber die Gehirne zermartern.

Mir ist auch überhaupt noch nicht klar, ob überhaupt damit Latenzen eingespart werden?!

Ziemlich sicher bin ich mir, dass für Streaminganwendungen diese Anbindung klasse sein könnte.
Aber ich bin mir nicht sicher ob eine extrem aufgebohrter "Puffer mit gesonderter eigener Schnittstelle" wirklich mehr rausholt... besonders wenn die Daten hübsch chaotisch auf dem Speicherriegel verteilt sind.

Dummerweise sind aber typischen Instruktionen eher chaotisch im RAM verteilt. AMD hat da zwar auch Schwierigkeiten, aber die direkte Zwiesprache zwischen CPU und dem Speicher-Kontroller selber ist extrem verbessert.

Da funkt eben nicht HTr dazwischen, sondern die Daten gehen direkt vom Speicherkontroller zur X-Bar und der SRQ und dann direkt zur CPU.

Bildchen zur Lage des SRQ und X-Bar

Beim Intelkonzept hat man immer noch "kilometerlange" Kupferstränge (vom Kontroller zur CPU). Allerdings werden Daten dann vermutlich sicherer durchgeleitet, als durch die bisherigen "lanes" Leitungen vom Speierrigel zur CPU/Northbridge.

Im Prinzip kämmen wir den Opteronthread jetzt von einer anderen Seite auf aber veraltet ist die Diskussion aber noch lange nicht... im Gegenteil sie fängt möglicherweise wieder an.

Gut möglich dass der Technologieführer intel doch noch ein wenig mehr von den kleinen "Plagiator" AMD nachmacht (dass die 486 Vergangenheit so hartnäckig klebenbeleibt ist mir immer noch ein Rätsel, AMD zeigte mit dem K5 schon, dass sie sehr eigenständig designen können)

Und so einmalig sind die Ideen von AMD ja auch nicht, das sind alles wohlbekannte Backzutaten...

MFG Bokill

NemesisTN · 25.02.2004

Original geschrieben von rkinet
... aber ein Super Hauptspeicher würde irgendwo zwischen 10-20% (bzw. ca. 0-10% im Vergleich zu L3) landen bei extremen Kosten.
...

Hmm, du weißt aber schon was für extreme Kosten ein L3 dieser Größe verursacht?
Sorry, aber wie bitte sollen 64MB(!) L3 auf die DIE?
Und vor allem: wer soll das kühlen?

Bokill · 08.09.2004

IDF: Intel zeigt FB-DIMMs in Aktion

Dass intel auch noch echtes Silizium auf der Herbst-IDF 2004 zeigt scheint einigen dieses Jahr neu zu sein, aber sie zeigen Funktionsmuster von FB-DIMM.

Es ist aber unklar ab wann reale Systeme damit erscheinen. Aber intel scheint es ernst zu meinen, so ernst wie mit ihrem PentiumM.

So wie derzeit die Stimmung am Markt ist, erfreut sich DDR1 bester Gesundheit. Es sieht so aus, dass der K8 bislang die Grenzen von PC3200 auslotet.

Bislang ging ich davon aus, dass allmählich (Frühjahr 2005) PC3200 die Luft ausgeht und so langsam dringend der Sprung zu DDRII mit PC2-5300 notwendig wird.

So sicher bin ich mir nicht mehr ... aber wann soll ein Standard nach DDR2 kommen?

MFG Bokill

Slider · 08.09.2004

Einen RAM Contoller im RAM Modul? Hab ich das richtig verstanden?

Vorteile mal abgesehen, wer bezahlt das? Billig wirds einerseits nicht und anderseits wird das wieder ein Spass mit der Kompatibilität und NoName-Module können wohl dann gänzlich abgeschoben werden.

Lopi · 08.09.2004

Original geschrieben von rkinet
Natürlich wird eine CPU mit L3 schneller.

Aber selbst bei eine sehr schnellen Hauptspeicher auf L2-Niveau incl. dessen Latenzzeiten, bleibt es ein Faktum, daß CPUs weitgehend Programmschleifen abarbeiten oder vielfach auf Grafikkarten etc. warten.

Das eine CPU mit L3 mit den heutigen Architekturen schneller sein soll zweifle ich an. (Performance tendiert gegen 0% oder sogar schlechter)
Um steigerungen durch L3 zu erreichen muß (malwieder) das Gesamt-Design getuned
und Compiler umgeschrieben werden.
Der Flaschenhals ist heutzutage nunmal nicht mehr die CPU.

Ob sich eine CPU mit L3 lohnen würde, um eventl. 5%-10% mehr Performance zu haben
sei mal dahingestellt (wohl eher nicht)

Bokill · 08.09.2004

@Slider

Einen RAM Contoller im RAM Modul? Hab ich das richtig verstanden?

Ja! Das ist der Witz an FB-DIMM ... endlich hat mich jemand verstanden

8)

MFG Bokill

mtb][sledgehammer · 09.09.2004

Ich muss sagen, dass ich das Konzebt von FB-DIMMs echt gut finde (vielleicht die beste Erfindung von Intel in den letzten Jahren). Es kombiniert einfach die Vorteile zweier Welten. Auf der einen Seite die Vorteile einer seriellen Datenübertragung, wie sie schon RAMBUS nutzt. Auf der anderen Seite die vorteilhaften Preise von normalen SDRAM. Zusätzlich existiert noch der Vorteil, dass mehr Module verbaut werden können.

Einziger Punkt, bei dem ich noch skeptisch bin, sind die Latenzen. Im Moment gehe ich davon aus, dass die zusätzlichen Wandlerchips zu einem Performanceverlust führen. Falls der Nachteil jedoch nicht gravierend ist und AMD die entsprechenden Lizenzen erhält gehe ich davon aus, dass AMD dies zumindest bei den Opteron CPUs einführen wird. Gerade für Multi Cores, könnte die zusätzliche Bandbreite optimal sein und AMD spart sich gleichzeitig die ständigen Veränderungen am Speichercontroller.

Slider · 09.09.2004

Original geschrieben von mtb][sledgehammer
Einziger Punkt, bei dem ich noch skeptisch bin, sind die Latenzen. Im Moment gehe ich davon aus, dass die zusätzlichen Wandlerchips zu einem Performanceverlust führen. Falls der Nachteil jedoch nicht gravierend ist und AMD die entsprechenden Lizenzen erhält gehe ich davon aus, dass AMD dies zumindest bei den Opteron CPUs einführen wird. Gerade für Multi Cores, könnte die zusätzliche Bandbreite optimal sein und AMD spart sich gleichzeitig die ständigen Veränderungen am Speichercontroller.

Anderseits ist der integrierte RAM Controller für AMD ein Prestigeobjekt (gut, andere CPU Hersteller haben das auch schon gehabt) und den dann zu deaktivieren und einen Externen zu nhmen würde für viele Kunden unterm Strich vielleicht so aussehen, dass der Abgeschaltet wird weil er zu langsam ist (sei)

BTW: Bei den Zig-RAM Arten wird sich eh nur das Mittelmaß durchsetzen, der Mix aus Leistung und Aufwand (preis) muss stimmen. Wie es einerseits nicht geht, hat Intel mit RAMBUS Teil 1 gezeigt [(viel) zu teuer] und wie es anderseits nicht geht, mit PC100 SD-RAM auf einem Pentium IV Board [(viel) zu lahm] *lol*

PS @ Bokill:

Hannnibal · 09.09.2004

Moin,
Heißt das den das ebenfalls die northbridge als speichermanager dann wegfallen würde?
Wer Koordiniert dann die Speicherzugriffe?
Was passiert denn wenn mehrer Riegel (eventl verschiedener Herstelller) auf einem board sitzten?
Die module müßten sich dan untereinander verständigen und synchronisieren (für Dual Cahnnel oder interleaving zb).
Also ich stelle mir das nicht sehr einfach vor...Vorallem weil es bei den "dummen" ramriegeln schon oft genug zu inkopatibilietäten kommt.
Ein Integrierter Memvontroller auf der cpu von einem hersteller ist schon nicht ganz problemlos zu handeln...viele controller auf vielen verschieden mobos.
mfg

edit
Falls es PCI-e ähnlich wird, braucht man auch wieder einen Hub der die einzelnen Links unter einen hut bringt -> zwischeninstanz fällt nicht weg -> immernoch nicht so tolle latztenzen wie bei der konkurrenz

(aber wohl ernome bandbreite...).

mocad_tom · 09.09.2004

Wäre nicht beides möglich?

Einen sehr schnellen(in Bezug auf Latenz) direkt angekoppelten DDR1 als quasi L3-Cache ersatz. Und ein Bandbreitenmonster in Form des FB-DIMMs. Der FB-DIMM über HTr-zu-FB-DIMM-Bridge an die CPU angekoppelt. Die DDR-Spezifikation wird nochmal etwas aufgebohrt und auf performance getrimmt, hier darf die Fertigung ruhig etwas teurer ausfallen. Man steckt sich dann einen 128MB-Extreme-DDR1-Riegel ins System und 4GB FB-DIMM, die auf günstige Chips basieren können.
Vielleicht sogar direkt auf das MB gelötete Speicherchips - gabs zu Pentium 1 Zeiten auch schon. Was in der DDR-Spezifikation steckt sieht man an den Grafikkarten.

Grüße,
Tom

Dresdenboy · 09.09.2004

Einfach der Vollständigkeit halber ein paar INQ-Artikel:

Intel FB-DIMMs to offer real memory breakthroughs - Part One Fully buffered DIMMs take shape

There's magic in the Intel FB-DIMM old buffer - Part Two Memory technologies

The beauty of Intel's FB-DIMM architecture - Part Three Conclusion

Hannnibal · 09.09.2004

Moin,
der 3. link geht nicht...
http://www.theinquirer.net/?article=15214
mfg

HenryWince · 09.09.2004

@Bokill

> 1. Wird der Vorschlag Erfolg haben?

Höchstwahrscheinlich ja!

> 2. Sind die technischen Vorteile wirklich überzeugend?

Ja.

> 3. Werden damit wirklich die Latenzen verkürzt? Wie ist es mit stark fragmentierten Speicherzugriffen?

Nein, die Latenzen sind natürlich größer als beim direkten Ansprechen des Speichers (s.u.). Trozdem kann man einen "Latenzgewinn" feststellen wenn die Bandbreite steigt -- und zwar wenn man Systeme mit gleich vielen IO-Leitungen vergleicht. Ist ja auch logisch ein DC-DDR2 System ist halt einem 6-Channel FB-DIMM System unterlegen

Ein weiterer Punkt ist, dass FB-DIMM outstanding Reads/Writes unterstützt -- das hilft auch Latenz zu verstecken.

> 4. Ist die Hoffnung realistisch innerhalb von 1 Jahr dieses einzuführen?

Ja. Die AMB Chips dürften mittlerweise verfügbar werden.

> 5. Welche weiteren Motive treiben Intel?

- Höherer Bandbreitenbedarf (=> Tukwila, Dual-Core Xeon, etc.)
- Mehr Memory Kapazität

> 6. Ist mit einem deutlichen Architekturbruch innerhalb der nächsten 2 Jahre seitens Intels zu rechnen?

Damit kanst du rechnen, das wird dann der Unterbau der gemeinsamen IA64/Xeon Platform sein.

@rkinet

> Also, zunächst wurde mit HTr 2.0 ein Kommunikationsprotokoll optimiert für PCI-Express eingeführt.

Das spielt in diesem Zusammenhang keine Rolle.

> Heutige CPUs leiden wahrlich NICHT unter einem zu langsamen Memory

*Brüll* Der war gut.... Rat mal warum wir heute schon 3-4 Stufige Cache-Hierarchien haben?

BTW. Was soll FastSpeed Ram sein

@Slider

> Einen RAM Contoller im RAM Modul? Hab ich das richtig verstanden?

Nope, der MC ist weiterhin "dahinter". Auf einem FB-DIMM gibts aber einen AMB (Advanced Memory Buffer) Chip, der kovertiert die seriell übertragenen Steuerkomandos wieder in entsprechende Memory-Signale und entsprechend die Daten ebenso.

@Latenzen
http://www.theinquirer.net/?article=15189

Weitere Details siehe:

http://www.memforum.org/tech/fb_dimm/

HenryWince · 09.09.2004

Shit, zu langsam

Hannnibal · 09.09.2004

Moin,
ich habe es irgendwie überlesen oder so, aber sind die FB speicher über einen HUB angebunden?
Oder werden die einzelnen Lanes der Links dierekt zur CPU geführt

mfg

HenryWince · 09.09.2004

@Hannnibal

Die Lanes terminieren am MemoryController -- wo der ist bleibt offen. D.h. es kann sowohl eine klassische Northbridge oder eine CPU (integrierter MC) sein. Früher oder später wird Intel den MC in die CPU integrieren. Beim Itanium dürfte das mit dem Tukvila passieren.

Dresdenboy · 09.09.2004

Original geschrieben von Hannnibal
Moin,
der 3. link geht nicht...
http://www.theinquirer.net/?article=15214
mfg

Danke, ist nun korrigiert. Da hatte sich etwas anderes ins Clipboard geschlichen, bevor ich das KeyText-Macro startete *g*

RavenTS · 09.09.2004

Original geschrieben von mocad_tom
Wäre nicht beides möglich?

Einen sehr schnellen(in Bezug auf Latenz) direkt angekoppelten DDR1 als quasi L3-Cache ersatz. Und ein Bandbreitenmonster in Form des FB-DIMMs. Der FB-DIMM über HTr-zu-FB-DIMM-Bridge an die CPU angekoppelt. Die DDR-Spezifikation wird nochmal etwas aufgebohrt und auf performance getrimmt, hier darf die Fertigung ruhig etwas teurer ausfallen. Man steckt sich dann einen 128MB-Extreme-DDR1-Riegel ins System und 4GB FB-DIMM, die auf günstige Chips basieren können.
Vielleicht sogar direkt auf das MB gelötete Speicherchips - gabs zu Pentium 1 Zeiten auch schon. Was in der DDR-Spezifikation steckt sieht man an den Grafikkarten.

Grüße,
Tom

Das klingt interessant und erinnert man an die früher mal aufgelöteten Caches auf den MoBo und im Endeffekt wäre dein "Extreme-DDR1-RAM" dann auch quasi nur eine weitere Art Cache also so wohl nicht wirklich sinnvoll...

FB-DIMM. UneigennützigerSegen oder Kampfansage?

Gesperrt

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Gesperrt

Vice Admiral Special

Gesperrt

Admiral Special

Commodore Special

Gesperrt

Grand Admiral Special

Admiral Special

Admiral Special

Admiral Special

Redaktion☆☆☆☆☆☆

Admiral Special

Vice Admiral Special

Vice Admiral Special

Admiral Special

Vice Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆