P4 DualCore? Doch?!?

Original geschrieben von BUGGI1000
@Treverer
"
ich denke, dieses jahr wird es daher nichts mehr, außer symbolisch um die seriosität zu wahren...mal sehen in sechs monaten
"

Das kann man so nicht stehen lassen.
Rivet hat auf der SSB Konferenz (03.06.2004) nochmals BETONT, dass 90nm PRODUCTION Anfang Mai
gestartet wurde und das erstes Volumen ENDE JULI im Markt erscheinen wird, d.h. wohl
Masse eher Mitte/Ende August - mit Sicherheit breiteste Verfügbarkeit im September.

BUGGI

1.
"das kann man so nicht stehen lassen." na, dann editier doch meine meldung ;D


2.
ne, im ernst jetzt: 10 eis, wenn du recht behältst, drei, von dir an mich wenn ich recht behalte...schließlich ist schon juni...
 
@Treverer
Das ist gebookmarked. Ruf schon mal BoFrost an, damit Sie mir auf
deine Rechnung 10 Packungen leckerstes Langnese (haben die ja nich ;)
zukommen lassen können. Lieferadresse folgt ... 8) ;D
 
@Treverer
...
wenn ihr also sagt, die 90nm technik sei bei intel so schlecht ja doch nicht, dann betrachtet ihr es m.e. von dem falschen ziel her
...
Ne ne das siehst du falsch.

Es ist einfach zu billig, äh intel böhse ... ihhh zu sagen.

Wäre mir auch neu jemals das Design des P4 über den grünen Klee gelobt zu haben. Natürlich finde ich den Ansatz vom P4 sheice, aber dies liest man an jeder Ecke.

Wenn intel will, dann könnten sie schon etwas ökonomisches anständiges herausbringen. Kompetent sind sie ja, erst recht mit dem Alphazuwacchs und der Truppe um den Elbrus. Aber das Marketing hat intel derartig an die Taktfrequenzfalle gelockt, dass sie MILLIARDEN an PR ausgeben müssen, um davon wieder loszukommen (Mit dem Geld hätte sicherlich der Alpha EV-8 oder Elbrus xyz locker gebaut werden können).

Und die "geniale Leistungssteigerung" vom Prescott war mir alles andere als neu vom Prescott ... . Bislang war eigentlich der Williamette erstmals eine neue CPU-Generation die eine deutlich schlechtere IPC hatte, der Prescott hat dieses Übel weiter fortgesetzt. Eigentlich kann nur intel sich so etwas erlauben. Jede andere Chipfirma wäre daran kaputtgegangen.

MFG Bokill

Nachtrag:
@Treverer
Eigentlich liegen wir alten Knacker auf Linie ... wir formulieren wenigstens ansatzweise Vor und Nachteile von Architekturmerkmalen (ohne jemals real Einblick zu bekommen). Ich wende mich nur gegen Meinungen wie "boahhehy xy SUCKs" ... daher der Titel Bashing ;)
 
Zuletzt bearbeitet:
@bokill
ich bin ein alter knacker, also was heißt bashing? etwa im alten slang: anpi**en? nur: wer bashed wenn? ich dich oder du mich? oder tun wir es mal zusammen? aber nur save bitte..

"intel böse" sage ich jedenfalls nicht - da es für mich gar nichts böses gibt. auch wenn ihre cpus ein extra atomkraft erforderm allein in deutschland...

und da ich schon mal off-topic bin:

wißt ihr, wie die brücke heißt, auf der zum ersten male die grenze zur ddr geöffnet wurde (da wohne ich nämlich jetzt (wieder))? sie heißt "bösebrücke" - welch eine ironie :-)))

hmm, habe ich noch was schlaues zum thema zu sagen? nö.

also, wie nennt man das, wenn man nur rumsülzt und sich posting-punkte erschleichen will?

und so nennt man daß, wenn man nichts inhaltliches sagt, sondern nur mal auch für intel sein will: schponk

;D
 
So, es ist Zeit, sich wieder einzuklinken ;)

Original geschrieben von Treverer
entscheidend ist doch vielmehr etwas ganz anderes als der verbrauch pro transistor (insbesondere, wenn es stimmt, daß die verschiedenen funktioneinheiten, wie z.b. cache bedeutend veschieden viel strom brauchen). entscheidend ist, wieviel rechenleistung ich mit wieviel strom erreiche. und da hat intel ein miserables ergebnis geliefert: der p4 northwood und der alte athlon xp lagen dabei in etwa gleichauf, je nach benches natürlich. der athlon64 hat sich enorm verbessert in richtung mehr rechenleistung pro eingesetzer stromleistung (und dies noch inkl. memory controller), währned der prescott sich hierbei enorm verschlechtert hat. also, was nützt es, wenn der stromverbrauch für die die millionen transistoren in etwa gleich bleibt (oder gar leicht sinkt dank 90nm), ABER die rechenleistung erheblich sinkt? nichts nutzt es. das weiß auch intel und haben es mit dem dothan ja auch gezeigt, daß sie es auch anders können.
Das sehe ich auch so. Prime95-Farm-Betreiber stellen übrigens ähnliche Rechnungen an. Obwohl es in anderen Ländern nicht so schlimm ist, wie wir es in Deutschland mit ca. 14-20 ct/kWh haben. Ein Poster aus Canada erwähnte auf realworldtech.com 6 ct/kWh (amerikanische cent). Da ging es gerade um den Computerbase-Stromaufnahme-Vergleich.

Weiterere mögliche Gründe für Prescotts Leistungsaufnahmezuwachs können sein:
  • Da das Layout der CPU überwiegend automatisch erfolgte (Intels neueste Errungenschaft beim Design), ist das Ergebnis möglicherweise eine höhere Leistungsaufnahme als bei manuell eingebrachter Erfahrung (also Handlayout).
  • Intel war sich möglicherweise während der Entwicklung des Prescotts noch nicht so genau der bei 90nm auftretenden Grenzen und Probleme bewußt.

Beim Dothan ist die Leistungsaufnahme trotz 140 Millionen Transistoren wirklich gut - hauptsächlich dank entsprechender Techniken (z.B. clock gating, hoher IPC). Wahrscheinlich wurden auch etwas andere Transistoren verwendet (man kann die Parameter schließlich variieren, macht AMD auch). Prescott soll aber mit 4-5GHz - einige Funktionseinheiten (wie die nun doppelt vorhandene REU) entsprechend sogar mit 8-10GHz - laufen.

Ein dual core Prescott hätte allerdings noch einen kleinen Vorteil bezüglich der Leistungsaufnahme: Da er wahrscheinlich keinen internen Memory Controller haben wird und die Anbindung der Cores vielleicht nicht so gut wie die SRQ des Opterons sein wird (falls Intel nicht schon vorgearbeitet hat), können die Cores nicht so gut mit Daten versorgt werden, wie zwei einzelne Prescott-Systeme. Dadurch ergäbe sich wieder eine niedrigere Auslastung (keine Daten - nix zu rechnen) und damit auch eine niedrigere Leistungsaufnahme - allerdings auch bei niedrigerer Rechenleistung. Dual Cores haben jedoch wieder den Vorteil niedrigerer "Fixkosten", sprich: nur 1 Board, nur 1 Sockel, nur 1 Satz DIMM-Slots usw.
 
...
die Anbindung der Cores vielleicht nicht so gut wie die SRQ des Opterons sein wird ... können die Cores nicht so gut mit Daten versorgt werden, wie zwei einzelne Prescott-Systeme.
Dadurch ergäbe sich wieder eine niedrigere Auslastung (keine Daten - nix zu rechnen) und damit auch eine niedrigere Leistungsaufnahme - allerdings auch bei niedrigerer Rechenleistung
...
*buck* *chatt*

... aber nicht zwingend unlogisch ... fast schon bestechend klar und konsequent weitergedacht ...

MFG Bokill
 
Netburst lebt ?

Also der hohe interne Takt schafft thermische Probleme ohne Ende, s. Prescott vs. Dothan.
Dabei sollte man beachten, daß der Prescott eine geschwindigkeitsoptimierte Leitungsführung hat und eigentlich locker den max. Takt des Nothwood überschreiten sollte (also eben die 4-5 GHz).

Leckströme, verstärkt entstehend durch die hohen Vcc bei (heutigen) Prescott und auch die sehr vielen Transistoren ergeben viel zuviel Leistungsbedarf. Ob 65 nm hier Abhilfe schaffen kann, ist fraglich. (Beim Pentium M und niedrigen Taktraten / Vcc dürfte die Situation deutlich besser sein)

Ein Dual-Netburst, ob in 90nm o. 65nm ist ein thermisch äußerst kritisches Projekt.
Es ist mir ein völliges Rätsel, wie man das schaffen könnte.
Daher ist das Gerücht, gerade nach der offiziellen Projekteinstellung 'Tejas' ohne offizielen Netburst-Nachfolger eher Hoffnung der GHz - Fans.

Bei der ganzen Spekulation sollte man auch nicht vergessen, daß Intel beim Itanium ja auch sich vor viel GHz drückt, obwohl hier Kühlkosten etc. keine Rolle spielen würden.
 
@Rkinet
"
Bei der ganzen Spekulation sollte man auch nicht vergessen, daß Intel beim Itanium ja auch sich vor viel GHz drückt, obwohl hier Kühlkosten etc. keine Rolle spielen würden.
"

Was heisst hier drücken? Das dahinterliegende Design ist komplett anders, man
beachte allein die Anzahl der Pipes und die DIE-Size ... ohne jetzt nachzusehen
meine ich mich an 9 Stufen zu erinnern (bitte ansonsten korrigieren) mit nahezu
400mm^2.

BUGGI
 
Original geschrieben von BUGGI1000
@Rkinet
"
Bei der ganzen Spekulation sollte man auch nicht vergessen, daß Intel beim Itanium ja auch sich vor viel GHz drückt, obwohl hier Kühlkosten etc. keine Rolle spielen würden.
"

Was heisst hier drücken? Das dahinterliegende Design ist komplett anders, man
beachte allein die Anzahl der Pipes und die DIE-Size ... ohne jetzt nachzusehen
meine ich mich an 9 Stufen zu erinnern (bitte ansonsten korrigieren) mit nahezu
400mm^2.

BUGGI

Ich glaube es waren 10 Stunfen, und nun 8 für McKinley/Madison.
Intel will die IA-64 jetzt anscheinend ziemlich schnell die Taktleiter hinauftreiben.
Hat irgendwer Referenzen, was der (relative) maximal Takt für ein VLIW Design bisher war?
 
Bin grad so eben auf diesen Artikel gestossen, der meine eigenen Erfahrungen
nur bestätigt (aber ohne ALtix und Regatta wohlgemerkt), ergo AMD vs. Intel.
D.h. bei technischen Berechnungen siehts für die "Gegner" oftmals mehr als nur
MAU aus. ;D

http://www.icsr.agh.edu.pl/~dzwinel/ramki/pdf_publ/load2.pdf

"
...
Moreover, the AMD Opteron with 65 ns memory latency
and 1 MB L2 cache size can be 2 times faster than Power4 with >178 memory latency and 16
MB L3 cache and more than 2 times faster than Itaniumâ2 with 50 ns memory latency and slow
3MB L3 cache.
...
"
;D

BUGGI
 
WUndert mich etwas, dass die den 64Gb/s L3 Cache es Itanium2 als langsam bezeichnen.
Ausserdem; wie kommt ein IA-64 auf geringere Speicherlatenz als ein Opteron????

Ich les mir das Teil mal durch
 
@BlackBirdSR

> WUndert mich etwas, dass die den 64Gb/s L3 Cache es Itanium2 als langsam bezeichnen.

Wo steht das?

> Ausserdem; wie kommt ein IA-64 auf geringere Speicherlatenz als ein Opteron?

Gar nicht :-)=

Die Angabe der 50ns bezieht sich auf die Latenz eines Routing Knotens von SGI's NUMAlink. Die eigentliche Memorylatenz kommt da noch dazu. Für Inter-Node Kommunikation gibt SGI bei NUMAlink 4 (aktuelle Generation) "240ns to nearest neighbor +50ns/hop" an.

Was mir sonst beim ersten Überfliegen noch Aufgefallen ist:

Tabelle 1
..
Memory per Node (Opteron): 4GB. (Etwas wenig für meinen Geschmack)
Cache on Chip (Itanium2) : L1 32/32 (Definitv Falsch! sind nur je 16k)
Memory Latency (Opteron) : 65 ns (Woher kommt dieser Wert bei einem DUAL system?)
140ns Inter-processor latency 140ns (kann man nicht so pauschaul sagen, ist abhängig vom verwendeten mem und v.a. Opteron Taktfrequenz)
..

Tabelle 2
PeakPerformance (Opteronsystem): 2.8GFlops per 1 processor (nettt, aber warum ist bei allen anderen Systemen ist die GESAMTPEAKPERFORMANCE angegeben???)

We show that the Power4 processor with off-chip and a slow but large L3 cache can be more efficient than Itanium2 with a modern EPIC architecture with fast access to the main memory[b/].


Aua. Die 6.4GB/s die ein I2 hat muss er sich doch danke FSB mit seinen Kumpanen teilen -- je nach Konfig sind 2/4-CPUs pro FSB angebunden. Durch die recht große Latenz wird so ein System bei schlecht cachebaren Memoryzugriffen zwangsweise in die Knie gehen...

Irgendwie drängt sich mir der Verdacht auf, das die Autoren des Papers nicht wirklich eine Ahnung von der Hardware hatten... Naja, das sowas den Peer-Review passiert spricht mal wieder Bände :-( S*h*is publish or parish!

> Hat irgendwer Referenzen, was der (relative) maximal Takt für ein VLIW Design bisher war?

Relativ zu was?

@BUGGI1000

Moreover, the AMD Opteron with 65 ns memory latency and 1 MB L2 cache size can be 2 times faster than Power4 with >178 memory latency

Jaja immer nett Äpfel mit Birnen vergleichen... Die Leute offensichtlich noch nix von Cachekoherenz gehört...

Ich frag mich was für ein Opteron-Mainboard/OS die verwendet haben... Und wie die genau getestet haben.
 
Original geschrieben von BlackBirdSR
Hat irgendwer Referenzen, was der (relative) maximal Takt für ein VLIW Design bisher war?
Mir fällt da als Erstes der Efficeon von Transmeta ein, welcher mit 90nm bis auf 2GHz kommen soll. Es gibt aber auch schon VLIW DSPs mit knapp über 1GHz Taktfrequenz. Es könnte auch Designs mit noch höherer Taktfrequenz geben, da VLIW ja nicht automatisch bedeutet, daß man keine Techniken wie beim P4 mit double pumped ALU anwenden könnte.
 
so noch eine blöde frage von mir:

warum shrinkt intel nicht einfach den alten Northwood und lassen ihn mit mehr ghz laufen ?
 
Moin,

ich denke mal das dann verstärkt probleme durch hotspots entstehen, da viele "arbeitende" transitoren in nachbarschaft liegen.
Unter 130nm geht das noch ganz gut, in 90nm hat man jetzt eben den prozessor mit einer längeren pipeline modifizieren (müssen),
die auch für mehr "luft" zwischen den ausführungseinheiten sorgt...

Ab 120 grad wirds eng für die trennschicht im silizium...

mfg
 
@BlackBirdSR

> WUndert mich etwas, dass die den 64Gb/s L3 Cache es Itanium2 als langsam bezeichnen.

Wo steht das?

Da stehts: -> nd more than 2 times faster than Itaniumâ2 with 50 ns memory latency and slow
3MB L3 cache.

@Dresdenboy:
Bei x86 wissen wir ja inzwischen ganz gut, was den Takt begrenzen kann.
Bei VLIW Architekturen ist das ganze (für mich) etwas unübersichtlicher.
Aber er sieht nicht so aus, als gäbe es größere Probleme mit der Taktfrequenz.

Interessant wird, ob man die übliche Gleichung: Lange Pipeline = hoher Takt, auch bei IA64 CPUs wirklich anwenden sollte. Durch Intels übertriebene Pipelinespiele denkt eh jeder dritte, dass es nur auf die Länge ankommt :-)D) und dann auch mindestens 20 Stufen rein müssen.
Der K8 mit seinen 12 Stufen beweist ja das Gegenteil.
Eventuell 2 GHz bei Madison mit 8 Stufen sind auch nicht ohne.
 
Original geschrieben von BlackBirdSR
Der K8 mit seinen 12 Stufen beweist ja das Gegenteil.
Eventuell 2 GHz bei Madison mit 8 Stufen sind auch nicht ohne.
Wenn man sich die Funktion der einzelnen Pipelinestufen von Madison und K8 ansieht, findet man viele mit ähnlicher Funktion.

Ohne spezielle x86-Features könnte man die K8-Pipeline auch so verkürzen:
Statt zwei Fetch-Stufen würde eine reichen. Die zweite Stufe könnte etwas mit dem 32byte-Instruction-Fetch-Window zu tun haben (beim K7 mit einer Stufe: 16byte). Somit wäre sie bei VLIW mit festen Befehlslängen obsolet. Die vier Stufen Pick, Decode 1+2 und Pack sind für das x86-Decoding notwendig und könnten entfallen. Damit hätten wir schon eine um 5 Stufen kürzere K8-Pipeline und im Bereich des Madison.

Unterschiede zw. können nun in anderen Bereichen auftreten, wie der Größe von diversen buffers, register files usw., die eine unterschiedliche Komplexität bei der dazugehörigen Logik bewirken können.

Intern arbeiten viele CPUs ähnlich wie ein reiner VLIW-Prozessor. Z.B. beim K8 werden die internen Macro-Ops zu Dreiergruppen zusammengefasst. Zwar werden - anders als bei VLIW - die in den einzelnen Macro-Ops enthaltenen Micro-Ops unabhängig voneinander ausgeführt (OOO), aber das Scheduling, Retirement u. einige andere Schritte erfolgen gruppenweise.
 
Stimmt, die Grundfunktionen sind natürlich gleich.
Immerhin beweist das annähernd, dass wir keine 31 Stufen brauchen ;)
 
Original geschrieben von BUGGI1000
@Rkinet
"
Bei der ganzen Spekulation sollte man auch nicht vergessen, daß Intel beim Itanium ja auch sich vor viel GHz drückt, obwohl hier Kühlkosten etc. keine Rolle spielen würden.
"

Was heisst hier drücken? Das dahinterliegende Design ist komplett anders, man
beachte allein die Anzahl der Pipes und die DIE-Size ... ohne jetzt nachzusehen
meine ich mich an 9 Stufen zu erinnern (bitte ansonsten korrigieren) mit nahezu
400mm^2.

BUGGI

Hättest hier auch noch posten können 8)

001el.jpg


http://pcweb.mycom.co.jp/news/2004/06/14/001.html
 
Hab spaßeshalber mal die Dies in x und y Richtung auf dem Wafer versucht zu zählen und komme dabei auf ca 14 in die eine Richtung und 10,5 in die andere. Bei einem Wafer Durchmesser von 300 mm entspricht das einer Die Größe von 21,4*28,6 mm²=612 mm². Dasdürfte neuer Rekord sein *buck*
 
Original geschrieben von mtb][sledgehammer
Hab spaßeshalber mal die Dies in x und y Richtung auf dem Wafer versucht zu zählen und komme dabei auf ca 14 in die eine Richtung und 10,5 in die andere. Bei einem Wafer Durchmesser von 300 mm entspricht das einer Die Größe von 21,4*28,6 mm²=612 mm². Dasdürfte neuer Rekord sein *buck*


Hat Intel eigendlich irgendwo eine 500 mm Waferfertigung im Bau ?

Oder besser gleich eine CPU 8 Zoll Wafer, ist auch besser zu kühlen und gibt keinen Verschnitt ... [/läster]


ärgerlich für Intel aber dieses:

http://www.theinquirer.net/?article=16742

Fujitsu Siemens unrolls 90 nano SPARC Unix servers

3MB L2 cache and loads of memory
 
Zurück
Oben Unten