Windhund, K9, Was sagt der Teesatz? Wer petzt?

Status
Für weitere Antworten geschlossen.
Hat so`n edles Intel Aussehen, ist zwar mir nicht wirklich neu, aber das Papier visualisiert hervorragend den Stand, zumal so wirklich verständlich ist weswegen Intel so scharf auf Alpha war.

Alpha hätte wirklich massiv Intel an`s Bein pinkeln können, aufgrund des Designs des P4 mit HT!

 
Wäre TFP wirklich eine Vektoreinheit gewesen, dann kann ich verstehen warum man sie für SSE2 rausgeschmissen hat.

Bereits SSE und SSE2 finden aufgrund ihrer Vektornatur kaum Anwendung.
Wie schlimm wäre es erst gewesen, noch eine weitere Vektorarchitektur auf dem Markt zu haben, die gesonderte Behandlung benötigt?
 
> Wäre TFP wirklich eine Vektoreinheit gewesen, dann kann ich verstehen warum man sie für SSE2 rausgeschmissen hat.

Ich kann verstehen, das AMD zuerst mal I*tel Kompatibel sein muss um sich im Markt überhaupt behaupten zu können. Aber SSE/SSE2 ist wenn man so will eigenlich nur eine Short-Vector-Engine. Mit so einem Design kann man gut simple Signal-Processing Aufgaben erledigen, aber für Wissenschaftliche Anwendungen ist eine echte Long-Vector-Architecture wie Trantula viel besser geeignet. Die Vector-Size kann hier im Bereich 1-256 Elemente variiert werden. Die üblichen Matrix-Multiplikationen wären einfacher zu realisieren. BTW. auch schon für 3D-Graphik würde so eine Architektur was bringen.

> Bereits SSE und SSE2 finden aufgrund ihrer Vektornatur kaum Anwendung.
Hae? Eigenlich jeder sinnvolle Kompiler erzeugt heute statt FP Anweisungen SSE/SEE2 code.

> Wie schlimm wäre es erst gewesen, noch eine weitere Vektorarchitektur auf dem Markt zu haben, die gesonderte Behandlung benötigt?

ACK. Aber immerhin wäre es eine saubere Lösung gewesen die lange Bestand hätte. Ich frage mich nur warum Intel das nicht von Haus aus so angelegt hat. Erst MMX, dann SSE, dann SSE2 dann PNI, dann ???
 
Original geschrieben von HenryWince
>
> Bereits SSE und SSE2 finden aufgrund ihrer Vektornatur kaum Anwendung.
Hae? Eigenlich jeder sinnvolle Kompiler erzeugt heute statt FP Anweisungen SSE/SEE2 code.

>

aber nicht genug, und nicht effizient genug. Das bischen Vektorisierung das man da rausholt ist nicht wirklich was man sich gerne wünschen würde.
Besser gehts per Hand, aber wer hat dazu noch Zeit?

Für viele Multimediaprogramme mag man ja noch 10-15% rausholen. Den großen Preis gäbe es allerdings bei Spielen. Da wird das aber irgenwie nichts.
 
unser Fachmann Seemann, der könnte doch auch etwas sinnvolles beitragen ;D ;)
 
@BlackBirdSR
> [Eigenlich jeder sinnvolle Kompiler erzeugt heute statt FP Anweisungen SSE/SEE2 code]
>
> aber nicht genug, und nicht effizient genug.

Müste man wirklich mal benchen. Ich glaube das die Kompiler sehr wohl recht gute Arbeit leisten. Eine andere Frage ist wie viel schneller die SSE/SSE2 Einheiten überhaupt gegenüber der konventionellen FPU sind. Ich tippe fast darauf das der Geschwindigkeitsgewinn von SSE/SSE2 gegenüber der regulären FPU vor allem vom größeren Registersatz und der Umgehung der Stack-Mimik kommt. Ein anderer Grund warum man das vieleicht gar nicht merkt ist der Anteil von FP Anweisungen im Code. Ich sag jetzt mal das die meisten Anwendungen heute noch extrem Integer-Lastig sind. Wenn am verbleibenden FP Rest dann optimiert wird kann es schon sein das eine Verbesserung um den Faktor 2 überhaupt nicht bemerkt wird.

> Das bischen Vektorisierung das man da rausholt ist nicht wirklich was man sich gerne wünschen würde.

Das liegt ja wohl mit an der Programierung => Siehe die typischen Benchmarks bei denen P4/SSE2 viel schneller als ein Athlon ist.

> Besser gehts per Hand, aber wer hat dazu noch Zeit?

Simpel gesagt diejenigen, bei denen der Optimierungsaufwand klein im Vergleich zum erreichbaren Nutzen ist.

> Für viele Multimediaprogramme mag man ja noch 10-15% rausholen.

In manchen Bereichen würde ich da eher um 100-200% erwarten. Kennt jemand zufällig einen MP3 Encoder der wahlweise FP oder SSE2 verwendet?

> Den großen Preis gäbe es allerdings bei Spielen. Da wird das aber irgenwie nichts.

Ich weis nicht wie gross bei denen Heute der FP Anteil ist -- vermutlich werden Konroll-Strukturen und Integer die Masse der Anweisungen stellen. Wenn es anders sein sollte kann ich mir beim besten Willen nicht vorstellen, das die Spielehersteller nicht heute schon optimierten Code für 3DNow! oder SSE CPUs einsetzen.

P.S. Dinge wie Tarantula sind für den Normal-Home-PC-User irrelevant. Die Leute haben keinen Bedarf für technische Berechnungen die gut vektorisierbare Algorhitmen einsetzen. Aber genau diese Anwendungen würden am meisten von einer (Long-)Vektoreinheit wirklich profitieren. Für einfache Filter-Kernel und ähnliche Aufgaben tun es 2-4 Element SIMD-Einheiten wie SSE2 oder AltiVec es sind vollkommen. Achitektonisch wäre es trozdem elegant eine wirkliche Vektoreinheit als FPU/MMX replacement zu haben.
 
Original geschrieben von Bokill
unser Fachmann Seemann, der könnte doch auch etwas sinnvolles beitragen ;D ;)
Man hat mich gerufen ;D

> Bereits SSE und SSE2 finden aufgrund ihrer Vektornatur kaum Anwendung.
Schön wärs! Mit Ausnahme des Intel-Compilers gibt es im Moment aber überhaupt keinen verbreiteten Compiler der automatisch vektorisiert, geschweige denn überhaupt SSE kennt. Ich glaube die GNU-Leute arbeiten gerade an einer neuen GCC Version, aber bis die mit SSE / SSE2 an einen vollkomen unoptimierten Compiler rankommen vergeht wohl noch etwas Zeit...

Müste man wirklich mal benchen. Ich glaube das die Kompiler sehr wohl recht gute Arbeit leisten. Eine andere Frage ist wie viel schneller die SSE/SSE2 Einheiten überhaupt gegenüber der konventionellen FPU sind. Ich tippe fast darauf das der Geschwindigkeitsgewinn von SSE/SSE2 gegenüber der regulären FPU vor allem vom größeren Registersatz und der Umgehung der Stack-Mimik kommt. Ein anderer Grund warum man das vieleicht gar nicht merkt ist der Anteil von FP Anweisungen im Code. Ich sag jetzt mal das die meisten Anwendungen heute noch extrem Integer-Lastig sind. Wenn am verbleibenden FP Rest dann optimiert wird kann es schon sein das eine Verbesserung um den Faktor 2 überhaupt nicht bemerkt wird.
Die Progs werden heute immer FP-lastiger, sobald es um irgendwas "tolles" geht: Grafik, Sound, Spracherkennung, Spiele. Alles braucht heute ne starke FP-Einheit. Nur reine Office-Progs kommen vielleicht ohne große FP-Unterstützung aus. Die Überlegenheit der SSE-basierten Einheiten kommt IMHO vor allem aus der leichteren Adressierbarkeit (Umgehung des ganzen Stack-Gedöns). Größere Register sind mal gar nicht so ein Vorteil des SSE-Befehlssatzes. Auch die normale FPU kann 8 floats speichern. SSE hat zwar auch 8 Register, hier passen dann aber je nach Genauigkeit in jedes Reg 2 oder 4 FP-Werte. Um diese maximal 4 Plätze aber ausnutzen zu können, müssen viele viele Umnladeoperationen durchgeführt werden, der den Vorteil praktisch wieder zu nichte macht.
 
Ich wusste doch, dass auf Seemann Verlass ist ;D

Für jedes Wehwechen sind ja hier genügend Spezies vorhanden ;)

THX @ Seemann :)
 
Was der Thread is mittlerweile nicht mehr auf der front-Seite das darf nicht so bleiben :)
xbitlabs hat "etwas" zum K9 .. aber nicht gerade viel. Nur dass das Teil jetzt seit nem halben Jahr entwickelt wird und wahrscheinlich 2005/2006 oder sonstwann... in nem 65 nm Prozess rauskommt .. *gähn*
Aber der Thread is wieder vorne ;)

ciao

Alex
 
Zuletzt bearbeitet:
geht hiermit an Opteron, die Virtuelle Tapferkeits/Aufmerksamkeitsmedallie dritter Klasse auch der Bronzene K6 genannt ;D 8) ;)
 
Na ja auch nicht taufrisch und ebenso nichtssagend, zumindest kann man in den genannten Quellen weiterforschen.
AMD K9 to Be Taped Out Using Opteron Processors?

In 2005? In 2006? In 2007?
by Anton Shilov
06/06/2003 | 03:23 AM

Starting from the second half of the nineties, x86 processors have been crowding out different types of CPUs from server and workstation markets. Yes, now we still see non-x86-based systems around and Intel even released its own EPIC IA64 processor for high-end servers, nevertheless, x86 and its incarnations are indisputably very strong these days. And here is another confirmation of this trend.

AMD, who always used Sun Solaris/RISC flows for taping out its CPUs, said yesterday that it will tape out its code-named K9 chip using entirely x86/Linux systems. At the moment I have no idea which processors are to be used by AMD, but I can suggest that the Opteron CPUs. I fairly do not think Advanced Micro Devices will use Intel’s Xeon chips or its own Athlon XP CPUs since they offer less performance compared to Opteron. Moreover, AMD will hardly tape out the K9 in course of the next couple of years and in three years time AMD Athlon XP will be completely forgotten. So, it is quite logical to assume AMD will utilize its own x86-64 (or AMD64 as the company likes to call this architecture now) Opteron chips for taping out the next-generation product.

Additionally, Fred Weber, the chief technologist at Advanced Micro Devices, told EETimes that a shift to 64-bit computing is about to gain momentum which will lead to a “renaissance” in workstation design and use. He did not say when he expected this to happen.

He also did not specify the timeframes when the K9 will be released. Given a lot of postpones of the K8 aka Hammer architecture due to design and manufacturing issues, we may actually expect AMD to present the K9 relatively shortly after the K8 is on the market.
http://www.xbitlabs.com/news/cpu/display/20030606032241.html
 
Ist glatt einen eigenenThread wert, allerdings könnte diese Info schnell vergammeln, da doch nur wenige angesprochen werden.
Allerdings bekommt man so eine Ahnung, wo der cache gut und wo der Cache vermutlich weniger gut genutzt wird.
Ich weiss der Vergleich hinkt, da vorwiegend der Itanium (ja ich kann ihn auch korrekt schreiben) verglichen wird, jedoch vermute ich dass die unterschiedlich gute Nutzung des Caches bei anderen CPUs ähnlich sein wird.
August 29, 2003

Cache efficiency for the SPEC 2000 benchmarks

by Hans de Vries

The SPEC 2000 benchmarks are subject to much debate in the scientific community.
1. Are they broken?
2. Do they just depend on memory bandwidth?
3. Do they fit entirely in the cache?


The recent publication of new benchmarks for the hp server rx5670 gives us a chance to produce some metrics. This small server is a four processor machine with a single memory controller. The memory bandwidth is 6.4 GByte /second. We look at the scores for four different configurations:


1) Single 1000 MHz Itanium 2 with 3.0 MByte L3 on Chip Cache CINT2000 CFP2000

2) Four 1000 MHz Itanium 2 with 3.0 MByte L3 on Chip Cache CINT2000 CFP2000

3) Single 1500 MHz Itanium 2 with 6.0 MByte L3 on Chip Cache CINT2000 CFP2000

4) Four 1500 MHz Itanium 2 with 6.0 MByte L3 on Chip Cache CINT2000 CFP2000


We define the Cache efficiency here as 100% if four processors finish just as fast as a single processor. Cache efficiency is said to be "0%" if four processors take four times as long to finish the benchmark: This means that the run-time is entirely determined by the throughput of the single memory controller.

We give the performance ratio's for one and four processor configurations. The ratio should be 1.5 (1500/1000) if the application fits entirely in the caches. It should be higher than 1.5 if it fits better in the 6.0 MByte cache than in the 3.0 MByte cache. The ratio is lower than 1.5 if the memory controller becomes a bottleneck. A ratio of 1.0 effectively means that the performance is entirely determined by the memory controller throughput: 1000 MHz processors run just as fast as the 1500 MHz processors. Some small differences are due fact that a newer version of the compiler is used for the 1500 MHz Itanium 2 configurations

We'll see that we get very different results for the Integer and Floating Point benchmarks.
...
http://www.chip-architect.com/news/2003_08_29_Cache_efficiency_for_SPEC2000.html
Is wirklich ein Blick wert!

Gibt der Diskussion zum K9 auch noch eine weiteres Spekulationsglied hinzu, zur Kette von Indizien/Trends und Spekulationsblähungen.
IBM vermeldete ja auch schon länger, dass sie Netzfunktionen integrieren wollen, ebenso Speicherkompression (Ist AMD ja auch nicht ganz unbeleckt- siehe Geode- Kauf). *noahnung* 8) :-X

Ups, habe glatt den Link vergessen.
 
Zuletzt bearbeitet:
AMD zeigt Triple Gate-Transistoren aus Silizium auf einem Isolator

Der Chiphersteller AMD hat Triple Gate-Transistoren unter der Verwendung von Silizium auf einem Isolator (SOI) entwickelt. Das Unternehmen stellte die Technologie gestern auf der Fachkonferenz "Solid State Devices and Materials" in Tokio vor. Mit der neuen Architektur soll sich die Performance einer CPU nach Unternehmensangaben um bis zu 50 Prozent gegenüber bisher vorgestellten Multi-Gate-Designs steigern lassen.

Die Massenproduktion entsprechender Prozessoren kann laut AMD wahrscheinlich bereits 2007 beginnen. Damit konnten die Anforderungen der International Technology Roadmap for Semiconductors (ITRS), einer auf dem Moorschen Gesetz basierende Planung für die herstellerübergreifende Chip-Entwicklung, übertroffen werden. Diese stellte für die Umsetzung der Technologie einen Zeitrahmen bis 2009. Konkurrent Intel hatte kürzlich eine vergleichbare Technologie vorgestellt.

Bei den neuen Transistoren ist ein in " " Silicon-on-Insulator-Technologie (FDSOI) realisierter elektrischer Pfad an drei Seiten von Metall-Gates aus Nickel-Silicide umgeben. Diese Kombination sorgt für eine Streckung des Siliziumgitters innerhalb des elektrischen Pfades und verbessert so den Fluss der Elektronen.

Darüber hinaus erhöht die Multi-Gate-/FDSOI-Struktur die effektive Breite des elektrischen Pfads im Transistor und ermöglicht zugleich eine verbesserte Steuerung des Stromflusses. Aufgrund dieser Faktoren lassen sich höhere Durchlassströme, niedrigere Sperrströme und kürzere Schaltvorgänge erzielen und die Gesamtleistung eines Transistors steigern. (ck)

[ Donnerstag, 18.09.2003, 17:10 ]
http://de.internet.com/index.html?id=2023642

Mein Tip. Der K9 wird mit diesen Technologien gewürtzt werden, bisher hatte AMD mit grossen Fertigungs- Prozesssprüngen immer auch eine neue CPU- Architektur aus dem Hut gezaubert.
 
Original geschrieben von Bokill
Mein Tip. Der K9 wird mit diesen Technologien gewürtzt werden, bisher hatte AMD mit grossen Fertigungs- Prozesssprüngen immer auch eine neue CPU- Architektur aus dem Hut gezaubert.
Naja .. 2007 .. da isses dann aber hoffentlich der K10 .. :) :)

ciao

Alex
 
sollte sogar sicher der K10 sein, da Intel ~2007 den Yamhill bringen will...
 
Bevor wir uns noch weiter in die Zukunft verlaufen, könnte man ja auch einen strategischen Wechsel machen.

An welchen Stellen bohrt AMD den K8 noch auf, bevor sich dieses Ding dann K9 nennt?

Mein Tip ist:
1. Bessserer L2 Cache, mit verbesserter Latenz und vor allem besserem Durchsatz. Da hatte Digit Life vor kurzem nette Artikel darüber, Chip-Architect natürlich ebenso.

2. Weiter verbesserte Sprungvorhersageeinheit.

3. Diverse aufgebohrte Varianten von SSE, was Intel sich halt einfallen lässt.

4. Mehr Cache (MB?)

5. ...
 
5. sehr sicher SSE3 (über den Sinn bzw. Unsinn dessen können wir uns in ein paar Jahren unterhalten ;))

6. ....
 
war dein Punkt 5. nicht schon bei mir unter 3. Aufgeführt, p4z1f1st?

3. Diverse aufgebohrte Varianten von SSE, was Intel sich halt einfallen lässt

Is nur ne Randbemerkung, soll halt Zahlensalat vermeiden p4z1f1st ;)
 
Nö nö, das glaube ich auch nicht wirklich.
Selbst wenn AMD eine wirklich mächtige Wunderwaffe bauen sollte, dann wird sie vermutlich satt kompatibel sein zu den Vectoreinheiten von Intel.

Aber mein Glaube an eine wirklich starke FPU gebe ich noch nicht auf, im K9.

PS. Waren da nicht sowieso mehrere Varianten von 3DNow! im Umlauf?
0.1 K6 (versteckte Instruktionen im K6)
1. K6-2, K6III
2. K6-2+, K6III+
3a. K7, K75, Thunderbird ("Donnervogel")
3b. Palomino, Thoroughbred, Barton (Anders verdrahtet und geändertes Timing)
 
Original geschrieben von Bokill
war dein Punkt 5. nicht schon bei mir unter 3. Aufgeführt, p4z1f1st?



Is nur ne Randbemerkung, soll halt Zahlensalat vermeiden p4z1f1st ;)


ganz genau genommen eigentlich nicht ;D ;)

den du meintest, Zitat "Diverse aufgebohrte Varianten von SSE, was Intel sich halt einfallen lässt."....du sprichst also in der Zukunft....somit könnt man sagen, du meinst SSE4 und neuer ;D ;)

SSE3 macht der Xeon ja schon ;)
 
Wenn man es gaaaanz genau nimmt hast du natürlich recht. SSE3 ist derzeit im Hanmmer noch nicht drin... ;D 8) ;)

SSE3 ist aber schon da, dies braucht Intel nicht mehr erfinden...grrrr

*chatt*
 
Jedenfalls könnte man vermuten, dass schon vorher DualCPU on Die obligatorisch wird, das Feature ist an sich nicht mehr erwähnenswert.
Besten dank für die Anregung von HenryWince und der Thread "AMD Athlon 64 mit 2 Die Core?!"
http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=120042
Dieser Thread liefert jedenfalls Hinweise dazu, dass Dualprocessing obligatorisch sein könnte, auf dem K9.

Was könnte denn noch für den K9 vorgesehen sein?
Ich habe die Vermutung, dass der K9 erst 2007 herauskommt. Weswegen? Is nur Spekulation aber in der Technologie Review 10 und auch im Spektrum der Wissenschaft mehren sich die Zeichen, dass erst 2007 ein grosser Fertigungstechnologieschub einsetzen wird. Auch AMD hatte für 2007 einen Technologieschub (Vollflächiges bedecktes SOI) angekündigt, cleveres Transistordesign. Gordon Moore sagte in dem Interview der Technologie Review 10, dass die Grenzen derzeit langsam sichbar werden.
"Wir stoßen langsam an Grenzen"

Frage: Ihre Weitsicht hat der Branche goldene Zeiten beschert. es zeichnen sich aber Grenzen des Wachstums ab. Was muss passieren, damit es nicht zum Stillstand kommt?

Gordon Moore: Es tun sich komplexe Probleme auf, die zu einer Kostenexplosion in der Fertigungstechnik führen. In der Lithografie stoßen wir langsam an Grenzen. Der Übergang zur EUV- Litographie ist ein Riesensprung. Solche Technologien benötigen viel Zeit und Anstrengung. Erst 2007 ist mit den ersten einsatzfähigen Geräten zu rechen, und die sind enorm teuer...


Es wird mit mehreren Methoden versucht, die Schaltungen, dem Moor`sche Geiste nach, immer weiter nach zu verbilligen. SOI und andere Verfahrenstechniken dienen der Verbilligung; Aber auch ein anderes intelligentes Transistordesign dient der Verbilligung, vieles hängt dennoch aber mit der Belichtungstechnologie zusammen. Auch die Masken bisheriger Bauart scheinen langsam ausgelutscht zu sein, da hartes UV- Licht oder schlimmer noch Röntgenstrahlen, das Maskenmaterial zerstört.

Der K9 wird deswegen ein neues teures Verfahren bekommen, da hier nette Einstigspreise zu erlösen sind, nur mit den Spitzenmodellen kann man den Kosumenten das Geld aus der Tasche ziehen, allerdings wird da auch ein gewisser Gegenwert verlangt ;D

Ein Artikel (eigentlich mehrere) im Spektrum der Wissenschaft ist deswegen besonders nett, da dort die Fertigung von Spiegeln aus Nanoschichten beschrieben wird Ausgabe 10, S83. EUV ist der Hemmschuh, ASML Holland bedient sich der Technologie von Zeiss nur noch Nikon und Canon sind weitere Zuliferer der der Stepperproduzenten. Allerdings sind Canon und Nikon nicht an ASML gebunden, sie haben ihre eigenen Spezies (Wer?).
Ein weiterer netter Artikel aus Spektrum der Wissenschaft:
"Report- Nanoschichten für die Elektronik" Der Artikel auf Seite 78ff geht über die Technologie von Speicherwerkstoffen, sowohl für Festplatten als auch über Speicherzellen für Festspeicher. Die Festspeicher werden dort ebenso genannt FeRAM- FRAM (Ferroelectric Random Acces Memory- ferroelektrischer Speicher mit wahlfreiem Zugriff). Die Konkurrenten dazu sind MRAM die besonders von IBM promotet werden (Magnetic Random Acces Memory).
Im Spektrum der Wissenschaft werden jedenfalls auch die Möglichkeiten genannt, Funktionseinheiten dreidimensional auf Si- Substrat wachsen zu lassen. AMD hat dort vermutlich sogar wirklich gutes Wissen darüber, da AMD wesentlich mehr Layer in der Fertigung einsetzt als Fertigungsweltmeister Intel.
Weswegen ich dies nenne?
Vermutlich wird dies nicht Einzug halten in die Hammertechnologie, aber es sind bestimmt schon abgezählte Personen bei AMD damit beschäftigt ein Profil für den K10 zu erstellen.
Beim K9 gehe ich davon aus, dass nun schon konkrete Pläne gebacken werden. Der Inquirer meldete ja vor geraumer Zeit, dass Personen gesucht werden für ein Nachfolgeprojekt für den K8 (den K9).

Der darauf folgende Artikel handelt über Polierferfahren, die gar bis zur Oberflächenrauhigkeiten von Atomen sich heranarbeitet. Unter dem Titel "Ultrapräzision- Sandstahler in der Nanowelt" auf Seite 81 werden jedenfalls die Technologie und Verfahren gezeigt. Diese Tools werden ganz sicher schon derzeit, oder bald, von den CPU Bäckermeistern verwendet, jedenfalls ist jetzt schon fast ein Massstab erreicht worden, der sich nicht wirklich toppen lässt.

Wer Infos zu Fertigungsstätten und Zulieferer hat kann dies ja unter:
Brutstätten, Die Mutter aller CPU`s
http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=109771
oder
Fertigungstechnologie; Doch nicht das Ende der Si Basistechnologie?
http://www.planet3dnow.de/vbulletin/showthread.php3?s=&threadid=109764
posten, da haben dann alle etwas davon.

PS. Der Artikel nennt auch die Entstehungsgeschichte vom Moor`schen Gesetz!
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten