News Trinity mit aktivierter Integer-Divisions-Einheit: Auch auf FX-Chips reaktivierbar?

Ein Problem ist, dass man gleichzeitig die MSRs für alle CPU-Kerne umstellen muss - sonst wirds nicht funktionieren;

Wenn ich mich recht insinne, gibt es einige MSRs die durch das BIOS gesetzt werden und danach einen Schreibschutz erhalten ?!? Ob dies nur für "Patchs" gilt *noahnung*

Muss da mal bei Bekannten nachfragen, die noch Bulldozer-ES samt BIOS rumliegen haben ... da konnte man wenigstens noch einiges aktivieren und deaktivieren ...

Evtl. muss halt ein BIOS gehackt werden und mit div. Extras rein, etwa:
FMA3 an/aus
CVT16 an/aus (ja dies gibts noch - auch wenn vieles zu F16C wurde)
....
 
Das ist wohl ein hübscher Nebeneffekt der DIV-Latenzen. Wenn der Entwickler zwar von 25% Anteil spricht und wahrscheinlich die Anzahl ausgeführter Befehle meint, haben die Divisionen an der Laufzeit dennoch einen hohen Anteil. Bei beispielsweise ~40 Zyklen Latenz und angenommenen ~2 Zyklen für die restlichen Befehle ergäbe das etwa ~(0,25*40+0,75*2)=11,5 Zyklen durchschnittliche Latenz. Ohne Division wären es 2, also erhöhen die nur 25% Divisionen die Gesamtlatenz im Beispiel um den Faktor 6. Dann könnte man die anderen Befehle auch weglassen.
Kann sein, muss aber nicht. Dafür müsste man die konkrete Vorgehensweise kennen. Wenn zB Teilbenches gefahren werden, also einer für Addition, einer für Subtraktion, einer für Multiplikation und einer für Division, und daraus der Mittelwert gebildet wird, dann ist die höhere Latenz für Division vernachlässigbar.
 
Ein Problem ist, dass man gleichzeitig die MSRs für alle CPU-Kerne umstellen muss - sonst wirds nicht funktionieren;

Wenn ich mich recht insinne, gibt es einige MSRs die durch das BIOS gesetzt werden und danach einen Schreibschutz erhalten ?!? Ob dies nur für "Patchs" gilt *noahnung*
Das macht RW-everything schon automatisch, sobald ein Wert geändert wird, übernimmt es das für alle Kerne.

Ich probier bei gelegenheit mal alle Konstellationen durch...
 
Das macht RW-everything schon automatisch, sobald ein Wert geändert wird, übernimmt es das für alle Kerne.

Ich probier bei Gelegenheit mal alle Konstellationen durch...
Wenn Du magst dann schau Dir auch mal MSR C0011005 an. Da kann man die Befehlssatzerweiterungen setzen. FMA4 hat Bit48. Unbekannte Bits außen herum sind:
52, 50,49, 46

Ansonsten noch 28, 21, 19,18 und 10.

Das aktuelle CPU-Z hat angeblich Trinity-Unterstützung, das bezieht sich hoffentlich auch auf ne FMA3-Erkennung. Von HWInfo gibts ne Beta von letzer Woche:
http://download1us.softpedia.com/dl...189486/software/system/info/hw64_394_1575.zip

Aber von FMA3 seh ich da trotzdem nichts, normalerweise sind nicht Unterstützte Erweiterungen nur ausgegraut. Aber probiers mal aus.
 
Mit undokumentierten Bits in MSR´s experimentieren macht ja immer Spaß, aber bei einem FX-8120 brachte dies nichts (Positives). Also habe ich mal kurz die Integer-DIV-Leistungen von SB-i2600 und FX-8120 (beide nicht OC) verglichen. Test-Szenario (alles Assembler): 100000-mal DIV rcx hintereinander, dann wieder Startwerte (rax=FFFFFFFFFFFFFFFFh, rcx=3, rdx=0, Ausführung nur auf einen Core) und das als Schleife 10000-mal. Das Zeit-Verhältnis (ca.23s SB und 25s FX) entspricht ziemlich genau dem Takt-Verhältnis (3.4GHz zu 3.1GHz); Turbo und genaue Zeiten lasse ich mal aussen vor. Das Verhältnis beim Passmark-Integer Math liegt aber bei 2.680 (SB) zu 1.460 (FX); sind meine ermittelten Werte mit Ver.7.0 Eval. Ich behaupte somit mal, das der rel.schlechte Wert des FX nicht von der reinen Division herrührt. Also sucht nicht weiter :)!
Helle
 
Mit undokumentierten Bits in MSR´s experimentieren macht ja immer Spaß, aber bei einem FX-8120 brachte dies nichts (Positives). Also habe ich mal kurz die Integer-DIV-Leistungen von SB-i2600 und FX-8120 (beide nicht OC) verglichen. Test-Szenario (alles Assembler): 100000-mal DIV rcx hintereinander, dann wieder Startwerte (rax=FFFFFFFFFFFFFFFFh, rcx=3, rdx=0, Ausführung nur auf einen Core) und das als Schleife 10000-mal. Das Zeit-Verhältnis (ca.23s SB und 25s FX) entspricht ziemlich genau dem Takt-Verhältnis (3.4GHz zu 3.1GHz); Turbo und genaue Zeiten lasse ich mal aussen vor. Das Verhältnis beim Passmark-Integer Math liegt aber bei 2.680 (SB) zu 1.460 (FX); sind meine ermittelten Werte mit Ver.7.0 Eval. Ich behaupte somit mal, das der rel.schlechte Wert des FX nicht von der reinen Division herrührt. Also sucht nicht weiter :)!
Helle
Hmm, so wie sich erst anhörte, hätte rax nach etwa 40 Iterationen (3^40 ~= 2^64) den Wert 0. Register rdx enthält dagegen immer den Rest, wird aber bei der folgenden Op vor rax gesetzt (128b Division) - da wird nichts optimierbar sein und pro DIV intern wohl meist das Maximum an Durchläufen notwendig sein. Die Zeit bei 1 Billion Operationen (+Schleifenoverhead/Cache misses etc.) deutet auf ca. 77c pro DIV-Durchlauf beim FX.
 
Ich behaupte somit mal, das der rel.schlechte Wert des FX nicht von der reinen Division herrührt. Also sucht nicht weiter :)!
Helle
Was dagegen spricht:
a) Der Trinity mit lausigen 2,3GHz (vielleicht mit Max-Turbo von 3,2GHz) ist schneller als ein 2500K. Mag ja sein, das bei Deinem aktuellen Test die Leistung auf Intel Niveau ist, aber sie müsste eben in dem Fall (ausnahmsweise) deutlich besser sein.
b) Ein Llano gewinnt deutlich in dem Bench und außer der Div-Einheit hat der nicht recht viel mehr Verbesserungen zu bieten. Der Memory-Footprint ist laut Passmark bei 240kB, also ist da auch die L2-Größe egal. Fazit: Was sonst außer der Div-Einheit sollte es sein?

Eventuell hast Du auch noch nen Vorteil, da Du nur single-Thread getestet hast, Windhund meinte mal in ner PM, dass er mit 4 Threads einen besseren Wert erzielt als mit 8. Da haben wir das angesprochene Thema, dass der Decoder doppelt blockiert, was bei deinem single-Thread Test unter den Tisch fällt. Wie schon erwähnt braucht mein K10 bei dem Bench pro Instruktion im Durchschnitt 4 Takte, das ist ein schlechter Witz, Microcode ist nun mal sch.....lecht. Wäre DIV dagegen FastPath, dann hat man genau den umgekehrten Fall, da gingen vermutlich pro Takt 4 Befehle parallel durch. Die restlichen ADD,SUB,MUL sollten ja auch FastPast sein.

Edit:
@Dresdenboy:
Damit wäre man dann nahe am Maximum von 79 Takten:
file.php
 
Wenn Du magst dann schau Dir auch mal MSR C0011005 an. Da kann man die Befehlssatzerweiterungen setzen. FMA4 hat Bit48. Unbekannte Bits außen herum sind:
52, 50,49, 46

Ansonsten noch 28, 21, 19,18 und 10.

Das aktuelle CPU-Z hat angeblich Trinity-Unterstützung, das bezieht sich hoffentlich auch auf ne FMA3-Erkennung. Von HWInfo gibts ne Beta von letzer Woche:
http://download1us.softpedia.com/dl...189486/software/system/info/hw64_394_1575.zip

Aber von FMA3 seh ich da trotzdem nichts, normalerweise sind nicht Unterstützte Erweiterungen nur ausgegraut. Aber probiers mal aus.
Also nach zig Kombinationen konnte ich + 50pkt beim Integer Math herausholen, allerdings sinken dann die andere Werte teilweiße bis zu 25% (z.B. Compression)

Mit dem MSR C0011005 hab ich bisher auch keine weiteren Features freischalten können, bzw. es hat sich nichts an den Werten bei PT geändert.

Ein wenig gefrustet hab ich dann im Bios übertaktet ohne die Spannungen anzupassen.
C1E, C´n´Q, CC6, APS & IOMMU aktiv; Win7 Energieprofil: Ausbalanciert



Immerhin den I7-2700K eingeholt. ;D

MfG
 
Nanu, wo ist den mein Bild geblieben? Auch wenn ich mich bei abload einlogge ist es nicht mehr vorhanden.
Ich lach mich Kaputt, wer kontrolliert eigentlich die Kontroller? *lol*
 
Das ist eines der besst-informierten und argumentierten Artikel das ich in der laetzten Zeit gelesen habe - Vielen dank davuer!

Kleine Frage noch ich sehe das ihr deutlich mehr ueber diese prozesoren kennt als ich es tue... ausser der funktionellen div einheit kann es sein das die neue "resonant clock" integrierung etwas bringt?
 
Das wurde hier schon vor einiger Zeit diskutiert. Den Infos nach soll das Resonant Clock Mesh die Leistungsaufnahme um etwa 10% senken. Das ist aber wohl auch vom Takt des jeweiligen Modells abhängig. Die Technologie soll gerade bei höheren Taktraten besser greifen.
 
Ich habe jetzt mal den Llano 3650 aus meinem Bürorechner mit einem i5 2500k verglichen. Ich denke die Ergebnisse können sich sehen lassen....
passmarkphilipp8852jku.jpg
 
Das ist eines der besst-informierten und argumentierten Artikel das ich in der laetzten Zeit gelesen habe - Vielen dank davuer!
Danke und willkommen im Forum :)
Kleine Frage noch ich sehe das ihr deutlich mehr ueber diese prozesoren kennt als ich es tue... ausser der funktionellen div einheit kann es sein das die neue "resonant clock" integrierung etwas bringt?
Gruffi hats ja schon beantwortet:
Das wurde hier schon vor einiger Zeit diskutiert. Den Infos nach soll das Resonant Clock Mesh die Leistungsaufnahme um etwa 10% senken. Das ist aber wohl auch vom Takt des jeweiligen Modells abhängig. Die Technologie soll gerade bei höheren Taktraten besser greifen.
Nur noch einfacher gesagt: Der Clock-Mesh spart Engerie, die man dafür in mehr Takt oder eben weniger TDP/Stromverbrauch investieren kann. Wieviel genau kommt drauf an, Spitzenwert den ich gesehen hab war bei 30%.
Ich nehm mal stark an, dass bei Trinity die TDP im Vordergrund stehen wird (z.B. die 17W Version), und bei Vishera dann dagegen der Takt :)
An der Architektur ansich ändert sich deshalb aber nichts.
 
Nunja, dass das Clock Mesh keine wunder bewirkt ist klar, aber allgemein sehe ich Trinity positiv, da es bei BD jan un wirklich einige baustellen gibt, und da sind kleine verbesserungen an allerlei fronten gern gesehen. Und gerade in Sachen Energieeffizienz hat BD eigentlich deutlich mehr potenzial als die Husky-Kerne im Llano. - was der FX anscheinend aus irgendwelchen Gründen nicht wirklich demonstrieren kann. Vielleicht kriegen sies mit Trinity endlich hin.
Nebenbei, wir hattens doch mal von der NAmensgebung, die auf 3 hindeutet... aber was sind denn die 3 zentralen Elemente von Trinity?
- FM2
- Piledriver-Kerne
- VLIW4-GPU
Sollte es so einfach sein?
 
Zurück
Oben Unten