Benchmarks: vad är det? Vad är det för historia, typer och tips

Innehållsförteckning:

historia
Typer av riktmärken
Överväganden vid benchmarking
slutsats

Benchmarks är en väsentlig del av vår dagliga maskinvareanalys, de tillåter oss att erbjuda dig en vetenskapligt jämförbar mätning mellan olika komponenter som CPU: er, grafikkort, lagringsenheter etc. Idag kommer vi att ägna några linjer till dess historia, till dess typer, hur de fungerar, vad de mäter, vilka är de vanligaste åtgärderna och vi kommer också att ge dig några tips om hur du utför dem och vilka vi bör lita på.

Det vi idag vet i PC- eller mobilvärlden som riktmärken är tekniker som ärvts från den industriella miljön som har möjliggjort, sedan början av denna revolution, beslutsfattande baserat på jämförbara data i en kontrollerad miljö.

Världen av modern datoranvändning tillämpar dessa tekniker på nästan vilken som helst av dess många olika domäner, och hemmabrukare har också använt dem som ett pålitligt sätt att lära sig om våra systems prestanda och kapacitet samt en viktig informationspunkt när att fatta viktiga beslut, till exempel köp av vår nya dator, mobiltelefon, grafikkort, etc.

Idag kommer vi att prata om PC-riktmärkenas historia, vilka typer av benchmarks som finns och vilka komponenter i vårt system som är mer lämpade för denna typ av tester som inte bara är prestanda.

Innehållsindex

historia

Referens- eller mätsystemet tillämpar en kontrollerad miljö och igenkännbara åtgärder som är vetenskapligt jämförbara och verifierbara och har samexisterat med datorns värld sedan den finns. Riktmärket, som sådan, har demokratiserats till en del av att en del av dess grundläggande väsen har förlorats, vilket är att det kan kontrolleras och verifieras av tredje part. Nu använder vi det mer som en snabb jämförelse av prestanda, men spårbarheten för dess verklighet av tredje parter har verkligen i stor utsträckning förlorats.

De mest klassiska referensmetoderna har alltid hänvisat till datorkapaciteten för systemets CPU, även om det under senare tid har varierat mellan olika komponenter, eftersom dessa har fått övervägande och betydelse inom en dator.

De två mest klassiska måttenheterna som fortfarande används är Dhrystones och Whetstones. Båda har på något sätt blivit basen för alla syntetiska riktmärken som vi känner idag.

Den äldsta är Whetstones (en lokalitet i Storbritannien där atomenergiavdelningen i Storbritanniens statliga kraftföretag var belägen) och Dhrystone kom senare och lekte med namnet på det första (vått och torrt).

Den första designades på 70-talet och den andra är från 80-talet och båda utgör grunden för jämförande prestanda som vi haft under påföljande år. Förenkling av röda stenar gav en inblick i processorns datakraft i flytande punktoperationer, operationer med stort antal decimaler.

Dhrystone är dess motsvarighet eftersom den är dedikerad till grundläggande instruktioner utan decimaler, båda gav en klar bild av prestandan hos en processor från två helt olika, men komplementära tillvägagångssätt. Whetstones och Dhrystone härstammar från två koncept som vi använder mycket vanligare idag, MIPS och FLOP.

Efter dessa mätningar kom andra som FLOP (Floating-point Arithmetic - floating point arithmetic), som i stor utsträckning är viktigare nu i en dator än det någonsin har varit för det är grunden för avancerad beräkning i många moderna tekniker. såsom artificiell intelligensalgoritmer, medicinska algoritmer, väderprognos, fuzzy logik, kryptering etc.

LINPACK utvecklades av ingenjör Jack Dongarra på 1980-talet och fortsätter att användas idag för att mäta den flytande punktberäkningskapaciteten för alla typer av system. För närvarande finns det versioner optimerade av arkitektur, CPU-tillverkare etc.

FLOPS fyller våra artiklar på grafikkort (säkert den enda eller dubbla precisionen låter som bekant), processorer och är grunden för att beräkna effektbehov och hårdvaruutveckling för alla superdatorer som är i drift eller utveckling.

FLOP är idag den mest krävda prestandamätningsenheten i branschen, men den har alltid kombinerats med MIPS (miljontals instruktioner per sekund), vilket är ett intressant mätmål eftersom det ger oss antalet instruktioner Grundläggande aritmetik som en processor kan utföra per sekund, men det beror mer på processorns arkitektur (ARM, RISC, x86, etc.) och programmeringsspråket än andra måttenheter.

När prestandan har avancerat har multiplikatorerna hänt. Vi mäter nu prestanda för hemmaprocessorer i GIPS och GFLOPS. Basen förblir densamma, klassiska aritmetiska operationer. Sisoft Sandra fortsätter att erbjuda oss denna typ av mätning i några av dess syntetiska riktmärken.

MIPS har också varit mer förflyttad till CPU som ett klassiskt element och FLOP har utvidgats till andra blomstrande områden som processkapacitet eller allmän beräkning av tidigare processorer mycket inriktade på specifika uppgifter som GPU: er som vi alla monterar på våra processorer eller på våra dedikerade expansionskort.

Till dessa grundläggande koncept har tiden lagt till nya måttenheter lika mycket eller viktigare än dessa i en modern dator eller superdator. Dataöverföring är ett av dessa åtgärder som har blivit mycket viktigt och mäts för närvarande i IOP: er (input och output operation per sekund) och även i andra former som MB / GB / TB lagringsåtgärder jämfört med tiden det tar att transitering från en punkt till en annan (MBps - Megabyte per sekund).

AS-SSD kan mäta prestandan på en hårddisk i MBps eller IOP.

För närvarande använder vi också överföringsåtgärden, i dess olika multiplikatorer, som ett sätt att tolka hastigheten på informationsöverföring mellan två punkter när vi faktiskt måste ha genererat lite mer information. Detta beror på protokollet som används för överföring av information.

Ett tydligt exempel och att vi använder mycket är i PCI Express-gränssnittet. Enligt detta protokoll måste vi för varje åtta bitar information som vi vill flytta (0 eller 1s) generera 10 bitar information eftersom den extra informationen är för kontroll av kommunikationen som skickas för felkorrigering, dataintegritet etc.

Andra välkända protokoll som också introducerar denna "förlust" av verklig information är IP: n, den du använder för att läsa den här artikeln och som gör att din 300MT / s-anslutning faktiskt erbjuder lite mindre än 300 Mbps hastighet.

Därför använder vi Gigatransfer eller överföringen när vi hänvisar till rå information som skickas av gränssnittet, och inte till den information som faktiskt behandlas i mottagaren. En 8GT / s PCI Express 3.0-databuss skickar faktiskt 6, 4 GBps information för varje linje ansluten mellan punkterna. Överföring har blivit mycket viktig med integrationen av PCI Express-protokollet i alla huvudbussar på en hem- och professionell dator.

På senare tid började vi också kombinera åtgärder som ett sätt att relatera bearbetningskraften med andra mycket viktiga faktorer i modern datoranvändning, där förbrukning är ett av dessa åtgärder som introduceras som en jämförande skala mellan prestandan för två system. Energieffektiviteten är idag lika mycket eller viktigare än processkraften och därför är det lätt att se riktmärken som jämför processkraften beroende på wattförbrukningen för elementet i mätningen.

I själva verket hänvisar en av de stora listorna över superdatorer inte så mycket till datorns bruttokraft bland alla dess datornoder utan till utvecklingen av den kraften baserad på watt eller energi som konsumeras av hela systemet. Green500-listan (FLOPS per watt - FLOPS per watt) är ett tydligt exempel på hur konsumtion nu är grundläggande för varje självrespektiv riktmärke, även om vi utan tvekan fortsätter att titta på TOP500-listan som inte har denna faktor som en konditioneringsfaktor.

Typer av riktmärken

Även om vi kan prata om många fler familjer eller typer av riktmärken, kommer jag att förenkla listan i de två vanligaste klasserna i de som är närmast oss alla som mer eller mindre avancerade användare.

Å ena sidan har vi de syntetiska riktmärken som till stor del är de som erbjuder oss mått som vi har pratat om tidigare. Syntetiska riktmärken är program som utför kontrollerade test med en mer eller mindre stabil programkod orienterad för en specifik plattform och arkitektur. Det är program som utför mycket specifika test som kan integrera en eller flera av våra komponenter, men där samma test eller test alltid utförs utan förändringar.

Bildåtergivning har alltid varit en bra metod för att känna till CPU: s prestanda i ett modernt system eftersom det är en krävande uppgift. Cinebench R15 har också flera tester, ett för GPU och två för CPU, där vi kan känna till prestanda för system med flera kärnor och processtrådar.

De erbjuder en kontrollerad testmiljö, där det inte finns några ändringar utom för versioner och där dessa ändringar är korrekt dokumenterade så att användaren vet vilka versioner som kan jämföras med varandra. Dessa typer av program kan testa olika delsystem på vår dator separat, med andra kodkoder eller specifika riktmärken för att utföra en viss typ av test, eller kombinerade som kan påverkas av prestanda för en, två eller flera systemkomponenter. Riktmärket integrerat i ett spel, eller program som Cinebench, Sisoft Sandra, SuperPI, 3DMark,… är tydliga exempel på syntetiska riktmärken.

Andra syntetiska riktmärken som vi inte bör förväxla med riktiga riktmärken är de som simulerar exekveringen av verkliga program, eller som utför åtgärdsskript i verkliga program, de är också syntetiska eftersom det inte finns någon slumpmässighet i testet, PC Mark är ett tydligt exempel på en ett syntetiskt riktmärkeprogram som vi kan förväxla med ett riktigt riktmärke.

Det faktiska riktmärket är en mycket annan testmetod eftersom den accepterar slumpmässigheten att använda ett program för att mäta dess prestanda. Spelare är vana att utföra denna typ av riktmärken eller prestandatest när vi anpassar kvalitetsparametrarna för ett spel till möjligheterna för vår hårdvara.

Att mäta spelets prestanda medan du spelar är ett riktigt riktmärke.

När du öppnar FPS som spelet ger och försöker uppnå önskad 60FPS kontinuerligt utför de ett riktigt riktmärke. Detsamma kan extrapoleras till alla andra typer av program, och om du är en utvecklare, när du optimerar koden för ditt program, gör du också riktiga riktmärketester där det ändras är din kod eller sättet att utföra den på en plattform av stabil eller variabel hårdvara.

Båda typerna av riktmärken är viktiga, de förstnämnda gör att vi kan jämföra vårt system med andra i en kontrollerad miljö och de senare är ett sätt att optimera vår verksamhet där två viktiga faktorer också läggs till, slumpmässigheten i utförandet och den mänskliga faktorn. Båda faktorerna ger en ytterligare synvinkel på prestandan för komponenten eller komponenterna som vi vill testa.

Överväganden vid benchmarking

För att ett riktmärke ska vara användbart och effektivt måste vi ta hänsyn till vissa faktorer som verkligen är viktiga. Jämförelse mellan olika plattformar och arkitekturer introducerar en viktig osäkerhetsfaktor, så denna typ av riktmärken som ger dig möjlighet att jämföra iOS-mobiltelefoner med Windows x86-datorer, för att ge ett exempel måste du ta dem med pincett eftersom det inte bara ändras operativsystemkärnan, men processorarkitekturer är mycket olika. Utvecklarna av denna typ av riktmärken (till exempel Geekbench) introducerar korrigeringsfaktorer mellan deras olika versioner som knappast kan kontrolleras.

Därför är den första nyckeln för att ett jämförelsevärde kan jämföras mellan olika hårdvara att testekosystemet är så lika som möjligt som referensplattformen, operativsystemet, drivrutinerna och mjukvaruversionen. Det kommer säkert att finnas element här som vi inte kan styra homogenisering, som grafikstyrenheten om vi testar AMD-grafik mot Nvidia-grafik, men resten måste vi försöka göra den så stabil som möjligt. I det här fallet skulle vi också inkludera hårdvara eftersom för att jämföra grafikkort är deras att använda samma operativsystem, samma processor, samma minnen och alla driftsparametrar, hålla dem desamma, inklusive parametrarna för kvalitet, upplösning och test i riktmärket. Ju mer stabilt vårt testekosystem är, desto mer pålitliga och jämförbara blir våra resultat.

Vi rekommenderar att du läser Hur vet jag om min processor har en flaskhals?

En annan sak som vi måste ta hänsyn till är att benchmarktester normalt har en stressfaktor på hårdvaran som vi ska testa och normalt utsätter denna hårdvara för situationer som normalt inte kommer att uppstå vid normal användning av systemet. Varje riktmärke som vi tar bort från vår hårddisk, grafikkort eller processor, skickar dem till situationer som kan vara farliga för hårdvaran, så vi måste fastställa lämpliga åtgärder så att spänningspunkten inte blir en sprickpunkt eller också i ett element i prestandaförminskning eftersom många komponenter har skyddssystem med vilka de minskar deras prestanda i exempelvis temperaturer utanför deras användningsområde. Tillräcklig kylning, viloperioder mellan tester, korrekt matning av komponenterna som testas… allt borde vara i en idealisk situation för att testet ska fungera smidigt.

Å andra sidan använder vi också just denna typ av riktmärken för att utsätta systemet för stress för att se dess stabilitet i denna typ av situation, det är ett annat sätt att tillämpa ett riktmärke eftersom det inte bara försöker känna till prestanda utan också om systemet är stabilt och ännu mer om systemet fungerar som det ska i dessa stressiga situationer.

slutsats

För oss som är dedikerade till att testa datormaskinvara professionellt är riktmärket ett fungerande verktyg och tack vare det har användarna ett vetenskapligt och verifierbart sätt att jämföra eller veta prestanda för vår nästa dator i vart och ett av dess delsystem med precision. jämförbar med verktyg som används på industriell nivå.

En testtabell, liksom den du ser i bilden, försöker exakt standardisera testmetoden, så att det jämförande riktmärket är så tillförlitligt som möjligt och kan testas när man introducerar variationer som modifierar resultaten.

Men som alla "laboratorietest", för att det ska vara tillförlitligt, måste de rätta förhållandena vara på plats för att det ska kunna genomföras, och ännu mer så att det kan jämföras mellan olika system.

Idag har vi berättat lite om historien för denna typ av program, dess olika typer, hur de fungerar och hur man får tillförlitlig information från dem. De är användbara, men för mig är de bara ytterligare en information att komma ihåg och jag skulle alltid lägga den bakom personlig erfarenhet och aktiv test med verkliga program som vi kommer att använda varje dag.

En riktmärke är bra att lägga till en minimal prestandadata i vår beslutsprocess, men de bör inte definiera dessa beslut och, som ett sista tips, undvika syntetiska riktmärken som påstår sig kunna jämföra prestanda mellan arkitekturer, operativsystem etc.

Innehållsförteckning:

historia

Typer av riktmärken

Överväganden vid benchmarking

slutsats

Redaktörens val