FMA命令を使うと1度に積和算の2ops計算できます。
それにコア数や処理装置数と最後に周波数を掛けています。
Intel CPU
Core i9 9900K
2 ops * 8 width * 8 core * 3.6Ghz = 460.8Gflops
Core i9-9980XE(Skylake-X)
2 ops * 16 width * 18 core * 3.0Ghz = 1,728Gflops
Core i9-10980XE
2 ops * 16 width * 18 core * 3.8Ghz = 2,188Gflops
Xeon W-3175X(Skylake)
2 ops * 16 width * 28 core * 3.1Ghz = 2,777.6 Gflops
Xeon Platinum 9282(Cascade Lake-AP)
2 ops * 16 width *56core * 2.6Ghz = 4,659Gflops
AMD CPU
Ryzen 7 2700X
2 ops * 4 width * 8 core * 3.7Ghz = 236.8 Gflops
Ryzen Threadripper 2990WX
2 ops * 4 width * 32 core * 3.0Ghz = 768 Gflops
Ryzen 9 3950X
2 ops * 8 width * 16 core * 3.5Ghz = 896 Gflops
Ryzen Threadripper 3960X
2 ops * 8 width * 24 core * 3.8Ghz = 1459 Gflops
Ryzen Threadripper 3970X
2 ops * 8 width * 32 core * 3.7Ghz = 1894 Gflops
Ryzen Threadripper 3990X
2 ops * 8 width * 64 core * 2.9Ghz = 2969.6 Gflops
AMDとIntelを比べるとAVX512を採用しているCPUが有利になります。
GPUを比べてみたいと思います。
NVIDIA GPU
GeForce RTX 2080 Ti
2ops * 4352 core * 1.545GHz(Boost) = 13,447 GFlops
TITAN RTX
2ops * 4608 core * 1.77GHz(Boost) = 16,312 GFlops
Jetson Nano
4ops * 128 core * 0.92Ghz(??) = 472 GFlops(FP16)
2ops * 128 core * 0.92Ghz(??) = 236 GFlops(FP32)(???)
Jetson XAVIER
14ops(??) * 384 core * 1.1Ghz = 6 TFlops(FP16)
2ops *384 core * 1.1Ghz = 844 GFlops(FP32)(???)
AMD GPU
Radeon RX Vega 64
2ops * 4096 core * 1.677GHz(Boost) = 13,737 GFlops
Radeon VII
2ops * 3840 core * 1.75GHz(Boost) = 13,440 GFlops
Radeon RX 5700 XT
2ops * 2560 core * 1.905GHz(Boost) = 9,753 GFlops
Radeon Pro Vega II
2ops * 4096 core * 1.7GHz(Boost) = 13,926 GFlops
数値上ではNVIDIAの方が有利と言ったところでしょうか。