Re: DConf 2013 Day 3 Talk 5: Effective SIMD for modern architectures by Manu Evans

bearophile Fri, 12 Jul 2013 13:40:16 -0700

Manu:

This is interesting. I didn't know about this.


I have taken a look at this page:
https://github.com/ispc/ispc

There is a free compiler binary for various operating systems:
http://ispc.github.io/downloads.html

I have tried the Windows compiler on some of the given examplesof code, and it works! And the resulting asm is excellent. Normalcompilers for the usual languages aren't able to do produce noteven nearly as good asm.


To try the code of the examples I compile like this:

ispc.exe --emit-asm stencil.ispc -o stencil.s

Or even like this to see the AVX2 asm instructions:

ispc.exe --target=avx2 --emit-asm stencil.ispc -o stencil.s



As example it compiles a function like this:


static void
stencil_step(uniform int x0, uniform int x1,
             uniform int y0, uniform int y1,
             uniform int z0, uniform int z1,
             uniform int Nx, uniform int Ny, uniform int Nz,

uniform const float coef[4], uniform const floatvsq[],

             uniform const float Ain[], uniform float Aout[]) {
    const uniform int Nxy = Nx * Ny;

    foreach (z = z0 ... z1, y = y0 ... y1, x = x0 ... x1) {
        int index = (z * Nxy) + (y * Nx) + x;
#define A_cur(x, y, z) Ain[index + (x) + ((y) * Nx) + ((z) * Nxy)]

#define A_next(x, y, z) Aout[index + (x) + ((y) * Nx) + ((z) *Nxy)]

        float div = coef[0] * A_cur(0, 0, 0) +
            coef[1] * (A_cur(+1, 0, 0) + A_cur(-1, 0, 0) +
                       A_cur(0, +1, 0) + A_cur(0, -1, 0) +
                       A_cur(0, 0, +1) + A_cur(0, 0, -1)) +
            coef[2] * (A_cur(+2, 0, 0) + A_cur(-2, 0, 0) +
                       A_cur(0, +2, 0) + A_cur(0, -2, 0) +
                       A_cur(0, 0, +2) + A_cur(0, 0, -2)) +
            coef[3] * (A_cur(+3, 0, 0) + A_cur(-3, 0, 0) +
                       A_cur(0, +3, 0) + A_cur(0, -3, 0) +
                       A_cur(0, 0, +3) + A_cur(0, 0, -3));

        A_next(0, 0, 0) = 2 * A_cur(0, 0, 0) - A_next(0, 0, 0) +
            vsq[index] * div;
    }
}



To asm like (using SSE4):


        pshufd  $0, %xmm7, %xmm9        # xmm9 = xmm7[0,0,0,0]
        cmpl    156(%rsp), %r8d         # 4-byte Folded Reload
        movups  (%r14,%rdi), %xmm0
        mulps   %xmm6, %xmm5
        pshufd  $0, %xmm2, %xmm2        # xmm2 = xmm2[0,0,0,0]
        movq    424(%rsp), %rdx
        movups  (%rdx,%r15), %xmm6
        mulps   %xmm3, %xmm2
        pshufd  $0, %xmm10, %xmm3       # xmm3 = xmm10[0,0,0,0]
        mulps   %xmm11, %xmm3
        addps   %xmm2, %xmm3
        addps   %xmm5, %xmm3
        addps   %xmm4, %xmm0
        movslq  %eax, %rax
        movups  (%r14,%rax), %xmm2
        addps   %xmm0, %xmm2
        movslq  %ebp, %rax
        movups  (%r14,%rax), %xmm0
        addps   %xmm2, %xmm0
        mulps   %xmm9, %xmm0
        addps   %xmm3, %xmm0
        mulps   %xmm6, %xmm0
        addps   %xmm1, %xmm0
        movups  %xmm0, (%r11,%r15)
        jl      .LBB0_5
.LBB0_6:                                # %partial_inner_all_outer

# in Loop: Header=BB0_4Depth=2

        movq    %r13, %rbp
        movl    156(%rsp), %r13d        # 4-byte Reload
        movq    424(%rsp), %r9
        cmpl    64(%rsp), %r8d          # 4-byte Folded Reload
        movq    %r11, %rbx
        jge     .LBB0_257
# BB#7:                                 # %partial_inner_only

# in Loop: Header=BB0_4Depth=2

        movd    %r8d, %xmm0
        movl    84(%rsp), %r15d         # 4-byte Reload
        imull   400(%rsp), %r15d
        pshufd  $0, %xmm0, %xmm0        # xmm0 = xmm0[0,0,0,0]
        paddd   .LCPI0_1(%rip), %xmm0
        movdqa  %xmm8, %xmm1
        pcmpgtd %xmm0, %xmm1
        movmskps        %xmm1, %edi
        addl    68(%rsp), %r15d         # 4-byte Folded Reload
        leal    (%r8,%r15), %r10d

Or using AVX2 (this not exactly the equievalent piece of code)(The asm generates with AVX2 is usually significant shorter):



        movslq  %edx, %rdx
        vaddps  (%rax,%rdx), %ymm5, %ymm5
        movl    52(%rsp), %edx          # 4-byte Reload
        leal    (%rdx,%r15), %edx
        movslq  %edx, %rdx
        vaddps  (%rax,%rdx), %ymm5, %ymm5
        vaddps  %ymm11, %ymm6, %ymm9
        vaddps  %ymm10, %ymm8, %ymm10
        vmovups (%rax,%rdi), %ymm12
        addl    $32, %r15d
        vmovups (%r11,%rcx), %ymm6
        movq    400(%rsp), %rdx
        vbroadcastss    12(%rdx), %ymm7
        vbroadcastss    8(%rdx), %ymm8
        vbroadcastss    (%rdx), %ymm11
        vaddps  %ymm12, %ymm10, %ymm10
        cmpl    48(%rsp), %r14d         # 4-byte Folded Reload
        vbroadcastss    4(%rdx), %ymm12
        vmulps  %ymm9, %ymm12, %ymm9
        vfmadd213ps     %ymm9, %ymm3, %ymm11
        vfmadd213ps     %ymm11, %ymm8, %ymm10
        vfmadd213ps     %ymm10, %ymm5, %ymm7
        vfmadd213ps     %ymm4, %ymm6, %ymm7
        vmovups %ymm7, (%r8,%rcx)
        jl      .LBB0_8

# BB#4: #%partial_inner_all_outer.us# in Loop: Header=BB0_7Depth=2

        cmpl    40(%rsp), %r14d         # 4-byte Folded Reload
        movq    400(%rsp), %r10
        jge     .LBB0_6
# BB#5:                                 # %partial_inner_only.us

# in Loop: Header=BB0_7Depth=2

        vmovd   %r14d, %xmm3
        vbroadcastss    %xmm3, %ymm3
        movl    100(%rsp), %ecx         # 4-byte Reload
        leal    (%rcx,%r15), %ecx
        vpaddd  %ymm2, %ymm3, %ymm3




Sometimes it gives performance warnings:

rt.ispc:257:9: Performance Warning: Scatter required to storevalue.

        image[offset] = ray.maxt;
        ^^^^^^^^^^^^^

rt.ispc:258:9: Performance Warning: Scatter required to storevalue.

        id[offset] = ray.hitId;
        ^^^^^^^^^^

A a bit larger example with this function from a littleray-tracer:



static bool TriIntersect(const uniform Triangle &tri, Ray &ray) {
    uniform float3 p0 = { tri.p[0][0], tri.p[0][1], tri.p[0][2] };
    uniform float3 p1 = { tri.p[1][0], tri.p[1][1], tri.p[1][2] };
    uniform float3 p2 = { tri.p[2][0], tri.p[2][1], tri.p[2][2] };
    uniform float3 e1 = p1 - p0;
    uniform float3 e2 = p2 - p0;

    float3 s1 = Cross(ray.dir, e2);
    float divisor = Dot(s1, e1);
    bool hit = true;

    if (divisor == 0.)
        hit = false;
    float invDivisor = 1.f / divisor;

    // Compute first barycentric coordinate
    float3 d = ray.origin - p0;
    float b1 = Dot(d, s1) * invDivisor;
    if (b1 < 0. || b1 > 1.)
        hit = false;

    // Compute second barycentric coordinate
    float3 s2 = Cross(d, e1);
    float b2 = Dot(ray.dir, s2) * invDivisor;
    if (b2 < 0. || b1 + b2 > 1.)
        hit = false;

    // Compute _t_ to intersection point
    float t = Dot(e2, s2) * invDivisor;
    if (t < ray.mint || t > ray.maxt)
        hit = false;

    if (hit) {
        ray.maxt = t;
        ray.hitId = tri.id;
    }
    return hit;
}


The (more or less) complete asm with AVX2 for that function:

"TriIntersect___REFs[_c_unTriangle]REFs[vyRay]": #@"TriIntersect___REFs[_c_unTriangle]REFs[vyRay]"

# BB#0:                                 # %allocas
    subq    $248, %rsp
    vmovaps %xmm15, 80(%rsp)        # 16-byte Spill
    vmovaps %xmm14, 96(%rsp)        # 16-byte Spill
    vmovaps %xmm13, 112(%rsp)       # 16-byte Spill
    vmovaps %xmm12, 128(%rsp)       # 16-byte Spill
    vmovaps %xmm11, 144(%rsp)       # 16-byte Spill
    vmovaps %xmm10, 160(%rsp)       # 16-byte Spill
    vmovaps %xmm9, 176(%rsp)        # 16-byte Spill
    vmovaps %xmm8, 192(%rsp)        # 16-byte Spill
    vmovaps %xmm7, 208(%rsp)        # 16-byte Spill
    vmovaps %xmm6, 224(%rsp)        # 16-byte Spill
    vmovss  (%rcx), %xmm0
    vmovss  16(%rcx), %xmm2
    vinsertps   $16, 4(%rcx), %xmm0, %xmm0
    vinsertps   $32, 8(%rcx), %xmm0, %xmm0
    vinsertf128 $1, %xmm0, %ymm0, %ymm10
    vmovaps (%rdx), %ymm0
    vmovaps 32(%rdx), %ymm3
    vmovaps 64(%rdx), %ymm1
    vmovaps 96(%rdx), %ymm9
    vpbroadcastd    .LCPI1_0(%rip), %ymm12
    vxorps  %ymm4, %ymm4, %ymm4
    vpermps %ymm10, %ymm4, %ymm4
    vsubps  %ymm4, %ymm0, %ymm0
    vpermps %ymm10, %ymm12, %ymm4
    vsubps  %ymm4, %ymm3, %ymm13
    vmovups %ymm13, (%rsp)          # 32-byte Folded Spill
    vpbroadcastd    .LCPI1_1(%rip), %ymm8
    vpermps %ymm10, %ymm8, %ymm3
    vsubps  %ymm3, %ymm1, %ymm6
    vmovss  32(%rcx), %xmm1
    vinsertps   $16, 36(%rcx), %xmm1, %xmm1
    vinsertps   $32, 40(%rcx), %xmm1, %xmm1
    vinsertf128 $1, %xmm0, %ymm1, %ymm1
    vsubps  %ymm10, %ymm1, %ymm15
    vbroadcastss    %xmm15, %ymm3
    vmovups %ymm3, 32(%rsp)         # 32-byte Folded Spill
    vmovaps 128(%rdx), %ymm11
    vpermps %ymm15, %ymm12, %ymm5
    vmulps  %ymm3, %ymm11, %ymm1
    vmovaps %ymm3, %ymm4
    vmovaps %ymm5, %ymm7
    vfmsub213ps %ymm1, %ymm9, %ymm7
    vinsertps   $16, 20(%rcx), %xmm2, %xmm1
    vinsertps   $32, 24(%rcx), %xmm1, %xmm1
    vinsertf128 $1, %xmm0, %ymm1, %ymm1
    vsubps  %ymm10, %ymm1, %ymm1
    vpermps %ymm1, %ymm12, %ymm14
    vpermps %ymm1, %ymm8, %ymm12
    vmulps  %ymm6, %ymm14, %ymm3
    vmovaps %ymm13, %ymm2
    vfmsub213ps %ymm3, %ymm12, %ymm2
    vbroadcastss    %xmm1, %ymm1
    vmulps  %ymm0, %ymm12, %ymm3
    vmovaps %ymm6, %ymm13
    vfmsub213ps %ymm3, %ymm1, %ymm13
    vmulps  %ymm13, %ymm11, %ymm3
    vmovaps %ymm2, %ymm10
    vfmadd213ps %ymm3, %ymm9, %ymm10
    vpermps %ymm15, %ymm8, %ymm8
    vmulps  %ymm8, %ymm9, %ymm3
    vmovaps 160(%rdx), %ymm9
    vmulps  %ymm5, %ymm9, %ymm15
    vfmsub213ps %ymm15, %ymm8, %ymm11
    vmovaps %ymm4, %ymm15
    vfmsub213ps %ymm3, %ymm9, %ymm15
    vmulps  %ymm15, %ymm14, %ymm4
    vmovaps %ymm11, %ymm3
    vfmadd213ps %ymm4, %ymm1, %ymm3
    vfmadd213ps %ymm3, %ymm7, %ymm12
    vmovups (%rsp), %ymm4           # 32-byte Folded Reload
    vmulps  %ymm4, %ymm15, %ymm3
    vfmadd213ps %ymm3, %ymm0, %ymm11
    vfmadd213ps %ymm11, %ymm6, %ymm7
    vmulps  %ymm4, %ymm1, %ymm1
    vfmsub213ps %ymm1, %ymm14, %ymm0
    vbroadcastss    .LCPI1_2(%rip), %ymm1
    vrcpps  %ymm12, %ymm3
    vmovaps %ymm12, %ymm4
    vfnmadd213ps    %ymm1, %ymm3, %ymm4
    vmulps  %ymm4, %ymm3, %ymm4
    vxorps  %ymm14, %ymm14, %ymm14
    vcmpeqps    %ymm14, %ymm12, %ymm1
    vcmpunordps %ymm14, %ymm12, %ymm3
    vorps   %ymm1, %ymm3, %ymm11
    vmulps  %ymm13, %ymm5, %ymm1
    vmulps  %ymm4, %ymm7, %ymm5
    vmovups 32(%rsp), %ymm3         # 32-byte Folded Reload
    vfmadd213ps %ymm1, %ymm3, %ymm2
    vbroadcastss    .LCPI1_3(%rip), %ymm1
    vcmpnleps   %ymm1, %ymm5, %ymm3
    vcmpnleps   %ymm5, %ymm14, %ymm6
    vorps   %ymm3, %ymm6, %ymm6
    vbroadcastss    .LCPI1_0(%rip), %ymm3
    vblendvps   %ymm11, %ymm14, %ymm3, %ymm7
    vfmadd213ps %ymm10, %ymm0, %ymm9
    vmovaps (%r8), %ymm3
    vmovmskps   %ymm3, %eax
    leaq    352(%rdx), %r8
    cmpl    $255, %eax
    vmulps  %ymm9, %ymm4, %ymm9
    vaddps  %ymm9, %ymm5, %ymm10
    vmovups 320(%rdx), %ymm5
    vfmadd213ps %ymm2, %ymm8, %ymm0
    vblendvps   %ymm6, %ymm14, %ymm7, %ymm6
    vpcmpeqd    %ymm2, %ymm2, %ymm2
    vcmpnleps   %ymm1, %ymm10, %ymm1
    vcmpnleps   %ymm9, %ymm14, %ymm7
    vorps   %ymm1, %ymm7, %ymm1
    vblendvps   %ymm1, %ymm14, %ymm6, %ymm6
    vmulps  %ymm0, %ymm4, %ymm1
    vcmpnleps   352(%rdx), %ymm1, %ymm0
    vcmpnleps   %ymm1, %ymm5, %ymm4
    vorps   %ymm0, %ymm4, %ymm0
    vblendvps   %ymm0, %ymm14, %ymm6, %ymm0
    vpcmpeqd    %ymm14, %ymm0, %ymm4
    vpxor   %ymm2, %ymm4, %ymm2
    je  .LBB1_1
# BB#4:                                 # %some_on
    vpand   %ymm3, %ymm2, %ymm2
.LBB1_1:                                # %all_on
    vmovmskps   %ymm2, %eax
    testl   %eax, %eax
    je  .LBB1_3
# BB#2:                                 # %safe_if_run_true356
    vmaskmovps  %ymm1, %ymm2, (%r8)
    vpbroadcastd    48(%rcx), %ymm1
    vmaskmovps  %ymm1, %ymm2, 384(%rdx)
.LBB1_3:                                # %safe_if_after_true
    vmovaps 224(%rsp), %xmm6        # 16-byte Reload
    vmovaps 208(%rsp), %xmm7        # 16-byte Reload
    vmovaps 192(%rsp), %xmm8        # 16-byte Reload
    vmovaps 176(%rsp), %xmm9        # 16-byte Reload
    vmovaps 160(%rsp), %xmm10       # 16-byte Reload
    vmovaps 144(%rsp), %xmm11       # 16-byte Reload
    vmovaps 128(%rsp), %xmm12       # 16-byte Reload
    vmovaps 112(%rsp), %xmm13       # 16-byte Reload
    vmovaps 96(%rsp), %xmm14        # 16-byte Reload
    vmovaps 80(%rsp), %xmm15        # 16-byte Reload
    addq    $248, %rsp
    ret


Using SSE4 the function asm starts like this:

"TriIntersect___REFs[_c_unTriangle]REFs[vyRay]": #@"TriIntersect___REFs[_c_unTriangle]REFs[vyRay]"

# BB#0:                                 # %allocas
        subq    $248, %rsp
        movaps  %xmm15, 80(%rsp)        # 16-byte Spill
        movaps  %xmm14, 96(%rsp)        # 16-byte Spill
        movaps  %xmm13, 112(%rsp)       # 16-byte Spill
        movaps  %xmm12, 128(%rsp)       # 16-byte Spill
        movaps  %xmm11, 144(%rsp)       # 16-byte Spill
        movaps  %xmm10, 160(%rsp)       # 16-byte Spill
        movaps  %xmm9, 176(%rsp)        # 16-byte Spill
        movaps  %xmm8, 192(%rsp)        # 16-byte Spill
        movaps  %xmm7, 208(%rsp)        # 16-byte Spill
        movaps  %xmm6, 224(%rsp)        # 16-byte Spill
        movss   (%rcx), %xmm1
        movss   16(%rcx), %xmm0
        insertps        $16, 4(%rcx), %xmm1
        insertps        $32, 8(%rcx), %xmm1
        movss   32(%rcx), %xmm7
        insertps        $16, 36(%rcx), %xmm7
        insertps        $32, 40(%rcx), %xmm7
        subps   %xmm1, %xmm7
        pshufd  $-86, %xmm1, %xmm2      # xmm2 = xmm1[2,2,2,2]
        pshufd  $85, %xmm1, %xmm3       # xmm3 = xmm1[1,1,1,1]
        movaps  (%rdx), %xmm4
        movaps  16(%rdx), %xmm12
        movaps  32(%rdx), %xmm5
        movaps  48(%rdx), %xmm11
        subps   %xmm3, %xmm12
        subps   %xmm2, %xmm5
        movaps  %xmm5, 32(%rsp)         # 16-byte Spill
        pshufd  $0, %xmm1, %xmm2        # xmm2 = xmm1[0,0,0,0]
        subps   %xmm2, %xmm4
        pshufd  $85, %xmm7, %xmm3       # xmm3 = xmm7[1,1,1,1]
        movdqa  %xmm3, 48(%rsp)         # 16-byte Spill
        movaps  %xmm11, %xmm2
        mulps   %xmm3, %xmm2
        movaps  %xmm3, %xmm6
        pshufd  $-86, %xmm7, %xmm3      # xmm3 = xmm7[2,2,2,2]
        movdqa  %xmm3, 64(%rsp)         # 16-byte Spill
        movaps  %xmm11, %xmm9
        mulps   %xmm3, %xmm9
        movaps  %xmm3, %xmm10
        insertps        $16, 20(%rcx), %xmm0
        insertps        $32, 24(%rcx), %xmm0
        subps   %xmm1, %xmm0
        pshufd  $85, %xmm0, %xmm3       # xmm3 = xmm0[1,1,1,1]
        movdqa  %xmm3, (%rsp)           # 16-byte Spill
        movdqa  %xmm3, %xmm1
        movdqa  %xmm3, %xmm14
        mulps   %xmm5, %xmm1
        pshufd  $-86, %xmm0, %xmm8      # xmm8 = xmm0[2,2,2,2]
...

Even LDC2 compiler doesn't get anywhere close to suchgood/efficient usage of SIMD instructions. And the compiler isalso able to spread the work on multiple cores. I think D ismeant to be used for similar numerical code too, so perhaps thelittle amount of ideas contained in this very C-like language isworth stealing and adding to D.


Bye,
bearophile

Re: DConf 2013 Day 3 Talk 5: Effective SIMD for modern architectures by Manu Evans

Reply via email to