Winch: Add abs SIMD instructions for x86 using AVX (#10202)

jeffcharles · web-flow · commit 48fe3bb58429 · 2025-02-07T18:40:55.000Z
* Winch: Add abs SIMD instructions for x86 using AVX

* Add _simd_load.wast to unsupported if no AVX
diff --git a/crates/wast-util/src/lib.rs b/crates/wast-util/src/lib.rs
@@ -442,7 +442,6 @@ impl WastTest {
                 "spec_testsuite/simd_i32x4_extmul_i16x8.wast",
                 "spec_testsuite/simd_i32x4_trunc_sat_f32x4.wast",
                 "spec_testsuite/simd_i32x4_trunc_sat_f64x2.wast",
-                "spec_testsuite/simd_i64x2_arith2.wast",
                 "spec_testsuite/simd_i64x2_extmul_i32x4.wast",
                 "spec_testsuite/simd_i8x16_arith2.wast",
                 "spec_testsuite/simd_lane.wast",
@@ -474,6 +473,7 @@ impl WastTest {
                     "spec_testsuite/simd_f64x2_cmp.wast",
                     "spec_testsuite/simd_i16x8_cmp.wast",
                     "spec_testsuite/simd_i32x4_cmp.wast",
+                    "spec_testsuite/simd_i64x2_arith2.wast",
                     "spec_testsuite/simd_i64x2_cmp.wast",
                     "spec_testsuite/simd_i8x16_cmp.wast",
                     "spec_testsuite/simd_int_to_int_extend.wast",
diff --git a/tests/disas/winch/x64/f32x4_abs/const_avx.wat b/tests/disas/winch/x64/f32x4_abs/const_avx.wat
@@ -0,0 +1,36 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (f32x4.abs (v128.const f32x4 0 1 2 3))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x49
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpcmpeqd %xmm15, %xmm15, %xmm15
+;;       vpsrld  $1, %xmm15, %xmm15
+;;       vandps  %xmm0, %xmm15, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   49: ud2
+;;   4b: addb    %al, (%rax)
+;;   4d: addb    %al, (%rax)
+;;   4f: addb    %al, (%rax)
+;;   51: addb    %al, (%rax)
+;;   53: addb    %al, (%rax)
+;;   55: addb    %al, 0x3f(%rax)
+;;   5b: addb    %al, (%rax)
diff --git a/tests/disas/winch/x64/f64x2_abs/const_avx.wat b/tests/disas/winch/x64/f64x2_abs/const_avx.wat
@@ -0,0 +1,39 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (f64x2.abs (v128.const f64x2 0 1))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x49
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpcmpeqq %xmm15, %xmm15, %xmm15
+;;       vpsrlq  $1, %xmm15, %xmm15
+;;       vandpd  %xmm0, %xmm15, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   49: ud2
+;;   4b: addb    %al, (%rax)
+;;   4d: addb    %al, (%rax)
+;;   4f: addb    %al, (%rax)
+;;   51: addb    %al, (%rax)
+;;   53: addb    %al, (%rax)
+;;   55: addb    %al, (%rax)
+;;   57: addb    %al, (%rax)
+;;   59: addb    %al, (%rax)
+;;   5b: addb    %al, (%rax)
+;;   5d: addb    %dh, %al
diff --git a/tests/disas/winch/x64/i16x8_abs/const_avx.wat b/tests/disas/winch/x64/i16x8_abs/const_avx.wat
@@ -0,0 +1,40 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (i16x8.abs (v128.const i16x8 0 1 2 3 4 5 6 7))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x3f
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpabsw  %xmm0, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   3f: ud2
+;;   41: addb    %al, (%rax)
+;;   43: addb    %al, (%rax)
+;;   45: addb    %al, (%rax)
+;;   47: addb    %al, (%rax)
+;;   49: addb    %al, (%rax)
+;;   4b: addb    %al, (%rax)
+;;   4d: addb    %al, (%rax)
+;;   4f: addb    %al, (%rax)
+;;   51: addb    %al, (%rcx)
+;;   53: addb    %al, (%rdx)
+;;   55: addb    %al, (%rbx)
+;;   57: addb    %al, (%rax, %rax)
+;;   5a: addl    $0x7000600, %eax
diff --git a/tests/disas/winch/x64/i32x4_abs/const_avx.wat b/tests/disas/winch/x64/i32x4_abs/const_avx.wat
@@ -0,0 +1,42 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (i32x4.abs (v128.const i32x4 0 1 2 3))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x3f
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpabsd  %xmm0, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   3f: ud2
+;;   41: addb    %al, (%rax)
+;;   43: addb    %al, (%rax)
+;;   45: addb    %al, (%rax)
+;;   47: addb    %al, (%rax)
+;;   49: addb    %al, (%rax)
+;;   4b: addb    %al, (%rax)
+;;   4d: addb    %al, (%rax)
+;;   4f: addb    %al, (%rax)
+;;   51: addb    %al, (%rax)
+;;   53: addb    %al, (%rcx)
+;;   55: addb    %al, (%rax)
+;;   57: addb    %al, (%rdx)
+;;   59: addb    %al, (%rax)
+;;   5b: addb    %al, (%rbx)
+;;   5d: addb    %al, (%rax)
diff --git a/tests/disas/winch/x64/i64x2_abs/const_avx.wat b/tests/disas/winch/x64/i64x2_abs/const_avx.wat
@@ -0,0 +1,38 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (i64x2.abs (v128.const i64x2 0 1))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x4e
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpsrad  $0x1f, %xmm0, %xmm15
+;;       vpshufd $0xf5, %xmm15, %xmm15
+;;       vpxor   %xmm0, %xmm15, %xmm0
+;;       vpsubq  %xmm15, %xmm0, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   4e: ud2
+;;   50: addb    %al, (%rax)
+;;   52: addb    %al, (%rax)
+;;   54: addb    %al, (%rax)
+;;   56: addb    %al, (%rax)
+;;   58: addl    %eax, (%rax)
+;;   5a: addb    %al, (%rax)
+;;   5c: addb    %al, (%rax)
+;;   5e: addb    %al, (%rax)
diff --git a/tests/disas/winch/x64/i8x16_abs/const_avx.wat b/tests/disas/winch/x64/i8x16_abs/const_avx.wat
@@ -0,0 +1,39 @@
+;;! target = "x86_64"
+;;! test = "winch"
+;;! flags = [ "-Ccranelift-has-avx" ]
+
+(module
+    (func (result v128)
+        (i8x16.abs (v128.const i8x16 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15))
+    )
+)
+;; wasm[0]::function[0]:
+;;       pushq   %rbp
+;;       movq    %rsp, %rbp
+;;       movq    8(%rdi), %r11
+;;       movq    0x10(%r11), %r11
+;;       addq    $0x10, %r11
+;;       cmpq    %rsp, %r11
+;;       ja      0x3f
+;;   1c: movq    %rdi, %r14
+;;       subq    $0x10, %rsp
+;;       movq    %rdi, 8(%rsp)
+;;       movq    %rsi, (%rsp)
+;;       movdqu  0x1c(%rip), %xmm0
+;;       vpabsb  %xmm0, %xmm0
+;;       addq    $0x10, %rsp
+;;       popq    %rbp
+;;       retq
+;;   3f: ud2
+;;   41: addb    %al, (%rax)
+;;   43: addb    %al, (%rax)
+;;   45: addb    %al, (%rax)
+;;   47: addb    %al, (%rax)
+;;   49: addb    %al, (%rax)
+;;   4b: addb    %al, (%rax)
+;;   4d: addb    %al, (%rax)
+;;   4f: addb    %al, (%rax)
+;;   51: addl    %eax, (%rdx)
+;;   53: addl    0x9080706(, %rax), %eax
+;;   5a: orb     (%rbx), %cl
+;;   5c: orb     $0xd, %al
diff --git a/tests/misc_testsuite/winch/_simd_load.wast b/tests/misc_testsuite/winch/_simd_load.wast
@@ -86,13 +86,13 @@
 ;; )
 ;; (assert_return (invoke "as-f32x4.mul-operand") (v128.const f32x4 256 2 3.6 -2))
 
-;; (module (memory 1)
-;;   (data (offset (i32.const 0)) "\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff")  ;; 1111 ...
-;;   (func (export "as-f32x4.abs-operand") (result v128)
-;;     (f32x4.abs (v128.load (i32.const 0)))
-;;   )
-;; )
-;; (assert_return (invoke "as-f32x4.abs-operand") (v128.const i32x4 0x7fffffff 0x7fffffff 0x7fffffff 0x7fffffff)) ;; 1111 -> 0111
+(module (memory 1)
+  (data (offset (i32.const 0)) "\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff\ff")  ;; 1111 ...
+  (func (export "as-f32x4.abs-operand") (result v128)
+    (f32x4.abs (v128.load (i32.const 0)))
+  )
+)
+(assert_return (invoke "as-f32x4.abs-operand") (v128.const i32x4 0x7fffffff 0x7fffffff 0x7fffffff 0x7fffffff)) ;; 1111 -> 0111
 
 ;; (module (memory 1)
 ;;   (data (offset (i32.const 0)) "\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA\AA")
diff --git a/tests/misc_testsuite/winch/_simd_splat.wast b/tests/misc_testsuite/winch/_simd_splat.wast
@@ -273,8 +273,8 @@
     (f64x2.eq (f64x2.splat (local.get 0)) (f64x2.splat (local.get 1))))
 
   ;; Floating-point sign bit operations
-;;   (func (export "as-f32x4_abs-operand") (param f32) (result v128)
-;;     (f32x4.abs (f32x4.splat (local.get 0))))
+  (func (export "as-f32x4_abs-operand") (param f32) (result v128)
+    (f32x4.abs (f32x4.splat (local.get 0))))
 
   ;; Floating-point min
 ;;   (func (export "as-f32x4_min-operands") (param f32 f32) (result v128)
@@ -336,7 +336,7 @@
 (assert_return (invoke "as-i32x4_eq-operands2" (i64.const 1) (i64.const 2)) (v128.const i64x2 0xffffffff00000000 0xffffffff00000000))
 (assert_return (invoke "as-f64x2_eq-operands" (f64.const +0.0) (f64.const -0.0)) (v128.const i64x2 -1 -1))
 
-;; (assert_return (invoke "as-f32x4_abs-operand" (f32.const -1.125)) (v128.const f32x4 1.125 1.125 1.125 1.125))
+(assert_return (invoke "as-f32x4_abs-operand" (f32.const -1.125)) (v128.const f32x4 1.125 1.125 1.125 1.125))
 ;; (assert_return (invoke "as-f32x4_min-operands" (f32.const 0.25) (f32.const 1e-38)) (v128.const f32x4 1e-38 1e-38 1e-38 1e-38))
 ;; (assert_return (invoke "as-f32x4_div-operands" (f32.const 1.0) (f32.const 8.0)) (v128.const f32x4 0.125 0.125 0.125 0.125))
 
diff --git a/winch/codegen/src/isa/aarch64/masm.rs b/winch/codegen/src/isa/aarch64/masm.rs
@@ -16,8 +16,9 @@ use crate::{
         CalleeKind, DivKind, Extend, ExtendKind, ExtractLaneKind, FloatCmpKind, HandleOverflowKind,
         Imm as I, IntCmpKind, LoadKind, MacroAssembler as Masm, MulWideKind, OperandSize, RegImm,
         RemKind, ReplaceLaneKind, RmwOp, RoundingMode, SPOffset, ShiftKind, SplatKind, StackSlot,
-        StoreKind, TrapCode, TruncKind, V128ConvertKind, V128ExtendKind, V128NarrowKind,
-        VectorCompareKind, VectorEqualityKind, Zero, TRUSTED_FLAGS, UNTRUSTED_FLAGS,
+        StoreKind, TrapCode, TruncKind, V128AbsKind, V128ConvertKind, V128ExtendKind,
+        V128NarrowKind, VectorCompareKind, VectorEqualityKind, Zero, TRUSTED_FLAGS,
+        UNTRUSTED_FLAGS,
     },
     stack::TypedReg,
 };
@@ -1158,6 +1159,10 @@ impl Masm for MacroAssembler {
         Err(anyhow!(CodeGenError::unimplemented_masm_instruction()))
     }
 
+    fn v128_abs(&mut self, _src: Reg, _dst: WritableReg, _kind: V128AbsKind) -> Result<()> {
+        bail!(CodeGenError::unimplemented_masm_instruction())
+    }
+
     fn v128_neg(&mut self, _op: WritableReg, _size: OperandSize) -> Result<()> {
         Err(anyhow!(CodeGenError::unimplemented_masm_instruction()))
     }
diff --git a/winch/codegen/src/isa/x64/asm.rs b/winch/codegen/src/isa/x64/asm.rs
@@ -2096,6 +2096,7 @@ impl Assembler {
     pub fn xmm_vpsrl_rr(&mut self, src: Reg, dst: WritableReg, imm: u32, size: OperandSize) {
         let op = match size {
             OperandSize::S32 => AvxOpcode::Vpsrld,
+            OperandSize::S64 => AvxOpcode::Vpsrlq,
             _ => unimplemented!(),
         };
 
@@ -2111,6 +2112,7 @@ impl Assembler {
     pub fn xmm_vpsub_rrr(&mut self, src1: Reg, src2: Reg, dst: WritableReg, size: OperandSize) {
         let op = match size {
             OperandSize::S32 => AvxOpcode::Vpsubd,
+            OperandSize::S64 => AvxOpcode::Vpsubq,
             _ => unimplemented!(),
         };
 
@@ -2442,6 +2444,56 @@ impl Assembler {
             dst: dst.map(Into::into),
         });
     }
+
+    /// Compute the absolute value of elements in vector `src` and put the
+    /// results in `dst`.
+    pub fn xmm_vpabs_rr(&mut self, src: Reg, dst: WritableReg, size: OperandSize) {
+        let op = match size {
+            OperandSize::S8 => AvxOpcode::Vpabsb,
+            OperandSize::S16 => AvxOpcode::Vpabsw,
+            OperandSize::S32 => AvxOpcode::Vpabsd,
+            _ => unimplemented!(),
+        };
+
+        self.emit(Inst::XmmUnaryRmRVex {
+            op,
+            src: src.into(),
+            dst: dst.to_reg().into(),
+        });
+    }
+
+    /// Arithmetically (sign preserving) right shift on vector in `src` by
+    /// `imm` with result written to `dst`.
+    pub fn xmm_vpsra_rri(&mut self, src: Reg, dst: WritableReg, imm: u32, size: OperandSize) {
+        let op = match size {
+            OperandSize::S32 => AvxOpcode::Vpsrad,
+            _ => unimplemented!(),
+        };
+
+        self.emit(Inst::XmmRmiRVex {
+            op,
+            src1: src.into(),
+            src2: XmmMemImm::unwrap_new(RegMemImm::imm(imm)),
+            dst: dst.to_reg().into(),
+        });
+    }
+
+    /// Perform an `and` operation on vectors of floats in `src1` and `src2`
+    /// and put the results in `dst`.
+    pub fn xmm_vandp_rrr(&mut self, src1: Reg, src2: Reg, dst: WritableReg, size: OperandSize) {
+        let op = match size {
+            OperandSize::S32 => AvxOpcode::Vandps,
+            OperandSize::S64 => AvxOpcode::Vandpd,
+            _ => unimplemented!(),
+        };
+
+        self.emit(Inst::XmmRmiRVex {
+            op,
+            src1: src1.into(),
+            src2: src2.into(),
+            dst: dst.to_reg().into(),
+        });
+    }
 }
 
 /// Captures the region in a MachBuffer where an add-with-immediate instruction would be emitted,
diff --git a/winch/codegen/src/isa/x64/masm.rs b/winch/codegen/src/isa/x64/masm.rs
diff --git a/winch/codegen/src/masm.rs b/winch/codegen/src/masm.rs
diff --git a/winch/codegen/src/visitor.rs b/winch/codegen/src/visitor.rs