Message-ID: <e4df2d68-6106-0c42-e61a-65fff0292a9d@gmail.com>
Date:   Sun, 12 Feb 2023 04:09:37 +0900
MIME-Version: 1.0
User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:102.0) Gecko/20100101
 Thunderbird/102.7.1
Subject: Re: [PATCH] crypto: x86/aria-avx - fix using avx2 instructions
Content-Language: en-US
To:     "Erhard F." <erhard_f@mailbox.org>
Cc:     linux-crypto@vger.kernel.org, herbert@gondor.apana.org.au,
        davem@davemloft.net, x86@kernel.org
References: <20230210181541.2895144-1-ap420073@gmail.com>
 <20230211004855.52a8380c@yea>
From:   Taehee Yoo <ap420073@gmail.com>
In-Reply-To: <20230211004855.52a8380c@yea>
Content-Type: text/plain; charset=UTF-8; format=flowed
Content-Transfer-Encoding: 7bit
Precedence: bulk

On 2/11/23 08:48, Erhard F. wrote:

Hi Erhard,
Thank you so much for the testing!

 > On Fri, 10 Feb 2023 18:15:41 +0000
 > Taehee Yoo <ap420073@gmail.com> wrote:
 >
 >> vpbroadcastb and vpbroadcastd are not AVX instructions.
 >> But the aria-avx assembly code contains these instructions.
 >> So, kernel panic will occur if the aria-avx works on AVX2 unsupported
 >> CPU.
 >>
 >> vbroadcastss, and vpshufb are used to avoid using vpbroadcastb in it.
 >> Unfortunately, this change reduces performance by about 5%.
 >> Also, vpbroadcastd is simply replaced by vmovdqa in it.
 >
 > Thanks Taehee, your patch fixes the issue on my AMD FX-8370!

Nice :)

 >
 > # cryptsetup benchmark -c aria-ctr-plain64
 > # Tests are approximate using memory only (no storage IO).
 > # Algorithm |       Key |      Encryption |      Decryption
 >     aria-ctr        256b       301.3 MiB/s       303.6 MiB/s

Thanks for this benchmark!

 >
 > The patch did not apply cleanly on v6.2-rc7 however. I needed to do 
small trivial modifications on hunk #1 and #21. Perhaps this is useful 
for other users to test so i'll attach it.

Thanks for this :)

 >
 > Regards,
 > Erhard
 >
 > diff --git a/arch/x86/crypto/aria-aesni-avx-asm_64.S 
b/arch/x86/crypto/aria-aesni-avx-asm_64.S
 > index fe0d84a7ced1..9243f6289d34 100644
 > --- a/arch/x86/crypto/aria-aesni-avx-asm_64.S
 > +++ b/arch/x86/crypto/aria-aesni-avx-asm_64.S
 > @@ -271,34 +271,43 @@
 >
 >   #define aria_ark_8way(x0, x1, x2, x3,			\
 >   		      x4, x5, x6, x7,			\
 > -		      t0, rk, idx, round)		\
 > +		      t0, t1, t2, rk,			\
 > +		      idx, round)			\
 >   	/* AddRoundKey */                               \
 > -	vpbroadcastb ((round * 16) + idx + 3)(rk), t0;	\
 > -	vpxor t0, x0, x0;				\
 > -	vpbroadcastb ((round * 16) + idx + 2)(rk), t0;	\
 > -	vpxor t0, x1, x1;				\
 > -	vpbroadcastb ((round * 16) + idx + 1)(rk), t0;	\
 > -	vpxor t0, x2, x2;				\
 > -	vpbroadcastb ((round * 16) + idx + 0)(rk), t0;	\
 > -	vpxor t0, x3, x3;				\
 > -	vpbroadcastb ((round * 16) + idx + 7)(rk), t0;	\
 > -	vpxor t0, x4, x4;				\
 > -	vpbroadcastb ((round * 16) + idx + 6)(rk), t0;	\
 > -	vpxor t0, x5, x5;				\
 > -	vpbroadcastb ((round * 16) + idx + 5)(rk), t0;	\
 > -	vpxor t0, x6, x6;				\
 > -	vpbroadcastb ((round * 16) + idx + 4)(rk), t0;	\
 > -	vpxor t0, x7, x7;
 > +	vbroadcastss ((round * 16) + idx + 0)(rk), t0;	\
 > +	vpsrld $24, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x0, x0;				\
 > +	vpsrld $16, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x1, x1;				\
 > +	vpsrld $8, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x2, x2;				\
 > +	vpshufb t1, t0, t2;				\
 > +	vpxor t2, x3, x3;				\
 > +	vbroadcastss ((round * 16) + idx + 4)(rk), t0;	\
 > +	vpsrld $24, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x4, x4;				\
 > +	vpsrld $16, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x5, x5;				\
 > +	vpsrld $8, t0, t2;				\
 > +	vpshufb t1, t2, t2;				\
 > +	vpxor t2, x6, x6;				\
 > +	vpshufb t1, t0, t2;				\
 > +	vpxor t2, x7, x7;
 >
 >   #define aria_sbox_8way_gfni(x0, x1, x2, x3,		\
 >   			    x4, x5, x6, x7,		\
 >   			    t0, t1, t2, t3,		\
 >   			    t4, t5, t6, t7)		\
 > -	vpbroadcastq .Ltf_s2_bitmatrix, t0;		\
 > -	vpbroadcastq .Ltf_inv_bitmatrix, t1;		\
 > -	vpbroadcastq .Ltf_id_bitmatrix, t2;		\
 > -	vpbroadcastq .Ltf_aff_bitmatrix, t3;		\
 > -	vpbroadcastq .Ltf_x2_bitmatrix, t4;		\
 > +	vmovdqa .Ltf_s2_bitmatrix, t0;			\
 > +	vmovdqa .Ltf_inv_bitmatrix, t1;			\
 > +	vmovdqa .Ltf_id_bitmatrix, t2;			\
 > +	vmovdqa .Ltf_aff_bitmatrix, t3;			\
 > +	vmovdqa .Ltf_x2_bitmatrix, t4;			\
 >   	vgf2p8affineinvqb $(tf_s2_const), t0, x1, x1;	\
 >   	vgf2p8affineinvqb $(tf_s2_const), t0, x5, x5;	\
 >   	vgf2p8affineqb $(tf_inv_const), t1, x2, x2;	\
 > @@ -315,10 +324,9 @@
 >   		       x4, x5, x6, x7,			\
 >   		       t0, t1, t2, t3,			\
 >   		       t4, t5, t6, t7)			\
 > -	vpxor t7, t7, t7;				\
 >   	vmovdqa .Linv_shift_row, t0;			\
 >   	vmovdqa .Lshift_row, t1;			\
 > -	vpbroadcastd .L0f0f0f0f, t6;			\
 > +	vbroadcastss .L0f0f0f0f, t6;			\
 >   	vmovdqa .Ltf_lo__inv_aff__and__s2, t2;		\
 >   	vmovdqa .Ltf_hi__inv_aff__and__s2, t3;		\
 >   	vmovdqa .Ltf_lo__x2__and__fwd_aff, t4;		\
 > @@ -413,8 +421,9 @@
 >   		y0, y1, y2, y3,				\
 >   		y4, y5, y6, y7,				\
 >   		mem_tmp, rk, round)			\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way(x2, x3, x0, x1, x6, x7, x4, x5,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 > @@ -429,7 +438,7 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way(x2, x3, x0, x1, x6, x7, x4, x5,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 > @@ -467,8 +476,9 @@
 >   		y0, y1, y2, y3,				\
 >   		y4, y5, y6, y7,				\
 >   		mem_tmp, rk, round)			\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 > @@ -483,7 +493,7 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 > @@ -521,14 +531,15 @@
 >   		y0, y1, y2, y3,				\
 >   		y4, y5, y6, y7,				\
 >   		mem_tmp, rk, round, last_round)		\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way(x2, x3, x0, x1, x6, x7, x4, x5,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 >   							\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, last_round);		\
 > +		      y0, y7, y2, rk, 8, last_round);	\
 >   							\
 >   	aria_store_state_8way(x0, x1, x2, x3,		\
 >   			      x4, x5, x6, x7,		\
 > @@ -538,13 +549,13 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way(x2, x3, x0, x1, x6, x7, x4, x5,	\
 >   		       y0, y1, y2, y3, y4, y5, y6, y7);	\
 >   							\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, last_round);		\
 > +		      y0, y7, y2, rk, 0, last_round);	\
 >   							\
 >   	aria_load_state_8way(y0, y1, y2, y3,		\
 >   			     y4, y5, y6, y7,		\
 > @@ -556,8 +567,9 @@
 >   		     y0, y1, y2, y3,			\
 >   		     y4, y5, y6, y7,			\
 >   		     mem_tmp, rk, round)		\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x2, x3, x0, x1, 		\
 >   			    x6, x7, x4, x5,		\
 > @@ -574,7 +586,7 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x2, x3, x0, x1, 		\
 >   			    x6, x7, x4, x5,		\
 > @@ -614,8 +626,9 @@
 >   		     y0, y1, y2, y3,			\
 >   		     y4, y5, y6, y7,			\
 >   		     mem_tmp, rk, round)		\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x0, x1, x2, x3, 		\
 >   			    x4, x5, x6, x7,		\
 > @@ -632,7 +645,7 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x0, x1, x2, x3, 		\
 >   			    x4, x5, x6, x7,		\
 > @@ -672,8 +685,9 @@
 >   		y0, y1, y2, y3,				\
 >   		y4, y5, y6, y7,				\
 >   		mem_tmp, rk, round, last_round)		\
 > +	vpxor y7, y7, y7;				\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, round);		\
 > +		      y0, y7, y2, rk, 8, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x2, x3, x0, x1, 		\
 >   			    x6, x7, x4, x5,		\
 > @@ -681,7 +695,7 @@
 >   			    y4, y5, y6, y7);		\
 >   							\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 8, last_round);		\
 > +		      y0, y7, y2, rk, 8, last_round);	\
 >   							\
 >   	aria_store_state_8way(x0, x1, x2, x3,		\
 >   			      x4, x5, x6, x7,		\
 > @@ -691,7 +705,7 @@
 >   			     x4, x5, x6, x7,		\
 >   			     mem_tmp, 0);		\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, round);		\
 > +		      y0, y7, y2, rk, 0, round);	\
 >   							\
 >   	aria_sbox_8way_gfni(x2, x3, x0, x1, 		\
 >   			    x6, x7, x4, x5,		\
 > @@ -699,7 +713,7 @@
 >   			    y4, y5, y6, y7);		\
 >   							\
 >   	aria_ark_8way(x0, x1, x2, x3, x4, x5, x6, x7,	\
 > -		      y0, rk, 0, last_round);		\
 > +		      y0, y7, y2, rk, 0, last_round);	\
 >   							\
 >   	aria_load_state_8way(y0, y1, y2, y3,		\
 >   			     y4, y5, y6, y7,		\
 > @@ -772,6 +786,14 @@
 >   		    BV8(0, 1, 1, 1, 1, 1, 0, 0),
 >   		    BV8(0, 0, 1, 1, 1, 1, 1, 0),
 >   		    BV8(0, 0, 0, 1, 1, 1, 1, 1))
 > +	.quad BM8X8(BV8(1, 0, 0, 0, 1, 1, 1, 1),
 > +		    BV8(1, 1, 0, 0, 0, 1, 1, 1),
 > +		    BV8(1, 1, 1, 0, 0, 0, 1, 1),
 > +		    BV8(1, 1, 1, 1, 0, 0, 0, 1),
 > +		    BV8(1, 1, 1, 1, 1, 0, 0, 0),
 > +		    BV8(0, 1, 1, 1, 1, 1, 0, 0),
 > +		    BV8(0, 0, 1, 1, 1, 1, 1, 0),
 > +		    BV8(0, 0, 0, 1, 1, 1, 1, 1))
 >
 >   /* AES inverse affine: */
 >   #define tf_inv_const BV8(1, 0, 1, 0, 0, 0, 0, 0)
 > @@ -784,6 +806,14 @@
 >   		    BV8(0, 0, 1, 0, 1, 0, 0, 1),
 >   		    BV8(1, 0, 0, 1, 0, 1, 0, 0),
 >   		    BV8(0, 1, 0, 0, 1, 0, 1, 0))
 > +	.quad BM8X8(BV8(0, 0, 1, 0, 0, 1, 0, 1),
 > +		    BV8(1, 0, 0, 1, 0, 0, 1, 0),
 > +		    BV8(0, 1, 0, 0, 1, 0, 0, 1),
 > +		    BV8(1, 0, 1, 0, 0, 1, 0, 0),
 > +		    BV8(0, 1, 0, 1, 0, 0, 1, 0),
 > +		    BV8(0, 0, 1, 0, 1, 0, 0, 1),
 > +		    BV8(1, 0, 0, 1, 0, 1, 0, 0),
 > +		    BV8(0, 1, 0, 0, 1, 0, 1, 0))
 >
 >   /* S2: */
 >   #define tf_s2_const BV8(0, 1, 0, 0, 0, 1, 1, 1)
 > @@ -796,6 +826,14 @@
 >   		    BV8(1, 1, 0, 0, 1, 1, 1, 0),
 >   		    BV8(0, 1, 1, 0, 0, 0, 1, 1),
 >   		    BV8(1, 1, 1, 1, 0, 1, 1, 0))
 > +	.quad BM8X8(BV8(0, 1, 0, 1, 0, 1, 1, 1),
 > +		    BV8(0, 0, 1, 1, 1, 1, 1, 1),
 > +		    BV8(1, 1, 1, 0, 1, 1, 0, 1),
 > +		    BV8(1, 1, 0, 0, 0, 0, 1, 1),
 > +		    BV8(0, 1, 0, 0, 0, 0, 1, 1),
 > +		    BV8(1, 1, 0, 0, 1, 1, 1, 0),
 > +		    BV8(0, 1, 1, 0, 0, 0, 1, 1),
 > +		    BV8(1, 1, 1, 1, 0, 1, 1, 0))
 >
 >   /* X2: */
 >   #define tf_x2_const BV8(0, 0, 1, 1, 0, 1, 0, 0)
 > @@ -808,6 +846,14 @@
 >   		    BV8(0, 1, 1, 0, 1, 0, 1, 1),
 >   		    BV8(1, 0, 1, 1, 1, 1, 0, 1),
 >   		    BV8(1, 0, 0, 1, 0, 0, 1, 1))
 > +	.quad BM8X8(BV8(0, 0, 0, 1, 1, 0, 0, 0),
 > +		    BV8(0, 0, 1, 0, 0, 1, 1, 0),
 > +		    BV8(0, 0, 0, 0, 1, 0, 1, 0),
 > +		    BV8(1, 1, 1, 0, 0, 0, 1, 1),
 > +		    BV8(1, 1, 1, 0, 1, 1, 0, 0),
 > +		    BV8(0, 1, 1, 0, 1, 0, 1, 1),
 > +		    BV8(1, 0, 1, 1, 1, 1, 0, 1),
 > +		    BV8(1, 0, 0, 1, 0, 0, 1, 1))
 >
 >   /* Identity matrix: */
 >   .Ltf_id_bitmatrix:
 > @@ -862,6 +862,14 @@
 >   		    BV8(0, 0, 0, 0, 0, 1, 0, 0),
 >   		    BV8(0, 0, 0, 0, 0, 0, 1, 0),
 >   		    BV8(0, 0, 0, 0, 0, 0, 0, 1))
 > +	.quad BM8X8(BV8(1, 0, 0, 0, 0, 0, 0, 0),
 > +		    BV8(0, 1, 0, 0, 0, 0, 0, 0),
 > +		    BV8(0, 0, 1, 0, 0, 0, 0, 0),
 > +		    BV8(0, 0, 0, 1, 0, 0, 0, 0),
 > +		    BV8(0, 0, 0, 0, 1, 0, 0, 0),
 > +		    BV8(0, 0, 0, 0, 0, 1, 0, 0),
 > +		    BV8(0, 0, 0, 0, 0, 0, 1, 0),
 > +		    BV8(0, 0, 0, 0, 0, 0, 0, 1))
 >
 >   /* 4-bit mask */
 >   .section	.rodata.cst4.L0f0f0f0f, "aM", @progbits, 4

Thank you so much,
Taehee Yoo