LinuxLists.cc - [PATCH] x86: Run checksumming in parallel accross multiple alu's

2013-10-11 16:52:18

Subject: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Sébastien Dugué reported to me that devices implementing ipoib (which don't have
checksum offload hardware were spending a significant amount of time computing
checksums. We found that by splitting the checksum computation into two
separate streams, each skipping successive elements of the buffer being summed,
we could parallelize the checksum operation accros multiple alus. Since neither
chain is dependent on the result of the other, we get a speedup in execution (on
hardware that has multiple alu's available, which is almost ubiquitous on x86),
and only a negligible decrease on hardware that has only a single alu (an extra
addition is introduced). Since addition in commutative, the result is the same,
only faster

Signed-off-by: Neil Horman <[email protected]>
CC: [email protected]
CC: Thomas Gleixner <[email protected]>
CC: Ingo Molnar <[email protected]>
CC: "H. Peter Anvin" <[email protected]>
CC: [email protected]
---
arch/x86/lib/csum-partial_64.c | 37 +++++++++++++++++++++++++------------
1 file changed, 25 insertions(+), 12 deletions(-)

diff --git a/arch/x86/lib/csum-partial_64.c b/arch/x86/lib/csum-partial_64.c
index 9845371..2c7bc50 100644
--- a/arch/x86/lib/csum-partial_64.c
+++ b/arch/x86/lib/csum-partial_64.c
@@ -29,11 +29,12 @@ static inline unsigned short from32to16(unsigned a)
* Things tried and found to not make it faster:
* Manual Prefetching
* Unrolling to an 128 bytes inner loop.
- * Using interleaving with more registers to break the carry chains.
*/
static unsigned do_csum(const unsigned char *buff, unsigned len)
{
unsigned odd, count;
+ unsigned long result1 = 0;
+ unsigned long result2 = 0;
unsigned long result = 0;

if (unlikely(len == 0))
@@ -68,22 +69,34 @@ static unsigned do_csum(const unsigned char *buff, unsigned len)
zero = 0;
count64 = count >> 3;
while (count64) {
- asm("addq 0*8(%[src]),%[res]\n\t"
- "adcq 1*8(%[src]),%[res]\n\t"
- "adcq 2*8(%[src]),%[res]\n\t"
- "adcq 3*8(%[src]),%[res]\n\t"
- "adcq 4*8(%[src]),%[res]\n\t"
- "adcq 5*8(%[src]),%[res]\n\t"
- "adcq 6*8(%[src]),%[res]\n\t"
- "adcq 7*8(%[src]),%[res]\n\t"
- "adcq %[zero],%[res]"
- : [res] "=r" (result)
+ asm("addq 0*8(%[src]),%[res1]\n\t"
+ "adcq 2*8(%[src]),%[res1]\n\t"
+ "adcq 4*8(%[src]),%[res1]\n\t"
+ "adcq 6*8(%[src]),%[res1]\n\t"
+ "adcq %[zero],%[res1]\n\t"
+
+ "addq 1*8(%[src]),%[res2]\n\t"
+ "adcq 3*8(%[src]),%[res2]\n\t"
+ "adcq 5*8(%[src]),%[res2]\n\t"
+ "adcq 7*8(%[src]),%[res2]\n\t"
+ "adcq %[zero],%[res2]"
+ : [res1] "=r" (result1),
+ [res2] "=r" (result2)
: [src] "r" (buff), [zero] "r" (zero),
- "[res]" (result));
+ "[res1]" (result1), "[res2]" (result2));
buff += 64;
count64--;
}

+ asm("addq %[res1],%[res]\n\t"
+ "adcq %[res2],%[res]\n\t"
+ "adcq %[zero],%[res]"
+ : [res] "=r" (result)
+ : [res1] "r" (result1),
+ [res2] "r" (result2),
+ [zero] "r" (zero),
+ "0" (result));
+
/* last up to 7 8byte blocks */
count %= 8;
while (count) {
--
1.8.3.1

2013-10-12 17:21:29

by Ingo Molnar

[permalink] [raw]

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

* Neil Horman <[email protected]> wrote:

> S?bastien Dugu? reported to me that devices implementing ipoib (which
> don't have checksum offload hardware were spending a significant amount
> of time computing checksums. We found that by splitting the checksum
> computation into two separate streams, each skipping successive elements
> of the buffer being summed, we could parallelize the checksum operation
> accros multiple alus. Since neither chain is dependent on the result of
> the other, we get a speedup in execution (on hardware that has multiple
> alu's available, which is almost ubiquitous on x86), and only a
> negligible decrease on hardware that has only a single alu (an extra
> addition is introduced). Since addition in commutative, the result is
> the same, only faster

This patch should really come with measurement numbers: what performance
increase (and drop) did you get on what CPUs.

Thanks,

Ingo

2013-10-12 22:30:39

by H. Peter Anvin

[permalink] [raw]

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

On 10/11/2013 09:51 AM, Neil Horman wrote:
> Sébastien Dugué reported to me that devices implementing ipoib (which don't have
> checksum offload hardware were spending a significant amount of time computing
> checksums. We found that by splitting the checksum computation into two
> separate streams, each skipping successive elements of the buffer being summed,
> we could parallelize the checksum operation accros multiple alus. Since neither
> chain is dependent on the result of the other, we get a speedup in execution (on
> hardware that has multiple alu's available, which is almost ubiquitous on x86),
> and only a negligible decrease on hardware that has only a single alu (an extra
> addition is introduced). Since addition in commutative, the result is the same,
> only faster

On hardware that implement ADCX/ADOX then you should also be able to
have additional streams interleaved since those instructions allow for
dual carry chains.

-hpa

2013-10-13 12:53:16

Subject: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Attachments:

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Attachments:

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's

Subject: Re: [PATCH] x86: Run checksumming in parallel accross multiple alu's