Rewrite, adding mpn_addmul_2s entry point.

author: Torbjorn Granlund <tege@gmplib.org> 2011-01-23 15:39:08 +0100
committer: Torbjorn Granlund <tege@gmplib.org> 2011-01-23 15:39:08 +0100
commit: 82396b060de297c43ad7a0cdeec9b8907b1ead7d (patch)
tree: c7f7ad69ddb4af6d77804dccf430a3c90faca56d /mpn/ia64
parent: 6479df279605abcc20ef9d6d426b35a0ad860d77 (diff)
download: gmp-82396b060de297c43ad7a0cdeec9b8907b1ead7d.tar.gz
1 files changed, 555 insertions, 514 deletions
diff --git a/mpn/ia64/addmul_2.asm b/mpn/ia64/addmul_2.asm
index 6089dcc36..5f8d8fb20 100644
--- a/mpn/ia64/addmul_2.asm
+++ b/mpn/ia64/addmul_2.asm
@@ -3,7 +3,7 @@ dnl  add the result to a (n+1)-limb number.
 
 dnl  Contributed to the GNU project by Torbjorn Granlund.
 
-dnl  Copyright 2004, 2005 Free Software Foundation, Inc.
+dnl  Copyright 2004, 2005, 2011 Free Software Foundation, Inc.
 
 dnl  This file is part of the GNU MP Library.
 
@@ -32,10 +32,8 @@ C please change that file too.
 C TODO
 C  * Clean up variable names, and try to decrease the number of distinct
 C    registers used.
-C  * Cleanup feed-in code to not require zeroing several registers.
-C  * Make sure we don't depend on uninitialized predicate registers.
-C  * We currently cross-jump very aggressively, at the expense of a few cycles
-C    per operation.  Consider changing that.
+C  * Clean up feed-in code to not require zeroing several registers.
+C  * Make sure we don't depend on uninitialised predicate registers.
 C  * Could perhaps save a few cycles by using 1 c/l carry propagation in
 C    wind-down code.
 C  * Ultimately rewrite.  The problem with this code is that it first uses a
@@ -96,564 +94,607 @@ define(`ry',`f50')
 define(`uy',`f51')
 
 ASM_START()
+PROLOGUE(mpn_addmul_2s)
+	.prologue
+	.save	ar.lc, r2
+	.body
+
+ifdef(`HAVE_ABI_32',`
+.mmi;		addp4	rp = 0, rp		C			M I
+		addp4	up = 0, up		C			M I
+		addp4	vp = 0, vp		C			M I
+.mmi;		nop	1
+		nop	1
+		zxt4	n = n			C			I
+	;;')
+
+.mmi;		ldf8	ux = [up], 8		C			M
+		ldf8	v0 = [vp], 8		C			M
+		mov	r2 = ar.lc		C			I0
+.mmi;		ldf8	rx = [rp], 8		C			M
+		and	r14 = 3, n		C			M I
+		add	n = -2, n		C			M I
+	;;
+.mmi;		ldf8	uy = [up], 8		C			M
+		ldf8	v1 = [vp]		C			M
+		shr.u	n = n, 2		C			I0
+.mmi;		ldf8	ry = [rp], -8		C			M
+		cmp.eq	p14, p0 = 1, r14	C			M I
+		cmp.eq	p11, p0 = 2, r14	C			M I
+	;;
+.mmi;		add	srp = 16, rp		C			M I
+		cmp.eq	p15, p0 = 3, r14	C			M I
+		mov	ar.lc = n		C			I0
+.bbb;	(p14)	br.dptk	L(x01)			C			B
+	(p11)	br.dptk	L(x10)			C			B
+	(p15)	br.dptk	L(x11)			C			B
+	;;
+
+L(x00):		cmp.ne	p6, p0 = r0, r0		C suppress initial xma pair
+		mov	fp2a_3 = f0
+		br	L(b00)
+L(x01):		cmp.ne	p14, p0 = r0, r0	C suppress initial xma pair
+		mov	fp2a_2 = f0
+		br	L(b01)
+L(x10):		cmp.ne	p11, p0 = r0, r0	C suppress initial xma pair
+		mov	fp2a_1 = f0
+		br	L(b10)
+L(x11):		cmp.ne	p15, p0 = r0, r0	C suppress initial xma pair
+		mov	fp2a_0 = f0
+		br	L(b11)
+
+EPILOGUE()
+
 PROLOGUE(mpn_addmul_2)
 	.prologue
 	.save	ar.lc, r2
 	.body
 
 ifdef(`HAVE_ABI_32',
-`	addp4		rp = 0, rp		C			M I
-	addp4		up = 0, up		C			M I
-	addp4		vp = 0, vp		C			M I
-	zxt4		n = n			C			I
+`		addp4	rp = 0, rp		C			M I
+		addp4	up = 0, up		C			M I
+		addp4	vp = 0, vp		C			M I
+		nop	1
+		nop	1
+		zxt4	n = n			C			I
 	;;')
 
-{.mmi		C 00
-	ldf8		ux = [up], 8		C			M
-	ldf8		v0 = [vp], 8		C			M
-	mov.i		r2 = ar.lc		C			I0
-}{.mmi
-	ldf8		rx = [rp], 8		C			M
-	and		r14 = 3, n		C			M I
-	add		n = -2, n		C			M I
-	;;
-}{.mmi		C 01
-	ldf8		uy = [up], 8		C			M
-	ldf8		v1 = [vp]		C			M
-	shr.u		n = n, 2		C			I0
-}{.mmi
-	ldf8		ry = [rp], -8		C			M
-	cmp.eq		p10, p0 = 1, r14	C			M I
-	cmp.eq		p11, p0 = 2, r14	C			M I
-	;;
-}{.mmi		C 02
-	add		srp = 16, rp		C			M I
-	cmp.eq		p12, p0 = 3, r14	C			M I
-	mov.i		ar.lc = n		C			I0
-}{.bbb
-  (p10) br.dptk		.Lb01			C			B
-  (p11) br.dptk		.Lb10			C			B
-  (p12) br.dptk		.Lb11			C			B
-	;;
-}
+.mmi;		ldf8	ux = [up], 8		C			M
+		ldf8	v0 = [vp], 8		C			M
+		mov	r2 = ar.lc		C			I0
+.mmi;		ldf8	rx = [rp], 8		C			M
+		and	r14 = 3, n		C			M I
+		add	n = -2, n		C			M I
+	;;
+.mmi;		ldf8	uy = [up], 8		C			M
+		ldf8	v1 = [vp]		C			M
+		shr.u	n = n, 2		C			I0
+.mmi;		ldf8	ry = [rp], -8		C			M
+		cmp.eq	p14, p0 = 1, r14	C			M I
+		cmp.eq	p11, p0 = 2, r14	C			M I
+	;;
+.mmi;		add	srp = 16, rp		C			M I
+		cmp.eq	p15, p6 = 3, r14	C			M I
+		mov	ar.lc = n		C			I0
+.bbb;	(p14)	br.dptk	L(b01)			C			B
+	(p11)	br.dptk	L(b10)			C			B
+	(p15)	br.dptk	L(b11)			C			B
+	;;
 
 	ALIGN(32)
-.Lb00:	ldf8		r_1 = [srp], 8
-	ldf8		u_1 = [up], 8
-	mov		acc1_2 = 0
-	mov		pr1_2 = 0
-	mov		pr0_3 = 0
-	cmp.ne		p8, p9 = r0, r0
-	;;
-	ldf8		r_2 = [srp], 8
-	xma.l		fp0b_3 = ux, v0, rx
-	cmp.ne		p12, p13 = r0, r0
-	ldf8		u_2 = [up], 8
-	xma.hu		fp1a_3 = ux, v0, rx
-	br.cloop.dptk	.grt4
-
-	xma.l		fp0b_0 = uy, v0, ry
-	xma.hu		fp1a_0 = uy, v0, ry
-	;;
-	getf.sig	acc0 = fp0b_3
-	xma.l		fp1b_3 = ux, v1, fp1a_3
-	xma.hu		fp2a_3 = ux, v1, fp1a_3
-	;;
-	xma.l		fp0b_1 = u_1, v0, r_1
-	xma.hu		fp1a_1 = u_1, v0, r_1
-	;;
-	getf.sig	pr0_0 = fp0b_0
-	xma.l		fp1b_0 = uy, v1, fp1a_0
-	xma.hu		fp2a_0 = uy, v1, fp1a_0
-	;;
-	getf.sig	pr1_3 = fp1b_3
-	getf.sig	acc1_3 = fp2a_3
-	xma.l		fp0b_2 = u_2, v0, r_2
-	xma.hu		fp1a_2 = u_2, v0, r_2
-	br		.Lcj4
-
-.grt4:	xma.l		fp0b_0 = uy, v0, ry
-	xma.hu		fp1a_0 = uy, v0, ry
-	;;
-	ldf8		r_3 = [srp], 8
-	getf.sig	acc0 = fp0b_3
-	xma.l		fp1b_3 = ux, v1, fp1a_3
-	ldf8		u_3 = [up], 8
-	xma.hu		fp2a_3 = ux, v1, fp1a_3
-	;;
-	xma.l		fp0b_1 = u_1, v0, r_1
-	xma.hu		fp1a_1 = u_1, v0, r_1
-	;;
-	ldf8		r_0 = [srp], 8
-	getf.sig	pr0_0 = fp0b_0
-	xma.l		fp1b_0 = uy, v1, fp1a_0
-	xma.hu		fp2a_0 = uy, v1, fp1a_0
-	;;
-	ldf8		u_0 = [up], 8
-	getf.sig	pr1_3 = fp1b_3
-	;;
-	getf.sig	acc1_3 = fp2a_3
-	xma.l		fp0b_2 = u_2, v0, r_2
-	xma.hu		fp1a_2 = u_2, v0, r_2
-	br		.LL00
+L(b00):
+.mmi;		ldf8	r_1 = [srp], 8
+		ldf8	u_1 = [up], 8
+		mov	acc1_2 = 0
+.mmi;		mov	pr1_2 = 0
+		mov	pr0_3 = 0
+		cmp.ne	p8, p9 = r0, r0
+	;;
+.mfi;		ldf8	r_2 = [srp], 8
+		xma.l	fp0b_3 = ux, v0, rx
+		cmp.ne	p12, p13 = r0, r0
+.mfb;		ldf8	u_2 = [up], 8
+		xma.hu	fp1b_3 = ux, v0, rx
+		br.cloop.dptk	L(gt4)
+
+		xma.l	fp0b_0 = uy, v0, ry
+		xma.hu	fp1a_0 = uy, v0, ry
+	;;
+		getfsig	acc0 = fp0b_3
+	(p6)	xma.hu	fp2a_3 = ux, v1, fp1b_3		C suppressed for addmul_2s
+	(p6)	xma.l	fp1b_3 = ux, v1, fp1b_3		C suppressed for addmul_2s
+	;;
+		xma.l	fp0b_1 = u_1, v0, r_1
+		xma.hu	fp1a_1 = u_1, v0, r_1
+	;;
+		getfsig	pr0_0 = fp0b_0
+		xma.l	fp1b_0 = uy, v1, fp1a_0
+		xma.hu	fp2a_0 = uy, v1, fp1a_0
+	;;
+		getfsig	pr1_3 = fp1b_3
+		getfsig	acc1_3 = fp2a_3
+		xma.l	fp0b_2 = u_2, v0, r_2
+		xma.hu	fp1a_2 = u_2, v0, r_2
+		br	L(cj4)
+
+L(gt4):		xma.l	fp0b_0 = uy, v0, ry
+		xma.hu	fp1a_0 = uy, v0, ry
+	;;
+		ldf8	r_3 = [srp], 8
+		getfsig	acc0 = fp0b_3
+	(p6)	xma.hu	fp2a_3 = ux, v1, fp1b_3		C suppressed for addmul_2s
+		ldf8	u_3 = [up], 8
+	(p6)	xma.l	fp1b_3 = ux, v1, fp1b_3		C suppressed for addmul_2s
+	;;
+		xma.l	fp0b_1 = u_1, v0, r_1
+		xma.hu	fp1a_1 = u_1, v0, r_1
+	;;
+		ldf8	r_0 = [srp], 8
+		getfsig	pr0_0 = fp0b_0
+		xma.l	fp1b_0 = uy, v1, fp1a_0
+		xma.hu	fp2a_0 = uy, v1, fp1a_0
+	;;
+		ldf8	u_0 = [up], 8
+		getfsig	pr1_3 = fp1b_3
+		xma.l	fp0b_2 = u_2, v0, r_2
+	;;
+		getfsig	acc1_3 = fp2a_3
+		xma.hu	fp1a_2 = u_2, v0, r_2
+		br	L(00)
 
 
 	ALIGN(32)
-.Lb01:	ldf8		r_0 = [srp], 8		C M
-	ldf8		u_0 = [up], 8		C M
-	mov		acc1_1 = 0		C M I
-	mov		pr1_1 = 0		C M I
-	mov		pr0_2 = 0		C M I
-	cmp.ne		p6, p7 = r0, r0		C M I
-	;;
-	ldf8		r_1 = [srp], 8		C M
-	xma.l		fp0b_2 = ux, v0, rx	C F
-	cmp.ne		p10, p11 = r0, r0	C M I
-	ldf8		u_1 = [up], 8		C M
-	xma.hu		fp1a_2 = ux, v0, rx	C F
-	;;
-	xma.l		fp0b_3 = uy, v0, ry	C F
-	xma.hu		fp1a_3 = uy, v0, ry	C F
-	;;
-	getf.sig	acc0 = fp0b_2		C M
-	ldf8		r_2 = [srp], 8		C M
-	xma.l		fp1b_2 = ux, v1,fp1a_2	C F
-	xma.hu		fp2a_2 = ux, v1,fp1a_2	C F
-	ldf8		u_2 = [up], 8		C M
-	br.cloop.dptk	.grt5
-
-	xma.l		fp0b_0 = u_0, v0, r_0	C F
-	xma.hu		fp1a_0 = u_0, v0, r_0	C F
-	;;
-	getf.sig	pr0_3 = fp0b_3		C M
-	xma.l		fp1b_3 = uy, v1,fp1a_3	C F
-	xma.hu		fp2a_3 = uy, v1,fp1a_3	C F
-	;;
-	getf.sig	pr1_2 = fp1b_2		C M
-	getf.sig	acc1_2 = fp2a_2		C M
-	xma.l		fp0b_1 = u_1, v0, r_1	C F
-	xma.hu		fp1a_1 = u_1, v0, r_1	C F
-	br		.Lcj5
-
-.grt5:	xma.l		fp0b_0 = u_0, v0, r_0
-	xma.hu		fp1a_0 = u_0, v0, r_0
-	;;
-	getf.sig	pr0_3 = fp0b_3
-	ldf8		r_3 = [srp], 8
-	xma.l		fp1b_3 = uy, v1, fp1a_3
-	xma.hu		fp2a_3 = uy, v1, fp1a_3
-	;;
-	ldf8		u_3 = [up], 8
-	getf.sig	pr1_2 = fp1b_2
-	;;
-	getf.sig	acc1_2 = fp2a_2
-	xma.l		fp0b_1 = u_1, v0, r_1
-	xma.hu		fp1a_1 = u_1, v0, r_1
-	br		.LL01
+L(b01):
+.mmi;		ldf8	r_0 = [srp], 8		C M
+		ldf8	u_0 = [up], 8		C M
+		mov	acc1_1 = 0		C M I
+.mmi;		mov	pr1_1 = 0		C M I
+		mov	pr0_2 = 0		C M I
+		cmp.ne	p6, p7 = r0, r0		C M I
+	;;
+.mfi;		ldf8	r_1 = [srp], 8		C M
+		xma.l	fp0b_2 = ux, v0, rx	C F
+		cmp.ne	p10, p11 = r0, r0	C M I
+.mfi;		ldf8	u_1 = [up], 8		C M
+		xma.hu	fp1b_2 = ux, v0, rx	C F
+		nop	1
+	;;
+		xma.l	fp0b_3 = uy, v0, ry	C F
+		xma.hu	fp1a_3 = uy, v0, ry	C F
+	;;
+.mmf;		getfsig	acc0 = fp0b_2		C M
+		ldf8	r_2 = [srp], 8		C M
+	(p14)	xma.hu	fp2a_2 = ux, v1,fp1b_2	C F	suppressed for addmul_2s
+.mfb;		ldf8	u_2 = [up], 8		C M
+	(p14)	xma.l	fp1b_2 = ux, v1,fp1b_2	C F	suppressed for addmul_2s
+		br.cloop.dptk	L(gt5)
+
+		xma.l	fp0b_0 = u_0, v0, r_0	C F
+		xma.hu	fp1a_0 = u_0, v0, r_0	C F
+	;;
+		getfsig	pr0_3 = fp0b_3		C M
+		xma.l	fp1b_3 = uy, v1,fp1a_3	C F
+		xma.hu	fp2a_3 = uy, v1,fp1a_3	C F
+	;;
+		getfsig	pr1_2 = fp1b_2		C M
+		getfsig	acc1_2 = fp2a_2		C M
+		xma.l	fp0b_1 = u_1, v0, r_1	C F
+		xma.hu	fp1a_1 = u_1, v0, r_1	C F
+		br	L(cj5)
+
+L(gt5):		xma.l	fp0b_0 = u_0, v0, r_0
+		xma.hu	fp1a_0 = u_0, v0, r_0
+	;;
+		getfsig	pr0_3 = fp0b_3
+		ldf8	r_3 = [srp], 8
+		xma.l	fp1b_3 = uy, v1, fp1a_3
+		xma.hu	fp2a_3 = uy, v1, fp1a_3
+	;;
+		ldf8	u_3 = [up], 8
+		getfsig	pr1_2 = fp1b_2
+		xma.l	fp0b_1 = u_1, v0, r_1
+	;;
+		getfsig	acc1_2 = fp2a_2
+		xma.hu	fp1a_1 = u_1, v0, r_1
+		br	L(01)
 
 
 	ALIGN(32)
-.Lb10:		C 03
-	br.cloop.dptk	.grt2
-		C 04
-		C 05
-		C 06
-	xma.l		fp0b_1 = ux, v0, rx
-	xma.hu		fp1a_1 = ux, v0, rx
-	;;	C 07
-	xma.l		fp0b_2 = uy, v0, ry
-	xma.hu		fp1a_2 = uy, v0, ry
-	;;	C 08
-		C 09
-		C 10
-	stf8		[rp] = fp0b_1, 8
-	xma.l		fp1b_1 = ux, v1, fp1a_1
-	xma.hu		fp2a_1 = ux, v1, fp1a_1
-	;;	C 11
-	getf.sig	acc0 = fp0b_2
-	xma.l		fp1b_2 = uy, v1, fp1a_2
-	xma.hu		fp2a_2 = uy, v1, fp1a_2
-	;;	C 12
-		C 13
-		C 14
-	getf.sig	pr1_1 = fp1b_1
-		C 15
-	getf.sig	acc1_1 = fp2a_1
-		C 16
-	getf.sig	pr1_2 = fp1b_2
-		C 17
-	getf.sig	r8 = fp2a_2
-	;;	C 18
-		C 19
-	add		s0 = pr1_1, acc0
-	;;	C 20
-	st8		[rp] = s0, 8
-	cmp.ltu		p8, p9 = s0, pr1_1
-	sub		r31 = -1, acc1_1
-	;;	C 21
-	.pred.rel "mutex", p8, p9
-  (p8)	add		acc0 = pr1_2, acc1_1, 1
-  (p9)	add		acc0 = pr1_2, acc1_1
-  (p8)	cmp.leu		p10, p0 = r31, pr1_2
-  (p9)	cmp.ltu		p10, p0 = r31, pr1_2
-	;;	C 22
-	st8		[rp] = acc0, 8
-	mov.i		ar.lc = r2
-  (p10)	add		r8 = 1, r8
-	br.ret.sptk.many b0
-
-
-.grt2:	ldf8		r_3 = [srp], 8
-	ldf8		u_3 = [up], 8
-	mov		acc1_0 = 0
-	;;
-	ldf8		r_0 = [srp], 8
-	xma.l		fp0b_1 = ux, v0, rx
-	mov		pr1_0 = 0
-	ldf8		u_0 = [up], 8
-	xma.hu		fp1a_1 = ux, v0, rx
-	mov		pr0_1 = 0
-	;;
-	xma.l		fp0b_2 = uy, v0, ry
-	xma.hu		fp1a_2 = uy, v0, ry
-	;;
-	getf.sig	acc0 = fp0b_1
-	ldf8		r_1 = [srp], 8
-	xma.l		fp1b_1 = ux, v1, fp1a_1
-	xma.hu		fp2a_1 = ux, v1, fp1a_1
-	;;
-	ldf8		u_1 = [up], 8
-	xma.l		fp0b_3 = u_3, v0, r_3
-	xma.hu		fp1a_3 = u_3, v0, r_3
-	;;
-	getf.sig	pr0_2 = fp0b_2
-	ldf8		r_2 = [srp], 8
-	xma.l		fp1b_2 = uy, v1, fp1a_2
-	xma.hu		fp2a_2 = uy, v1, fp1a_2
-	;;
-	ldf8		u_2 = [up], 8
-	getf.sig	pr1_1 = fp1b_1
-	;;
-	getf.sig	acc1_1 = fp2a_1
-	xma.l		fp0b_0 = u_0, v0, r_0
-	cmp.ne		p8, p9 = r0, r0
-	cmp.ne		p12, p13 = r0, r0
-	xma.hu		fp1a_0 = u_0, v0, r_0
-	br		.LL10
+L(b10):		br.cloop.dptk	L(gt2)
+		xma.l	fp0b_1 = ux, v0, rx
+		xma.hu	fp1b_1 = ux, v0, rx
+	;;
+		xma.l	fp0b_2 = uy, v0, ry
+		xma.hu	fp1a_2 = uy, v0, ry
+	;;
+		stf8	[rp] = fp0b_1, 8
+	(p11)	xma.hu	fp2a_1 = ux, v1, fp1b_1		C suppressed for addmul_2s
+	(p11)	xma.l	fp1b_1 = ux, v1, fp1b_1		C suppressed for addmul_2s
+	;;
+		getfsig	acc0 = fp0b_2
+		xma.l	fp1b_2 = uy, v1, fp1a_2
+		xma.hu	fp2a_2 = uy, v1, fp1a_2
+	;;
+		getfsig	pr1_1 = fp1b_1
+		getfsig	acc1_1 = fp2a_1
+		mov	ar.lc = r2
+		getfsig	pr1_2 = fp1b_2
+		getfsig	r8 = fp2a_2
+	;;
+		add	s0 = pr1_1, acc0
+	;;
+		st8	[rp] = s0, 8
+		cmp.ltu	p8, p9 = s0, pr1_1
+		sub	r31 = -1, acc1_1
+	;;
+		.pred.rel "mutex", p8, p9
+	(p8)	add	acc0 = pr1_2, acc1_1, 1
+	(p9)	add	acc0 = pr1_2, acc1_1
+	(p8)	cmp.leu	p10, p0 = r31, pr1_2
+	(p9)	cmp.ltu	p10, p0 = r31, pr1_2
+	;;
+		st8	[rp] = acc0, 8
+	(p10)	add	r8 = 1, r8
+		br.ret.sptk.many b0
+
+
+L(gt2):
+.mmi;		ldf8	r_3 = [srp], 8
+		ldf8	u_3 = [up], 8
+		mov	acc1_0 = 0
+	;;
+.mfi;		ldf8	r_0 = [srp], 8
+		xma.l	fp0b_1 = ux, v0, rx
+		mov	pr1_0 = 0
+.mfi;		ldf8	u_0 = [up], 8
+		xma.hu	fp1b_1 = ux, v0, rx
+		mov	pr0_1 = 0
+	;;
+		xma.l	fp0b_2 = uy, v0, ry
+		xma.hu	fp1a_2 = uy, v0, ry
+	;;
+		getfsig	acc0 = fp0b_1
+		ldf8	r_1 = [srp], 8
+	(p11)	xma.hu	fp2a_1 = ux, v1, fp1b_1		C suppressed for addmul_2s
+	(p11)	xma.l	fp1b_1 = ux, v1, fp1b_1		C suppressed for addmul_2s
+	;;
+		ldf8	u_1 = [up], 8
+		xma.l	fp0b_3 = u_3, v0, r_3
+		xma.hu	fp1a_3 = u_3, v0, r_3
+	;;
+		getfsig	pr0_2 = fp0b_2
+		ldf8	r_2 = [srp], 8
+		xma.l	fp1b_2 = uy, v1, fp1a_2
+		xma.hu	fp2a_2 = uy, v1, fp1a_2
+	;;
+		ldf8	u_2 = [up], 8
+		getfsig	pr1_1 = fp1b_1
+	;;
+.mfi;		getfsig	acc1_1 = fp2a_1
+		xma.l	fp0b_0 = u_0, v0, r_0
+		cmp.ne	p8, p9 = r0, r0
+.mfb;		cmp.ne	p12, p13 = r0, r0
+		xma.hu	fp1a_0 = u_0, v0, r_0
+		br.cloop.sptk.clr	L(top)
+		br.many	L(end)
 
 
 	ALIGN(32)
-.Lb11:	mov		acc1_3 = 0
-	mov		pr1_3 = 0
-	mov		pr0_0 = 0
-	cmp.ne		p6, p7 = r0, r0
+L(b11):		ldf8	r_2 = [srp], 8
+		mov	pr1_3 = 0
+		mov	pr0_0 = 0
 	;;
-	ldf8		r_2 = [srp], 8
-	ldf8		u_2 = [up], 8
-	br.cloop.dptk	.grt3
+		ldf8	u_2 = [up], 8
+		mov	acc1_3 = 0
+		br.cloop.dptk	L(gt3)
 	;;
-	xma.l		fp0b_0 = ux, v0, rx
-	xma.hu		fp1a_0 = ux, v0, rx
+		cmp.ne	p6, p7 = r0, r0
+		xma.l	fp0b_0 = ux, v0, rx
+		xma.hu	fp1b_0 = ux, v0, rx
 	;;
-	cmp.ne		p10, p11 = r0, r0
-	xma.l		fp0b_1 = uy, v0, ry
-	xma.hu		fp1a_1 = uy, v0, ry
+		cmp.ne	p10, p11 = r0, r0
+		xma.l	fp0b_1 = uy, v0, ry
+		xma.hu	fp1a_1 = uy, v0, ry
 	;;
-	getf.sig	acc0 = fp0b_0
-	xma.l		fp1b_0 = ux, v1, fp1a_0
-	xma.hu		fp2a_0 = ux, v1, fp1a_0
+		getfsig	acc0 = fp0b_0
+	(p15)	xma.hu	fp2a_0 = ux, v1, fp1b_0		C suppressed for addmul_2s
+	(p15)	xma.l	fp1b_0 = ux, v1, fp1b_0		C suppressed for addmul_2s
 	;;
-	xma.l		fp0b_2 = u_2, v0, r_2
-	xma.hu		fp1a_2 = u_2, v0, r_2
+		xma.l	fp0b_2 = uy, v1, r_2
+		xma.hu	fp1a_2 = uy, v1, r_2
 	;;
-	getf.sig	pr0_1 = fp0b_1
-	xma.l		fp1b_1 = uy, v1, fp1a_1
-	xma.hu		fp2a_1 = uy, v1, fp1a_1
+		getfsig	pr0_1 = fp0b_1
+		xma.l	fp1b_1 = u_2, v0, fp1a_1
+		xma.hu	fp2a_1 = u_2, v0, fp1a_1
 	;;
-	getf.sig	pr1_0 = fp1b_0
-	getf.sig	acc1_0 = fp2a_0
-	br		.Lcj3
+		getfsig	pr1_0 = fp1b_0
+		getfsig	acc1_0 = fp2a_0
+		br	L(cj3)
 
-.grt3:	ldf8		r_3 = [srp], 8
-	xma.l		fp0b_0 = ux, v0, rx
-	cmp.ne		p10, p11 = r0, r0
-	ldf8		u_3 = [up], 8
-	xma.hu		fp1a_0 = ux, v0, rx
+L(gt3):		ldf8	r_3 = [srp], 8
+		xma.l	fp0b_0 = ux, v0, rx
+		cmp.ne	p10, p11 = r0, r0
+		ldf8	u_3 = [up], 8
+		xma.hu	fp1b_0 = ux, v0, rx
+		cmp.ne	p6, p7 = r0, r0
 	;;
-	xma.l		fp0b_1 = uy, v0, ry
-	xma.hu		fp1a_1 = uy, v0, ry
+		xma.l	fp0b_1 = uy, v0, ry
+		xma.hu	fp1a_1 = uy, v0, ry
 	;;
-	getf.sig	acc0 = fp0b_0
-	ldf8		r_0 = [srp], 8
-	xma.l		fp1b_0 = ux, v1, fp1a_0
-	ldf8		u_0 = [up], 8
-	xma.hu		fp2a_0 = ux, v1, fp1a_0
+		getfsig	acc0 = fp0b_0
+		ldf8	r_0 = [srp], 8
+	(p15)	xma.hu	fp2a_0 = ux, v1, fp1b_0		C suppressed for addmul_2s
+		ldf8	u_0 = [up], 8
+	(p15)	xma.l	fp1b_0 = ux, v1, fp1b_0		C suppressed for addmul_2s
 	;;
-	xma.l		fp0b_2 = u_2, v0, r_2
-	xma.hu		fp1a_2 = u_2, v0, r_2
+		xma.l	fp0b_2 = u_2, v0, r_2
+		xma.hu	fp1a_2 = u_2, v0, r_2
 	;;
-	getf.sig	pr0_1 = fp0b_1
-	ldf8		r_1 = [srp], 8
-	xma.l		fp1b_1 = uy, v1, fp1a_1
-	xma.hu		fp2a_1 = uy, v1, fp1a_1
+		getfsig	pr0_1 = fp0b_1
+		ldf8	r_1 = [srp], 8
+		xma.l	fp1b_1 = uy, v1, fp1a_1
+		xma.hu	fp2a_1 = uy, v1, fp1a_1
 	;;
-	ldf8		u_1 = [up], 8
-	getf.sig	pr1_0 = fp1b_0
+		ldf8	u_1 = [up], 8
+		getfsig	pr1_0 = fp1b_0
 	;;
-	getf.sig	acc1_0 = fp2a_0
-	xma.l		fp0b_3 = u_3, v0, r_3
-	xma.hu		fp1a_3 = u_3, v0, r_3
-	br		.LL11
+		getfsig	acc1_0 = fp2a_0
+		xma.l	fp0b_3 = u_3, v0, r_3
+		xma.hu	fp1a_3 = u_3, v0, r_3
+		br	L(11)
 
 
 C *** MAIN LOOP START ***
 	ALIGN(32)
-.Loop:						C 00
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr0_3 = fp0b_3
-	ldf8		r_3 = [srp], 8
-	xma.l		fp1b_3 = u_3, v1, fp1a_3
-  (p12)	add		s0 = pr1_0, acc0, 1
-  (p13)	add		s0 = pr1_0, acc0
-	xma.hu		fp2a_3 = u_3, v1, fp1a_3
+L(top):						C 00
+		.pred.rel "mutex", p12, p13
+		getfsig	pr0_3 = fp0b_3
+		ldf8	r_3 = [srp], 8
+		xma.l	fp1b_3 = u_3, v1, fp1a_3
+	(p12)	add	s0 = pr1_0, acc0, 1
+	(p13)	add	s0 = pr1_0, acc0
+		xma.hu	fp2a_3 = u_3, v1, fp1a_3
 	;;					C 01
-	.pred.rel "mutex", p8, p9
-	.pred.rel "mutex", p12, p13
-	ldf8		u_3 = [up], 8
-	getf.sig	pr1_2 = fp1b_2
-  (p8)	cmp.leu		p6, p7 = acc0, pr0_1
-  (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
-  (p12)	cmp.leu		p10, p11 = s0, pr1_0
-  (p13)	cmp.ltu		p10, p11 = s0, pr1_0
+		.pred.rel "mutex", p8, p9
+		.pred.rel "mutex", p12, p13
+		ldf8	u_3 = [up], 8
+		getfsig	pr1_2 = fp1b_2
+	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
+	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
+	(p12)	cmp.leu	p10, p11 = s0, pr1_0
+	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
 	;;					C 02
-	.pred.rel "mutex", p6, p7
-	getf.sig	acc1_2 = fp2a_2
-	st8		[rp] = s0, 8
-	xma.l		fp0b_1 = u_1, v0, r_1
-  (p6)	add		acc0 = pr0_2, acc1_0, 1
-  (p7)	add		acc0 = pr0_2, acc1_0
-	xma.hu		fp1a_1 = u_1, v0, r_1
+		.pred.rel "mutex", p6, p7
+		getfsig	acc1_2 = fp2a_2
+		st8	[rp] = s0, 8
+		xma.l	fp0b_1 = u_1, v0, r_1
+	(p6)	add	acc0 = pr0_2, acc1_0, 1
+	(p7)	add	acc0 = pr0_2, acc1_0
+		xma.hu	fp1a_1 = u_1, v0, r_1
 	;;					C 03
-.LL01:
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr0_0 = fp0b_0
-	ldf8		r_0 = [srp], 8
-	xma.l		fp1b_0 = u_0, v1, fp1a_0
-  (p10)	add		s0 = pr1_1, acc0, 1
-  (p11)	add		s0 = pr1_1, acc0
-	xma.hu		fp2a_0 = u_0, v1, fp1a_0
+L(01):
+		.pred.rel "mutex", p10, p11
+		getfsig	pr0_0 = fp0b_0
+		ldf8	r_0 = [srp], 8
+		xma.l	fp1b_0 = u_0, v1, fp1a_0
+	(p10)	add	s0 = pr1_1, acc0, 1
+	(p11)	add	s0 = pr1_1, acc0
+		xma.hu	fp2a_0 = u_0, v1, fp1a_0
 	;;					C 04
-	.pred.rel "mutex", p6, p7
-	.pred.rel "mutex", p10, p11
-	ldf8		u_0 = [up], 8
-	getf.sig	pr1_3 = fp1b_3
-  (p6)	cmp.leu		p8, p9 = acc0, pr0_2
-  (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
-  (p10)	cmp.leu		p12, p13 = s0, pr1_1
-  (p11)	cmp.ltu		p12, p13 = s0, pr1_1
+		.pred.rel "mutex", p6, p7
+		.pred.rel "mutex", p10, p11
+		ldf8	u_0 = [up], 8
+		getfsig	pr1_3 = fp1b_3
+	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
+	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
+	(p10)	cmp.leu	p12, p13 = s0, pr1_1
+	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
 	;;					C 05
-	.pred.rel "mutex", p8, p9
-	getf.sig	acc1_3 = fp2a_3
-	st8		[rp] = s0, 8
-	xma.l		fp0b_2 = u_2, v0, r_2
-  (p8)	add		acc0 = pr0_3, acc1_1, 1
-  (p9)	add		acc0 = pr0_3, acc1_1
-	xma.hu		fp1a_2 = u_2, v0, r_2
+		.pred.rel "mutex", p8, p9
+		getfsig	acc1_3 = fp2a_3
+		st8	[rp] = s0, 8
+		xma.l	fp0b_2 = u_2, v0, r_2
+	(p8)	add	acc0 = pr0_3, acc1_1, 1
+	(p9)	add	acc0 = pr0_3, acc1_1
+		xma.hu	fp1a_2 = u_2, v0, r_2
 	;;					C 06
-.LL00:
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr0_1 = fp0b_1
-	ldf8		r_1 = [srp], 8
-	xma.l		fp1b_1 = u_1, v1, fp1a_1
-  (p12)	add		s0 = pr1_2, acc0, 1
-  (p13)	add		s0 = pr1_2, acc0
-	xma.hu		fp2a_1 = u_1, v1, fp1a_1
+L(00):
+		.pred.rel "mutex", p12, p13
+		getfsig	pr0_1 = fp0b_1
+		ldf8	r_1 = [srp], 8
+		xma.l	fp1b_1 = u_1, v1, fp1a_1
+	(p12)	add	s0 = pr1_2, acc0, 1
+	(p13)	add	s0 = pr1_2, acc0
+		xma.hu	fp2a_1 = u_1, v1, fp1a_1
 	;;					C 07
-	.pred.rel "mutex", p8, p9
-	.pred.rel "mutex", p12, p13
-	ldf8		u_1 = [up], 8
-	getf.sig	pr1_0 = fp1b_0
-  (p8)	cmp.leu		p6, p7 = acc0, pr0_3
-  (p9)	cmp.ltu		p6, p7 = acc0, pr0_3
-  (p12)	cmp.leu		p10, p11 = s0, pr1_2
-  (p13)	cmp.ltu		p10, p11 = s0, pr1_2
+		.pred.rel "mutex", p8, p9
+		.pred.rel "mutex", p12, p13
+		ldf8	u_1 = [up], 8
+		getfsig	pr1_0 = fp1b_0
+	(p8)	cmp.leu	p6, p7 = acc0, pr0_3
+	(p9)	cmp.ltu	p6, p7 = acc0, pr0_3
+	(p12)	cmp.leu	p10, p11 = s0, pr1_2
+	(p13)	cmp.ltu	p10, p11 = s0, pr1_2
 	;;					C 08
-	.pred.rel "mutex", p6, p7
-	getf.sig	acc1_0 = fp2a_0
-	st8		[rp] = s0, 8
-	xma.l		fp0b_3 = u_3, v0, r_3
-  (p6)	add		acc0 = pr0_0, acc1_2, 1
-  (p7)	add		acc0 = pr0_0, acc1_2
-	xma.hu		fp1a_3 = u_3, v0, r_3
+		.pred.rel "mutex", p6, p7
+		getfsig	acc1_0 = fp2a_0
+		st8	[rp] = s0, 8
+		xma.l	fp0b_3 = u_3, v0, r_3
+	(p6)	add	acc0 = pr0_0, acc1_2, 1
+	(p7)	add	acc0 = pr0_0, acc1_2
+		xma.hu	fp1a_3 = u_3, v0, r_3
 	;;					C 09
-.LL11:
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr0_2 = fp0b_2
-	ldf8		r_2 = [srp], 8
-	xma.l		fp1b_2 = u_2, v1, fp1a_2
-  (p10)	add		s0 = pr1_3, acc0, 1
-  (p11)	add		s0 = pr1_3, acc0
-	xma.hu		fp2a_2 = u_2, v1, fp1a_2
+L(11):
+		.pred.rel "mutex", p10, p11
+		getfsig	pr0_2 = fp0b_2
+		ldf8	r_2 = [srp], 8
+		xma.l	fp1b_2 = u_2, v1, fp1a_2
+	(p10)	add	s0 = pr1_3, acc0, 1
+	(p11)	add	s0 = pr1_3, acc0
+		xma.hu	fp2a_2 = u_2, v1, fp1a_2
 	;;					C 10
-	.pred.rel "mutex", p6, p7
-	.pred.rel "mutex", p10, p11
-	ldf8		u_2 = [up], 8
-	getf.sig	pr1_1 = fp1b_1
-  (p6)	cmp.leu		p8, p9 = acc0, pr0_0
-  (p7)	cmp.ltu		p8, p9 = acc0, pr0_0
-  (p10)	cmp.leu		p12, p13 = s0, pr1_3
-  (p11)	cmp.ltu		p12, p13 = s0, pr1_3
+		.pred.rel "mutex", p6, p7
+		.pred.rel "mutex", p10, p11
+		ldf8	u_2 = [up], 8
+		getfsig	pr1_1 = fp1b_1
+	(p6)	cmp.leu	p8, p9 = acc0, pr0_0
+	(p7)	cmp.ltu	p8, p9 = acc0, pr0_0
+	(p10)	cmp.leu	p12, p13 = s0, pr1_3
+	(p11)	cmp.ltu	p12, p13 = s0, pr1_3
 	;;					C 11
-	.pred.rel "mutex", p8, p9
-	getf.sig	acc1_1 = fp2a_1
-	st8		[rp] = s0, 8
-	xma.l		fp0b_0 = u_0, v0, r_0
-  (p8)	add		acc0 = pr0_1, acc1_3, 1
-  (p9)	add		acc0 = pr0_1, acc1_3
-	xma.hu		fp1a_0 = u_0, v0, r_0
-.LL10:	br.cloop.dptk	.Loop			C 12
+		.pred.rel "mutex", p8, p9
+		getfsig	acc1_1 = fp2a_1
+		st8	[rp] = s0, 8
+		xma.l	fp0b_0 = u_0, v0, r_0
+	(p8)	add	acc0 = pr0_1, acc1_3, 1
+	(p9)	add	acc0 = pr0_1, acc1_3
+		xma.hu	fp1a_0 = u_0, v0, r_0
+L(10):		br.cloop.sptk.clr	L(top)			C 12
 	;;
 C *** MAIN LOOP END ***
-
-.Lcj6:
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr0_3 = fp0b_3
-	xma.l		fp1b_3 = u_3, v1, fp1a_3
-  (p12)	add		s0 = pr1_0, acc0, 1
-  (p13)	add		s0 = pr1_0, acc0
-	xma.hu		fp2a_3 = u_3, v1, fp1a_3
-	;;
-	.pred.rel "mutex", p8, p9
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr1_2 = fp1b_2
-  (p8)	cmp.leu		p6, p7 = acc0, pr0_1
-  (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
-  (p12)	cmp.leu		p10, p11 = s0, pr1_0
-  (p13)	cmp.ltu		p10, p11 = s0, pr1_0
-	;;
-	.pred.rel "mutex", p6, p7
-	getf.sig	acc1_2 = fp2a_2
-	st8		[rp] = s0, 8
-	xma.l		fp0b_1 = u_1, v0, r_1
-  (p6)	add		acc0 = pr0_2, acc1_0, 1
-  (p7)	add		acc0 = pr0_2, acc1_0
-	xma.hu		fp1a_1 = u_1, v0, r_1
-	;;
-.Lcj5:
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr0_0 = fp0b_0
-	xma.l		fp1b_0 = u_0, v1, fp1a_0
-  (p10)	add		s0 = pr1_1, acc0, 1
-  (p11)	add		s0 = pr1_1, acc0
-	xma.hu		fp2a_0 = u_0, v1, fp1a_0
-	;;
-	.pred.rel "mutex", p6, p7
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr1_3 = fp1b_3
-  (p6)	cmp.leu		p8, p9 = acc0, pr0_2
-  (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
-  (p10)	cmp.leu		p12, p13 = s0, pr1_1
-  (p11)	cmp.ltu		p12, p13 = s0, pr1_1
-	;;
-	.pred.rel "mutex", p8, p9
-	getf.sig	acc1_3 = fp2a_3
-	st8		[rp] = s0, 8
-	xma.l		fp0b_2 = u_2, v0, r_2
-  (p8)	add		acc0 = pr0_3, acc1_1, 1
-  (p9)	add		acc0 = pr0_3, acc1_1
-	xma.hu		fp1a_2 = u_2, v0, r_2
-	;;
-.Lcj4:
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr0_1 = fp0b_1
-	xma.l		fp1b_1 = u_1, v1, fp1a_1
-  (p12)	add		s0 = pr1_2, acc0, 1
-  (p13)	add		s0 = pr1_2, acc0
-	xma.hu		fp2a_1 = u_1, v1, fp1a_1
-	;;
-	.pred.rel "mutex", p8, p9
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr1_0 = fp1b_0
-  (p8)	cmp.leu		p6, p7 = acc0, pr0_3
-  (p9)	cmp.ltu		p6, p7 = acc0, pr0_3
-  (p12)	cmp.leu		p10, p11 = s0, pr1_2
-  (p13)	cmp.ltu		p10, p11 = s0, pr1_2
-	;;
-	.pred.rel "mutex", p6, p7
-	getf.sig	acc1_0 = fp2a_0
-	st8		[rp] = s0, 8
-  (p6)	add		acc0 = pr0_0, acc1_2, 1
-  (p7)	add		acc0 = pr0_0, acc1_2
-	;;
-.Lcj3:
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr0_2 = fp0b_2
-	xma.l		fp1b_2 = u_2, v1, fp1a_2
-  (p10)	add		s0 = pr1_3, acc0, 1
-  (p11)	add		s0 = pr1_3, acc0
-	xma.hu		fp2a_2 = u_2, v1, fp1a_2
-	;;
-	.pred.rel "mutex", p6, p7
-	.pred.rel "mutex", p10, p11
-	getf.sig	pr1_1 = fp1b_1
-  (p6)	cmp.leu		p8, p9 = acc0, pr0_0
-  (p7)	cmp.ltu		p8, p9 = acc0, pr0_0
-  (p10)	cmp.leu		p12, p13 = s0, pr1_3
-  (p11)	cmp.ltu		p12, p13 = s0, pr1_3
-	;;
-	.pred.rel "mutex", p8, p9
-	getf.sig	acc1_1 = fp2a_1
-	st8		[rp] = s0, 8
-  (p8)	add		acc0 = pr0_1, acc1_3, 1
-  (p9)	add		acc0 = pr0_1, acc1_3
-	;;
-.Lcj2:
-	.pred.rel "mutex", p12, p13
-  (p12)	add		s0 = pr1_0, acc0, 1
-  (p13)	add		s0 = pr1_0, acc0
-	;;
-	.pred.rel "mutex", p8, p9
-	.pred.rel "mutex", p12, p13
-	getf.sig	pr1_2 = fp1b_2
-  (p8)	cmp.leu		p6, p7 = acc0, pr0_1
-  (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
-  (p12)	cmp.leu		p10, p11 = s0, pr1_0
-  (p13)	cmp.ltu		p10, p11 = s0, pr1_0
-	;;
-	.pred.rel "mutex", p6, p7
-	getf.sig	acc1_2 = fp2a_2
-	st8		[rp] = s0, 8
-  (p6)	add		acc0 = pr0_2, acc1_0, 1
-  (p7)	add		acc0 = pr0_2, acc1_0
-	;;
-	.pred.rel "mutex", p10, p11
-  (p10)	add		s0 = pr1_1, acc0, 1
-  (p11)	add		s0 = pr1_1, acc0
-	;;
-	.pred.rel "mutex", p6, p7
-	.pred.rel "mutex", p10, p11
-  (p6)	cmp.leu		p8, p9 = acc0, pr0_2
-  (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
-  (p10)	cmp.leu		p12, p13 = s0, pr1_1
-  (p11)	cmp.ltu		p12, p13 = s0, pr1_1
-	;;
-	.pred.rel "mutex", p8, p9
-	st8		[rp] = s0, 8
-  (p8)	add		acc0 = pr1_2, acc1_1, 1
-  (p9)	add		acc0 = pr1_2, acc1_1
-	;;
-	.pred.rel "mutex", p8, p9
-  (p8)	cmp.leu		p10, p11 = acc0, pr1_2
-  (p9)	cmp.ltu		p10, p11 = acc0, pr1_2
-  (p12)	add		acc0 = 1, acc0
-	;;
-	st8		[rp] = acc0, 8
-  (p12)	cmp.eq.or	p10, p0 = 0, acc0
-	mov		r8 = acc1_2
-	;;
-	.pred.rel "mutex", p10, p11
-  (p10)	add		r8 = 1, r8
-	mov.i		ar.lc = r2
-	br.ret.sptk.many b0
+L(end):
+		.pred.rel "mutex", p12, p13
+.mfi;		getfsig	pr0_3 = fp0b_3
+		xma.l	fp1b_3 = u_3, v1, fp1a_3
+	(p12)	add	s0 = pr1_0, acc0, 1
+.mfi;	(p13)	add	s0 = pr1_0, acc0
+		xma.hu	fp2a_3 = u_3, v1, fp1a_3
+		nop	1
+	;;
+		.pred.rel "mutex", p8, p9
+		.pred.rel "mutex", p12, p13
+.mmi;		getfsig	pr1_2 = fp1b_2
+		st8	[rp] = s0, 8
+	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
+.mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
+	(p12)	cmp.leu	p10, p11 = s0, pr1_0
+	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
+	;;
+		.pred.rel "mutex", p6, p7
+.mfi;		getfsig	acc1_2 = fp2a_2
+		xma.l	fp0b_1 = u_1, v0, r_1
+		nop	1
+.mmf;	(p6)	add	acc0 = pr0_2, acc1_0, 1
+	(p7)	add	acc0 = pr0_2, acc1_0
+		xma.hu	fp1a_1 = u_1, v0, r_1
+	;;
+L(cj5):
+		.pred.rel "mutex", p10, p11
+.mfi;		getfsig	pr0_0 = fp0b_0
+		xma.l	fp1b_0 = u_0, v1, fp1a_0
+	(p10)	add	s0 = pr1_1, acc0, 1
+.mfi;	(p11)	add	s0 = pr1_1, acc0
+		xma.hu	fp2a_0 = u_0, v1, fp1a_0
+		nop	1
+	;;
+		.pred.rel "mutex", p6, p7
+		.pred.rel "mutex", p10, p11
+.mmi;		getfsig	pr1_3 = fp1b_3
+		st8	[rp] = s0, 8
+	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
+.mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
+	(p10)	cmp.leu	p12, p13 = s0, pr1_1
+	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
+	;;
+		.pred.rel "mutex", p8, p9
+.mfi;		getfsig	acc1_3 = fp2a_3
+		xma.l	fp0b_2 = u_2, v0, r_2
+		nop	1
+.mmf;	(p8)	add	acc0 = pr0_3, acc1_1, 1
+	(p9)	add	acc0 = pr0_3, acc1_1
+		xma.hu	fp1a_2 = u_2, v0, r_2
+	;;
+L(cj4):
+		.pred.rel "mutex", p12, p13
+.mfi;		getfsig	pr0_1 = fp0b_1
+		xma.l	fp1b_1 = u_1, v1, fp1a_1
+	(p12)	add	s0 = pr1_2, acc0, 1
+.mfi;	(p13)	add	s0 = pr1_2, acc0
+		xma.hu	fp2a_1 = u_1, v1, fp1a_1
+		nop	1
+	;;
+		.pred.rel "mutex", p8, p9
+		.pred.rel "mutex", p12, p13
+.mmi;		getfsig	pr1_0 = fp1b_0
+		st8	[rp] = s0, 8
+	(p8)	cmp.leu	p6, p7 = acc0, pr0_3
+.mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_3
+	(p12)	cmp.leu	p10, p11 = s0, pr1_2
+	(p13)	cmp.ltu	p10, p11 = s0, pr1_2
+	;;
+		.pred.rel "mutex", p6, p7
+.mmi;		getfsig	acc1_0 = fp2a_0
+	(p6)	add	acc0 = pr0_0, acc1_2, 1
+	(p7)	add	acc0 = pr0_0, acc1_2
+	;;
+L(cj3):
+		.pred.rel "mutex", p10, p11
+.mfi;		getfsig	pr0_2 = fp0b_2
+		xma.l	fp1b_2 = u_2, v1, fp1a_2
+	(p10)	add	s0 = pr1_3, acc0, 1
+.mfi;	(p11)	add	s0 = pr1_3, acc0
+		xma.hu	fp2a_2 = u_2, v1, fp1a_2
+		nop	1
+	;;
+		.pred.rel "mutex", p6, p7
+		.pred.rel "mutex", p10, p11
+.mmi;		getfsig	pr1_1 = fp1b_1
+		st8	[rp] = s0, 8
+	(p6)	cmp.leu	p8, p9 = acc0, pr0_0
+.mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_0
+	(p10)	cmp.leu	p12, p13 = s0, pr1_3
+	(p11)	cmp.ltu	p12, p13 = s0, pr1_3
+	;;
+		.pred.rel "mutex", p8, p9
+.mmi;		getfsig	acc1_1 = fp2a_1
+	(p8)	add	acc0 = pr0_1, acc1_3, 1
+	(p9)	add	acc0 = pr0_1, acc1_3
+	;;
+		.pred.rel "mutex", p12, p13
+.mmi;	(p12)	add	s0 = pr1_0, acc0, 1
+	(p13)	add	s0 = pr1_0, acc0
+		nop	1
+	;;
+		.pred.rel "mutex", p8, p9
+		.pred.rel "mutex", p12, p13
+.mmi;		getfsig	pr1_2 = fp1b_2
+		st8	[rp] = s0, 8
+	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
+.mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
+	(p12)	cmp.leu	p10, p11 = s0, pr1_0
+	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
+	;;
+		.pred.rel "mutex", p6, p7
+.mmi;		getfsig	r8 = fp2a_2
+	(p6)	add	acc0 = pr0_2, acc1_0, 1
+	(p7)	add	acc0 = pr0_2, acc1_0
+	;;
+		.pred.rel "mutex", p10, p11
+.mmi;	(p10)	add	s0 = pr1_1, acc0, 1
+	(p11)	add	s0 = pr1_1, acc0
+	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
+	;;
+		.pred.rel "mutex", p10, p11
+.mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
+	(p10)	cmp.leu	p12, p13 = s0, pr1_1
+	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
+	;;
+		.pred.rel "mutex", p8, p9
+.mmi;		st8	[rp] = s0, 8
+	(p8)	add	acc0 = pr1_2, acc1_1, 1
+	(p9)	add	acc0 = pr1_2, acc1_1
+	;;
+		.pred.rel "mutex", p8, p9
+.mmi;	(p8)	cmp.leu	p10, p11 = acc0, pr1_2
+	(p9)	cmp.ltu	p10, p11 = acc0, pr1_2
+	(p12)	add	acc0 = 1, acc0
+	;;
+.mmi;		st8	[rp] = acc0, 8
+	(p12)	cmpeqor	p10, p0 = 0, acc0
+		nop	1
+	;;
+.mib;	(p10)	add	r8 = 1, r8
+		mov	ar.lc = r2
+		br.ret.sptk.many b0
 EPILOGUE()
 ASM_END()
author	Torbjorn Granlund <tege@gmplib.org>	2011-01-23 15:39:08 +0100
committer	Torbjorn Granlund <tege@gmplib.org>	2011-01-23 15:39:08 +0100
commit	82396b060de297c43ad7a0cdeec9b8907b1ead7d (patch)
tree	c7f7ad69ddb4af6d77804dccf430a3c90faca56d /mpn/ia64
parent	6479df279605abcc20ef9d6d426b35a0ad860d77 (diff)
download	gmp-82396b060de297c43ad7a0cdeec9b8907b1ead7d.tar.gz