avutil/mips: refine msa macros CLIP_*.

Changing details as following: 1. Remove the local variable 'out_m' in 'CLIP_SH' and store the result in source vector. 2. Refine the implementation of macro 'CLIP_SH_0_255' and 'CLIP_SW_0_255'. Performance of VP8 decoding has speed up about 1.1%(from 7.03x to 7.11x). Performance of H264 decoding has speed up about 0.5%(from 4.35x to 4.37x). Performance of Theora decoding has speed up about 0.7%(from 5.79x to 5.83x). 3. Remove redundant macro 'CLIP_SH/Wn_0_255_MAX_SATU' and use 'CLIP_SH/Wn_0_255' instead, because there are no difference in the effect of this two macros. Reviewed-by: Shiyou Yin <yinshiyou-hf@loongson.cn> Signed-off-by: Michael Niedermayer <michael@niedermayer.cc>
author: gxw <guxiwei-hf@loongson.cn> 2019-08-07 17:52:00 +0800
committer: Michael Niedermayer <michael@niedermayer.cc> 2019-08-13 16:48:38 +0200
commit: a3e572d96fd1dd6291f6b28e173db858c08ff8d8 (patch)
tree: 85807f6ec1442cc362cf8946e67f564c92267e07 /libavcodec/mips/vp9_idct_msa.c
parent: 8f92eb05e063e6c4d6e36521020620d4e6e1c21d (diff)
download: ffmpeg-a3e572d96fd1dd6291f6b28e173db858c08ff8d8.tar.gz
1 files changed, 4 insertions, 6 deletions
diff --git a/libavcodec/mips/vp9_idct_msa.c b/libavcodec/mips/vp9_idct_msa.c
index 1f32770139..a3f5270b73 100644
--- a/libavcodec/mips/vp9_idct_msa.c
+++ b/libavcodec/mips/vp9_idct_msa.c
@@ -763,13 +763,13 @@ static void vp9_iadst8x8_colcol_addblk_msa(int16_t *input, uint8_t *dst,
 
     res0 = (v8i16) __msa_ilvr_b((v16i8) zero, (v16i8) dst0);
     res0 += out0;
-    res0 = CLIP_SH_0_255(res0);
+    CLIP_SH_0_255(res0);
     res0 = (v8i16) __msa_pckev_b((v16i8) res0, (v16i8) res0);
     ST_D1(res0, 0, dst);
 
     res7 = (v8i16) __msa_ilvr_b((v16i8) zero, (v16i8) dst7);
     res7 += out7;
-    res7 = CLIP_SH_0_255(res7);
+    CLIP_SH_0_255(res7);
     res7 = (v8i16) __msa_pckev_b((v16i8) res7, (v16i8) res7);
     ST_D1(res7, 0, dst + 7 * dst_stride);
 
@@ -1192,8 +1192,7 @@ static void vp9_idct16x16_1_add_msa(int16_t *input, uint8_t *dst,
              res3);
         ADD4(res4, vec, res5, vec, res6, vec, res7, vec, res4, res5, res6,
              res7);
-        CLIP_SH4_0_255(res0, res1, res2, res3);
-        CLIP_SH4_0_255(res4, res5, res6, res7);
+        CLIP_SH8_0_255(res0, res1, res2, res3, res4, res5, res6, res7);
         PCKEV_B4_UB(res4, res0, res5, res1, res6, res2, res7, res3,
                     tmp0, tmp1, tmp2, tmp3);
         ST_UB4(tmp0, tmp1, tmp2, tmp3, dst, dst_stride);
@@ -1981,8 +1980,7 @@ static void vp9_idct32x32_1_add_msa(int16_t *input, uint8_t *dst,
              res3);
         ADD4(res4, vec, res5, vec, res6, vec, res7, vec, res4, res5, res6,
              res7);
-        CLIP_SH4_0_255(res0, res1, res2, res3);
-        CLIP_SH4_0_255(res4, res5, res6, res7);
+        CLIP_SH8_0_255(res0, res1, res2, res3, res4, res5, res6, res7);
         PCKEV_B4_UB(res4, res0, res5, res1, res6, res2, res7, res3,
                     tmp0, tmp1, tmp2, tmp3);
author	gxw <guxiwei-hf@loongson.cn>	2019-08-07 17:52:00 +0800
committer	Michael Niedermayer <michael@niedermayer.cc>	2019-08-13 16:48:38 +0200
commit	a3e572d96fd1dd6291f6b28e173db858c08ff8d8 (patch)
tree	85807f6ec1442cc362cf8946e67f564c92267e07 /libavcodec/mips/vp9_idct_msa.c
parent	8f92eb05e063e6c4d6e36521020620d4e6e1c21d (diff)
download	ffmpeg-a3e572d96fd1dd6291f6b28e173db858c08ff8d8.tar.gz