Kato Yusuke
--- a/source/Lib/CommonLib/x86/BufferX86.h
+++ b/source/Lib/CommonLib/x86/BufferX86.h
+    __m128i shiftSrcY0Tmp = _mm_srai_epi16(_mm_loadu_si128((__m128i*)(srcY0Tmp)), shift4);
+    __m128i shiftSrcY1Tmp = _mm_srai_epi16(_mm_loadu_si128((__m128i*)(srcY1Tmp)), shift4);
+    __m128i loadGradX0 = _mm_loadu_si128((__m128i*)(gradX0));
+    __m128i loadGradX1 = _mm_loadu_si128((__m128i*)(gradX1));
+    __m128i loadGradY0 = _mm_loadu_si128((__m128i*)(gradY0));
+    __m128i loadGradY1 = _mm_loadu_si128((__m128i*)(gradY1));
+    __m128i subTemp1 = _mm_sub_epi16(shiftSrcY1Tmp, shiftSrcY0Tmp);
+    __m128i packTempX = _mm_srai_epi16(_mm_add_epi16(loadGradX0, loadGradX1), shift5);
+    __m128i packTempY = _mm_srai_epi16(_mm_add_epi16(loadGradY0, loadGradY1), shift5);
+    __m128i gX = _mm_abs_epi16(packTempX);
+    __m128i gY = _mm_abs_epi16(packTempY);
+    __m128i maskXlt = _mm_cmplt_epi16(packTempX, zero);
+    __m128i maskXgt = _mm_cmpgt_epi16(packTempX, zero);
+    __m128i maskYlt = _mm_cmplt_epi16(packTempY, zero);
+    __m128i maskYgt = _mm_cmpgt_epi16(packTempY, zero);
+    __m128i dIX = _mm_or_si128(_mm_and_si128(maskXgt, subTemp1), _mm_and_si128(maskXlt, _mm_sub_epi16(zero, subTemp1)));