找回密码
 立即注册→加入我们

QQ登录

只需一步,快速开始

搜索
热搜: 下载 VB C 实现 编写
查看: 5985|回复: 3

CRC32 Castagnoli算法实现

[复制链接]

65

主题

117

回帖

1万

积分

用户组: 超级版主

OS与VM研究学者

UID
1043
精华
35
威望
789 点
宅币
8306 个
贡献
1094 次
宅之契约
0 份
在线时间
2071 小时
注册时间
2015-8-15
发表于 2019-4-28 09:28:31 | 显示全部楼层 |阅读模式

欢迎访问技术宅的结界,请注册或者登录吧。

您需要 登录 才可以下载或查看,没有账号?立即注册→加入我们

×
CRC32算法是一种很常见的校验和算法,不过本文要介绍的是“CRC32 Castagnoli”算法,简称CRC32C,并非CRC32。
关于CRC32请去 【算法】CRC32的C语言实现和NASM汇编语言实现
为什么要介绍这个算法?因为我们可以用处理器的SSE4.2能力对它加速。
这里先介绍无加速的算法:
首先我们需要一张CRC32C表:
  1. const u32 crc32c_table[256]=
  2. {
  3.         0x00000000, 0xf26b8303, 0xe13b70f7, 0x1350f3f4,
  4.         0xc79a971f, 0x35f1141c, 0x26a1e7e8, 0xd4ca64eb,
  5.         0x8ad958cf, 0x78b2dbcc, 0x6be22838, 0x9989ab3b,
  6.         0x4d43cfd0, 0xbf284cd3, 0xac78bf27, 0x5e133c24,
  7.         0x105ec76f, 0xe235446c, 0xf165b798, 0x030e349b,
  8.         0xd7c45070, 0x25afd373, 0x36ff2087, 0xc494a384,
  9.         0x9a879fa0, 0x68ec1ca3, 0x7bbcef57, 0x89d76c54,
  10.         0x5d1d08bf, 0xaf768bbc, 0xbc267848, 0x4e4dfb4b,
  11.         0x20bd8ede, 0xd2d60ddd, 0xc186fe29, 0x33ed7d2a,
  12.         0xe72719c1, 0x154c9ac2, 0x061c6936, 0xf477ea35,
  13.         0xaa64d611, 0x580f5512, 0x4b5fa6e6, 0xb93425e5,
  14.         0x6dfe410e, 0x9f95c20d, 0x8cc531f9, 0x7eaeb2fa,
  15.         0x30e349b1, 0xc288cab2, 0xd1d83946, 0x23b3ba45,
  16.         0xf779deae, 0x05125dad, 0x1642ae59, 0xe4292d5a,
  17.         0xba3a117e, 0x4851927d, 0x5b016189, 0xa96ae28a,
  18.         0x7da08661, 0x8fcb0562, 0x9c9bf696, 0x6ef07595,
  19.         0x417b1dbc, 0xb3109ebf, 0xa0406d4b, 0x522bee48,
  20.         0x86e18aa3, 0x748a09a0, 0x67dafa54, 0x95b17957,
  21.         0xcba24573, 0x39c9c670, 0x2a993584, 0xd8f2b687,
  22.         0x0c38d26c, 0xfe53516f, 0xed03a29b, 0x1f682198,
  23.         0x5125dad3, 0xa34e59d0, 0xb01eaa24, 0x42752927,
  24.         0x96bf4dcc, 0x64d4cecf, 0x77843d3b, 0x85efbe38,
  25.         0xdbfc821c, 0x2997011f, 0x3ac7f2eb, 0xc8ac71e8,
  26.         0x1c661503, 0xee0d9600, 0xfd5d65f4, 0x0f36e6f7,
  27.         0x61c69362, 0x93ad1061, 0x80fde395, 0x72966096,
  28.         0xa65c047d, 0x5437877e, 0x4767748a, 0xb50cf789,
  29.         0xeb1fcbad, 0x197448ae, 0x0a24bb5a, 0xf84f3859,
  30.         0x2c855cb2, 0xdeeedfb1, 0xcdbe2c45, 0x3fd5af46,
  31.         0x7198540d, 0x83f3d70e, 0x90a324fa, 0x62c8a7f9,
  32.         0xb602c312, 0x44694011, 0x5739b3e5, 0xa55230e6,
  33.         0xfb410cc2, 0x092a8fc1, 0x1a7a7c35, 0xe811ff36,
  34.         0x3cdb9bdd, 0xceb018de, 0xdde0eb2a, 0x2f8b6829,
  35.         0x82f63b78, 0x709db87b, 0x63cd4b8f, 0x91a6c88c,
  36.         0x456cac67, 0xb7072f64, 0xa457dc90, 0x563c5f93,
  37.         0x082f63b7, 0xfa44e0b4, 0xe9141340, 0x1b7f9043,
  38.         0xcfb5f4a8, 0x3dde77ab, 0x2e8e845f, 0xdce5075c,
  39.         0x92a8fc17, 0x60c37f14, 0x73938ce0, 0x81f80fe3,
  40.         0x55326b08, 0xa759e80b, 0xb4091bff, 0x466298fc,
  41.         0x1871a4d8, 0xea1a27db, 0xf94ad42f, 0x0b21572c,
  42.         0xdfeb33c7, 0x2d80b0c4, 0x3ed04330, 0xccbbc033,
  43.         0xa24bb5a6, 0x502036a5, 0x4370c551, 0xb11b4652,
  44.         0x65d122b9, 0x97baa1ba, 0x84ea524e, 0x7681d14d,
  45.         0x2892ed69, 0xdaf96e6a, 0xc9a99d9e, 0x3bc21e9d,
  46.         0xef087a76, 0x1d63f975, 0x0e330a81, 0xfc588982,
  47.         0xb21572c9, 0x407ef1ca, 0x532e023e, 0xa145813d,
  48.         0x758fe5d6, 0x87e466d5, 0x94b49521, 0x66df1622,
  49.         0x38cc2a06, 0xcaa7a905, 0xd9f75af1, 0x2b9cd9f2,
  50.         0xff56bd19, 0x0d3d3e1a, 0x1e6dcdee, 0xec064eed,
  51.         0xc38d26c4, 0x31e6a5c7, 0x22b65633, 0xd0ddd530,
  52.         0x0417b1db, 0xf67c32d8, 0xe52cc12c, 0x1747422f,
  53.         0x49547e0b, 0xbb3ffd08, 0xa86f0efc, 0x5a048dff,
  54.         0x8ecee914, 0x7ca56a17, 0x6ff599e3, 0x9d9e1ae0,
  55.         0xd3d3e1ab, 0x21b862a8, 0x32e8915c, 0xc083125f,
  56.         0x144976b4, 0xe622f5b7, 0xf5720643, 0x07198540,
  57.         0x590ab964, 0xab613a67, 0xb831c993, 0x4a5a4a90,
  58.         0x9e902e7b, 0x6cfbad78, 0x7fab5e8c, 0x8dc0dd8f,
  59.         0xe330a81a, 0x115b2b19, 0x020bd8ed, 0xf0605bee,
  60.         0x24aa3f05, 0xd6c1bc06, 0xc5914ff2, 0x37faccf1,
  61.         0x69e9f0d5, 0x9b8273d6, 0x88d28022, 0x7ab90321,
  62.         0xae7367ca, 0x5c18e4c9, 0x4f48173d, 0xbd23943e,
  63.         0xf36e6f75, 0x0105ec76, 0x12551f82, 0xe03e9c81,
  64.         0x34f4f86a, 0xc69f7b69, 0xd5cf889d, 0x27a40b9e,
  65.         0x79b737ba, 0x8bdcb4b9, 0x988c474d, 0x6ae7c44e,
  66.         0xbe2da0a5, 0x4c4623a6, 0x5f16d052, 0xad7d5351
  67. };
复制代码

有这张表后就可以正式开始CRC32C了。
CRC32C算法和CRC32大同小异,就逻辑上而言不再需要在第一步和最后一步对-1进行异或运算。代码如下:
  1. u32 stdcall std_crc32(void* buffer,size_t size,u32 prev)
  2. {
  3.         u8* buf=(u8*)buffer;
  4.         u32 crc=prev;
  5.         u32 i=0;
  6.         for(;i<size;i++)
  7.         {
  8.                 u8 crc_index=(u8)(crc^buf[i]&0xff);
  9.                 crc=crc32c_table[crc_index]^(crc>>8);
  10.         }
  11.         return crc;
  12. }
复制代码

接下来讲讲使用SSE4.2的CRC32C。其关键在于SSE4.2的crc32指令,用汇编语言去写的话(不考虑对齐),64位汇编代码如下:
  1. sse_crc32 proc

  2.         mov rax,r8
  3. loop_crc:
  4.         crc32 rax,byte ptr[rcx]
  5.         inc rcx
  6.         dec rdx
  7.         test rdx,rdx
  8.         jnz loop_crc
  9.         ret

  10. sse_crc32 endp
复制代码

32位汇编如下:
  1. sse_crc32 proc buffer:dword,len:dword,prev:dword

  2.         mov eax,dword ptr[prev]
  3.         mov ecx,dword ptr[buffer]
  4.         mov edx,dword ptr[len]
  5. loop_crc:
  6.         crc32 eax,byte ptr[ecx]
  7.         inc ecx
  8.         dec edx
  9.         test edx,edx
  10.         jnz loop_crc
  11.         ret

  12. sse_crc32 endp
复制代码

在微软的编译器上,是没有编译器内置宏来实现加速CRC32C的,不过如果用的是Intel的编译器,就可以用Intel的宏来实现:
  1. #if defined(_icl)
  2. u32 stdcall sse_crc32(void* buffer,size_t size,u32 prev)
  3. {
  4.         u8* buf=(u8*)buffer;
  5.         u32 crc=prev;
  6.         u32 i=0;
  7.         for(;i<size;i++)
  8.                 crc=_mm_crc32_u8(crc,buf[i]);
  9.         return crc;
  10. }
  11. #endif
复制代码

如果考虑对齐的话速度会好很多。
不过我马上发现在MSVC上竟然也有_mm_crc32_u8内置宏!但我发现这个完蛋玩意是有问题的,它会编译出类似crc32 eax,edx的代码!(请注意我在用_mm_crc32_u8,不是_mm_crc32_u32!)而Intel的编译器就没这破毛病。
校验算法比较经典的一个应用是CI(Code Integrity)组件,程序初始化时计算代码段的校验和,然后定期检查,发现恶意修改(比如内联钩子)后可以直接报警。
在使用SSE4.2时,最好判断处理器是否支持SSE4.2指令集。判断方法是将eax寄存器置1,执行cpuid指令后,判断ecx第20位是否置位。
如果我们用微软的编译器,那么可以直接用MSVC编译器内置宏__cpuid:
  1. u8 stdcall check_sse42()
  2. {
  3.         u32 info[4];
  4.         __cpuid(info,1);
  5.         return _bittest(&info[2],20);
  6. }
复制代码

一开始我以为Intel的编译器不支持这个宏,鉴于Intel的编译器允许64位内联汇编,于是我补充了这个函数:
  1. u8 stdcall check_sse42()
  2. {
  3. #if defined(_msvc)
  4.         u32 info[4];
  5.         __cpuid(info,1);
  6.         return _bittest(&info[2],20);
  7. #elif defined(_icl)
  8.         u8 result=0;
  9.         __asm
  10.         {
  11.                 xor eax,eax
  12.                 inc eax
  13.                 cpuid
  14.                 bt ecx,20
  15.                 setc al
  16.                 mov result,al
  17.         }
  18.         return result;
  19. #endif
  20. }
复制代码

但很快发现没有必要,Intel的编译器也有这个宏!所以可以简略为:
  1. u8 stdcall check_sse42()
  2. {
  3. #if defined(_msvc) || defined(_icl)
  4.         u32 info[4];
  5.         __cpuid(info,1);
  6.         return _bittest(&info[2],20);
  7. #endif
  8. }
复制代码

代码在GitHub上开源:https://github.com/Zero-Tang/crc32_sse
需要注意,这里的MSVC编译器来自WDK7600,Intel编译器来自Intel Composer XE 2015 Update 6。

本帖被以下淘专辑推荐:

回复

使用道具 举报

1112

主题

1652

回帖

7万

积分

用户组: 管理员

一只技术宅

UID
1
精华
245
威望
744 点
宅币
24251 个
贡献
46222 次
宅之契约
0 份
在线时间
2298 小时
注册时间
2014-1-26
发表于 2019-4-28 22:38:36 | 显示全部楼层
我一直认为它是配合lodsb和loop来实现的,就是我设置循环次数后,我lodsb,再crc32,循环指定次数后取结果出来。
我看你的汇编则是自己inc rcx并且用rdx的值判断循环,然后jnz。
这有什么讲究的吗?
回复 赞! 靠!

使用道具 举报

65

主题

117

回帖

1万

积分

用户组: 超级版主

OS与VM研究学者

UID
1043
精华
35
威望
789 点
宅币
8306 个
贡献
1094 次
宅之契约
0 份
在线时间
2071 小时
注册时间
2015-8-15
 楼主| 发表于 2019-4-28 23:36:54 | 显示全部楼层
0xAA55 发表于 2019-4-28 22:38
我一直认为它是配合lodsb和loop来实现的,就是我设置循环次数后,我lodsb,再crc32,循环指定次数后取结果 ...

我个人写汇编的观念是不用非易失寄存器,所以lodsb涉及rsi我就不用。另外crc32指令也能自己load内存。
至于循环,可以用loop,当时没想到。用jnz的原因是我当时想着判断0时test比cmp好。
回复 赞! 靠!

使用道具 举报

1112

主题

1652

回帖

7万

积分

用户组: 管理员

一只技术宅

UID
1
精华
245
威望
744 点
宅币
24251 个
贡献
46222 次
宅之契约
0 份
在线时间
2298 小时
注册时间
2014-1-26
发表于 2019-4-29 01:34:59 | 显示全部楼层
tangptr@126.com 发表于 2019-4-28 23:36
我个人写汇编的观念是不用非易失寄存器,所以lodsb涉及rsi我就不用。另外crc32指令也能自己load内存。
至 ...

我认为使用esi来自动装载数据比自己用寄存器当指针装数据可能会更加高效一些。我选择暂存它,然后在用完后恢复。可以不用栈,而是用易失寄存器来存储它。其实用栈的成本也并不高。

让crc32指令自己load内存也行。只是我觉得对于字节级别的装载,lodsb应该有自己的黑科技优化,对比自己读写byte而言。这体现在Atom架构上的rep movsb的行为其实是总线宽度级别的内存拷贝,而不是字节宽度。

判断0我觉得test和cmp甚至sub都是一样的。

回复 赞! 靠!

使用道具 举报

QQ|Archiver|小黑屋|技术宅的结界 ( 滇ICP备16008837号 )|网站地图

GMT+8, 2024-4-26 05:30 , Processed in 0.041324 second(s), 30 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表