21哈希算法（上）：如何防止数据库中的用户信息被脱库？.pdf

上传人：紫竹语嫣

文档编号：5529943

上传时间：2020-06-01

格式：PDF

页数：10

大小：711.14KB

《21哈希算法（上）：如何防止数据库中的用户信息被脱库？.pdf》由会员分享，可在线阅读，更多相关《21哈希算法（上）：如何防止数据库中的用户信息被脱库？.pdf（10页珍藏版）》请在三一文库上搜索。

1、21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？还记得2011年CSDN的“脱库”事件吗？当时，CSDN网站被黑客攻击，超过600万用户的注册邮箱和密码明文被泄露，很多网友对CSDN明文保存用户密码行为产生了不满。如果你是CSDN的一名工程师，你会如何存储用户密码这么重要的数据吗？仅仅MD5加密一下存储就够了吗？要想搞清楚这个问题，就要先弄明白哈希算法。哈

2、希算法历史悠久，业界著名的哈希算法也有很多，比如MD5、SHA等。在我们平时的开发中，基本上都是拿现成的直接用。所以，我今天不会重点剖析哈希算法的原理，也不会教你如何设计一个哈希算法，而是从实战的角度告诉你，在实际的开发中，我们该如何用哈希算法解决问题。什么是哈希算法？我们前面几节讲到“散列表”“散列函数”，这里又讲到“哈希算法”，你是不是有点一头雾水？实际上，不管是“散列”还是“哈希”，这都是中文翻译的差别，英文其实就是“Hash”。所以，我们常听到有人把“散列表”叫作“哈希表”“Hash表”，把“哈希算法”叫作“Hash算法”或者“散列算法”。那到底什么是哈希算法呢？哈希算法的定

3、义和原理非常简单，基本上一句话就可以概括了。将任意长度的二进制值串映射为固定长度的二进制值串，这个映射的规则就是哈希算法，而通过原始数据映射之后得到的二进制值串就是哈希值。但是，要想设计一个优秀的哈希算法并不容易，根据我的经验，我总结了需要满足的几点要求：从哈希值不能反向推导出原始数据（所以哈希算法也叫单向哈希算法）；对输入数据非常敏感，哪怕原始数据只修改了一个Bit，最后得到的哈希值也大不相同；散列冲突的概率要很小，对于不同的原始数据，哈希值相同的概率非常小；哈希算法的执行效率要尽量高效，针对较长的文本，也能快速地计算出哈希值。这些定义和要求都比较理论，可能还是不好理解，我拿MD

4、5这种哈希算法来具体说明一下。我们分别对“今天我来讲哈希算法”和“jiajia”这两个文本，计算MD5哈希值，得到两串看起来毫无规律的字符串（MD5的哈希值是128位的Bit长度，为了方便表示，我把它们转化成了16进制编码）。可以看出来，无论要哈希的文本有多长、多短，通过MD5哈希之后，得到的哈希值的长度都是相同的，而且得到的哈希值看起来像一堆随机数，完全没有规律。 MD5(“今天我来讲哈希算法“) = bb4767201ad42c74e650c1b6c03d78fa MD5(“jiajia“) = cd611a31ea969b908932d44d126d195b 我们再来看两个非常相似

5、的文本，“我今天讲哈希算法！”和“我今天讲哈希算法”。这两个文本只有一个感叹号的区别。如果用MD5哈希算法分别计算它们的哈希值，你会发现，尽管只有一字之差，得到的哈希值也是完全不同的。 MD5(“我今天讲哈希算法！“) = 425f0d5a917188d2c3c3dc85b5e4f2cb MD5(“我今天讲哈希算法“) = a1fb91ac128e6aa37fe42c663971ac3d 我在前面也说了，通过哈希算法得到的哈希值，很难反向推导出原始数据。比如上面的例子中，我们就很难通过哈希值“a1fb91ac128e6aa37fe42c663971ac3d”反推出对应的文本“我今天讲哈希算

6、法”。 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 哈希算法要处理的文本可能是各种各样的。比如，对于非常长的文本，如果哈希算法的计算时间很长，那就只能停留在理论研究的层面，很难应用到实际的软件开发中。比如，我们把今天这篇包含4000多个汉字的文章，用MD5计算哈希值，用不了1ms的时间。哈希算法的应用非常非常多，我选了最常见的七个，分别是安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。这节

7、我们先来看前四个应用。应用一：安全加密说到哈希算法的应用，最先想到的应该就是安全加密。最常用于加密的哈希算法是MD5（MD5 Message-Digest Algorithm，MD5消息摘要算法）和SHA（Secure Hash Algorithm，安全散列算法）。除了这两个之外，当然还有很多其他加密算法，比如DES（Data Encryption Standard，数据加密标准）、AES（Advanced Encryption Standard，高级加密标准）。前面我讲到的哈希算法四点要求，对用于加密的哈希算法来说，有两点格外重要。第一点是很难根据哈希值反向推导出原始数据，第二

8、点是散列冲突的概率要很小。第一点很好理解，加密的目的就是防止原始数据泄露，所以很难通过哈希值反向推导原始数据，这是一个最基本的要求。所以我着重讲一下第二点。实际上，不管是什么哈希算法，我们只能尽量减少碰撞冲突的概率，理论上是没办法做到完全不冲突的。为什么这么说呢？这里就基于组合数学中一个非常基础的理论，鸽巢原理（也叫抽屉原理）。这个原理本身很简单，它是说，如果有10个鸽巢，有11只鸽子，那肯定有1个鸽巢中的鸽子数量多于1个，换句话说就是，肯定有2只鸽子在1个鸽巢内。有了鸽巢原理的铺垫之后，我们再来看，为什么哈希算法无法做到零冲突？我们知道，哈希算法产生的哈希值的长度是固定且有限的

9、。比如前面举的MD5的例子，哈希值是固定的128位二进制串，能表示的数据是有限的，最多能表示2128个数据，而我们要哈希的数据是无穷的。基于鸽巢原理，如果我们对2128+1个数据求哈希值，就必然会存在哈希值相同的情况。这里你应该能想到，一般情况下，哈希值越长的哈希算法，散列冲突的概率越低。 2128=340282366920938463463374607431768211456 为了让你能有个更加直观的感受，我找了两段字符串放在这里。这两段字符串经过MD5哈希算法加密之后，产生的哈希值是相同的。 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geekt

10、ime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 不过，即便哈希算法存在散列冲突的情况，但是因为哈希值的范围很大，冲突的概率极低，所以相对来说还是很难破解的。像MD5，有2128个不同的哈希值，这个数据已经是一个天文数字了，所以散列冲突的概率要小于1/2128。如果我们拿到一个MD5哈希值，希望通过毫无规律的穷举的方法，找到跟这个MD5值相同的另一个数据，那耗费的时间应该是个天文数字。所以，即便哈希算法存在冲突，但是在有限的时间和资源下，哈希算法还是被很难破解的。除此之外，没有绝对安全的加密。越复杂、越难破

11、解的加密算法，需要的计算时间也越长。比如SHA-256比SHA-1要更复杂、更安全，相应的计算时间就会比较长。密码学界也一直致力于找到一种快速并且很难被破解的哈希算法。我们在实际的开发过程中，也需要权衡破解难度和计算时间，来决定究竟使用哪种加密算法。应用二：唯一标识我先来举一个例子。如果要在海量的图库中，搜索一张图是否存在，我们不能单纯地用图片的元信息（比如图片名称）来比对，因为有可能存在名称相同但图片内容不同，或者名称不同图片内容相同的情况。那我们该如何搜索呢？我们知道，任何文件在计算中都可以表示成二进制码串，所以，比较笨的办法就是，拿要查找的图片的二进制码串与图库中所有图片的二

12、进制码串一一比对。如果相同，则说明图片在图库中存在。但是，每个图片小则几十KB、大则几MB，转化成二进制是一个非常长的串，比对起来非常耗时。有没有比较快的方法呢？我们可以给每一个图片取一个唯一标识，或者说信息摘要。比如，我们可以从图片的二进制码串开头取100个字节，从中间取100个字节，从最后再取100个字节，然后将这300个字节放到一块，通过哈希算法（比如MD5），得到一个哈希字符串，用它作为图片的唯一标识。通过这个唯一标识来判定图片是否在图库中，这样就可以减少很多工作量。如果还想继续提高效率，我们可以把每个图片的唯一标识，和相应的图片文件在图库中的路径信息，都存储在散列表中。当

13、要查看某个图片是不是在图库中的时候，我们先通过哈希算法对这个图片取唯一标识，然后在散列表中查找是否存在这个唯一标识。如果不存在，那就说明这个图片不在图库中；如果存在，我们再通过散列表中存储的文件路径，获取到这个已经存在的图片，跟现在要插入的图片做全量的比对，看是否完全一样。如果一样，就说明已经存在；如果不一样，说明两张图片尽管唯一标识相同，但是并不是相同的图片。应用三：数据校验电驴这样的BT下载软件你肯定用过吧？我们知道，BT下载的原理是基于P2P协议的。我们从多个机器上并行下载一个2GB的电影，这个电影文件可能会被分割成很多文件块（比如可以分成100块，每块大约20MB）。等所有

14、的文件块都下载完成之后，再组装成一个完整的电影文件就行了。我们知道，网络传输是不安全的，下载的文件块有可能是被宿主机器恶意修改过的，又或者下载过程中出现了错误，所以下载的文件块可能不是完整的。如果我们没有能力检测这种恶意修改或者文件下载出错，就会导致最终合并后的电影无法观看，甚至导致电脑中毒。现在的问题是，如何来校验文件块的安 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 全、正确、完整呢？具体的BT协议很复杂，

15、校验方法也有很多，我来说其中的一种思路。我们通过哈希算法，对100个文件块分别取哈希值，并且保存在种子文件中。我们在前面讲过，哈希算法有一个特点，对数据很敏感。只要文件块的内容有一丁点儿的改变，最后计算出的哈希值就会完全不同。所以，当文件块下载完成之后，我们可以通过相同的哈希算法，对下载好的文件块逐一求哈希值，然后跟种子文件中保存的哈希值比对。如果不同，说明这个文件块不完整或者被篡改了，需要再重新从其他宿主机器上下载这个文件块。应用四：散列函数前面讲了很多哈希算法的应用，实际上，散列函数也是哈希算法的一种应用。我们前两节讲到，散列函数是设计一个散列表的关键。它直接决定了散列冲突的概

16、率和散列表的性能。不过，相对哈希算法的其他应用，散列函数对于散列算法冲突的要求要低很多。即便出现个别散列冲突，只要不是过于严重，我们都可以通过开放寻址法或者链表法解决。不仅如此，散列函数对于散列算法计算得到的值，是否能反向解密也并不关心。散列函数中用到的散列算法，更加关注散列后的值是否能平均分布，也就是，一组数据是否能均匀地散列在各个槽中。除此之外，散列函数执行的快慢，也会影响散列表的性能，所以，散列函数用的散列算法一般都比较简单，比较追求效率。解答开篇好了，有了前面的基础，现在你有没有发现开篇的问题其实很好解决？我们可以通过哈希算法，对用户密码进行加密之后再存储，不过最好选择相

17、对安全的加密算法，比如SHA等（因为MD5已经号称被破解了）。不过仅仅这样加密之后存储就万事大吉了吗？字典攻击你听说过吗？如果用户信息被“脱库”，黑客虽然拿到是加密之后的密文，但可以通过“猜”的方式来破解密码，这是因为，有些用户的密码太简单。比如很多人习惯用00000、123456这样的简单数字组合做密码，很容易就被猜中。那我们就需要维护一个常用密码的字典表，把字典中的每个密码用哈希算法计算哈希值，然后拿哈希值跟脱库后的密文比对。如果相同，基本上就可以认为，这个加密之后的密码对应的明文就是字典中的这个密码。（注意，这里说是的是“基本上可以认为”，因为根据我们前面的学习，哈希算法存在散

18、列冲突，也有可能出现，尽管密文一样，但是明文并不一样的情况。）针对字典攻击，我们可以引入一个盐（salt），跟用户的密码组合在一起，增加密码的复杂度。我们拿组合之后的字符串来做哈希算法加密，将它存储到数据库中，进一步增加破解的难度。不过我这里想多说一句，我认为安全和攻击是一种博弈关系，不存在绝对的安全。所有的安全措施，只是增加攻击的成本而已。内容小结今天的内容比较偏实战，我讲到了哈希算法的四个应用场景。我带你来回顾一下。第一个应用是唯一标识，哈希算法可以对大数据做信息摘要，通过一个较短的二进制编码来表示很大的数据。 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ fil

19、e:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 第二个应用是用于校验数据的完整性和正确性。第三个应用是安全加密，我们讲到任何哈希算法都会出现散列冲突，但是这个冲突概率非常小。越是复杂哈希算法越难破解，但同样计算时间也就越长。所以，选择哈希算法的时候，要权衡安全性和计算时间来决定用哪种哈希算法。第四个应用是散列函数，这个我们前面讲散列表的时候已经详细地讲过，它对哈希算法的要求非常特别，更加看重的是散列的平均性和哈希算法的执行效率。课后思考现在，区块链是一个很火的领域，它被很

20、多人神秘化，不过其底层的实现原理并不复杂。其中，哈希算法就是它的一个非常重要的理论基础。你能讲一讲区块链使用的是哪种哈希算法吗？是为了解决什么问题而使用的呢？欢迎留言和我分享，我会第一时间给你反馈。 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 精选留言： Smallfly 2018-11-07 04:02:57 课后思考： 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/gee

21、ktime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 区块链是一块块区块组成的，每个区块分为两部分：区块头和区块体。区块头保存着自己区块体和上一个区块头的哈希值。因为这种链式关系和哈希值的唯一性，只要区块链上任意一个区块被修改过，后面所有区块保存的哈希值就不对了。区块链使用的是 SHA256 哈希算法，计算哈希值非常耗时，如果要篡改一个区块，就必须重新计算该区块后面所有的区块的哈希值，短时间内几乎不可能做到。 68赞作者回复2018-11-08 01:48:11 雪无痕 2018-11-07 01

22、:03:49 除了hash+salt，现在大多公司都采用无论密码长度多少，计算字符串hash时间都固定或者足够慢的算法如PBKDF2WithHmacSHA1，来降低硬件计算hash 速度，减少不同长度字符串计算hash所需时间不一样而泄漏字符串长度信息，进一步减少风险。 30赞 FLYING 2018-11-07 00:23:31 越是复杂哈希算法越难破解，但同样计算时间也就越少。这句话应该是越多吧？ 17赞作者回复2018-11-08 01:59:59 谢谢指出笔误本来是想写“长”的写成了“少” Jerry银银 2018-11-06 23:30:45 原来“散列冲突”的数学原理是鸽巢

23、原理，为啥大部分算法书上讲解散列表的时候，不提一下呢。搞得我平时向朋友解释为什么存在冲突的时候，用得都是“鸽巢原理的白话版”，而且在讲解的时候还不知道那就是鸽巢原理，很尬! 离散数学的课必须得好好补完 16赞作者回复2018-11-08 02:01:22 oyt 2018-11-13 00:54:57 加salt，也可理解为为密码加点佐料后再进行hash运算。比如原密码是123456，不加盐的情况加密后假设是是xyz。黑客拿到脱机的数据后，通过彩虹表匹配可以轻松破解常用密码。如果加盐，密码123456加盐后可能是12ng34qq56zz，再对加盐后的密码进行hash后值就与原密码has

24、h后的值完全不同了。而且加盐的方式有很多种，可以是在头部加，可以在尾部加，还可在内容中间加，甚至加的盐还可以是随机的。这样即使用户使用的是最常用的密码， 12 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 黑客拿到密文后破解的难度也很高。赞作者回复2018-11-13 01:43:39 小龙的城堡 2018-11-07 00:30:52 老师您好，我有一个疑问就是hash算法用于加密数据，但是我理解的加密是需要对应

25、解密的，但是hash算法并不能解密，这用应用更像是数字签名，不知道我理解是不是有问题，感谢！ 10赞作者回复2018-11-08 01:58:49 没错可以理解为数字签名您的好友William 2018-11-08 02:30:41 其实我感觉hash不可能做到无冲突的原理可以用机器学习里面的免费午餐理论解释，因为hash追求的其实就是机器学习中的best seperate，就是mapping之后，不只是把两个不一样的东西分开，还要保证两者足够远（最大margin），因为hash函数是要面对所有类型的数据分布，而免费午餐理论告诉我们：不存在一种完美的算法对所有类型的数据分布都能做到

26、完美的分离，最好的算法一定是根据特定的数据分布特定设计出来的。所以像hash函数这种需要应对不特定数据分布的，需要广泛使用的，是一定不会将数据完美seperate的。 7赞作者回复2018-11-09 02:04:55 姜威 2018-11-16 13:41:29 带着问题来学习： 1.如何防止数据库中的用户信息被脱库？ 2.你会如何存储用户密码这么重要的数据吗？仅仅 MD5 加密一下存储就够了吗？ 3.在实际开发中，我们应该如何用哈希算法解决问题？一、什么是哈希算法？ 1.定义将任意长度的二进制值串映射成固定长度的二进制值串，这个映射的规则就是哈希算法，而通过原始数据映射之后得到的二

27、进制值串就是哈希值。 2.如何设计一个优秀的哈希算法？单向哈希：从哈希值不能反向推导出哈希值（所以哈希算法也叫单向哈希算法）。篡改无效：对输入敏感，哪怕原始数据只修改一个Bit，最后得到的哈希值也大不相同。散列冲突： 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 散列冲突的概率要很小，对于不同的原始数据，哈希值相同的概率非常小。执行效率：哈希算法的执行效率要尽量高效，针对较长的文本，也能快速计算哈希值。

28、二、哈希算法的常见应用有哪些？ 7个常见应用：安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。 1.安全加密常用于加密的哈希算法： MD5：MD5 Message-Digest Algorithm，MD5消息摘要算法 SHA：Secure Hash Algorithm，安全散列算法 DES：Data Encryption Standard，数据加密标准 AES：Advanced Encryption Standard，高级加密标准对用于加密的哈希算法，有两点格外重要，第一点是很难根据哈希值反向推导出原始数据，第二点是散列冲突的概率要小。在实际开发中要权衡破解难度和

29、计算时间来决定究竟使用哪种加密算法。 2.唯一标识通过哈希算法计算出数据的唯一标识，从而用于高效检索数据。 3.数据校验利用哈希算法对输入数据敏感的特点，可以对数据取哈希值，从而高效校验数据是否被篡改过。 4.散列函数散列函数中用到的哈希算法更加关注散列后的值能不能平均分布，以及散列函数的执行快慢。三、思考 1.如何防止数据库中的用户信息被脱库？你会如何存储用户密码这么重要的数据吗？使用MD5进行加密字典攻击：如果用户信息被“脱库”，黑客虽然拿到的是加密之后的密文，但可以通过“猜”的方式来破解密码，这是因为，有些用户的密码太简单。针对字典攻击，我们可以引入一个盐（salt），跟用

30、户密码组合在一起，增加密码的复杂度。 2.现在，区块链是一个很火的领域，它被很多人神秘化，不过其底层的实现原理并不复杂。其中，哈希算法就是它的一个非常重要的理论基础。你能讲一讲区块链使用的是哪种哈希算法吗？是为了解决什么问题而使用的呢？ 6赞杰杰以杰以杰杰 2018-11-07 02:55:30 MD5“解密”过程正确来说不应该叫做“解密”，应该叫做MD5碰撞算法，只是拿到一个原始值再做一次MD5算法，看得到的的MD5值和你之前的MD5是不是一致，如果一致，我们就大体认为是原始值一致。为什么说大体呢？老师也说过了，会有HASH碰撞，可能不一样的原始值长生一样的HASH值，概率为1/21

31、28。 5赞 21|哈希算法（上）：如何防止数据库中的用户信息被脱库？ file:/F/temp/geektime/数据结构与算法之美/21哈希算法（上）：如何防止数据库中的用户信息被脱库？.html2019/1/15 15:35:47 伯安 2018-11-07 00:37:55 哈希算法的特点有一条：从哈希值不能反向推导出原始数据（所以哈希算法也叫单向哈希算法）。可是JAVA中的MD5类不是有加密和解密方法吗？解密的过程，是不是代表哈希算法能够反向推导出原始数据呢？就这块比较困惑。 3赞作者回复2018-11-08 01:58:24 应该没有吧。有破解方法但也是基于碰撞的。但它也只是最近才被破解的

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 21 算法如何防止数据库中的用户信息被脱库

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：21哈希算法（上）：如何防止数据库中的用户信息被脱库？.pdf
链接地址：https://www.31doc.com/p-5529943.html