drop_duplicates原理

合集下载

drop_duplicates原理
pandas库中的drop_duplicates方法是用于去除DataFrame或
Series中重复的行的函数。

其原理主要涉及以下几个步骤：
1.遍历数据：
该方法首先会遍历原始数据，按照默认的行顺序，对数据集中的每一
行进行遍历。

2.生成哈希值：
对于每一行的数据，drop_duplicates方法会对其进行哈希运算，生
成一个唯一的哈希值。

这里的哈希运算可以使用特定的算法，如MD5、SHA-1或SHA-256等等，以确保生成的哈希值具有唯一性。

哈希值的生成是为了能够对数据进行判定，判断两行数据是否相同。

这里的相同判断是基于行的内容进行，即判断每个元素的值是否一致。

3.建立哈希表：
如果哈希表中不存在该哈希值，则说明该行数据是新的，可以保留。

如果哈希表中已经存在该哈希值，则说明该行数据是重复的，需要被
去除。

哈希表的建立是为了记录已经遍历过的哈希值，以便后续的比较和判断。

4.保留或删除数据：
最后，drop_duplicates方法会根据哈希表的比对结果，对原始数据
进行处理。

如果哈希表中已经存在该哈希值，则说明该数据是重复的，需要被删除。

如果哈希表中不存在该哈希值，则说明该数据是唯一的，可以保留。

保留或删除数据的操作不会影响到原始数据集，在其基础上生成一个
新的数据集。

用户可以选择是保留第一个出现的重复数据，还是保留最后一个出现
的重复数据，还是保留所有重复数据。

5.返回结果：
返回的数据集的行数会减少，行的顺序可能有所改变，但保留了原始
数据的列结构。

需要注意的是，drop_duplicates方法默认会对所有的列进行比较和
判定，即使只有一些列的值不同，整行数据也会被认为是重复的。

如果只想对一些列进行比较和去重，可以使用subset参数指定需要
比较的列名。

此外，drop_duplicates方法还有其他参数可以进行更加细致的设定，如是否忽略NaN值、是否保留重复数据的最后一个出现等。

可以根据具体需求，选择适合的参数进行函数调用。

综上所述，pandas库中的drop_duplicates方法是基于哈希值比较和判定的，通过遍历原始数据，生成哈希值，建立哈希表，并根据哈希表的比对结果对数据进行保留或删除来实现数据去重的功能。