MySQL数据表合并去重的简单实现方法资源-CSDN下载

80 浏览量 2020-12-16 07:38:48 上传评论 1 收藏 49KB PDF 举报

场景：爬取的数据生成数据表，结构与另一个主表相同，需要进行合并+去重解决：（直接举例）首先创建两个表pep，pep2，其中pep是主表 CREATE TABLE IF NOT EXISTS `pep/pep2`( `id` INT UNSIGNED AUTO_INCREMENT, `no` VARCHAR(100) NOT NULL, PRIMARY KEY ( `id` ) )ENGINE=InnoDB DEFAULT CHARSET=utf8; 然后向pep中插入两条数据，pep2中插入一条与pep中相同的一条数据 insert into pep(no) values('ab 在数据库管理中，合并数据表并去除重复项是一项常见的任务，特别是在处理大量数据时，例如爬虫抓取的信息。MySQL提供了多种方式来处理这样的问题。本文将以一个具体的例子来阐述如何在MySQL中合并数据表并有效地去重。我们有两个表`pep`和`pep2`，它们具有相同的结构。`pep`作为主表，包含一个自增的`id`字段和一个非空的`no`字段。表`pep2`则可能包含与`pep`中重复的数据。创建这两个表的SQL语句如下： ```sql CREATE TABLE IF NOT EXISTS `pep`( `id` INT UNSIGNED AUTO_INCREMENT, `no` VARCHAR(100) NOT NULL, PRIMARY KEY ( `id` ) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; ``` 接着，我们向`pep`表中插入数据，例如'abc'和'caa'，然后在`pep2`表中插入一条与`pep`表相同的记录'abc'： ```sql INSERT INTO pep(no) VALUES('abc'); INSERT INTO pep(no) VALUES('caa'); INSERT INTO pep2(no) VALUES('abc'); ``` 为了合并这两个表并去重，我们可以使用`INSERT IGNORE`或`ON DUPLICATE KEY UPDATE`语句，但在这个例子中，我们选择创建一个新的临时表`tmp`来实现去重。尝试直接使用`GROUP BY`进行去重，但这可能会因为`sql_mode`设置而报错： ```sql CREATE TABLE tmp SELECT id, no FROM pep GROUP BY no; ``` 在MySQL中，如果`sql_mode`包含了`ONLY_FULL_GROUP_BY`，则不允许在`SELECT`列表中出现未聚合的列。为了解决这个问题，我们需要修改`sql_mode`： ```sql SET GLOBAL sql_mode='STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'; SET SESSION sql_mode='STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'; ``` 现在，可以创建临时表`tmp`： ```sql CREATE TABLE tmp SELECT id, no FROM pep GROUP BY no; ``` 接着，删除原始的`pep`表，并将`tmp`表重命名为`pep`： ```sql DROP TABLE pep; ALTER TABLE tmp RENAME TO pep; ``` 此时，`tmp`（现在的`pep`）表中的`id`字段类型可能不再是主键自增，需要恢复原样： ```sql ALTER TABLE pep ADD PRIMARY KEY (id); ALTER TABLE pep MODIFY id INT AUTO_INCREMENT; ``` 此外，还可以通过其他策略来避免数据重复。例如，可以添加一个新字段，如`md5`值（由多个字段组合而成），并为其创建唯一索引，这样在插入数据时，系统会自动过滤掉重复的数据： ```sql ALTER TABLE pep ADD COLUMN md5_hash VARCHAR(32) UNIQUE; UPDATE pep SET md5_hash = MD5(CONCAT(no, other_field)); ``` 总结来说，处理数据表合并去重的方法包括使用`GROUP BY`创建临时表、修改`sql_mode`以允许不完全聚合，以及利用唯一索引来防止数据插入时的重复。在实际操作中，应根据数据规模和具体需求选择最适合的方法，确保数据的完整性和一致性。在处理百万级甚至更大规模的数据时，优化这些操作显得尤为重要，可能需要考虑使用分区表、并行处理、索引策略等技术来提高性能。在实际工作中，了解和掌握这些方法对于提高数据库管理效率具有重要意义。

资源推荐

资源详情

资源评论