boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。
如果删除小表,不担心效率,可以用下面方式删除,
http://jimmy9495.iteye.com/admin/blogs/2072785
但是用上面的sql如果想在大表操作删除,肯定是不行的。
查看表中imsi除了空以外重复的数目。
SELECT COUNT(t.`imsi`),t.`imsi` FROM `boss_t_tour` t WHERE t.imsi <> ''
GROUP BY t.`imsi` HAVING COUNT(t.`imsi`) >1
mysql大数据表中的快速删除部分数据办法:
1.创建删除重复的存储过程
DELIMITER $$
USE `bossdb` $$
DROP PROCEDURE IF EXISTS `del` $$
CREATE DEFINER = `root` @`localhost` PROCEDURE `del` ()
BEGIN
/** 定义后面循环用到的变量*/
DECLARE coun1 INT ;
DECLARE count2 INT ;
DROP TABLE IF EXISTS tmp_imsi;
DROP TABLE IF EXISTS tmp_all;
DROP TABLE IF EXISTS tmp_keep;
DROP TABLE IF EXISTS tmp_delete;
/** 创建临时表*/
CREATE TABLE tmp_imsi AS SELECT t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi <> '' GROUP BY t.imsi HAVING COUNT(t.imsi) >1;
CREATE TABLE tmp_all AS SELECT t.id,t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi IN (SELECT imsi FROM tmp_imsi);
CREATE TABLE tmp_keep AS SELECT MIN(a.id) AS id FROM tmp_all a GROUP BY a.imsi;
CREATE TABLE tmp_delete AS SELECT a.id AS id FROM tmp_all a WHERE a.id NOT IN (SELECT id FROM tmp_keep) ;
/** 先删除索引提高删除速度*/
ALTER TABLE `bossdb`.`boss_t_tour`
DROP INDEX `imsi_index`,
DROP INDEX `syncstatusInded`;
/** 循环删除开始*/
/** 原计划用此子查询删除,DELETE FROM boss_t_tour WHERE EXISTS (SELECT 1 FROM tmp_delete WHERE boss_t_tour.id = tmp_delete.id);*/
/** 但是发现mysql子查询删除效率奇慢,本机测试主表150W数据 临时表8000条数据 删除3000条用了一个小时,效率太差不敢在生产环境使用。*/
/** 用下面的循环删除效率高很多,删除8000多条数据5分钟 */
SELECT COUNT(*) INTO coun1 FROM tmp_delete;
WHILE coun1 > 0 DO
SELECT id INTO count2 FROM tmp_delete LIMIT 1 ;
DELETE FROM boss_t_tour WHERE id = count2 ;
DELETE FROM tmp_delete WHERE id = count2 ;
COMMIT ;
SET coun1 = coun1 - 1 ;
END WHILE ;
/** 循环删除结束*/
/** 重建索引*/
ALTER TABLE `bossdb`.`boss_t_tour`
ADD INDEX `imsi_index` (`imsi`),
ADD INDEX `syncstatusInded` (`sync_status`);
/** 删除临时表*/
DROP TABLE IF EXISTS tmp_imsi;
DROP TABLE IF EXISTS tmp_all;
DROP TABLE IF EXISTS tmp_keep;
DROP TABLE IF EXISTS tmp_delete;
END $$
DELIMITER ;
2.执行存储过程
CALL del();
本机执行5分钟完成。
写的过程中还发现个问题mysql的delete操作居然不能给 表定义别名。。。
MYSQL delete语句不支持别名?
http://blog.chinaunix.net/uid-20639775-id-3167446.html
分享到:
相关推荐
mysql测试库-包含大数据量表
快速导出mysql大数据打包faban.sh
基于springboot的大数据的心脏病患者数据分析系统-基于Web的大数据的心脏病患者数据分析系统设计与实现-大数据的心脏病患者数据分析网站-大数据的心脏病患者数据分析网站代码-大数据的心脏病患者数据分析平台-大数据...
本文主要给大家介绍了关于Mysql提升大数据表拷贝效率的相关内容,分享出来供大家参考学习,我们大家在工作上会经常遇到量级比较大的数据表 ; 场景: 该数据表需要进行alter操作 比如增加一个字段,减少一个字段. 这...
大数据的智能家居销量数据分析-大数据的智能家居销量数据分析系统-大数据的智能家居销量数据分析系统源码-大数据的智能家居销量数据分析管理系统-大数据的智能家居销量数据分析管理系统java代码-大数据的智能家居...
基于springboot的大数据的心脏病患者数据分析系统-基于Web的大数据的心脏病患者数据分析系统设计与实现-大数据的心脏病患者数据分析网站-大数据的心脏病患者数据分析网站代码-大数据的心脏病患者数据分析平台-大数据...
大数据的智能家居销量数据分析-大数据的智能家居销量数据分析系统-大数据的智能家居销量数据分析系统源码-大数据的智能家居销量数据分析管理系统-大数据的智能家居销量数据分析管理系统java代码-大数据的智能家居...
JDBC使用MySQL处理大数据+事务控制管理.txt
sql 查出一张表中重复的所有记录数据 1.表中有id和name 两个字段,查询出name重复的所有数据 select * from xi a where (a.username) in (select username from xi group by username having count(*) > 1) 2、...
本文实例讲述了mysql优化小技巧之去除重复项...要是几千上万条不同数据重复,那咋办。。。 完事呢,咱就考虑了,用having函数查询的时候,原始sql如下: select `name`,count(*) as count from sentence group by `na
基于springboot的大数据的心脏病患者数据分析系统-基于Web的大数据的心脏病患者数据分析系统设计与实现-大数据的心脏病患者数据分析网站-大数据的心脏病患者数据分析网站代码-大数据的心脏病患者数据分析平台-大数据...
这对于大规模数据处理场景非常重要,因为大数据任务通常需要在分布式环境中执行,而DolphinScheduler可以有效地管理这些任务,确保它们按照正确的顺序和依赖关系运行。 ### 2. DAG流程编排 DolphinScheduler使用...
用highcharts实现从mysql数据库获取数据生成实时折线图。开发平台是用eclipse实现的,是一个项目,用jsp显示从数据库读取的实时折线图。
本文总结了30个mysql千万级大数据SQL查询优化技巧,特别适合大数据里的MYSQL使用
构建互联网+与大数据时代的分布式MySQL架构