背景是某个业务的logdb历史oss_log(MyISAM表类型)例行删除,有时候会告"deadlock"。
当时我的第一反应是认为表很大,我并没有对这种一厢情愿的想法提出质疑,于是乎,我让运维找开发要了脚本,我希望通过优化脚本来优化执行时间!
吭叽吭叽的准备开搞,而且也很高兴的想到了优化脚本的方法.....
但从一开始我就没有从多个角度来看待这个问题,思维定式地认为这个是因为数据量大的原因。
下面这幅图从2个角度看得到的东西是南辕北辙啊
很多时候,在动手之前,先拿出笔和纸张,把问题认认真真分析一下,从不同角度会得到比较严谨而靠谱的方法,believe me!
分析slow log发现有些删除需要很长时间,比如:drop table 2014_10_17_oss_abandonquest 花费了15041.2410秒。删除行为在凌晨4点发出,刚好落在备份期间,因为5.5有了MDL(Meta data lock),所以–single-transaction时,事务内操作过的表都会持有MDL,因此不会被DDL破坏。所以,查看get_status.err会有如下日志:
11966363,hardcore,localhost,oss_log,Query,11084,Waiting for table metadata lock,drop table 2014_10_17_oss_abandonquestsession.1 | session.2 | |||||||
Step.1 | begin; | |||||||
Step.2 | select * from tb_myisam; | |||||||
Step.3 | drop table tb_myisam; | |||||||
被阻塞… |