20万DBA都在关注的11个问题丨DBASK回答集萃第八期

2019年8月13日

DBASK小程序

825

引言

近期我们在DBASK小程序新关联了DB备战室，新增加60多位技术专家，期待更多数据库领域的专家和公众号作者加入到墨天轮，共创开放、互助、专业的数据库技术社区。

问答集萃

接下来，我们分享本期整理出的问题和诊断总结，供大家参考学习，详细的诊断分析过程可以通过标题链接跳转到小程序中查看。

问题一、为什么oracle不需要像mysql那样double write

为了解决 partial page write 问题，当mysql将脏数据flush到data file的时候, 先使用memcopy 将脏数据复制到内存中的double write buffer ，之后通过double write buffer再分2次，每次写入1MB到共享表空间，然后马上调用fsync函数，同步到磁盘上，避免缓冲带来的问题，在完成doublewrite写入后，在将double write buffer写入各表空间文件，这时是离散写入。这个过程是mysql double write。

问题：Oracle也是会出现类似的情况，为什么那么自信，不需要double write

诊断结论：这只能说是InnoDB的设计实现，不同的产品设计思路不同。又由于InnoDB只是一个存储引擎，考虑的情况还要复杂。MySQL的引擎制还导致redo和binlog共存。在未来Oracle主导之下，这些都会慢慢被改变。

问题二、truncate 分区表的时候非常慢3个小时没跑完会是什么原因

分区表有200多G，通过truncate 删除其中的一个分区使用了 update global indexes选项，执行了3个小时没执行完成，分区表存在 global 索引，最终导致业务无法操作，kill掉truncate 分区表的session 恢复操作，请问
1. 这3个小时是在等待 update global indexes 嘛？
2. kill 了 truncate session，业务恢复，表数据也没有删除，不是 truncate 不走 undo嘛，为什么 kill session 之后能回滚了呢？

诊断结论：1. 从描述看，很大可能是阻塞在update global indexes上面了；可以结合ash看看。2. Truncate是DDL，记录不计redo，但是medata还是有undo的，你这个操作失败，自然就回滚了。

问题三、oracel 预定义处理语句转为MySQL写法

Oracle写法如下：

EXCEPTION
WHEN OTHERS THEN
V_RESULT := I_SERVICE_ID;
RETURN(V_RESULT);

如何转换为MySQL语句写法？看网上说MySQL用 DECLARE，或者是否可以实现这种写法的转换？

诊断结论：类似这种写法：DECLARE EXIT HANDLER FOR SQLWARNING,NOT FOUND,SQLEXCEPTION，但是感觉MySQL的exit和Oracle的return还是有差距。

问题四、对大表字段设置为unuse有哪些影响？

oracle 11.2版本中对大表字段设置为unuse对后续的管理会产生哪些影响？

诊断结论：SET UNUSED再DROP UNUSED COLUMNS，是对于数据量很大的表的一种标准处理方法，所以，实际上大部分都是在SET UNUSED之后的几天内就会选择合适的时机，将这些列物理drop掉，因此不存在太多后续还要持续管理的机会吧。

问题五、rac心跳机制导致重启的问题

rac心跳机制包括网络和磁盘心跳，如遇节点间心跳超时（可能是由于服务器hang住或者网络出现问题），是否会重启非主节点的服务器？

节点重启是指集群服务重启还是服务器重启？如果服务器hang住，可以理解为不能对磁盘进行读写，磁盘心跳超时问题就一定会重启服务器？另外根据mos文档指出，11.2.0.2之后的版本，节点驱逐并不一定会导致服务器重启。

诊断结论：从11.2.0.2开始,当集群中的某个节点被驱逐（例如丢失网络心跳）或者该节点的ocssd.bin出现问题时，集群将不会直接重新启动该节点，而是首先尝试重新启动GI stack来解决问题，如果GI stack不能够在指定的时间内（short disk I/O timeout）完成graceful shutdown，才会重新启动节点。

关于网络心跳和磁盘心跳的机制请查看详情。

问题六、oracle goldengate实现一对多复制

目前一套oracle RAC做为源端，需要同步到同一机房的异机一份数据，还需要同步到异地机房一份数据，用一套ogg做一对多复制对源端性能影响大嘛？还是先同步到同一机房异机一份在从异机的目标端同步数据到异地？

像这种既有同机房异机数据同步，又异地同步，有更好的方案嘛？

诊断结论：一对多可以共用同一个抽取进程，只需多配一个投递进程就可以。
只要是同平台、同版本的Oracle容灾，基本上现在都用的ADG。但是由于源端为ibm小机，目标端为x86的服务器，没考虑用ADG，基本上能用的只有OGG了，不过OGG也不太稳定，特别是全库同步，DDL频繁的场景。

问题七、pdb级别的负载监控性能诊断

在12c以前可以通过例如dbtime的指标，判断数据库负载，在升级到12c,18c后，对于数据库的负载监控有没有一个指标，判断当前容器内那个pdb占用cdb资源最多？在使用oratop时只能看到cdb层面的负载信息，还有别的指标可以快速定位资源占比较高的pdb。

诊断结论：12.2可以生成pdb级别的awr报告，另外可以通过OEM CC监控查看各个PDB的负载情况。

问题八、重启多路径跟udev时，需要关闭数据跟数据库集群吗？

12c3节点rac在asm添加新的磁盘时，用的多路径，跟udev，修改multipath.conf de 重启多路径跟udev时，需要关闭数据跟数据库集群吗？

诊断结论：一般情况下重启udev和multipath是不会影响到集群的，原来的链路都在，且重启过程很快。但是重启过程中也可能存在链路超时或者原链路夯住导致集群重启的情况。还有网卡如果使用udev绑定也会存在节点重启的情况。另外multipath有reload命令。

问题九、oracle目录.cache文件是否可以清理

数据库所在的文件系统/u01使用率基本快满，根据find / -szie +500M -type f查看大于500M的文件进行清理，释放空间，询问您后缀为.cache文件可以清理吗，文件大小为500M，或者那些文件可以清理，我一一查找进行清理。

专家解答：不知道能不能删的文件，最好mv到其他地方，过一段时间后再删除。另外，文件系统慢不一定是大文件占用，可能是很多小文件，比如oracle的trace文件。通过du命令去找到占用空间较大的文件或目录，再考虑删除。

问题十、oracle 11g 怎么清理tnslsnr alert日志

请问一下，oracle 11g 怎样安全清理生产环境的alert日志。我想清理。diag/tnslsnr/ERP-DB/listener/alert

诊断结论：这些都是监听日志文件，如果不需要使用，可以直接删除所有带数字的xml文件。

另外禁用xml形式生成监听日志，可以通过在lisneter.ora中设置如下参数：
DIAG_ADR_ENABLED_LISTENER = OFF
另外如果是数据库alert日志可以先压缩备份alert日志，再执行：> alert_SID.log

问题十一、请问如何怎么快速定位存储过程中执行慢的语句

请问如何快速定位存储过程中执行慢的语句？

诊断结论：可以通过ASH 找到存储过程的主SQL然后依次找到递归的所有SQL，然后对这些SQL资源消耗做排序；存储过程记录日志；用10046跟踪运行存储过程的会话；用PLSQL DEVELOPER的Profiler调试，会展示每个SQL的运行时长。

出处：墨天轮（ID：enmocs）

(注：问题具体解答请进入DBASK小程序或公众号“数据和云”文章历史查看）