SQL語(yǔ)句執(zhí)行超時(shí)引發(fā)網(wǎng)站首頁(yè)訪問(wèn)故障問(wèn)題
非常抱歉,今天早上 6:37~8:15 期間,由于獲取網(wǎng)站首頁(yè)博文列表的 SQL 語(yǔ)句出現(xiàn)突發(fā)的查詢超時(shí)問(wèn)題,造成訪問(wèn)網(wǎng)站首頁(yè)時(shí)出現(xiàn) 500 錯(cuò)誤,由此給您帶來(lái)麻煩,請(qǐng)您諒解。
故障的情況是這樣的。
故障期間日志中記錄了大量下面的錯(cuò)誤。
2020-02-03 06:37:24.635 [Error] An unhandled exception has occurred while executing the request./Microsoft.AspNetCore.Diagnostics.ExceptionHandlerMiddlewareSystem.Data.SqlClient.SqlException (0x80131904): Timeout expired. The timeout period elapsed prior to completion of the operation or the server is not responding. ---> System.ComponentModel.Win32Exception (258): Unknown error 258 at System.Data.SqlClient.SqlCommand.<>c.<ExecuteDbDataReaderAsync>b__126_0(Task`1 result)
數(shù)據(jù)庫(kù)服務(wù)器(阿里云 RDS SQL Server 2016 實(shí)例)的 CPU 消耗突增。
數(shù)據(jù)庫(kù)服務(wù)器的 IOPS 暴增。
通過(guò)阿里云 RDS 控制臺(tái)的 CloudDBA 可以查看到故障期間獲取首頁(yè)博文的 SQL 語(yǔ)句被執(zhí)行了3萬(wàn)多次,執(zhí)行這么多次是由于查詢超時(shí),無(wú)法建立緩存,每次請(qǐng)求都要訪問(wèn)數(shù)據(jù)庫(kù)。
發(fā)現(xiàn)故障后,我們通過(guò)阿里云 RDS 的主備切換恢復(fù)了正常。
經(jīng)過(guò)對(duì)故障的排查分析,鎖定的最大嫌疑對(duì)象是 SQL Server 參數(shù)嗅探(詳見(jiàn)園子里的博文 什么是 SQL Server 參數(shù)嗅探)。
對(duì)于這種因?yàn)橹赜盟松傻膱?zhí)行計(jì)劃而導(dǎo)致的水土不服現(xiàn)象,SQL Server 有一個(gè)專(zhuān)有名詞,叫“參數(shù)嗅探 parameter sniffing”。
而且我們找到了引發(fā) SQL Server 參數(shù)嗅探問(wèn)題的條件。
在我們的 open api 中提供了獲取首頁(yè)博文列表的 web api ,但沒(méi)有限制可以獲取的最大博文數(shù),也就是下面的 ItemCount 參數(shù)(除了 open api ,其他地方調(diào)用時(shí) ItemCount 值都是 20 )。
SELECT TOP (@ItemCount)
假如有人調(diào)用 open api 時(shí)給 ItemCount 傳了一個(gè)很大的值,比如 20000 ,雖然調(diào)用的是同樣的 SQL 語(yǔ)句,但由于 ItemCount 的值不同, SQL Server 可能會(huì)生成相差很大的執(zhí)行計(jì)劃,對(duì)于 ItemCount 20000 性能比較好的執(zhí)行計(jì)劃,對(duì)于 ItemCount 20 可能性能極差。如果查詢 ItemCount 20000 時(shí)生成的執(zhí)行計(jì)劃被緩存下來(lái),查詢 ItemCount 20 時(shí)繼續(xù)使用這個(gè)執(zhí)行計(jì)劃,就會(huì)出現(xiàn)本來(lái)好好的 SQL 查詢突然變得性能極差。我們今天遇到的故障很可能就是這個(gè)原因,而且故障時(shí)就一個(gè) SQL 語(yǔ)句出現(xiàn)問(wèn)題(正好就這個(gè) SQL 查詢緩存了水土不服的執(zhí)行計(jì)劃),其他都正常,也驗(yàn)證了這個(gè)猜測(cè)。
通過(guò)這次故障,我們吸取的教訓(xùn)是一定要在代碼中對(duì) ItemCount 與 PageSize 的最大值進(jìn)行限制,它不僅僅是帶來(lái)不必要的低性能查詢,而且可能會(huì)因?yàn)?SQL Server 參數(shù)嗅探問(wèn)題拖垮整個(gè)數(shù)據(jù)庫(kù)。
總結(jié)
以上所述是小編給大家介紹的SQL語(yǔ)句執(zhí)行超時(shí)引發(fā)網(wǎng)站首頁(yè)訪問(wèn)故障問(wèn)題,希望對(duì)大家有所幫助!
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。