服務器故障處理
流量服務器
機房公網(wǎng)網(wǎng)站流量出口達到上限,核心站點已經(jīng)出現(xiàn)訪問緩慢、無法加載的現(xiàn)象
1.擴充流量
2.換機房,改變后端Web集群訪問地址,將一部分中等流量的站點服務器上的Nginx配置分發(fā)到B機房服務器,隨后更改DNS解析
有一套能實時查看所有域名流量,通過縱向(每臺服務器流量多少,當前HTTP并發(fā)多少)、橫向(每個服務器上運行了多少個域名、每個域名流量多少、域名訪問來源是什么)做可視化展示的系統(tǒng),監(jiān)控Nginx主機上正在使用的域名、單機總流量、并發(fā)、單個域名流量等。
注意事項:
不碰核心站點,重要性不言而喻;
不碰小流量站點,因為遷移訪問量較小的站點需要遷移多個站點才能有冗余流量,明顯耽誤時間。
系統(tǒng)出現(xiàn)故障時
有誰在?別幾個人一起調(diào)試
#w
#last
之前發(fā)生了什么?
#history
現(xiàn)在在運行的進程是啥?
#pstree-a
#ps-aux
監(jiān)聽的網(wǎng)絡服務
$netstat-ntlp$netstat-nulp
$netstat-nxlp
一般都分開運行這三個命令,不想一下子看到列出一大堆所有的服務
如果要顯示所有存在的連接,netstat會比較慢,你可以先用ss看一下總體情況
CPU和內(nèi)存
$free-m$uptime
$top
$htop
還有剩余的CPU嗎?服務器是幾核的?是否有某些CPU核負載過多了?
服務器最大的負載來自什么地方?平均負載是多少?
IO性能
$iostat-kx2$vmstat210
$mpstat210
$dstat--top-io--top-bio,用它可以看到誰在進行IO
檢查磁盤使用量:服務器硬盤是否已滿?
是否開啟了swap交換模式?
CPU被誰占用:系統(tǒng)進程?用戶進程?虛擬機?
應用故障
Apache&Nginx;查找訪問和錯誤日志,直接找5xx錯誤,再看看是否有l(wèi)imit_zone錯誤。
MySQL;在mysql.log找錯誤消息,看看有沒有結(jié)構(gòu)損壞的表,是否有innodb修復進程在運行,是否有disk/index/query問題.
PHP-FPM;如果設定了php-slow日志,直接找錯誤信息,如果沒設定,趕緊設定。
Varnish;在varnishlog和varnishstat里,檢查hit/miss比.看看配置信息里是否遺漏了什么規(guī)則,使最終用戶可以直接攻擊你的后端?
HA-Proxy;后端的狀況如何?健康狀況檢查是否成功?是前端還是后端的隊列大小達到最大值了?
永遠不要對當前連接的服務器或者網(wǎng)絡設備接口進行修改
請務必為自己的操作準備一套恢復機制
利用工具對網(wǎng)絡設備配置進行自動化備份能在交換機無法工作時幫助大家在幾分鐘內(nèi)部署好替代方案
在進行修改前對每個配置文件做好備份(.bak)
認真監(jiān)控數(shù)據(jù)中心的每個方面,從室內(nèi)溫度開始、到機架、再到服務器--另外,服務器進程檢查、正常運行時間檢查等等,并通過趨勢及圖形工具監(jiān)控帶寬使用率、溫度、磁盤分區(qū)用量以及其它重要數(shù)據(jù)指標。
Tags:流量服務器,服務器故障處理
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。