工作總結(jié)
發(fā)表時(shí)間:2026-04-11中班工作總結(jié)〔2026推薦〕。
這段時(shí)間排的中班,下午四點(diǎn)到夜里十二點(diǎn),正好接白班的尾巴,再把手頭的事交給夜班。這個(gè)班次最磨人的不是技術(shù)難度,是接手時(shí)經(jīng)常面對(duì)一堆“觀察中”的爛攤子。
講兩個(gè)最近實(shí)打?qū)嵦幚磉^(guò)的故障,一個(gè)數(shù)據(jù)庫(kù)的,一個(gè)日志采集的。
上個(gè)月中旬,下午四點(diǎn)半我剛坐到工位,白班同事交接說(shuō):“核心查詢(xún)接口有點(diǎn)慢,觀察中,你們?cè)倏纯础!蔽业卿洷O(jiān)控一看,應(yīng)用服務(wù)器CPU 85%,數(shù)據(jù)庫(kù)負(fù)載正常,但連接池活躍數(shù)198,最大配置才200。這不是“有點(diǎn)慢”,是馬上要崩。趕緊抓線(xiàn)程堆棧,jstack發(fā)現(xiàn)一百多個(gè)線(xiàn)程卡在JDBC連接獲取上。追慢查詢(xún)?nèi)罩荆袕垷岜淼牟樵?xún)執(zhí)行時(shí)間從50毫秒漲到4秒。再往前翻變更記錄,凌晨有個(gè)數(shù)據(jù)同步任務(wù)改了那張表的結(jié)構(gòu),加了一個(gè)非索引字段當(dāng)查詢(xún)條件。改的人早下班了,也沒(méi)通知任何人。
換去年,我第一反應(yīng)肯定是重啟應(yīng)用清連接池,先恢復(fù)再說(shuō)。但今年我改了個(gè)習(xí)慣——先看變更關(guān)聯(lián),再動(dòng)手。我確認(rèn)了慢查詢(xún)的SQL,臨時(shí)在那張表上建了個(gè)復(fù)合索引。問(wèn)題來(lái)了:DBA說(shuō)這個(gè)表不能在線(xiàn)加索引,會(huì)鎖業(yè)務(wù)。我查了下,表大小不到20G,用pt-online-schema-change跑,大概三分鐘能搞定。但走變更審批流程要填單子、找組長(zhǎng)批、找DBA確認(rèn),這一套下來(lái)少說(shuō)十五分鐘。我直接給組長(zhǎng)打了個(gè)電話(huà):“業(yè)務(wù)快掛了,我先用pt-osc做,事后補(bǔ)單子。”組長(zhǎng)猶豫了三秒,同意了。索引建完,連接池立刻降到正常水位,接口恢復(fù)。從發(fā)現(xiàn)問(wèn)題到解決,總共27分鐘,其中15分鐘花在等審批和打電話(huà)溝通上。
事后我補(bǔ)了單子,也干了一件事:在監(jiān)控系統(tǒng)里加了兩個(gè)預(yù)警。一個(gè)是連接池使用率超過(guò)80%就報(bào)警,另一個(gè)是把慢查詢(xún)閾值從2秒降到500毫秒,并且把慢查詢(xún)?nèi)罩竞捅斫Y(jié)構(gòu)變更記錄做了關(guān)聯(lián)——雖然這個(gè)關(guān)聯(lián)是半自動(dòng)的,我寫(xiě)了個(gè)腳本每天凌晨跑,把前一天的變更記錄和慢查詢(xún)?nèi)罩酒ヅ洌蓤?bào)告發(fā)到群里。上周這個(gè)腳本還真抓到一個(gè)類(lèi)似的隱患,提前扼殺了。相比去年,同樣原因?qū)е碌臄?shù)據(jù)庫(kù)連接池問(wèn)題出現(xiàn)過(guò)四次,今年到現(xiàn)在只這一次。
第二個(gè)案例是日志采集積壓。我們用的自研Filebeat采集容器日志到Kafka,某天晚上八點(diǎn),我發(fā)現(xiàn)三個(gè)節(jié)點(diǎn)的日志延遲從秒級(jí)漲到40分鐘。查Filebeat的registry文件,發(fā)現(xiàn)有個(gè)日志文件的inode被復(fù)用了——docker的json.log輪轉(zhuǎn)后,新文件可能復(fù)用舊文件的inode(overlay2存儲(chǔ)驅(qū)動(dòng)下常見(jiàn)),導(dǎo)致Filebeat不停重試同一個(gè)文件段,卡死在那里。去年的處理方式簡(jiǎn)單粗暴:重啟Filebeat,清空registry,重新采集。后果是丟幾分鐘日志,而且那次正好丟了某個(gè)關(guān)鍵錯(cuò)誤日志,后來(lái)排查問(wèn)題少了線(xiàn)索,被研發(fā)罵了一頓。
這次我沒(méi)重啟。我先停了Filebeat,備份registry,然后用python腳本手動(dòng)解析偏移量。registry是個(gè)json文件,里面記錄了每個(gè)文件的source路徑和當(dāng)前offset。我用os.stat拿到出問(wèn)題文件的inode,然后在registry里找到inode匹配的那條記錄,把offset往前調(diào)了512字節(jié)(保證不丟數(shù)據(jù)),再寫(xiě)回去。啟動(dòng)Filebeat,日志從調(diào)整后的位置繼續(xù)采集,一條沒(méi)丟。整個(gè)恢復(fù)過(guò)程用了八分鐘,其中寫(xiě)腳本花了五分鐘——那個(gè)腳本我現(xiàn)在還留著,遇到類(lèi)似情況直接跑。
事后我把日志輪轉(zhuǎn)策略改了:從基于大小(100MB輪轉(zhuǎn))改成基于時(shí)間(每小時(shí)輪轉(zhuǎn)一次,保留24個(gè)),并在輪轉(zhuǎn)時(shí)強(qiáng)制chattr +C關(guān)閉寫(xiě)時(shí)復(fù)制,避免inode復(fù)用。另外在Filebeat配置里加了close_timeout: 5m和clean_removed: true。上周有個(gè)新來(lái)的同事遇到同樣問(wèn)題,直接跑我的腳本,五分鐘搞定,他跟我說(shuō):“這破事終于不用再折騰了。”我聽(tīng)了挺高興。
- 讀書(shū)筆記吧(DSbj1.CoM)小編好專(zhuān)題推薦:
- 中班配班工作總結(jié)?|?幼兒中班教師工作總結(jié)?|?幼兒園中班工作總結(jié)?|?中班主班教師工作總結(jié)?|?中班月工作總結(jié)推薦?|?2026工作總結(jié)
設(shè)備維護(hù)這塊也有變化。以前巡檢靠人盯著監(jiān)控大屏,兩小時(shí)看一眼,經(jīng)常等報(bào)警來(lái)了盤(pán)已經(jīng)壞了。今年我把所有硬盤(pán)的SMART數(shù)據(jù)、RAID卡日志、電源冗余狀態(tài)全接進(jìn)了Prometheus,用node_exporter的textfile功能定期采集。預(yù)警閾值不是等壞道擴(kuò)散,而是看趨勢(shì)——比如“Pending Sector”從0變成1就發(fā)釘釘消息。上個(gè)月有塊SSD的磨損壽命到了87%,預(yù)警提前三天觸發(fā)。我跟業(yè)務(wù)方商量好,凌晨?jī)牲c(diǎn)做了熱備替換,整個(gè)切換過(guò)程業(yè)務(wù)零感知。放在去年,這種盤(pán)往往等到讀寫(xiě)報(bào)錯(cuò)才發(fā)現(xiàn),那時(shí)候得停業(yè)務(wù)換盤(pán),至少折騰一小時(shí)。
說(shuō)到工藝標(biāo)準(zhǔn),最近我把服務(wù)器初始化的檢查項(xiàng)從15條擴(kuò)到32條。新增的包括:net.core.somaxconn調(diào)大(防止高并發(fā)下連接隊(duì)列溢出)、vm.max_map_count調(diào)大(ES容器需要)、關(guān)掉avahi-daemon和ModemManager這些沒(méi)用的服務(wù),還有NTP同步偏差閾值設(shè)成10毫秒。但擴(kuò)充完沒(méi)多久就出了個(gè)洋相——驗(yàn)收一臺(tái)新機(jī)器時(shí),我忘了檢查net.ipv4.conf.all.rp_filter,結(jié)果那臺(tái)機(jī)器出現(xiàn)非對(duì)稱(chēng)路由丟包,業(yè)務(wù)偶發(fā)超時(shí)。排查了兩個(gè)小時(shí)才發(fā)現(xiàn)。后來(lái)我把所有內(nèi)核參數(shù)的校驗(yàn)做成了ansible role,每次驗(yàn)收跑一遍ansible all -m shell -a 'sysctl -a',跟基線(xiàn)做diff。現(xiàn)在驗(yàn)收不只是“能ping通、能ssh就過(guò)”,而是跑一套故障注入測(cè)試,比如模擬網(wǎng)卡丟包5%,看系統(tǒng)日志有沒(méi)有異常。
最后說(shuō)個(gè)中班特有的糟心事。下午四點(diǎn)接白班的班,交接記錄經(jīng)常寫(xiě)“監(jiān)控有點(diǎn)波動(dòng),觀察中”。上周五我五點(diǎn)一看,磁盤(pán)使用率已經(jīng)從82%漲到94%——他們說(shuō)的“波動(dòng)”其實(shí)是某個(gè)日志輪轉(zhuǎn)沒(méi)生效,/var/log/messages已經(jīng)撐到28G。我趕緊手動(dòng)清理,順手寫(xiě)了個(gè)crontab每天凌晨壓縮歸檔。第二天白班同事看到郵件,給我發(fā)消息:“你們中班干活真狠。”我回他:“你們下次別留坑就行。”
- 推薦閱讀: 〔推薦〕2026年教師工作總結(jié) 2026年國(guó)學(xué)老師工作總結(jié) 〔推薦〕2026年內(nèi)科醫(yī)師年終工作總結(jié) 2026年司法實(shí)習(xí)工作總結(jié)
- 想了解更多工作總結(jié)的資訊,請(qǐng)?jiān)L問(wèn):工作總結(jié)