📱 Học IELTS miễn phí: App IELTS 6.0
Giới Thiệu
3 giờ sáng. PagerDuty reo. Hệ thống sập.
Bạn vào Slack incident channel, thấy toàn tiếng Anh:
“P1 incident — payment service returning 503. Blast radius: all checkout flows. ETA to mitigate?”
😰 Bạn biết cách fix, nhưng không biết diễn đạt bằng tiếng Anh. Thời gian quý như vàng trong incident — mỗi phút downtime là tiền mất, khách hàng bỏ đi.
Bài viết này giúp bạn:
- Nắm từ vựng incident response cần thiết
- Viết báo cáo sự cố real-time rõ ràng
- Soạn post-mortem chuyên nghiệp
- Giao tiếp bình tĩnh, hiệu quả trong khủng hoảng
1. Severity Levels — Phân Loại Mức Độ
Mọi incident đều bắt đầu bằng câu hỏi: “Mức độ nghiêm trọng thế nào?”
| Level | English | Tiếng Việt | Ví dụ |
|---|---|---|---|
| P0 / SEV-0 | Critical / Catastrophic | Nghiêm trọng nhất | Toàn bộ hệ thống sập, mất dữ liệu |
| P1 / SEV-1 | Major | Nghiêm trọng | Chức năng chính không hoạt động |
| P2 / SEV-2 | Moderate | Trung bình | Một phần chức năng bị ảnh hưởng |
| P3 / SEV-3 | Minor | Nhẹ | Lỗi nhỏ, có workaround |
| P4 / SEV-4 | Low / Cosmetic | Rất nhẹ | Lỗi UI, không ảnh hưởng chức năng |
Mẫu Câu Khai Báo Incident
- “I’m declaring a P1 incident — the payment service is completely down.”
- “This looks like a SEV-2 — search is degraded but checkout still works.”
- “Upgrading from P2 to P1 — the blast radius is larger than initially assessed.”
- “Downgrading to P3 — we’ve confirmed only a small subset of users is affected.”
2. Incident Roles — Vai Trò Trong Sự Cố
| Role | IPA | Tiếng Việt | Nhiệm vụ |
|---|---|---|---|
| Incident Commander (IC) | /ˈɪn.sɪ.dənt kəˈmæn.dər/ | Chỉ huy sự cố | Điều phối, quyết định, timeline |
| Communications Lead | /kəˌmjuː.nɪˈkeɪ.ʃənz liːd/ | Phụ trách truyền thông | Cập nhật stakeholders, status page |
| Technical Lead | /ˈtek.nɪ.kəl liːd/ | Trưởng kỹ thuật | Debug, tìm root cause, fix |
| Scribe | /skraɪb/ | Thư ký | Ghi lại timeline, actions |
| Subject Matter Expert (SME) | /ˌsʌb.dʒekt ˈmæt.ər ˈek.spɜːrt/ | Chuyên gia lĩnh vực | Hỗ trợ kiến thức chuyên sâu |
Mẫu Câu Phân Công
- “I’ll be IC for this incident. @Sarah, can you take comms?”
- “We need a SME for the database layer — @Mike, can you join?”
- "@Lisa is scribing — please post all updates in this channel."
- “I’m handing off IC to @Tom for the next shift.”
3. Giao Tiếp Real-Time Trong Incident
Báo Cáo Tình Hình (Status Updates)
Mẫu Câu Hay Dùng
| Tình huống | English | Tiếng Việt |
|---|---|---|
| Báo cáo vấn đề | “We’re seeing elevated error rates on…” | Chúng tôi đang thấy tỷ lệ lỗi tăng cao trên… |
| Xác nhận nguyên nhân | “Root cause identified: …” | Đã xác định nguyên nhân gốc: … |
| Đang xử lý | “We’re currently mitigating by…” | Chúng tôi đang khắc phục bằng cách… |
| Cần hỗ trợ | “We need eyes on the database — who’s available?” | Cần người xem database — ai rảnh? |
| Đã fix tạm | “Mitigation applied. Monitoring for stability.” | Đã áp dụng biện pháp tạm. Đang theo dõi ổn định. |
| Chờ deploy | “Fix is in review. ETA to production: 20 minutes.” | Fix đang review. ETA lên production: 20 phút. |
| Kết thúc | “Incident resolved. All systems nominal.” | Sự cố đã xử lý xong. Hệ thống hoạt động bình thường. |
Từ Vựng Real-Time
| English | IPA | Tiếng Việt |
|---|---|---|
| blast radius | /blɑːst ˈreɪ.di.əs/ | phạm vi ảnh hưởng |
| mitigation | /ˌmɪt.ɪˈɡeɪ.ʃən/ | biện pháp khắc phục tạm |
| remediation | /rɪˌmiː.diˈeɪ.ʃən/ | biện pháp khắc phục triệt để |
| workaround | /ˈwɜːrk.əˌraʊnd/ | giải pháp tạm thời |
| rollback | /ˈroʊl.bæk/ | hoàn tác, quay lại phiên bản trước |
| degraded | /dɪˈɡreɪ.dɪd/ | suy giảm (chưa sập hoàn toàn) |
| outage | /ˈaʊ.tɪdʒ/ | ngừng hoạt động |
| downtime | /ˈdaʊn.taɪm/ | thời gian ngừng hoạt động |
| ETA (Estimated Time of Arrival) | /ˌiː.tiːˈeɪ/ | thời gian dự kiến hoàn thành |
| nominal | /ˈnɒm.ɪ.nəl/ | bình thường, hoạt động đúng |
| intermittent | /ˌɪn.tərˈmɪt.ənt/ | không liên tục, lúc có lúc không |
| cascading failure | /kæˈskeɪ.dɪŋ ˈfeɪ.ljər/ | lỗi lan truyền dây chuyền |
4. Status Page Updates — Thông Báo Cho Khách Hàng
Khi hệ thống gặp sự cố, bạn cần viết status page update cho users — ngắn gọn, rõ ràng, không gây hoảng sợ.
Template Status Page
Investigating (đang điều tra):
We are currently investigating reports of increased error rates affecting [service]. Some users may experience [symptoms]. Our team is actively working to resolve this issue. We will provide updates as more information becomes available.
Identified (đã xác định nguyên nhân):
The issue has been identified as [brief cause]. We are implementing a fix. [Service] may continue to experience [symptoms] in the meantime. We expect to resolve this within [timeframe].
Monitoring (đang theo dõi):
A fix has been implemented for the [service] issue. We are monitoring the situation to ensure stability. Some users may still see brief [symptoms] as the fix propagates.
Resolved (đã giải quyết):
The issue affecting [service] has been fully resolved. All systems are operating normally. We apologize for the inconvenience. A detailed post-mortem will be published within [timeframe].
Nguyên Tắc Viết Status Page
| ✅ Nên | ❌ Không nên |
|---|---|
| Ngắn gọn, factual | Đổ lỗi cho team hay cá nhân |
| Cập nhật đều đặn (mỗi 15-30 phút) | Im lặng quá lâu |
| Nói rõ impact cho user | Dùng jargon kỹ thuật quá nhiều |
| Xin lỗi chân thành | Nói “Chúng tôi không có lỗi” |
5. Post-Mortem — Blameless Review
Post-mortem (hay blameless review) là bản phân tích sau sự cố — không đổ lỗi, chỉ tập trung vào học hỏi và cải thiện.
Template Post-Mortem
| |
6. Từ Vựng Post-Mortem
| English | IPA | Tiếng Việt |
|---|---|---|
| post-mortem | /poʊst ˈmɔːr.təm/ | phân tích sau sự cố |
| blameless | /ˈbleɪm.ləs/ | không đổ lỗi |
| root cause | /ruːt kɔːz/ | nguyên nhân gốc |
| contributing factor | /kənˈtrɪb.juː.tɪŋ ˈfæk.tər/ | yếu tố góp phần |
| action item | /ˈæk.ʃən ˈaɪ.təm/ | hạng mục cần làm |
| timeline | /ˈtaɪm.laɪn/ | dòng thời gian |
| detection time | /dɪˈtek.ʃən taɪm/ | thời gian phát hiện |
| time to mitigate (TTM) | /taɪm tə ˈmɪt.ɪ.ɡeɪt/ | thời gian khắc phục tạm |
| time to resolve (TTR) | /taɪm tə rɪˈzɒlv/ | thời gian giải quyết triệt để |
| mean time to recovery (MTTR) | /miːn taɪm tə rɪˈkʌv.ər.i/ | thời gian phục hồi trung bình |
| SLA (Service Level Agreement) | /ˌes.elˈeɪ/ | cam kết chất lượng dịch vụ |
| SLO (Service Level Objective) | /ˌes.elˈoʊ/ | mục tiêu chất lượng dịch vụ |
| error budget | /ˈer.ər ˈbʌdʒ.ɪt/ | ngân sách lỗi cho phép |
| recurrence | /rɪˈkʌr.əns/ | tái phát |
| preventive measure | /prɪˈven.tɪv ˈmeʒ.ər/ | biện pháp phòng ngừa |
7. Email Thông Báo Sự Cố
Mẫu Email Cho Management
8. Practice — Bài Tập Thực Hành
Bài tập 1: Viết Status Update
Tình huống: API gateway trả về lỗi 502 cho 10% requests. Bạn là IC. Viết 1 status update cho incident channel.
Cần có:
- Timestamp
- What (vấn đề gì)
- Impact (ảnh hưởng)
- Current action
- ETA
Bài tập 2: Viết Status Page Update
Tình huống giống trên, nhưng viết cho khách hàng trên status page. Nhớ: ngắn gọn, không jargon, không gây hoảng.
Bài tập 3: Điền từ
Điền từ thích hợp:
- The _____ of this incident is the API service and all downstream consumers. (phạm vi ảnh hưởng)
- We’ve applied a temporary _____. A permanent fix will follow. (biện pháp tạm)
- All systems are now _____. (hoạt động bình thường)
- The _____ was a memory leak in the cache layer. (nguyên nhân gốc)
- Our _____ for this quarter is 99.95% uptime. (mục tiêu chất lượng)
📝 Đáp án
- blast radius
- mitigation (hoặc workaround)
- nominal (hoặc operating normally)
- root cause
- SLO (Service Level Objective)
Kết Luận
Incident response là lúc áp lực cao nhất — và cũng là lúc bạn cần giao tiếp rõ ràng nhất.
3 điều cần nhớ:
- 🎯 Be clear, be concise — không ai muốn đọc essay lúc 3AM
- 🤝 Blameless culture — tập trung vào hệ thống, không phải con người
- 📝 Document everything — post-mortem tốt = không lặp lại sai lầm
Lần tới khi PagerDuty reo, bạn sẽ không chỉ fix nhanh mà còn communicate như một pro 🚨✨