AgileOps Blog | Học hỏi từ các chuyên gia

Opsgenie - Công cụ quản lý sự cố hoàn hảo

Written by Phung Trinh | Nov 13, 2023 4:24:42 AM

Là một trong 7 quy trình quan trọng khi thiết lập và vận hành dịch vụ công nghệ thông tin, quản lý sự cố giúp cho hệ thống dịch vụ hoạt động ổn định và hỗ trợ các nhóm IT khắc phục sự cố nhanh chóng. Các sự cố này không chỉ ảnh hưởng đến trải nghiệm của khách hàng mà còn có thể gây thiệt hại cho doanh nghiệp của bạn trên nhiều phương diện khác nhau.

Hiểu rõ tầm quan trọng của hệ thống quản lý sự cố trong hoạt động vận hành và kinh doanh, Atlassian phát triển Opsgenie - công cụ quản lý sự cố.

Cùng AgileOps tìm hiểu về Opsgenie và sức mạnh của công cụ này.

Quản lý sự cố

Sự cố (incident) là một sự kiện không lường trước được làm gián đoạn hoặc ngăn cản việc cung cấp dịch vụ CNTT theo yêu cầu, ảnh hưởng đến một người dùng, một nhóm người dùng hoặc toàn bộ tổ chức. Sự cố có thể xảy ra do nhiều nguyên nhân, bao gồm lỗi phần mềm, lỗi phần cứng, lỗi cấu hình, tấn công mạng, v.v.

Quản lý sự cố, hay incident management, tập trung vào quá trình giải quyết và khắc phục kịp thời các sự cố nhằm đảm bảo trạng thái của dịch vụ CNTT hoạt động ổn định, giảm tối đa các tác động đối với doanh nghiệp.

Quản lý sự cố có thể được cụ thể hóa hơn thông qua các trường hợp tiêu biểu:

  • Wifi của toàn văn phòng không thể truy cập được do sự cố về mạng, lúc này, phòng IT có thể khởi động lại hệ thống mạng để đường truyền hoạt động trở lại.

  • Website của công ty “sập” khiến khách hàng không thể truy cập. Việc này không chỉ làm ảnh hưởng đến trải nghiệm dịch vụ của khách hàng mà còn có thể gây thiệt hại về doanh thu cho doanh nghiệp. Để giải quyết vấn đề này, phòng IT sẽ lập tức xử lý bằng cách kiểm tra tên miền, dung lượng bộ nhớ hoặc khởi động lại máy chủ để khôi phục website kịp thời, đảm bảo website vận hành bình thường.

Thông qua các trường hợp trên, doanh nghiệp có thể giảm thiểu tác động của sự cố bằng nhiều phương thức khác nhau của quản lý sự cố, từ đó, cải thiện trải nghiệm của khách hàng và giảm tối đa các chi phí phát sinh khi giải quyết sự cố.

Quy trình quản lý sự cố hoàn chỉnh

Các bước trong quy trình quản lý sự cố

Quản lý sự cố là một trong những quy trình quan trọng trong việc quản lý và vận hành dịch vụ CNTT. Để xây dựng quy trình quản lý sự cố hoàn chỉnh, phòng IT cần triển khai và đảm bảo các bước:

  • Identify and log - Xác định sự cố và ghi nhận thông tin chi tiết về chúng.

  • Communicate - Cập nhật và trao đổi về các ảnh hưởng của sự cố đối với các bên liên quan.

  • Categorize - Phân loại sự cố theo các tiêu chí như mức độ nghiêm trọng, loại hệ thống hoặc dịch vụ bị ảnh hưởng nhằm hỗ trợ quá trình quản lý vấn đề và tránh việc sự cố lặp lại trong tương lai.

  • Prioritize - Xác định mức độ ưu tiên bằng cách đánh giá tác động của sự cố.

  • Respond - Đề xuất và triển khai biện pháp khắc phục.

  • Closure - Đóng (close) sự cố sau khi giải quyết xong. Để đảm bảo quy trình này, chỉ có agent phụ trách mới có quyền đóng sự cố và phải phải xác nhận lại với người báo cáo sự cố rằng họ đã đồng ý với cách giải quyết.

  • Learn and improve - Áp dụng các bài học từ những sự cố đã gặp để cải thiện dịch vụ và quy trình, hướng tới mục tiêu hoạt động ổn định và hiệu quả trong tương lai.

Quy trình quản lý sự cố

 

Lợi ích của việc xây dựng quy trình quản lý sự cố hoàn chỉnh

Gián đoạn dịch vụ có thể gây tổn thất về chi phí cho doanh nghiệp và hiệu suất làm việc của cả tổ chức. Vì thế, việc xây dựng quy trình quản lý sự cố hoàn chỉnh giúp cho phòng IT:

  • Giao tiếp và trao đổi với khách hàng, nhà quản lý, và khác phòng ban khác một cách rõ ràng;

  • Ứng phó và khắc phục kịp thời các sự cố;

  • Triển khai các giải pháp tối ưu hơn nhờ quá trình cộng tác giữa các kỹ thuật viên;

  • Cải thiện dịch vụ và cải tiến quy trình thông qua những kinh nghiệm được đúc kết trong quá trình xử lý sự cố.

Làm quen với Opsgenie

Giới thiệu về Opsgenie

Nhận thấy tầm quan trọng trong việc luôn duy trì dịch vụ CNTT hoạt động ở trạng thái ổn định và những rủi ro mà doanh nghiệp gặp phải khi phải đối mặt với sự gián đoạn dịch vụ, năm 2012, Opsgenie được ra đời nhằm mục đích hỗ trợ các nhóm IT và DevOps tiếp cận và xử lý kịp thời các sự cố.
Opsgenie giúp kiểm soát tất cả các giai đoạn của quá trình quản lý sự cố bao gồm quản lý cảnh báo, lập lịch gọi điện thông minh và tăng cường và phân tích dữ liệu cho việc phân tích sự cố sau khi xảy ra.

Tháng 9/2018, Atlassian mua lại Opsgenie với mong muốn tận dụng các tính năng của công cụ này nhằm phát triển sản phẩm Jira Ops. Nhưng chỉ sau một khoảng thời gian không lâu, Jira Ops chính thức bị xóa sổ, Opsgenie được tiếp tục được nâng cấp và phát triển. Đến năm 2021, Atlssian tích hợp Opsgenie vào sản phẩm Jira Service Management với mục đích mang đến cho người dùng sản phẩm hoàn hảo với đầy đủ các tính năng ITSM.

Opsgenie hoạt động như thế nào?

Ví dụ này có thể sẽ giúp bạn hiểu rõ hơn về cách Opsgenie hoạt động.

Người dùng không thể nạp tiền vào ví điện tử X từ bất kì ngân hàng nào lúc 21 giờ vào thứ Bảy. Ngay lập tức, Opsgenie sẽ gửi thông báo về sự cố đến kỹ thuật viên, còn gọi là agent, đang trực thông qua email hay tin nhắn SMS. Tuy nhiên, do rơi vào ngày cuối tuần nên agent không chú ý đến email hay SMS của mình và bỏ lỡ thông báo về sự cố.

Dựa vào thời gian đã được thiết lập, sau 3 phút kỹ thuật viên không phản hồi Opsgenie tự động đẩy thông báo đến ứng dụng Opsgenie trên điện thoại của agent. Nếu tiếp tục không nhận được sự phản hồi nào từ agent được phân công vào thời điểm đó, Opsgenie sẽ tự động gọi điện cho agent. Nếu agent cố ý bỏ qua cảnh báo về sự cố đang xảy ra, lúc này, Opsgenie sẽ gửi cảnh báo đến người quản lý của agent đó bằng email, SMS hay gọi điện thoại.

Từ ví dụ trên, nhờ có Opsgenie, bộ phận IT và DevOps sẽ luôn cập nhật được thông tin về các sự cố và giải quyết chúng một cách kịp thời.

Vì sao chọn Opsgenie?

Opsgenie mang đến cho doanh nghiệp nhiều lợi ích bao gồm:

  • Cung cấp hệ thống cảnh báo sự cố đáng tin cậy bằng việc cho phép người dùng tối ưu hóa quy trình cảnh báo với lịch trực, tăng cường, và tắc định tuyến;

  • Hỗ trợ xây dựng và duy trì lịch trực và tùy chỉnh thông báo;

  • Nâng cao khả năng cộng tác;

  • Tự động hóa quá trình phản ứng sự cố;

  • Đảm bảo an ninh mạng và duy trì độ ổn định của mạng bằng cách thông báo kịp thời đến nhóm IT khi hệ thống gặp gián đoạn, sự cố;

  • Đúc kết kinh nghiệm và đề xuất sự cải tiến từ các báo cáo và phân tích.

Tính năng nổi bật của Opsgenie

Cảnh báo đáng tin cậy và hữu ích

Opsgenie đảm bảo nhóm IT tiếp cận các báo cáo quan trọng trong thời gian ngắn nhất. Với khả năng tích hợp chuyên sâu các công cụ giám sát, quản lý yêu cầu và các công cụ giao tiếp, Opsgenie sẽ sắp xếp và phân loại các báo cáo và gửi thông báo cho nhóm chịu trách nhiệm bằng nhiều phương tiện khác nhau, tạo điều kiện cho quá trình xử lý được tiến hành ngay lập tức.

Danh sách các cảnh báo của Opsgenie (Nguồn: Atlassian)

 

Quản lý cuộc gọi thông báo và lịch trực tăng cường

Người dùng có thể xây dựng và sửa đổi lịch trực cũng như xác định các quy tắc tăng cường (escalation policy) trên cùng một giao diện làm việc. Các nhóm viên sẽ luôn nhận biết được ai là người trực và chịu trách nhiệm trong suốt quá trình xử lý sự cố. Bên cạnh đó, các cảnh báo quan trọng sẽ luôn được xác định và tiếp cận kịp lúc.

Lịch trực on-call schedule (Nguồn: Atlassian)

 

Giao tiếp và hợp tác hiệu quả

Với khả năng tích hợp đa dạng với đa dạng các công cụ giao tiếp như Slack hay HipChat, các thành viên trong nhóm có thể trao đổi, thảo luận linh hoạt và hiệu quả. Bên cạnh đó, Opsgenie còn cho phép người dùng tạo phòng đàm thoại, hay call room, cho từng sự cố.

Call room đang hoạt động sẽ được hiển thị trạng thái active, người dùng có thể tham gia các call room đang active hoặc tự bắt đầu một call room khác. Từ đó, người dùng có thể sắp xếp và phân loại phản hồi từ các nhóm IT dễ dàng hơn, cũng như hỗ trợ cho quá trình cập nhật cho các bên liên quan bằng khả năng thông báo hàng loạt của Opsgenie.

Phòng đàm thoại call room (Nguồn: Atlassian)

Định tuyến cuộc gọi đến

Khắc phục tình trạng bỏ lỡ các cuộc gọi hỗ trợ khách hàng. Bằng cách thiết lập và sử dụng lịch trực của Opsgenie, cuộc gọi cảnh báo được định tuyến đến đúng người được phân công trong ca trực. Cụ thể hơn, khi có sự cố xảy ra, Opsgenie sẽ gửi thông báo đến agent phụ trách. Nếu không nhận được phản hồi từ họ, Opsgenie tiếp tục thông báo bằng tất cả các phương tiện như email, SMS hay ứng dụng Opsgenie trên điện thoại. Trong trường hợp vẫn chưa nhận được sự hồi đáp, cuộc gọi cảnh báo đến agent sẽ tự động được kích hoạt. Bên cạnh đó, chi tiết cuộc gọi được đính kèm vào thông báo và người nhận cuộc gọi có thể nghe lại tin nhắn.

Cuộc gọi định tuyến (Nguồn: Atlassian)

 

Nâng tầm quản lý sự cố với Opsgenie

“Tiếp cận kịp thời và giải quyết các sự cố ngay lập tức trước khi chúng gây ảnh hưởng đến doanh nghiệp.” là tiêu chí hàng đầu của Opsgenie trên con đường đồng hành cùng doanh nghiệp. Bên cạnh các tính năng ưu việt trong quản lý sự cố, Opsgenie còn có khả năng tích hợp mạnh mẽ với các sản phẩm Jira, giúp cho việc vận hành dịch vụ CNTT được diễn ra thuận tiện và hiệu quả nhất.

Liên hệ AgileOps - Đối tác Giải pháp của Atlassian tại Việt Nam để nhận tư vấn miễn phí về Opsgenie và các sản phẩm khác.