การจัดการอุบัติการณ์คืออะไร

หัวข้อของหน้า

การจัดการอุบัติการณ์คืออะไร
เหตุใดการจัดการอุบัติการณ์จึงมีความสำคัญ
เหตุการณ์ใดบ้างที่จำเป็นต้องมีการจัดการอุบัติการณ์
การจัดการอุบัติการณ์ทำงานอย่างไร
ขั้นตอนในกระบวนการจัดการอุบัติการณ์มีอะไรบ้าง
แนวทางปฏิบัติที่ดีที่สุดในการจัดการอุบัติการณ์มีอะไรบ้าง
AWS รองรับข้อกำหนดในการจัดการอุบัติการณ์ของคุณได้อย่างไร

การจัดการอุบัติการณ์คืออะไร

การจัดการอุบัติการณ์ (IM) เป็นกระบวนการที่ทีมไอทีใช้ในการตอบสนองต่อการหยุดชะงักของการบริการที่ไม่ได้วางแผนไว้ การหยุดชะงักที่ไม่คาดคิดเกิดขึ้นเนื่องจากเหตุการณ์ต่างๆ เช่น การสูญเสียหรือการลดประสิทธิภาพของการเชื่อมต่อเครือข่าย งานตามกำหนดการ (เช่น งานสำรองข้อมูล) ที่ไม่ได้ดำเนินการ หรือ API ที่ไม่ตอบสนอง กระบวนการจัดการอุบัติการณ์พยายามที่จะเรียกคืนการดำเนินงานตามปกติของบริการไอทีโดยเร็ว และลดผลกระทบทางธุรกิจ ระหว่างกระบวนการ ทีมตรวจพบและตรวจสอบเหตุการณ์ต่างๆ แก้ไขปัญหา และบันทึกขั้นตอนที่พวกเขาใช้ในการกู้บริการกลับมา

เหตุใดการจัดการอุบัติการณ์จึงมีความสำคัญ

การจัดการอุบัติการณ์จะเป็นแนวทางให้กับทีมไอทีเกี่ยวกับวิธีตอบสนองที่เหมาะสมที่สุดสำหรับเหตุการณ์ต่างๆ โดยสร้างระบบเพื่อให้ทีมไอทีสามารถบันทึกรายละเอียดที่เกี่ยวข้องทั้งหมดเพื่อเรียนรู้เพิ่มเติมในอนาคต คุณสามารถถือว่าการจัดการอุบัติการณ์เป็นแนวทางในการกู้คืนการดำเนินงานตามปกติอย่างรวดเร็วที่สุดเท่าที่จะเป็นไปได้ โดยมีผลกระทบต่อทั้งลูกค้าภายในและภายนอกองค์กรน้อยที่สุด

หากไม่มีการเตรียมระบบไว้ การกู้คืนจากเหตุการณ์ย่อมนำไปสู่ข้อผิดพลาดซ้ำๆ มีการใช้ทรัพยากรในทางที่ผิด และส่งผลเสียต่อองค์กรมากขึ้นอย่างหลีกเลี่ยงไม่ได้ ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับวิธีที่คุณจะได้รับประโยชน์จากการจัดการอุบัติการณ์

ลดการเกิดอุบัติการณ์

เมื่อมีแนวทางที่จะปฏิบัติตามในกรณีที่เกิดเหตุการณ์ ทีมงานจะสามารถแก้ไขเหตุการณ์ต่างๆ ได้โดยเร็วที่สุด ในขณะเดียวกัน การจัดการอุบัติการณ์ยังช่วยลดการเกิดเหตุการณ์เมื่อเวลาผ่านไปอีกด้วย เมื่อคุณระบุความเสี่ยงตั้งแต่เนิ่นๆ ในกระบวนการ IM ก็จะช่วยลดโอกาสที่จะเกิดเหตุการณ์ในอนาคตได้ การบันทึกหลักฐานทางนิติวิทยาศาสตร์ของเหตุการณ์ไว้อย่างครบถ้วนจะช่วยในการแก้ไขเชิงรุก และช่วยป้องกันไม่ให้เหตุการณ์ที่คล้ายกันเกิดขึ้นในภายหลัง

ประสิทธิภาพการทำงานที่ดีขึ้น

เมื่อคุณใช้การตรวจสอบที่มีประสิทธิภาพและละเอียดอ่อนในการจัดการอุบัติการณ์ด้านไอที คุณจะสามารถระบุและตรวจสอบคุณภาพที่ลดลงแม้เพียงเล็กน้อยได้ อีกทั้งคุณจะพบวิธีใหม่ๆ ในการปรับปรุงประสิทธิภาพให้ดียิ่งขึ้นอีกด้วย เมื่อเวลาผ่านไป ทีมไอทีของคุณจะสามารถตัดสินคุณภาพของรูปแบบการระบุเหตุการณ์ของบริการ ซึ่งนำไปสู่การแก้ไขเชิงคาดการณ์และการบริการอย่างต่อเนื่อง

การทำงานร่วมกันอย่างมีประสิทธิภาพ

ทีมต่างๆ มักต้องทำงานร่วมกันเพื่อกู้คืนจากเหตุการณ์ คุณสามารถปรับปรุงการทำงานร่วมกันให้มีประสิทธิภาพมากขึ้นได้โดยการสรุปแนวทางการสื่อสารสำหรับทุกฝ่ายภายในเฟรมเวิร์กการตอบสนองต่อเหตุการณ์ คุณยังสามารถจัดการความรู้สึกของผู้มีส่วนเกี่ยวข้องได้อย่างมีประสิทธิภาพมากขึ้นอีกด้วย

เหตุการณ์ใดบ้างที่จำเป็นต้องมีการจัดการอุบัติการณ์

คำว่าการจัดการอุบัติการณ์ไม่ได้ใช้เฉพาะในงานด้านไอทีเท่านั้น นอกเหนือจากงานด้านไอที คุณจะได้ยินคำว่า IM ในงานสาขาต่างๆ เช่น บริการฉุกเฉิน การจัดการเหตุการณ์ขนาดใหญ่ และการปฏิบัติงานในโรงงาน

สำหรับบทความนี้ เราจะใช้คำว่า IM โดยหมายถึงภายในบริบทของการจัดการบริการไอที (ITSM) ในบริบทนี้ การจัดการอุบัติการณ์จะมุ่งเน้นไปที่กิจกรรมการจัดการที่เกี่ยวข้องกับคุณภาพของบริการและการบริการลูกค้า

ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับกิจกรรมด้านไอทีต่างๆ ภายในขอบเขตของ IM ใน ITSM

เหตุการณ์ที่เกิดขึ้น

ภายในการจัดการอุบัติการณ์ เราสามารถกำหนดเหตุการณ์เป็นเหตุการณ์ที่ไม่คาดคิดซึ่งทำให้คุณภาพของบริการด้านไอทีที่คาดหวังหรือที่ตกลงกันไว้ลดลง ขนาดของเหตุการณ์อาจเล็กหรือใหญ่ก็ได้ และคุณอาจบ่งบอกถึงภาวะวิกฤตได้ ตัวอย่างเช่น คุณภาพของบริการที่ลดลงอาจเกิดขึ้นเพียงเล็กน้อยและจำกัดอยู่ในสถานที่ตั้งทางภูมิศาสตร์แห่งใดแห่งหนึ่ง หรือบริการอาจเกิดการขัดข้องทั้งระบบในหลายภูมิภาค

ปัญหา

ปัญหาหมายถึงสาเหตุที่แท้จริงของเหตุการณ์ ซึ่งค้นพบหลังจากการสอบสวนเพิ่มเติม และจำเป็นสำหรับการแก้ไขทั้งเหตุการณ์ ตัวอย่างเช่น หากเว็บเซิร์ฟเวอร์ทำงานช้า ปัญหาอาจเป็นเพราะการกำหนดค่าเราเตอร์ไม่ถูกต้องที่ศูนย์ข้อมูลหรือสายเคเบิลเครือข่ายขาดที่บริเวณขอบเขต

การเปลี่ยนแปลง

ใน IM การเปลี่ยนแปลงหมายถึงเมื่อกำลังเปลี่ยนแปลงบริการเพื่อปรับปรุงคุณภาพหรือเพิ่มคุณสมบัติใหม่ๆ เป็นต้น ในช่วงระยะเวลาการเปลี่ยนแปลง จะต้องจัดการการเปลี่ยนผ่านอย่างระมัดระวังเพื่อหลีกเลี่ยงหรือลดการหยุดชะงักในการดำเนินธุรกิจตามปกติ ซึ่งรวมถึงการให้คำแนะนำแก่ลูกค้าเกี่ยวกับการหยุดชะงักของบริการที่คาดไว้หรือที่อาจเกิดขึ้นได้

คำขอรับบริการ

คำขอรับบริการคือคำขอที่เริ่มโดยลูกค้าภายในขอบเขตของข้อกำหนดข้อตกลงระหว่างผู้ให้บริการและลูกค้า คำขอดังกล่าวควรได้รับการดำเนินการโดยไม่กระทบต่อการดำเนินงานตามปกติ

การจัดการอุบัติการณ์ทำงานอย่างไร

การจัดการอุบัติการณ์ใช้ชุดกระบวนการที่บันทึกไว้ ซึ่งสรุปอย่างชัดเจนถึงสิ่งที่ต้องดำเนินการเพื่อลดผลกระทบในแง่ลบและระยะเวลาที่งานไอทีหยุดชะงัก นอกเหนือจากการจัดการด้านเทคนิคสำหรับเหตุการณ์ผิดปกติที่เกิดขึ้นแล้ว ยังรวมถึงการจัดการความคาดหวังของลูกค้า ผู้ใช้ และผู้มีส่วนเกี่ยวกับในระหว่างที่เกิดเหตุการณ์อีกด้วย

สำหรับลูกค้า ข้อตกลงระดับการให้บริการ (SLA) จะระบุการรับประกันเวลาทำงานที่คาดหวังได้ เวลาในการแก้ไขปัญหา และช่องทางการสื่อสารในกรณีที่เกิดเหตุการณ์ต่าง ๆ ไว้อย่างชัดเจน โดยจะต้องมีการจัดการอุบัติการณ์ที่ครอบคลุมในส่วนของผู้ให้บริการ เพื่อให้เป็นไปตามข้อกำหนดและเงื่อนไขใน SLA

อ่านเพิ่มเติมเกี่ยวกับ SLA »

เฟรมเวิร์กการจัดการอุบัติการณ์ด้านไอที

มีเฟรมเวิร์กต่าง ๆ ที่องค์กรใช้เพื่อจำลอง IM ของตนเอง 2 ตัวอย่าง ได้แก่ การจัดการอุบัติการณ์จาก IT Infrastructure Library (ITIL) 4 และเฟรมเวิร์กการรักษาความปลอดภัยทางไซเบอร์จาก National Institute of Standards and Technology (NIST) คุณอาจนำเฟรมเวิร์กเหล่านี้มาใช้ตามที่มีอยู่หรือขยายเพื่อปรับให้เข้ากับสภาพแวดล้อมทางธุรกิจ บริการ และมาตรฐานการสื่อสารของลูกค้าและผู้มีส่วนเกี่ยวข้อง

ซอฟต์แวร์การจัดการอุบัติการณ์มักนำมาใช้เพื่อปรับใช้เฟรมเวิร์กภายในองค์กร ส่วนจะใช้เฟรมเวิร์กใดนั้น ก็ขึ้นอยู่กับบริการที่นำเสนอ

ขั้นตอนในกระบวนการจัดการอุบัติการณ์มีอะไรบ้าง

ขั้นตอนที่เกี่ยวข้องกับกระบวนการจัดการอุบัติการณ์นั้นจะขึ้นอยู่กับเฟรมเวิร์กที่ใช้ภายในองค์กร ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับขั้นตอนหลัก ๆ ในเฟรมเวิร์กวงจรการจัดการอุบัติการณ์ที่พบได้บ่อย

ระบุความเสี่ยง

การระบุแอสเซท ระบบ ข้อมูล และทรัพยากรอื่น ๆ ที่สำคัญจะเป็นการบ่งชี้ว่าจุดใดที่ธุรกิจมีความเสี่ยงมากที่สุด ในบริบทของการให้บริการแก่ลูกค้า จะเป็นการระบุระบบและแอสเซทที่มีค่าที่สุดของลูกค้า

ปกป้องแอสเซท

เมื่อระบุแอสเซทแล้ว องค์กรจะเสริมการรักษาความปลอดภัยและการควบคุมประสิทธิภาพให้แข็งแกร่งยิ่งขึ้น ตัวอย่างเช่น สามารถติดตั้งใช้งานแอปพลิเคชันได้ในหลายภูมิภาคเพื่อความพร้อมใช้งานอย่างต่อเนื่องในกรณีที่ระบบขัดข้องในระดับภูมิภาค

ตรวจจับเหตุการณ์

ต้องมีระบบในการติดตามสถานะของแอสเซทที่สำคัญเพื่อให้สามารถระบุเหตุการณ์ได้แบบเรียลไทม์ องค์กรจะต้องดำเนินการเชิงรุกในการติดตามความผิดปกติ ซึ่งโดยปกติแล้วไม่แนะนำให้เรียนรู้จากเหตุการณ์ขัดข้องที่ลูกค้ารายงานมาเอง ควรเน้นไปที่การแก้ไขเชิงรุก

ตอบสนองต่อเหตุการณ์ที่เกิดขึ้น

เมื่อตรวจพบเหตุการณ์แล้ว คุณจะต้องระงับการหยุดชะงักนั้นทันที หากไม่สามารถทำได้ คุณสามารถปฏิบัติตามกระบวนการเพื่อตีกรอบหรือจำกัดผลกระทบที่เกิดขึ้น คุณอาจต้องเปิดใช้งานระบบรองเพื่อให้สามารถดำเนินงานต่อได้แม้ว่าจะไม่มีวิธีแก้ไขอย่างเร่งด่วนก็ตาม ส่วนใหญ่อาจเป็นไปโดยอัตโนมัติ ทั้งนี้ขึ้นอยู่กับลักษณะของเหตุการณ์และเครื่องมือการจัดการอุบัติการณ์ที่ใช้อยู่ในปัจจุบัน

กู้คืนจากเหตุการณ์ที่เกิดขึ้น

ในระยะการกู้คืน จะเริ่มทำการวิเคราะห์เหตุการณ์ คุณบันทึกบทเรียนที่ได้เรียนรู้ วางแผนการตอบสนองที่ดียิ่งขึ้น และแก้ไขปัญหาและกระบวนการต่าง ๆ เหตุการณ์ร้ายแรงอาจต้องใช้ความพยายามอย่างมากในการกู้คืน รูปภาพต่อไปนี้แสดงให้เห็นถึงหนึ่งในกระบวนการจัดการอุบัติการณ์ที่ Amazon Web Services (AWS) ใช้

แนวทางปฏิบัติที่ดีที่สุดในการจัดการอุบัติการณ์มีอะไรบ้าง

แนวปฏิบัติที่ดีที่สุดช่วยให้องค์กรดำเนินงานในระดับที่มีศักยภาพสูงสุดภายในหน่วยธุรกิจหรือพื้นที่เชิงกลยุทธ์ที่กำหนด เมื่อปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในระบบการจัดการอุบัติการณ์ คุณจะสามารถให้บริการที่ดีที่สุดแก่ลูกค้าได้

พัฒนานโยบายการยกระดับ

คุณควรสามารถจัดหมวดหมู่เหตุการณ์ต่าง ๆ ตามลำดับความสำคัญและความรุนแรงเพื่อเป็นแนวทางในการกำหนดกรอบเวลา การแก้ไข และการสืบสวน คุณควรใช้นโยบายการยกระดับเมื่อการตอบสนองต่อเหตุการณ์ไม่เป็นไปตามที่คาดไว้ หรือหากเกิดเหตุการณ์ร้ายแรงที่มีลำดับความสำคัญหรือความรุนแรงสูง หากไม่มีนโยบายเหล่านี้ ทีมของคุณอาจเสียเวลาในการตัดสินใจว่าจะติดต่อใครและจะทำอย่างไร

วางแผนการสื่อสารโดยละเอียด

ผู้มีส่วนเกี่ยวข้องตั้งแต่ทีมไอทีไปจนถึงผู้ใช้ปลายทางของคุณควรได้รับแจ้งเกี่ยวกับสถานะของเหตุการณ์ที่เกิดขึ้น การมีช่องทางการสื่อสารที่ชัดเจนก็เป็นประโยชน์เช่นกัน เพื่อให้ผู้ที่ได้รับผลกระทบรู้ว่าควรไปที่ใดเพื่อหาข้อมูลอัปเดตหรือรายงานเหตุการณ์ใหม่ ๆ เมื่อมีแผนการสื่อสารที่ชัดเจน คุณจะสามารถสร้างความไว้วางใจและหลีกเลี่ยงการตำหนิที่ผิดพลาดได้ เหตุการณ์ที่สำคัญจะได้รับการจัดการด้วยระบบการทูตเสมอ

วิเคราะห์สาเหตุของปัญหา

หลังจากแก้ไขเหตุการณ์แล้ว คุณควรทำการวิเคราะห์สาเหตุที่แท้จริงเพื่อทำความเข้าใจว่าเหตุใดจึงเกิดเหตุการณ์ดังกล่าวขึ้นตั้งแต่แรก ซึ่งจะช่วยค้นหาช่องว่างหรือช่องโหว่ในระบบ ซึ่งคุณสามารถจัดการเพื่อป้องกันเหตุการณ์ที่คล้ายกันที่จะเกิดขึ้นในอนาคตได้ บทเรียนที่ได้เรียนรู้จากแต่ละเหตุการณ์มีประโยชน์ในการปรับปรุงโครงสร้างพื้นฐานและกระบวนการด้านไอทีอย่างต่อเนื่อง

นำแนวทางปฏิบัติด้าน Chaos Engineering มาใช้

วิศวกรรมความโกลาหล (Chaos Engineering) เป็นสาขาหนึ่งของวิศวกรรมซอฟต์แวร์ที่ตั้งใจทำให้ระบบอยู่ภายใต้สภาวะที่หยุดชะงัก เช่น เซิร์ฟเวอร์ล้มเหลว เวลาแฝงของเครือข่าย หรือข้อจำกัดของทรัพยากร การสร้างความโกลาหลในระบบจะทดสอบความยืดหยุ่น และยังเสริมสร้างความเข้มแข็งให้กับกระบวนการตอบสนองและการจัดการเหตุการณ์ขององค์กรอีกด้วย ซึ่งเป็นเทคนิคที่คล้ายกับการนำการแฮ็กอย่างมีจริยธรรมมาใช้ในการจัดการอุบัติการณ์เกี่ยวกับความปลอดภัยทางไซเบอร์

AWS รองรับข้อกำหนดในการจัดการอุบัติการณ์ของคุณได้อย่างไร

AWS มีบริการต่าง ๆ มากมายที่ช่วยให้องค์กรสามารถจัดการอุบัติการณ์ได้อย่างมีประสิทธิภาพภายใน AWS และสภาพแวดล้อมแบบไฮบริด

การตรวจจับและการตอบสนองเหตุการณ์ของ AWS ให้ลูกค้า AWS Enterprise Support ได้ตรวจสอบเชิงรุกและจัดการอุบัติการณ์สำหรับเวิร์กโหลดที่เลือก ด้วยการทำงานร่วมกับผู้เชี่ยวชาญ คุณจะสามารถกำหนดเกณฑ์ชี้วัดที่สำคัญ การแจ้งเตือน และตารางการจัดลำดับความสำคัญสำหรับระบบการจัดการอุบัติการณ์ด้านไอทีเพื่อเร่งการกู้คืนในกรณีที่เกิดเหตุการณ์ได้

AWS Managed Services (AMS) ช่วยปกป้องข้อมูลขององค์กร ตลอดจนโครงสร้างพื้นฐานของคุณด้วยความสามารถในการตอบสนองและแก้ไขเหตุการณ์ของ AWS คุณสามารถใช้ AMS เป็นวิธีในการว่าจ้างบุคคลภายนอกให้ดูแลจัดการอุบัติการณ์ด้านไอทีของ AWS เพื่อที่องค์กรของคุณจะได้มุ่งเน้นไปที่ธุรกิจหลัก ต่อไปนี้คือสิ่งที่คุณสามารถทำได้ด้วย AMS

ขอความช่วยเหลือเกี่ยวกับปัญหาการดำเนินงานและขอความช่วยเหลือได้ตลอดเวลาผ่าน AWS Support Center ในคอนโซล AWS
เข้าถึงการสนับสนุนได้ตลอด 24 ชั่วโมงทุกวัน โดยที่เวลาตอบกลับจะขึ้นอยู่กับระดับบริการของบัญชีที่คุณเลือก (Plus, Premium)
รับการแจ้งเตือนในเชิงรุกเกี่ยวกับสัญญาณเตือนและคำถามที่สำคัญโดยใช้กลไกเดียวกัน

ในฐานะส่วนหนึ่งของเฟรมเวิร์ก AWS Well-Architected เรายังให้คำแนะนำที่ชัดเจนสำหรับการจัดการอุบัติการณ์บนระบบคลาวด์อีกด้วย ซึ่งเป็นแหล่งข้อมูลที่ดีในการช่วยวางแผนการจัดการอุบัติการณ์สำหรับองค์กร โดยนำเสนอบริการด้านไอทีของตนเองที่ใช้บริการของ AWS Cloud คู่มือการตอบสนองต่ออุบัติการณ์ด้านความปลอดภัยของ AWS เป็นอีกหนึ่งข้อมูลที่เป็นประโยชน์สำหรับเหตุการณ์ที่เกี่ยวข้องกับการรักษาความปลอดภัย

เริ่มต้นใช้งานการจัดการอุบัติการณ์บน AWS โดยสร้างบัญชีวันนี้

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เกี่ยวกับบริการด้านการบริหารจัดการและกำกับดูแล

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

การจัดการอุบัติการณ์คืออะไร

หัวข้อของหน้า

การจัดการอุบัติการณ์คืออะไร

เหตุใดการจัดการอุบัติการณ์จึงมีความสำคัญ

ลดการเกิดอุบัติการณ์

ประสิทธิภาพการทำงานที่ดีขึ้น

การทำงานร่วมกันอย่างมีประสิทธิภาพ

เหตุการณ์ใดบ้างที่จำเป็นต้องมีการจัดการอุบัติการณ์

เหตุการณ์ที่เกิดขึ้น

ปัญหา

การเปลี่ยนแปลง

คำขอรับบริการ

การจัดการอุบัติการณ์ทำงานอย่างไร

เฟรมเวิร์กการจัดการอุบัติการณ์ด้านไอที

ขั้นตอนในกระบวนการจัดการอุบัติการณ์มีอะไรบ้าง

ระบุความเสี่ยง

ปกป้องแอสเซท

ตรวจจับเหตุการณ์

ตอบสนองต่อเหตุการณ์ที่เกิดขึ้น

กู้คืนจากเหตุการณ์ที่เกิดขึ้น

แนวทางปฏิบัติที่ดีที่สุดในการจัดการอุบัติการณ์มีอะไรบ้าง

พัฒนานโยบายการยกระดับ

วางแผนการสื่อสารโดยละเอียด

วิเคราะห์สาเหตุของปัญหา

นำแนวทางปฏิบัติด้าน Chaos Engineering มาใช้

AWS รองรับข้อกำหนดในการจัดการอุบัติการณ์ของคุณได้อย่างไร

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

ลงชื่อสมัครใช้บัญชีฟรี

เริ่มต้นสร้างใน Console

Browse all cloud computing concepts

Did you find what you were looking for today?

เรียนรู้

ทรัพยากร

นักพัฒนา

ความช่วยเหลือ