เราหลายคนเคยประสบกับความล้มเหลวของฮาร์ดดิสก์ บางส่วนของเราได้พยายามแม้กระทั่งเพื่อหาข้อมูลเพิ่มเติมเกี่ยวกับความน่าเชื่อถือของฮาร์ดดิสก์และฟังก์ชั่นการทำนายที่ซ่อนอยู่ลึกซึ่งเป็นส่วนหนึ่งของเทคโนโลยีที่เรียกว่า SMART หนึ่งอาจยืนยันว่าสมาร์ทไม่เป็นที่เชื่อถือได้เนื่องจากไม่ได้คาดการณ์ความล้มเหลวในทุกกรณี ข้อเท็จจริงนี้เป็นจริงบางส่วน แต่การทำงานภายในที่แท้จริงของระบบการตรวจสอบด้วยตนเองนี้ไม่ง่ายนัก ดังนั้นให้เราลองแก้ไขสถานการณ์ที่ไม่แน่นอนนี้และตรวจสอบว่า SMART ทำงานได้ดีเพียงใด มาเริ่มกันเลย:
SMART - บิตของประวัติศาสตร์
SMART ซึ่งเขียนเป็น SMART (Self-Monitoring, Analysis and Reporting Technology) เป็นระบบตรวจสอบข้อมูลภายในของไดรฟ์ของคุณ ได้รับการพัฒนาขึ้นโดยเริ่มจากปีพ. ศ. 2535 และปัจจุบันนี้รวมอยู่ในฮาร์ดดิสก์ไดรฟ์ IDE และ Serial ATA ที่ทันสมัยทั้งหมด (HDDs) แน่นอนว่ามันเป็นคุณสมบัติที่มีอยู่ในไดรฟ์ SSD เช่นกัน
ประวัติความเป็นมาครอบคลุมหลากหลายชื่อเช่น Predictive Failure Analysis หรือ IntelliSafe และข้อมูลจากผู้ผลิตฮาร์ดดิสก์รายใหญ่ ๆ เช่น IBM, Seagate, Quantum, Western Digital ในที่สุดเอกสารนี้เป็นจุดเด่นเป็นครั้งแรกในปี 2547 ภายในมาตรฐาน Parallel ATA และได้รับการแก้ไขเป็นประจำจนถึงปี 2008
การสร้างมันขึ้นอยู่กับความจำเป็นในการตรวจสอบสถานะของดิสก์และมันควรจะบอกคุณถ้าฮาร์ดดิสก์กำลังจะดีตาย ในขณะที่คุณอาจคิดว่า SMART จะคาดเดาอย่างน่าอัศจรรย์ว่าไดรฟ์มีสุขภาพดีหรือไม่จริงแล้วมันแสดงให้เห็นถึงชุดของตัวแปรที่มีจำนวนและประเภทแตกต่างกันไปจากไดรฟ์ไปยังไดรฟ์ซึ่งเป็นตัวชี้วัดความน่าเชื่อถือ สำหรับรายการคุณลักษณะทั้งหมดเนื่องจากมีประมาณ 50 รายการ (ตัวอย่างเช่นอัตราการอ่านผิดพลาดดิบอ่านเวลาหมุนเวลารายงานข้อผิดพลาดที่ไม่สามารถแก้ไขได้กำลังใช้งานเวลานับรอบการโหลด ฯลฯ ) สามารถเข้าถึงได้ที่นี่
นอกเหนือจากความพยายามเอกพจน์ (Google, Backblaze) แล้วข้อมูล SMART ส่วนใหญ่จะไม่มีเอกสาร ระบบมีข้อมูลภายในมากมาย แต่มีความไม่สอดคล้องกันมากในสถิติเนื่องจากผู้ผลิตฮาร์ดไดรฟ์หลายรายใช้คำจำกัดความและการวัดที่แตกต่างกัน ตัวอย่างเช่นผู้ผลิตบางรายเก็บพลังงานเป็นชั่วโมงเป็นเวลาขณะที่คนอื่น ๆ วัดเป็นนาทีหรือวินาที นอกจากนี้ไม่มีใครพยายามอธิบายถึงคุณลักษณะหรือตัวแปรต่างๆที่มีค่าน่าสนใจทำให้เราจมน้ำตายข้อมูล
ก่อนที่จะพยายามทำความเข้าใจว่าแอตทริบิวต์ใดที่เกี่ยวข้องก่อนอื่นเราต้องแยกความแตกต่างระหว่างประเภทหลัก ๆ ของความล้มเหลว: คาดการณ์ได้และไม่สามารถคาดการณ์ได้ ประเภทแรกรวมถึงความล้มเหลวที่ปรากฏในเวลาและที่เกิดจากความผิดพลาดของกลไกดิสก์หรือความเสียหายของพื้นผิวของดิสก์ ปัญหาแย่ลงเมื่อเวลาผ่านไปและดิสก์จะล้มเหลวในที่สุด ความล้มเหลวที่ไม่สามารถคาดการณ์ได้เกิดจากเหตุการณ์ที่เกิดขึ้นฉับพลันซึ่งเราสามารถพูดถึงตัวอย่างเช่นไฟกระชากฉับพลัน
หมายเหตุ: สิ่งสำคัญคือต้องเข้าใจว่า SMART สามารถช่วยคุณตรวจจับความผิดพลาดที่คาดการณ์ได้เท่านั้น
แอ็ตทริบิวต์ SMART ที่สำคัญ
สถานะสุขภาพของฮาร์ดดิสก์ได้รับการตรวจสอบอย่างต่อเนื่องโดยใช้เซ็นเซอร์หลายตัว ค่าจะวัดโดยการใช้อัลกอริทึมทั่วไปแล้วแอตทริบิวต์ที่สอดคล้องกันจะถูกปรับแต่งตามผล
ในโปรแกรมการตรวจสอบใด ๆ ที่คุณจะใช้แอตทริบิวต์ SMART ทั้งหมดจะมีฟิลด์เหล่านี้:
- ตัวบ่งชี้: นิยามของแอตทริบิวต์ โดยปกติจะมีความหมายมาตรฐานและมีเครื่องหมายหมายเลขระหว่าง 1 ถึง 250 (ตัวอย่างเช่น 9 คือ Power-on Count) ยังคงเครื่องมือการตรวจสอบและทดสอบดิสก์ทั้งหมดจะมีชื่อและคำอธิบายลักษณะของแอตทริบิวต์
- เกณฑ์: ค่าต่ำสุดสำหรับแอตทริบิวต์ ถ้าค่านี้ถึงแล้วฮาร์ดดิสก์ของคุณกำลังจะล้มเหลว
- ค่า: ค่าปัจจุบันของแอตทริบิวต์ อัลกอริทึมจะคำนวณจำนวนนี้ตามข้อมูลดิบ ฮาร์ดดิสก์ตัวใหม่จะมีจำนวนมากซึ่งเป็นทฤษฎีสูงสุด (100, 200 หรือ 253 ขึ้นอยู่กับผู้ผลิต) ซึ่งจะลดลงในช่วงอายุการใช้งานของฮาร์ดไดรฟ์
- แย่ที่สุด: ค่าที่เล็กที่สุดของแอตทริบิวต์ที่เคยบันทึกไว้
- ข้อมูล: ค่าที่ตรวจวัดดิบโดยเซ็นเซอร์หรือตัวนับ นี่คือข้อมูลที่ใช้โดยอัลกอริทึมที่ออกแบบโดยผู้ผลิต HDD เนื้อหาขึ้นอยู่กับคุณลักษณะและผู้ผลิตฮาร์ดดิสก์ ผู้ใช้ทั่วไปควรข้ามรายการนี้
- ธง: วัตถุประสงค์ของแอตทริบิวต์ โดยปกติแล้วจะกำหนดโดยผู้ผลิตและจะแตกต่างกันไปในแต่ละดิสก์ แต่ละแอตทริบิวต์มีความสำคัญอย่างยิ่งและสามารถทำนายความล้มเหลวที่ใกล้เข้ามา (เช่น ID 5 reallocated sectors นับ) หรือสถิติที่ไม่มีผลโดยตรงต่อสถานะ (เช่น ID 174 สูญเสียพลังงานที่ไม่คาดคิด)
หมายเหตุ: โปรดจำไว้เสมอเมื่อพยายามทำความเข้าใจสถานะของแอ็ตทริบิวต์ SMART ให้ตรวจสอบค่าของฟิลด์ทั้งสาม ได้แก่ ค่าธรณีประตูและแฟล็ก โปรดจำไว้ว่าค่าที่น้อยลงเป็นตัวบ่งชี้ถึงความน่าเชื่อถือที่ลดลง
อุณหภูมิของดิสก์เป็นพารามิเตอร์ที่ถกเถียงกันมาก ยังถือว่าค่าที่สูงกว่า 60 ° C จะลดอายุการใช้งานของฮาร์ดดิสก์และเพิ่มความน่าจะเป็นของความเสียหาย เราขอแนะนำให้ใช้พัดลมเพื่อลดอุณหภูมิของฮาร์ดดิสก์และอาจยืดอายุการใช้งานของพวกเขา
ตามที่เรากล่าวมาข้างต้นคุณลักษณะ SMART บางอย่างไม่จำเป็นสำหรับการคาดการณ์ความล้มเหลว การศึกษาสองข้อดังกล่าวข้างต้นเกี่ยวกับอัตราความล้มเหลวของฮาร์ดไดรฟ์และแหล่งข้อมูลอื่น ๆ เห็นพ้องกันว่าความช่วยเหลือที่สำคัญในการระบุไดรฟ์ล้มเหลวคือการจัดสรรภาค ID 5 ที่จัดสรรใหม่ การจัดสรรใหม่เกิดขึ้นเมื่อตรรกะของไดรฟ์เปลี่ยนใหม่เป็นเซกเตอร์ที่เสียหายอันเนื่องมาจากข้อผิดพลาดที่อ่อนนุ่มหรือยากที่เกิดขึ้นกับภาคกายภาพใหม่จากข้อมูลสำรอง แอตทริบิวต์นี้สะท้อนถึงจำนวนครั้งที่มีการทำซ้ำและเป็นข้อบ่งชี้ของการสึกหรอของฮาร์ดดิสก์แบบ HDDs
อีกแอตทริบิวต์ที่มีประโยชน์ที่จะได้รับการตรวจสอบคือ ID 197- จำนวนการนับที่รอดำเนินการในปัจจุบัน ซึ่งนับว่าเป็นภาค "ที่ไม่เสถียร" ซึ่งหมายถึงบุคคลที่เสียหายที่มีข้อผิดพลาดในการอ่านที่กำลังรอการ remapping ซึ่งเป็นระบบ "probation" ชนิดหนึ่ง อัลกอริทึมของ SMART มีความรู้สึกผสมเกี่ยวกับแอตทริบิวต์นี้เนื่องจากบางครั้งไม่น่าเชื่อ แต่ระบุว่าสามารถแจ้งเตือนปัญหาที่เป็นไปได้ก่อนหน้านี้
ตัวบ่งชี้ล่าสุดที่ต้องได้รับการตรวจสอบคือรหัส 187- ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ นับเป็นข้อผิดพลาดที่ไม่สามารถกู้คืนได้และเป็นประโยชน์เนื่องจากดูเหมือนว่าจะมีความหมายเหมือนกันสำหรับผู้ผลิตทั้งหมด
หมายเหตุ: แอ็ตทริบิวต์ SMART ที่กล่าวมาทั้งหมดมีค่าที่ง่ายต่อการตีความ หากรายงานจำนวนหนึ่งหรือมากกว่านั้นอาจเป็นไปได้ว่าไดรฟ์ของคุณไม่ทำงานดังนั้นควรเริ่มสำรองข้อมูล ถึงแม้ว่าตัวชี้วัดเหล่านี้จะเป็นตัวบ่งชี้ที่มีประโยชน์ต่อความน่าเชื่อถือของไดรฟ์ แต่ก็ไม่สามารถป้องกันได้และคุณควรเปรียบเทียบข้อมูลเหล่านี้กับคำแนะนำที่กำหนดโดยเครื่องมือการตรวจสอบฮาร์ดดิสก์ที่คุณเลือก
ข้อสรุป
นี่คือการศึกษาสั้น ๆ ของเราเกี่ยวกับการทำงานภายในของ SMART และความสามารถในการตรวจสอบและคาดการณ์ความล้มเหลวของฮาร์ดดิสก์ จุดสำคัญที่คุณควรจำไว้ก็คือระบบการตรวจสอบด้วยตนเองนี้จะช่วยให้คุณสามารถตรวจสอบสถานะของฮาร์ดดิสก์ของคุณได้ ถ้าคุณต้องการใช้ข้อมูล SMART นี้เพื่อดูว่าไดรฟ์ของคุณมีปัญหาโปรดอ่านบทความที่แนะนำด้านล่าง