본문 바로가기

기술자료/기술운영자료

구글의 SSD 수명 관련 자료 안내

최근 SSD가 적용된 서버를 원하시는 고객들이 많습니다.
실제적으로 SSD가 적용된 서버가 늘게 되면서 백업에 대한 부분도 안내를 하여드리고 있는 편입니다.
월초에 구글의 SSD 수명 관련 논문이라는 글이 나와 안내를 드립니다.
꽤 흥미로운 글인것 같아 공유드립니다.


ZDNET에 이런 기사가 떴습니다.
http://www.zdnet.com/article/ssd-reliability-in-the-real-world-googles-experience/

논문은 아직 공개 안 된 것 같으니 기사의 내용을 바탕으로 옮겨보자면 다음과 같습니다.. 참고로 논문 제목은 Flash Reliability in Production: The Expected and the Unexpected 입니다.


•구글 데이터센터에서 사용중인 수백만 대의 SSD 수명을 6년 이상 추적 조사함

•SSD 모델은 10개
•SSD에 들어간 플래시메모리는 SLC, MLC, eMLC를 포함함. eMLC는 엔터프라이즈 시장에 적합하게끔 내구성을 강화한 MLC임.
•엔터프라이즈(기업용) 모델과 컨슈머(개인 소비자용) 모델을 포함


빅데이터 분석 결과는 다음과 같습니다.
•SSD 스펙에 기재된 정정불가한 비트 오류 확률(Uncorrectable Bit Error Rate)은 무시해도 좋다. 별 쓸모없는 숫자임.

•실제 비트 오류 확률(Raw Bit Error Rate)는 웨어아웃(과도한 쓰기로 인하여 플래시메모리 블록이 물리적으로 고장나는 현상)에서 예상한 예상치보다 천천히 증가함. 또, UBER이나 다른 고장과도 상관관계가 없음.
•고급형 SLC 드라이브라고 해서 딱히 MLC 드라이브보다 안정적인 것은 아님.
•SSD가 고장날 확률은 하드디스크보다 낮지만, UBER로 데이터가 파손될 확률은 하드디스크보다 높음.
•SSD의 안정성에 영향을 주는 요인은 SSD의 제조시기이며, 사용량은 영향을 주지 않음.
•새 SSD에 배드블록은 흔한 현상임. 배드블록이 많은 디스크일수록 다이나 칩 고장으로 인해 주변 블록까지 동반자살할 확률이 높음.
•배포된 이후로 4년 이내에 SSD 중 (모델에 따라) 30~80%는 적어도 하나의 배드블록이 발생하며, 2~7%는 칩 불량이 발생함.

논문에서는 두 가지 결과를 내고 있습니다. 하나는, MLC라고 해서 SLC보다 안정성이 떨어지는 것은 아니라는 점입니다. 단지 엔터프라이즈 SLC 모델은 오버프로비저닝 공간이 더 크기 때문에 비싼 것이다. 오버 프로비저닝은 플래시 웨어아웃과 가비지콜렉션으로 인한 속도저하를 방지하기 위해 활용됩니다.


다른 하나는, SSD의 제조시기(원문에서는 age로 표현하고 있다)가 오류 확률의 증가와 밀접한 연관성을 지니며, 사용량은 별 연관성을 보이지 않는다는 점입니다. 이는 플래시 웨어아웃에 대한 공포로 오버프로비저닝을 할 필요는 없다는 것을 의미합니다. 연구를 진행하면서 플래시메모리의 쓰기 스펙 횟수 근처까지 간 디스크는 하나도 없었으며, MLC 디스크도 쓰기 스펙인 3000회 근처까지 간 디스크는 하나도 없었다고 합니다.


마지막으로, SSD 정정불가한 오류 확률은 하드디스크보다 높다고 합니다. 즉, 데이터 백업이 더욱 중요하다는 것. SSD 자체가 고장날 확률은 낮지만, 데이터가 유실될 확률은 더 높다고 합니다.


번역본 출처 : http://koasing.tumblr.com/post/140237449989/%EA%B5%AC%EA%B8%80%EC%9D%98-ssd-%EC%88%98%EB%AA%85-%EA%B4%80%EB%A0%A8-%EB%85%BC%EB%AC%B8