Problemen en oorzaken van HA storage goed uitgelegd op SDC20

Storage Developer Conference 2020Tijdens het opslaan van data op harde schijf kunnen problemen ontstaan, die en de oorzaken zijn tijdens de virtuele 2020 editie van de Storage Developer Conference op een goede manier uitgelegd door Jody Glider van SAP.

Dat hij daarbij inzoomde op High Availability storage is logisch. De bevindingen gelden waarschijnlijk ook voor andere storage scenario’s.

SAP is een van de talrijke deelnemers van SNIA en daarmee ook regelmatig op de regionale en globale SDC events te vinden. Dit jaar was het Glider, die op basis van zijn ervaringen bij SAP en vorige werkgevers, dieper inging op de problemen van dataopslag. Omdat SAP veel grote klanten met zware eisen bedient moeten er hoge eisen gelden voor de storage. SAP maakt zelf geen storage hardware. Men gebruikt de hardware van de klant of er wordt bij de bekende grotere aanbieders ingekocht voor die klant.

De eis die altijd wordt gesteld is dat het HA storage moet zijn. High Availability. Performance en levensduur moeten goed zijn. De beschikbaarheid en continuïteit wordt met meerdere negens achter de komma uitgedrukt.

Aard van de problemen

Ondanks alle aandacht vanaf de eerste ontwerpen tot en met het dagelijkse gebruik kan en zal er nog steeds het nodige fout kunnen gaan. Het daarbij volgens Glider niet zo zeer om het aantal incidenten. Dat is namelijk gering. Het is de aard plus oorzaak die opvalt.

Een groot deel van de 30 minuten durende presentatie wordt daar over gesproken. Dat is niet alleen leerzaam voor HA storage gebruikers. Een groot deel van het verhaal is namelijk generiek voor storage.

De afbeelding laat zien wat er in 40 jaar tijd is veranderd aan harde schijven. Iedereen weet dat de capaciteit van een schijf is toegenomen en tegelijk ook de theoretische betrouwbaarheid. Het is vandaag de dag niet meer voor te stellen dan een HDD een MTBF van “slechts” 100.000 uur had. Dat een controller na iets meer dan een jaar de geest kon geven was bekend probleem. Dat is verleden tijd. Een HDD kan ook bij zware belasting vele jaren mee en een controller is niet meer een beruchte zwakke schakel.

Tegenover de voordelen staan echter wel een fors aantal ontwikkelingen die storage zo complex maken. De firmware van een HDD is factor 100 groter geworden en die van een controller is nog complexer geworden. Glider gebruikte deze vergelijking om te laten zien dat het onvermijdelijk is dat bij storage problemen voor blijven komen.

Een deel van de storage problemen en achterliggende oorzaken is hiermee verklaard, maar niet alle. Wat de omvang en impact is van human factors is ook uitgelegd. Nog een reden dus om de video te kijken.

Mobiele versie afsluiten