Hitachi Data Systems heeft zijn forums in een nieuw kleedje gestoken en er ineens een waslijst van plezante features aan toegevoegd. Het bruist er meer dan de vorige variant ooit heeft geweten en dus is het nu het ideale moment om toe te treden tot de HDS Community.
See you there!
Category: Storage (Page 2 of 4)
Cloud storage is het nieuwe zwart.
Bedrijven kijken er steeds meer naar en eigenlijk hebben ze gelijk. Deze evolutie kadert mijns inziens in de verschuiving waar men “vroeger” over de bits en de bytes praatte bij storage (IOPS, aantal schijven, toeren per minuut,…) terwijl men nu eerder over “de oplossing” praat.
Mensen – klanten – zijn niet meer geïnteresseerd in hoe exact iets werkt. Het moet gewoon werken en voldoen aan de eisen van de business. Hoe dat het precies werkt, daar ligt men niet wakker van. Cloud past perfect in dit plaatje: je neemt een dienst af (al dan niet extern) die gekoppeld is aan een vooraf opgestelde SLA. Duidelijk. Goede afspraken = goede vrienden.
En zoals zo vaak, is dat eigenlijk een trend die eerst in de thuisgebruikers markt pioneert: denk maar aan cloud backups / archiving, denk aan cloud storage zoals DropBox, aan streaming cloud music zoals Spotify en ga zo maar door.
Meer en meer bedrijven stappen al mee in het “Email in the cloud” verhaal. Office 365 is een ander voorbeeld. DropBox is dan weer een prachtige oplossing die de meeste bedrijven echter liever niet zien komen: bedrijfsgegevens in een cloud waar ze geen controle over hebben? No way José!
Vooral een spijtige zaak voor de eindgebruiker, de sales guy, de mensen op de baan bij eindklanten en voor die eindklanten zelf, want niks zo handig als vanop elk toestel toegang hebben tot al je data, los van VPN’s, los van het platform en volledig in sync.
Tot op vandaag is er geen enkele enterprise storage vendor die erin slaagt om een “DropBox-like” naar voor te schuiven die zowel de features heeft als compliant is met de bedrijfspolicies…
Of toch?
Storage Expo zit er weer op voor een jaar en ik zag dat het goed was. Zeer veel oude bekenden terug gezien, veel nieuwe bekenden mogen verwelkomen en serieus plezante after-parties mogen meemaken.
Tot volgend jaar, voor Storage Expo 2014!
Vandaag is RAID (Redundant Array of Independent Disks) een vorm van data protectie waarop elk enterprise storage systeem op terugvalt. RAID beschermt je data voor fysisch falen van een harde schijf (of meerdere harde schijven). Het is dus géén alternatief op een backup-oplossing: als je gegevens verwijdert of een virus infecteert je bestanden, dan zal RAID daar niets aan veranderen.
Zelfs oplossingen voor consumenten ondersteunen RAID om “dataloss” te voorkomen, weliswaar in minder varianten dan de professionele oplossingen. De meeste thuisproducten ondersteunen RAID0 (helemaal geen protectie, wel meer performance) en RAID1 (vooral bescherming, maar tegen een hoge prijs) terwijl de iets duurdere varianten ondersteuning bieden voor RAID5.
Om mijn punt van deze blogpost te verduidelijken, wil ik graag het RAID1 voorbeeld gebruiken. RAID1 oftewel “Mirroring” betekent dat je voor elke harde schijf een tweede exemplaar hebt dat dezelfde data bevat als het eerste exemplaar. In geval dat de eerste schijf faalt, dan neemt de tweede het direct over (dus zonder onderbreking). Bij zo een incident vervangen we de defecte schijf met een nieuw, leeg exemplaar en zal de computer van het storage systeem alle data van de nog werkende schijf kopiëren naar de nieuwe, lege schijf om op die manier een nieuwe RAID1 set te creëren.
Het spreekt voor zich dat hoe groter de capaciteit van de schijven is, hoe langer dat kopieerproces duurt. De “catch” zit hem in het feit wanneer de primaire schijf faalt alvorens dat kopieerproces helemaal klaar is: als die situatie zich voordoet, heb je “dataloss”. In dat geval mag je hopen dat je een goede backup hebt of je gegevens zijn voor goed verdwenen.
Voor kleine, snelle schijven van 300GB die aan 15,000 toeren per minuut roteren is zo een “copy job” relatief snel geklaard. Vandaag hebben we echter al 3TB schijven ter beschikking die roteren aan 7,200 toeren per minuut. Het spreekt voor zich dat zo een schijf kopiëren meer tijd in beslag zal nemen (want meer data en tragere rotatiesnelheid) en daardoor is de kans op dataloss statistisch gezien groter.
Als we Seagate (een van de grootste fabrikanten van harde schijven op wereldvlak) mogen geloven, dan zijn 100-300TB harde schijven binnen een jaar of tien realiteit. Als ik vertel dat een “rebuild”, want zo noemen we een RAID set die zichzelf herstelt, van een RAID5 volume ongeveer 1 dag per TB nodig heeft, dan zou een rebuild van een 300TB harde schijf dus ongeveer 300 dagen in beslag nemen. De kans is zéér reëel dat er in die tijdspanne nog een harde schijf faalt, met als gevolg “dataloss”. En aangezien we dan werken met 300TB schijven, is een verlies van 1PB (1PB = 1,000TB = 1,000,000GB) aan data zeker realistisch. Ik moet niet stipuleren dat 1PB aan dataloss zo goed als meestal gelijk staat met een serieus probleem in een bedrijf…
Kortom: RAID als bescherming tegen het fysisch falen van een harde schijf is op het einde van zijn carrière. Storage vendors (zoals Hitachi Data Systems) zijn vandaag dus al bezig met hoe ze zo een datasets kunnen beschermen en we gaan dus nog boeiende tijden tegenmoet in de storage wereld.
Wordt zonder enige twijfel vervolgd…
Morgen gaat de jaarlijkse Storage Expo / Info Security beurs in Brussels Expo weer van start en kunnen bezoekers de “booths” van alle spelers die van enige relevantie zijn op de Belgische IT markt een bezoekje brengen.
Verwacht geen groteske “bits & bytes” opstellingen – weinig standhouders brengen werkende systemen mee of doen “live” demo’s. Deze beurs is eerder een belangrijk networking event waar nieuwe contacten gelegd kunnen worden, waar nieuwe samenwerkingen tot stand komen of waar opportuniteiten gespot worden.
Het is ook altijd een blij weerzien met ex-collega’s (het is nu eenmaal een kleine wereld) en dus een ideale gelegenheid om bij te praten en het voorbije jaar eens te overlopen (want de tijd gaat zodanig snel dat je elkaar meestal treft op zo een beurs met telkens opnieuw de intenties om wat meer af te spreken).
Tot morgen (en overmorgen) op Storage Expo / Info Security?
Vandaag stond het jaarlijks Hitachi Forum op het programma:
- Hoe ziet Hitachi Data Systems de markt evolueren?
- Waar legt HDS het komend jaar de focus op?
- Breekt “flash” storage door in 2013?
- Storage Economics!
Dit en nog veel meer werd door een ruim publiek van partners en klanten gesmaakt. Verwacht binnenkort mijn “view on things” online.
Dit is een vervolgpost op een eerdere post – Shared Storage.
SAN – Storage Area Network – is de meest pure vorm van storage die je kan verkrijgen. In de volksmond zegt men “SAN” tegen de shared storage omgeving wanneer men spreekt over een “block-based” storage oplossing. Om uit te leggen wat daarmee bedoeld wordt, spoelen we terug naar onze computer thuis.
Als je een harde schijf in je computer installeert, dan kan je daar op zich weinig mee doen. Die schijf moet geformateerd worden zodat het besturingsysteem (oftewel OS van Operation System) ze herkent als opslagmedium, waarna er een bestandsysteem op gemaakt kan worden (vanaf nu file-system).
Op het moment dat de harde schijf in de computer zit en geformateerd is, is het een “block-device”. Het OS ziet een opslagmedium, maar het kan er niet van lezen of naar schrijven omdat er geen file-system op zit.
Een file-system is praktisch altijd gelinkt aan het OS: Windows gebruikt vandaag NTFS (NT File System en NT verwijst naar Windows NT, het allereerste “professioneel” OS van Microsoft).
Vroeger had je op Windows ook FAT16/32, wat je nog kan tegenkomen als je bv. een USB-stick wil formatteren. Apple gebruikt dan weer MAC OS Extended op hedendaagse systemen. En zo heeft elk OS zijn eigen variant van een file-system, die zo goed als nooit compatibel zijn onderling.
Hieruit kan je concluderen dat een applicatie of zelfs een OS nooit “rechtstreeks” naar een SAN kan schrijven. Er moet eerst een file-system aangemaakt worden alvorens er bestanden weggeschreven / gelezen kunnen worden van de SAN.
De SAN bestaat dus uit X aantal harde schijven + controllers die de intelligentie van het systeem uitmaken. Met die controllers (en de bijhorende management software) gaan we een aantal van die harde schijven bundelen in een groep die ervoor zorgt dat wanneer er een harde schijf stuk gaat, er automatisch een reserve exemplaar in de plaats komt zonder dat er data verloren gaat.
Deze configuratie noemen we een RAID-groep (Redundant Array for Independent Disks) en er bestaan verschillende varianten met elk zijn voor- en nadelen. Op dit moment is dat echter onbelangrijk en ga ik daar niet verder op in.
Nu hebben we dus een RAID-groep met daarin X aantal harde schijven. Op die groep gaan we een “virtuele” harde schijf maken en dat noemen we een Logical Unit (LU). Soms wordt dat ook een LUN (Logical Unit Number) genoemd, maar technisch gezien wordt een LU pas een LUN wanneer ze aangeboden wordt aan een server.
Ook dat maakt weinig uit op dit moment, zo lang het duidelijk is dat we op die “fysische” groep van schijven (RAID-groep) een “virtuele” schijf gemaakt hebben die even groot is als de som van de fysische schijven in de RAID-groep.
Kanttekening:
- De “virtuele” schijf moet niet even groot zijn als de totale som, maar is maximaal even groot + best practise zegt dat je 1 “virtuele” schijf maakt per RAID-groep (waarom leg ik later wel uit)
- De “virtuele” schijf is eigenlijk niet gelijk aan de totale som van de fysische schijven in de RAID-groep omdat je 1 of meerdere schijven niet kan gebruiken omdat die er voor zorgen dat je data niet verloren is wanneer er een schijf stuk gaat. Voor nu is dat echter niet belangrijk en gaan we gewoon van een simpele 1-op-1 stelling uit om alles high-level te kaderen
Het is de “virtuele” schijf oftewel LU(N) die we via een storage-netwerk (SAN, remember?) aan de server aanbieden. De server ziet die LU(N) dan alsof er in de server zelf een harde schijf is toegevoegd. Met andere woorden – het OS moet die LU(N) formatteren en er een file-system op plaatsen alvorens de applicaties er iets mee kunnen doen. En dat is in essentie wat een SAN is / doet en waarom we dat een “block-based” storage platform noemen.
Nog interessant om weten: dat “netwerk” waarmee de SAN aan de servers gekoppeld is, is meestal een glasvezel netwerk (FC – Fibre Channel) dat vandaag tot 8Gb/s aankan. Anderzijds is er ook de mogelijkheid om over het IP-protocol te werken en dan spreken we van een iSCSI SAN in plaats van een FC-SAN. iSCSI kan in 1Gb/s of 10Gb/s aangeboden worden.
Typisch zie je iSCSI in kleinere omgevingen of omgevingen waar men al zwaar geïnvesteerd heeft in een IP-netwerk. Een FC-SAN vereist een FC-netwerk met speciale switches, waardoor de kostprijs ook hoger ligt.
Hopelijk is de term SAN als variant van Shared Storage nu duidelijker? Zoals gewoonlijk zijn vragen of feedback welgekomen in de comments hieronder! Next up: NAS oftewel Network Attached Storage.
Omdat ik hier toch vaak over storage en aanverwanten leuter en soms te horen krijg dat het allemaal nogal “Chinees” is, lijkt het me opportuun om de basisconcepten ervan toe te lichten zodat geïnteresseerden mee kunnen met mijn meer technische blogposts.
Het is niet de bedoeling om een technisch naslagwerk te schrijven, want daar staat het internet al vol van en die bestaande “whitepapers” leggen dat ook beter en meer gedetailleerd uit dan dat ik dat hier zou kunnen / willen.
Neen, het idee is dat ik op deze manier minder technische lezers een blik achter de schermen geef in “mijn wereld”, het inzicht geef dat ze zonder het te weten waarschijnlijk elke dag met zulke systemen in aanraking komen én misschien wel warm maak om er meer over te weten te komen.
Anyway – here goes!
Storage kennen de meeste mensen in de vorm van een harde schijf (als je echt extreem “not into IT” bent, kan je nog aan kasten van IKEA enz denken, maar dat is het dus niet!).
Een harde schijf vinden we terug in elke computer (gemakkelijkheidshalve beschouw ik een SSD oftewel Solid State Drive ook als harde schijf in dit verhaal), al dan niet intern of extern (USB, FireWire, eSATA) en wordt gebruikt om je data te bewaren.
Voor een PC is dat uiteraard prima, maar wat als je nu met verschillende servers (=grotere, snellere computers die applicaties draaien zoals de e-mail software, de databases,…) opgezadeld bent – lees: elke bedrijf dat meer dan 25 werknemers heeft (ok, die 25 is een beetje nattevingerwerk, maar je weet wat ik bedoel).
Op dat niveau werkt men uiteraard niet met externe harde schijven en wil men eigenlijk ook niet werken met interne harde schijven (in de servers welteverstaan) omdat dat de beheerbaarheid, het backup-verhaal, maar zeker en vast ook de performantie (zeer belangrijk) niet ten goede komt.
Om die eerder genoemde tekortkomingen te omzeilen, gebruiken de meeste bedrijven een “shared storage” oplossing. De naam zegt het zelf: een storage oplossing die gedeeld wordt met anderen en met anderen bedoel ik “servers”.
Concreet kan je een shared storage systeem dus beschouwen als een verzameling van harde schijven die via een netwerk toegankelijk zijn voor elke computer / server. Iedere computer bewaart zijn data op die centrale storage, waardoor het beheer van alle data veel makkelijker is. Say hello to my world!
Het performantie verhaal is te verklaren als volgt:
- Centrale storage oplossingen bevatten controllers (servers die niks anders doen dan data beheren zeg maar) die gebouwd zijn om data zo snel mogelijk te kunnen verwerken. Een “normale” computer heeft veel meer taken dan je data beheren (surfen op internet, muziek afspelen, foto’s bewerken, gamen,…) en is dus eerder in veel goed, maar blinkt in niets uit. Op je computer thuis merk je daar natuurlijk niets van, maar beeld je eens in dat er 100 mensen tegelijkertijd bestanden van en naar je computer zouden kopiëren… En net dat is wat er in bedrijven constant gebeurt (mails die binnenkomen en verstuurd worden, mensen die in databanken updates doen, printers die bladzijden uitspuwen… en ga zo maar door).
- Centrale storage bevat ook veel meer harde schijven – vanaf nu noemen we dat “spindles”, afkomstig van het werkwoord “spinning” oftewel draaien – en de logica leert ons dat de snelheid waarmee je data gelezen en geschreven kan worden, evenredig is met het aantal spindles waarop de data verspreid wordt. Uiteraard zijn er nog andere factoren die de snelheid beïnvloeden, maar daar kom ik in een latere vervolgblogpost op terug zodat het niet te ingewikkeld wordt.
Shared storage bestaat in verschillende varianten, maar grosso modo kunnen we stellen dat er twee soorten zijn: SAN en NAS. Dezelfde drie letters, maar in omgekeerde volgorde en die volgorde maakt wel degelijk een wereld van verschil.
SAN staat voor “Storage Area Network” terwijl NAS de afkorting is van “Network Attached Storage”. Klinkt gelijkend, maar is het dus helemaal niet.
Waar de verschillen juist liggen, daar kom ik de komende dagen op terug. Het belangrijkste is dat je nu het concept van “shared storage” of centrale opslag zou moeten begrijpen, maar ook beseffen waarom het interessanter is dan decentrale opslag van data.
Feedback, vragen of andere uiteraard welkom in de commentaar!
Hitachi Data Systems heeft vandaag een compleet nieuwe storage oplossing onthuld: HUS VM – Hitachi Unified Storage VM. Het komt er op neer dat er een perfecte combo gemaakt werd van het midrange HUS platform enerzijds en de enterprise oplossing VSP anderzijds.
HUS VM is “unified” en kan dus zowel block, file als object storage aanbieden, net zoals het HUS platform. De “VM” suffix is “the magic sauce” die ervoor zorgt dat je third-party storage kan virtualiseren via het HUS VM systeem, een technologie die overgenomen werd van het VSP platform.
Concreet kan je bijvoorbeeld je bestaande block storage aan de HUS VM koppelen en de data vanaf dat moment door de HUS VM aanbieden aan je servers.
Hierdoor kan migratie volledig online gebeuren (slechts downtime om de bestaande storage aan de HUS VM te koppelen) en op eigen tempo, maar kan je je “afgeschreven” storage ook gebruiken als extra tier voor bv. archief doeleinden.
More, after the break.
Hitachi heeft een nieuwe manier bedacht om data op te slaan: steek de bits en bytes in een quartz glas. Hierdoor zou je je data “minstens” 100 miljoen jaar kunnen bewaren!
Voorlopig nog geen echt use-case, maar ze denken aan museu, kerken, overheid,… die zeker willen zijn dat bepaalde data nooit verloren gaat (of toch niet voor onze planeet vergaan is ;-)).
Check it.
Recente Comments