Blog

Jak przechowywać dane w S3 i zaoszczędzić?

11.09.2023
Kamil Porembiński Kamil Porembiński
Udostępnij

W dzisiejszym świecie biznesu i technologii gromadzenie i zarządzanie danymi odgrywa kluczową rolę. Przechowywanie danych w chmurze stało się standardem, a jednym z popularnych dostawców tej usługi jest Amazon Web Services (AWS) z ich usługą przechowywania danych Amazon S3 (Simple Storage Service). Warto poznać strategie efektywnego wykorzystania tego narzędzia, które pozwolą nie tylko na sprawną organizację danych, ale również na oszczędności finansowe. Amazon S3 dostarcza niedrogie, niezawodne i wyjątkowo trwałe rozwiązanie dla przechowywania danych.

Czym jest Amazon S3?

Amazon Simple Storage Service to usługa pamięci masowej oferowana przez Amazon Web Services. Jej głównym zadaniem jest możliwość przechowywania i łatwego dostępu do dowolnej ilości danych. Usługę S3 można wykorzystać w sposób samodzielny lub z innymi usługami AWS. Współpracuje również z programami firm trzecich. Amazon S3 najczęściej wykorzystywany jest do przechowywania i dystrybucji danych, udostępniania plików statycznych, analizy Big Data, disaster recovery, mobile applications, backupu i archiwizacji.

amazon s3 logo
Logo Amazon Simple Storage Service

Zalety Amazon Simple Storage Service

Zalety Amazon S3 to przede wszystkim możliwość natychmiastowej konfiguracji i startu usługi. Nie musimy deklarować potrzebnej nam powierzchni, usługa jest kompletnie skalowalna, a przestrzeń dyskowa nieograniczona.

Gwarantowana przez Amazon dostępność danych jest na poziomie 99,99%. Natomiast, ich trwałość Amazon gwarantuje na poziomie 99,999999999%. Oznacza to, że klasy S3 AWS zostały zaprojektowane tak, że poziom trwałości odpowiada średniej, rocznej, przewidywanej stracie wynoszącej 0,000000001% obiektów. Dla przykładu, jeśli przechowujesz 10 milionów obiektów w Amazon S3, możesz spodziewać się utraty jednego obiektu średnio raz na 10 000 lat.

To jak i szyfrowanie przy pomocy protokołu SSL, sprawia, że możemy być pewni o bezpieczeństwo swoich danych powierzonych Amazonowi.

Amazon S3 cechuje się również niskim kosztem prowadzenia usługi – opłata obejmuje faktycznie wykorzystywaną przestrzeń. Dodatkowo, mamy różne opcje dostępu do danych przechowywanych w chmurze, takie jak: konsola AWS, SDK, CLI, API.

Klasy pamięci masowej Amazon S3

W ramach usługi Amazon Simple Storage Service istnieją różne klasy pamięci masowej. Wybór opiera się na wymaganej szybkości dostępu do danych, jego częstotliwości i oczekiwaniach finansowych.

S3 StandardPamięć masowa ogólnego przeznaczenia dla aktywnych, często dostępnych danych
S3 Intelligent-TieringAutomatyczne oszczędności w przypadku danych o nieznanych lub zmieniających się wzorcach dostępu
S3 Standard-Infrequent AccessDla długotrwałych, lecz rzadko używanych danych, które wymagają dostępu milisekundowego
S3 Glacier Instant RetrievalDla długotrwałych danych archiwalnych, do których dostęp można uzyskać kwartalnie i które można natychmiastowo odzyskać w milisekundach
S3 Glacier Flexible Retrieval (Dawniej S3 Glacier)Do długoterminowych kopii zapasowych i archiwów z opcją odzyskiwania od 1 minuty do 12 godzin
S3 Glacier Deep ArchiveDo długoterminowej archiwizacji danych, do których dostęp można uzyskać raz lub dwa razy w roku i które można przywrócić w ciągu 12 godzin
S3 One Zone-Infrequent AccessDo odtworzenia rzadko używanych danych, które wymagają dostępu milisekundowego, z opcją przechowywania w jednej strefie AZ i zmniejszonym kosztem
S3 OutpostsDo wdrażania i zarządzania infrastrukturą AWS wewnątrz własnego centrum danych lub lokalizacji klienta
Klasy Amazon S3

Lokalizacje przechowywania różnią się kosztami

Wybrana lokalizacja w danym regionie wpływa na koszt usługi, ale ma również znaczenie jeśli chodzi o szybkość dostępu do danych. Jeżeli wiemy na czym nam bardziej zależy – cenie usługi lub szybkości w przesyłaniu danych – możemy wybierać między konkretnymi regionami w Europie i na świecie. Należy jednak pamiętać o przepisach prawnych, które dotyczą naszych plików, jak i danego regionu. Obiekty przechowywane w wybranym przez nas regionie, nie zmienią go dopóki sami nie zatwierdzimy takiej operacji.

Poznanie wzorców dostępu do danych

Kluczowym krokiem w optymalnym przechowywaniu danych jest zrozumienie wzorców dostępu do nich. Jak często dane są pobierane? Czy sięgamy do nich regularnie, czy raczej archiwizujemy dla bezpieczeństwa? Analiza tych wzorców pozwala na trafne przypisanie danych do odpowiednich klas przechowywania.

Za przykład może posłużyć nam interesująca droga, którą przeszła Canva – narzędzie do projektowania online, które umożliwia użytkownikom tworzenie, edytowanie i udostępnianie różnego rodzaju projektów. Ponad 100 milionów aktywnych użytkowników miesięcznie i ponad 15 miliardów stworzonych projektów, pokazuje jak istotne jest efektywne zarządzanie danymi w Amazon Web Services (AWS). Przykład Canvy ma cenne nauki dla firm, które dążą do optymalizacji swoich strategii przechowywania danych, jednocześnie minimalizując koszty.

Historia sukcesu Canvy opiera się na wykorzystaniu usług AWS, w tym Amazon S3, Amazon ECS, Amazon RDS i Amazon DynamoDB. Amazon Web Services umożliwiło Canvie skalowanie infrastruktury, aby sprostać szybkiemu wzrostowi bazy użytkowników. Jednak wzrost ten przyniósł wyzwania w zakresie efektywnego przechowywania i zarządzania treścią tworzoną przez użytkowników, która obejmuje szablony, zdjęcia ze stocków, grafiki i wiele więcej. Niezwykły krajobraz danych Canvy wymagał dokładnego zastanowienia się nad opcjami przechowywania danych, aby zrównoważyć dostępność, koszty i wydajność.

Droga Canvy do optymalizacji kosztów rozpoczęła się od wszechstronnej analizy wzorców dostępu do danych. Nowo dostępne narzędzie Amazon S3, Storage Class Analysis dostarczyło cenne spojrzenie, prezentując wykresy pokazujące żądania dostępu do danych w określonych odstępach czasowych. Ta analiza pozwoliła Canvie zidentyfikować trendy w dostępie do danych i dostosować strategię ich przechowywania odpowiednio do potrzeb użytkowników.

Kliknij, żeby dowiedzieć się więcej o migracji do chmury.

Oszczędności poprzez wybór odpowiednich klas

Klasy przechowywania w Amazon Simple Storage Service różnią się cenami, więc odpowiedni wybór klasy dla konkretnego rodzaju danych może przynieść znaczne oszczędności. Dane, do których sięga się rzadko po pewnym czasie, mogą być przeniesione do tańszych klas przechowywania, co pozwala na zaoszczędzenie kosztów, zachowując jednocześnie dostępność w razie potrzeby.

Możliwość oszczędności na usłudze S3 pojawia się między innymi wraz z Amazon Glacier i Amazon Standard-Infrequent Access. Te plany oferują niższą cenę za usługę bazując na bardziej dopasowanym dostępie do danych.

S3 Standard-Infrequent Access – natychmiastowy dostęp dla rzadko odzyskiwanych danych

Dane, do których użytkownicy chcą uzyskać dostęp codziennie, są przechowywane w usłudze Amazon S3 Standard. Dane, do których częstotliwość wymaganego dostępu jest  mniejsza, można przenieść na plan Standard-Infrequent Access. Skutkuje to zmniejszeniem kosztów eksploatacji o około 40%.

 S3 Standard-IA to optymalne rozwiązanie umożliwiające szybki dostęp do danych, po które sięga się rzadko, ale które są potrzebne w razie konieczności. Oferuje taką samą wyjątkową trwałość, przepustowość i niskie opóźnienie, jak S3 Standard, ale przy niższym koszcie za GB przechowywania i pobierania danych. Ta unikalna równowaga między przystępnością cenową a wydajnością sprawia, że S3 Standard-IA to doskonały wybór do przechowywania długoterminowych danych, tworzenia kopii zapasowych i odzyskiwania danych po awariach.

Amazon S3 Glacier – oszczędność dzięki archiwizacji

Amazon S3 Glacier Instant Revival charakteryzuje się natychmiastowym odzyskiwaniem danych, do których dostęp uzyskujemy średnio w częstotliwości kwartalnej. S3 Glacier Flexible Revival oferuje dostęp ciągły z czasem odzyskiwania od 1 minuty do 12 godzin.

S3 Glacier Flexible Retrieval daje użytkownikom większą elastyczność w wyborze sposobu dostępu do danych z usługi Glacier, umożliwiając dopasowanie procesu pobierania do konkretnych wymagań projektu. Dzięki temu użytkownicy mogą zoptymalizować koszty i wydajność w zależności od potrzeb.

Usługi Amazon S3 Glacier mogą zmniejszyć koszt przechowywania o ok. 80%. Trzeba jednak pamiętać, że przenoszenie danych między klasami Amazon S3 wiąże się z kosztami. Co ciekawe, koszt oparty jest na liczbie obiektów, które przenosimy ($0.02 za każde 1,000 obiektów). Obiekty, to wszystkie pliki przesyłane przez nas do chmury takie jak zdjęcia, bazy danych czy filmy. Pamiętajmy jednak, że wielkość pojedynczego obiektu może wynosić maksymalnie 5 TB. Równocześnie, potencjalne oszczędności z S3 Glacier pochodzą głównie z całkowitej ilości magazynowanych danych. Warto zaznaczyć, że koszt przeniesienia wszystkich danych jest opłatą jednorazową, podczas gdy oszczędności płynące z tańszego sposobu magazynowania są ciągłe.

Tym samym, bazując na średnim rozmiarze obiektu w buckecie, możemy obliczyć przybliżony czas potrzebny aby przejście z S3 Standard do S3 Glacier Instant Retrieval stało się opłacalne. Przykładowo, jeżeli chcemy przenieść niewielką ilość dużych obiektów, inwestycja zwraca się szybko. W innym przypadku, zanim przeniesienie dużej liczby małych obiektów osiągnie rentowność, mogą minąć miesiące. Należy zaznaczyć, że obiekty w S3 Standard-IA i S3 Glacier IR zawsze są rozliczane tak jakby zajmowały co najmniej 128KB.  Stąd pewien zakres, około 20KB, gdzie bardziej opłacalne jest przechowywanie obiektów w formacie S3 Standard niż przechowywanie ich w S3 Standard-IA lub S3 Glacier Instant Retrieval.

Zrozumienie różnic między tymi klasami i dopasowanie ich do potrzeb przechowywanych danych jest kluczowe w celu optymalizacji zarządzania kosztami i dostępnością danych w usłudze Amazon S3 Glacier.

Automatyzacja przejścia między klasami

Aby zoptymalizować koszty przechowywania, warto wykorzystać automatyzację procesu przenoszenia danych między klasami w zależności od ich charakteru i wzorców dostępu. Narzędzia takie jak lifecycle policies pozwalają na dynamiczne przypisywanie danych do odpowiednich klas na podstawie z góry określonych reguł.

Obliczanie kosztów przejścia i oszczędności – przykład Canvy

Canva zdała sobie sprawę, że nie wszystkie dane są równie często wykorzystywane. Podczas gdy szablony, zdjęcia i grafiki, do których użytkownicy często mają dostęp, wymagają klasy przechowywania S3 Standard, treść przez nich generowana, taka jak projekty i przesyłane media, ma zróżnicowane wzorce dostępu. Dla takiej zawartości Canva wykorzystała klasę przechowywania S3 Standard-Infrequent Access, która oferuje oszczędności kosztów bez pogarszania czasu dostępu. Co więcej, dla zastosowań takich jak archiwizacja logów i kopie zapasowe, Canva korzystała z elastycznego przywoływania z S3 Glacier Flexible Retrieval, odpowiedniego rozwiązania dla danych, które można pobrać w ciągu minut lub godzin. To podejście zapewniało, że dostęp do danych jest zgodny z rzeczywistymi potrzebami użytkowania.

Mając na uwadze koszty związane z przenoszeniem danych pomiędzy klasami S3, znaczny inwentarz danych Canvy wymagał gruntownej oceny kosztów w porównaniu do potencjalnych oszczędności. Poprzez uwzględnienie czynników takich jak rozmiar obiektu i opłaty za przeniesienie, Canva określiła punkt równowagi dla każdego przejścia między klasami przechowywania.

Przejście z klas S3 do S3 Glacier Instant Retrieval przebiegło płynnie i zaowocowało znacznymi oszczędnościami kosztów. Około 130 petabajtów z łącznych 230 petabajtów danych Canvy w S3 teraz znajduje się w S3 Glacier Instant Retrieval, co przyniosło znaczący spadek kosztów. Proaktywne podejście firmy do zrozumienia wzorców dostępu do danych i strategicznego przechodzenia między klasami przechowywania doprowadziło do oszczędności w wysokości około 300 000 dolarów miesięcznie, co daje 3,6 miliona dolarów w skali roku.

Case Study w QLOS

W opisywanym przypadku klientem był lider w dziedzinie map terenowych online, a głównym celem było przeprowadzenie audytu infrastruktury IT. Usługa klienta to kompleksowa aplikacja, która jest codziennie używana przez tysiące użytkowników. Zgłoszono nam problem z kończącym się miejscem na serwerze, co mogło wiązać się z koniecznością kosztownej rozbudowy infrastruktury.

W ramach rozwiązania przeprowadzono szereg działań mających na celu optymalizację środowiska IT klienta. Poprawiono wydajność bazy danych MySQL (MariaDB) poprzez dostosowanie jej konfiguracji, co skutkowało lepszym wykonywaniem zapytań i krótszym czasem odpowiedzi. Dodatkowo, wdrożono solidne mechanizmy logowania SQL oraz przeniesiono zasobożerne elementy do chmury, co poprawiło efektywność tworzenia kopii zapasowych i skróciło czas ładowania. Poprawiono proces automatycznego tworzenia kopii zapasowych baz danych oraz zwiększono odporność środowiska testowego na serwerze poprzez odpowiednie zabezpieczenia i środki zapasowe.

W efekcie tych działań klient uniknął konieczności rozbudowy infrastruktury serwerowej. Ponadto, zwiększyło się bezpieczeństwo informacji i poprawiła się wydajność serwisu (krótszy czas ładowania strony wpływa na SEO i zmniejszenie współczynnika odrzuceń). Audyt pomógł również spełnić wymagania regulacyjne związane z ochroną danych osobowych i prywatnością.

Kliknij, żeby zapoznać się ze studium przypadku naszego klienta.

Podsumowanie

Efektywne przechowywanie danych w Amazon S3 to kluczowy element strategii wielu firm. Wybór odpowiednich klas przechowywania zgodnie z wzorcami dostępu i charakterem danych może przynieść znaczne oszczędności finansowe. Rzetelna analiza i monitorowanie kosztów, automatyzacja procesów oraz zrozumienie potrzeb biznesowych są kluczowymi czynnikami, które pozwolą maksymalnie wykorzystać potencjał Amazon S3 i osiągnąć optymalne efekty w zarządzaniu danymi.

W taki sposób podchodzimy do optymalizacji w QLOS. Odpowiednio przeprowadzony audyt infrastruktury IT, dogłębna analiza wyników i umiejętne wdrożenie zmian owocuje w korzyści takie jak poprawa wydajności, zwiększenie bezpieczeństwa i optymalizacja kosztów.

W ramach audytu infrastruktury klient każdorazowo otrzymuje obszerny raport, który zawiera szczegółową analizę stanu aktualnego, identyfikację problemów i rekomendacje usprawnień, a także plan działania dla klienta.

Kontakt

Masz pytania? Skontaktuj się z nami