Witamy na stronie projektu Krajowy Magazyn Danych!

Cele projektu:

Projekt Krajowy Magazyn Danych (KMD) ma na celu zbudowanie rozproszonego systemu przechowywania danych o zasięgu krajowym, który dostarcza wydajnych metod dostępu do danych oraz operacji na danych oraz zapewnia wysoki poziom wiarygodności, niezawodności oraz bezpieczeństwa danych.
KMD jest projektem badawczym, który ma na celu opracowanie oprogramowania oferującego usługę zarządzania rozproszonym systemem przechowywania danych. Usługi przechowywania mają być oferowane w obrębie sieci Polskiego Internetu Optycznego PIONIER, która łączy instytucje naukowe i edukacyjne w Polsce oraz w sieciach miejskich MAN. Głównym zastosowaniem systemu jest usługa tworzenia kopii zapasowych i archiwizacji (ang. Backup/Archive), dla instytucji akademickich, edukacyjnych, samorządów oraz innych instytucji publicznych.

Usługi oferowane przez projekt KMD:
  • Usługa tworzenia kopii zapasowych/archiwizacji,
  • Dostęp do wirtualnego systemu plików poprzez protokoły SCP, HTTPS oraz GridFTP.

  • Usługa Kopii zapasowych/Archiwizacji oferuje możliwość wykonywania kopii danych i ich przechowywania w magazynach danych dla użytkowników końcowych. Usługa wspiera tworzenie wielu replik "w locie", szyfrowanie danych zanim opuszczą one system użytkownika, kontrolę integralności danych oraz obsługę typowych dla systemów backup/archive scenariuszy, tj. kopii pełnych lub też inkrementacyjnych/przyrostowych oraz archiwizacji danych.

    Usługa Wirtualnego Systemu Plików dostarcza łatwego, intuicyjnego interfejsu do zapisywania oraz pobierania danych w systemie. Usługa ta oferuje replikację danych, wykonywaną w sposób przeźroczysty dla użytkownika końcowego. Użytkownik ma wrażenie, że korzysta ze zwykłego serwisu SCP, HTTP, czy GridFTP, a w rzeczywistości operuje na wirtualnym systemie plików. Logiczny, wirtualny system plików ukrywa przed użytkownikiem szczegóły takie jak fizyczne rozmieszczenie danych oraz fakt przetwarzania danych w systemie, np. wykonywanie replik.

    Replikacja. Dane użytkowników mogą być przechowywane w postaci wielu replik składowanych w geograficzne odległych centrach KMD. W przypadku awarii domyślnego Węzła Składowania (ang. Storage Node), dane mogą zostać odzyskane z dowolnej istniejącej repliki. Ta cecha systemu jest wspierana przez obie usługi dostarczane przez KMD.

    Architektura KMD jest omówiona bardziej szczegółowo tutaj.

    Podstawowe cechy KMD:

  • geograficzne rozproszenie usługi,
  • wysoka trwałość danych oraz meta-danych,
  • automatyczna replikacja danych pomiędzy węzłami systemu,
  • mechanizm odtwarzania danych oraz meta-danych,
  • skalowalność w wielu wymiarach: przestrzeń przechowywania, liczba obiektów danych, natężenie ruchu klientów.

  • Unikalne cechy KMD:
  • Wsparcie dla synchronicznej i asynchronicznej replikacji danych (!),
  • Semi-synchroniczna replikacja meta-danych (!),
  • Odseparowanie logicznych przestrzeni nazw różnych użytkowników, co poprawia skalowalność oraz bezpieczeństwo,
  • Użytkownik ma dostęp do danych używając standardowych protokołów oraz narzędzi takich jak SCP, WebDAV czy klient GridFTP,
  • Replikacja danych jest wykonywana transparentnie i automatycznie, nie wywiera wpływu na interfejs systemowy użytkownika,
  • Wsparcie dla szczegółowych rozliczeń (ang. accounting): użytkownik vs system oraz węzeł systemu vs inny węzeł systemu.
  • Wdrożenie KMD:

    Wyniki projektu KMD zostaną wdrożone jako usługa Krajowy Magazyn Danych. Liczne punkty dostępowe i usługowe będą zapewniały możliwość wydajnego wykonywania operacji na danych oraz szeroką dostępność usług w dowolnym miejscu w kraju. Mechanizm replikacji zapewni trwałe przechowywanie danych klientów.


    Rozmieszczenie Węzłów oraz usług systemu KMD.