Stockage de fichiers sur Compute Engine

Last reviewed 2023-12-20 UTC

Le stockage de fichiers (aussi appelé stockage en réseau ou NAS) permet un accès aux applications au niveau des fichiers, pour lire et mettre à jour des informations pouvant être partagées sur plusieurs machines. Certaines solutions de stockage de fichiers sur site ont une architecture à évolutivité verticale, et ajoutent simplement de l'espace de stockage à une quantité fixe de ressources de calcul. D'autres solutions de stockage de fichiers présentent une architecture à évolutivité horizontale, où la capacité et le calcul (performances) peuvent être ajoutés de manière incrémentielle à un système de fichiers existant si nécessaire. Dans les deux architectures de stockage, une ou plusieurs machines virtuelles (VM) peuvent accéder à l'espace de stockage.

Bien que certains systèmes de fichiers fassent appel à un client POSIX natif, de nombreux systèmes de stockage exploitent un protocole qui permet aux machines clientes d'installer un système de fichiers et d'accéder aux fichiers comme s'ils étaient hébergés en local. Les protocoles les plus couramment utilisés pour l'exportation de partages de fichiers sont NFS (Network File System) pour Linux (et, dans certains cas, Windows) et SMB (Server Message Block) pour Windows.

Ce document décrit les options suivantes pour le partage de fichiers :

Un facteur sous-jacent des performances et de la prévisibilité de tous les services Google Cloud est la pile réseau sur laquelle Google a évolué au fil des ans. Avec la structure Jupiter, Google a mis en place une pile réseau robuste, évolutive et stable qui peut continuer à évoluer sans que cela n'affecte vos charges de travail. Au fur et à mesure que Google améliore et renforce ses capacités réseau en interne, votre solution de partage de fichiers bénéficie de performances supplémentaires.

Google Cloud possède une fonctionnalité qui peut vous aider à tirer le meilleur parti de votre investissement, à savoir la possibilité de spécifier des types de VM personnalisés. Lorsque vous choisissez la taille de votre serveur de fichiers, vous pouvez sélectionner la combinaison adéquate de mémoire et de processeur, afin qu'il offre des performances optimales sans excès.

De plus, il est important de choisir la capacité appropriée des disques persistants Compute Engine, ainsi que le nombre de processeurs virtuels nécessaires, afin de garantir que les périphériques de stockage de votre serveur de fichiers reçoivent les IOPS et la bande passante de stockage requises, ainsi que la bande passante réseau. Une VM reçoit un débit réseau de 2 Go/s pour chaque processeur virtuel (dans la limite de la valeur maximale définie). Pour régler le disque persistant, consultez la page Optimiser les performances des disques persistants et des disques SSD locaux.

Notez que Cloud Storage constitue également un excellent moyen de stocker des pétaoctets de données à des niveaux élevés de redondance et pour un coût modique. Toutefois, Cloud Storage a un profil de performances et une API différents de ceux des serveurs de fichiers décrits ici.

Résumé des solutions de serveur de fichiers

Le tableau suivant récapitule les solutions et fonctionnalités du serveur de fichiers:

Solution Ensemble de données optimal Débit Assistance gérée Protocoles d'exportation
Niveau de base de Filestore 1 Tio à 64 Tio Jusqu'à 1,2 Gio/s Entièrement géré par Google NFSv3
Firestore Zonal 1 Tio à 100 Tio Jusqu'à 26 Gio/s Entièrement géré par Google NFSv3
Filestore Enterprise 1 Tio à 10 Tio Jusqu'à 1,2 Gio/s Entièrement géré par Google NFSv3
Google Cloud NetApp Volumes 1 Gio à 100 Tio Mo/s à 4,5 Gio/s Entièrement géré par Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP 1 Gio à 1 Pio Variable Gérée par le client NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni De dizaines de To à > 1 Po Jusqu'à 1,2 Gbit/s Nasuni et géré par le client NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Disque persistant en lecture seule < 64 To 240 à 1 200 Mbit/s Non Association directe

Disques persistants et disques SSD locaux

Si certaines données n'ont besoin d'être accessibles que par une seule VM ou ne changent pas au fil du temps, vous pouvez peut-être recourir aux volumes de disques persistants Compute Engine et vous passer complètement d'un serveur de fichiers. Vous pouvez formater les disques persistants avec un système de fichiers tel que Ext4 ou XFS, et associer des volumes en mode lecture seule ou lecture-écriture. Cela signifie que vous pouvez d'abord associer un volume à une instance, le charger avec les données dont vous avez besoin, puis l'associer en tant que disque en lecture seule à des centaines de VM simultanément. L'emploi de disques persistants en lecture seule ne fonctionne pas pour tous les cas d'utilisation, mais cela simplifie considérablement le processus par rapport à un serveur de fichiers.

Les disques persistants offrent des performances constantes. Tous les disques de la même taille (et ayant le même nombre de processeurs virtuels pour les disques persistants SSD) que vous associez à votre instance présentent les mêmes caractéristiques de performances. Vous n'avez pas besoin de préchauffer ou de tester les disques persistants avant de les utiliser en production.

Le coût des disques persistants est simple à déterminer, car aucun coût d'E/S n'est à prendre en compte après le provisionnement du volume. Les disques persistants peuvent également être redimensionnés si nécessaire. Vous pouvez ainsi commencer avec un volume à faible coût et à faible capacité, et vous n'avez pas besoin de créer d'instances ou de disques supplémentaires pour augmenter la capacité.

Si la capacité totale de stockage constitue la principale exigence, vous pouvez utiliser des disques persistants standards à faible coût. Pour obtenir des performances optimales tout en préservant la durabilité, vous pouvez utiliser des disques persistants SSD.

Si les données sont éphémères et exigent une latence inférieure à une milliseconde et un nombre élevé d'opérations d'E/S par seconde (IOPS), vous pouvez exploiter jusqu'à 9 To de disques SSD locaux et ainsi bénéficier de performances extrêmes. Les disques SSD locaux fournissent une bande passante de plusieurs Go/s et des millions d'IOPS, et ce sans utiliser toute la bande passante réseau allouée à vos instances. Il est important de garder à l'esprit que les disques SSD locaux impliquent certains compromis en termes de disponibilité, de durabilité et de flexibilité.

Pour voir une comparaison des nombreux types de disques disponibles pour les instances Compute Engine, consultez la documentation relative au stockage de blocs.

Éléments à prendre en compte lors du choix d'une solution de stockage de fichiers

Le choix d'une solution de stockage de fichiers nécessite de faire des compromis sur la gestion, les coûts, les performances et l'évolutivité. Il est plus facile de prendre une décision si la charge de travail est bien définie, ce qui n'est souvent pas le cas. Lorsque les charges de travail évoluent dans le temps ou sont très différentes, il est prudent de privilégier la flexibilité et l'élasticité à la réalisation d'économies, afin que vous puissiez développer votre solution. D'autre part, si vous avez une charge de travail temporelle et bien connue, vous pouvez créer une architecture de stockage de fichiers spécialement conçue à cet effet, qui peut facilement être détruite et reconstruite pour répondre à vos besoins immédiats de stockage.

L'une des premières décisions à prendre consiste à déterminer si vous souhaitez payer pour un service de stockage géré, une solution incluant une assistance produit, ou une solution sans assistance technique.

  • Les services de stockage de fichiers gérés sont les plus faciles à utiliser, car toutes les opérations sont gérées par Google ou par un partenaire. Ces services peuvent même fournir un contrat de niveau de service pour la disponibilité comme la plupart des autres services Google Cloud.
  • Les solutions non gérées mais bénéficiant d'une assistance technique offrent une flexibilité supplémentaire. Les partenaires peuvent vous aider en cas de problème, mais le fonctionnement quotidien de la solution de stockage est du ressort de l'utilisateur.
  • Les solutions sans assistance technique nécessitent le plus d'efforts en termes de déploiement et de maintenance. C'est à l'utilisateur de résoudre tous les problèmes. Ces solutions ne sont pas traitées dans ce document.

La décision suivante consiste à déterminer les exigences de durabilité et de disponibilité de la solution. La plupart des solutions de stockage de fichiers sont zonales et n'offrent pas de protection par défaut en cas de défaillance de la zone. Il est donc important de déterminer si une solution de reprise après sinistre (DR) qui protège contre les défaillances de zone est requise. Il est également important de connaître les exigences de l'application en termes de durabilité et de disponibilité. Par exemple, le choix entre disques SSD locaux et disques persistants dans votre déploiement a un impact important, tout comme la configuration du logiciel de la solution de fichiers. Chaque solution nécessite une planification minutieuse afin d'atteindre des niveaux élevés de durabilité, de disponibilité et même de protection contre les défaillances de zone et de région.

Enfin, examinez les emplacements (c'est-à-dire les zones, les régions, les centres de données sur site) où vous devez accéder aux données. Les emplacements des batteries de serveurs de calcul qui accèdent aux données influencent votre choix de solution de serveur de fichiers, car seules certaines solutions permettent un accès hybride sur site et dans le cloud.

Solutions gérées de stockage de fichiers

Cette section décrit les solutions gérées par Google pour le stockage de fichiers.

Niveau de base de Filestore

Filestore est une solution NAS entièrement gérée de Google.

Les instances Filestore Basic conviennent au partage de fichiers, au développement de logiciels et aux charges de travail GKE. Vous pouvez choisir de stocker des données au format HDD ou SSD. Les disques SSD offrent de meilleures performances. Quelle que soit l'option choisie, la capacité évolue de manière incrémentielle et vous pouvez protéger les données à l'aide de sauvegardes.

Filestore Zonal

Filestore Zonal simplifie le stockage et la gestion des données d'entreprise sur Google Cloud et sur des clouds hybrides. Filestore Zonal offre un accès parallèle économique et hautes performances aux données globales, tout en maintenant une cohérence stricte grâce à un système de fichiers distribué et présentant une évolutivité dynamique. Avec Filestore Zonal, les applications NFS et workflows NAS existants peuvent s'exécuter dans le cloud sans nécessiter de refactorisation, tout en conservant les avantages des services de données d'entreprise (haute disponibilité, compression, déduplication, etc.). Le pilote CSI Filestore permet la persistance, la portabilité et le partage fluides des données pour les charges de travail conteneurisées.

Vous pouvez faire évoluer des instances Filestore Zonal à la demande. Cela vous permet de créer et de développer une infrastructure de système de fichiers si nécessaire, afin de garantir que les performances et la capacité de stockage correspondent toujours à vos exigences de workflow dynamique. À mesure qu'un cluster Filestore Zonal se développe, les métadonnées et les performances E/S évoluent de manière linéaire. Ce scaling vous permet d'améliorer et d'accélérer une large gamme de workflows consommant beaucoup de données, comme le calcul hautes performances, les analyses, l'agrégation de données intersites, DevOps, etc. En conséquence, Filestore Zonal convient parfaitement pour des secteurs centrés sur les données, tels que les sciences de la vie (par exemple, le séquençage du génome), les services financiers, les médias et le divertissement.

Filestore Enterprise

Filestore Enterprise est une solution NFS cloud native entièrement gérée qui vous permet de déployer des applications critiques basées sur des fichiers dans Google Cloud. Elle repose sur un contrat de niveau de service garantissant une disponibilité régionale de 99,99 %. Avec un contrat de niveau de service garantissant une disponibilité régionale de 99,99 %, Filestore Enterprise est conçu pour les applications nécessitant une haute disponibilité. En quelques clics de souris (ou quelques commandes gcloud ou appels d'API), vous pouvez provisionner des partages NFS répliqués de manière synchrone sur trois zones d'une région. Si une zone de la région devient indisponible, Filestore Enterprise continue à diffuser des données de manière transparente dans l'application, sans aucune intervention opérationnelle de votre part.

Pour protéger davantage les données critiques, Filestore vous permet également de réaliser et de stocker des instantanés périodiques du système de fichiers. Avec Filestore, vous pouvez récupérer un fichier individuel ou un système de fichiers entier en moins de 10 minutes, à partir de n'importe quel point de récupération précédent.

Pour les applications critiques telles que SAP, les niveaux application et base de données doivent afficher une disponibilité élevée. Pour répondre à cette exigence, vous pouvez déployer le niveau base de données pour SAP sur Persistent Disk, dans plusieurs zones à l'aide de la haute disponibilité intégrée de la base de données. De même, le niveau application pour NetWeaver, qui nécessite des exécutables partagés sur plusieurs VM, peut être déployé sur Filestore Enterprise, qui réplique les données Netweaver sur plusieurs zones d'une même région. Le résultat final est une architecture d'application critique à trois niveaux et à disponibilité élevée.

Les entreprises informatiques déploient de plus en plus des applications avec état dans des conteneurs sur Google Kubernetes Engine (GKE). Cela les oblige souvent à repenser l'infrastructure de stockage à utiliser pour ces applications. Vous pouvez utiliser le stockage de blocs (Persistent Disk), le stockage de fichiers (Filestore Basic, Zonal ou Enterprise) ou le stockage d'objets (Cloud Storage). Filestore Enterprise, avec son pilote CSI Filestore géré et la compatibilité multipartage, permet aux organisations nécessitant plusieurs pods GKE l'accès aux fichiers partagés, ce qui améliore le niveau de disponibilité pour les charges de travail critiques.

NetApp Volumes

NetApp Volumes est un service Google entièrement géré qui vous permet d'installer rapidement un espace de stockage de fichiers partagé sur vos instances de calcul Google Cloud. NetApp Volumes est compatible avec SMB, NFS et l'accès multiprotocole. NetApp Volumes offre de hautes performances à vos applications avec une faible latence, ainsi que des fonctions de protection des données solides: instantanés, copies, réplication interrégionale et sauvegarde. Le service est adapté aux applications nécessitant des charges de travail séquentielles et aléatoires, qui peuvent évoluer sur des centaines, voire des milliers d'instances Compute Engine. En quelques secondes, les volumes dont la taille varie de 100 Gio à 100 Tio peuvent être provisionnés et protégés avec des fonctionnalités robustes de protection des données. Avec trois niveaux de service (Standard, Premium et Extrême) modifiables à la demande, NetApp Volumes offre les performances appropriées pour votre charge de travail, sans affecter la disponibilité. Pour plus d'informations sur les emplacements Google Cloud où NetApp Volumes est disponible, consultez la page Emplacements NetApp Volumes.

Solutions partenaires dans Cloud Marketplace

Les solutions suivantes fournies par des partenaires sont disponibles dans Cloud Marketplace.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) est une solution basée sur le cloud gérée par le client qui offre l'ensemble des fonctionnalités de ONTAP, le principal système d'exploitation pour la gestion des données de NetApp, sur Google Cloud. NetApp CVO est déployé au sein de votre VPC, avec la facturation et l'assistance Google. Le logiciel ONTAP s'exécute sur une VM Compute Engine et utilise des disques persistants et des buckets Cloud Storage (si la hiérarchisation est activée) pour stocker les données NAS. Le serveur de fichiers intégré accepte les volumes NAS avec un provisionnement léger afin que vous ne payez que l'espace de stockage utilisé. À mesure que les données augmentent, des disques persistants supplémentaires sont ajoutés au pool de capacité d'agrégats.

NetApp CVO extrait l'infrastructure sous-jacente et vous permet de créer des volumes de données virtuels créés à partir du pool d'agrégats, qui sont cohérents avec tous les autres volumes ONTAP de n'importe quel environnement cloud ou sur site. Les volumes de données que vous créez sont compatibles avec toutes les versions de NFS, SMB, multiprotocoles NFS/SMB et iSCS. Ils acceptent également un large éventail de charges de travail basées sur des fichiers, y compris du contenu Web et rich media, utilisé dans de nombreux secteurs, tels que l'automatisation de la conception électronique (EDA), les médias et le divertissement.

NetApp CVO est compatible avec les instantanés immédiats d'un moment précis qui économisent de l'espace, la sauvegarde incrémentielle intégrée et permanente au niveau du bloc dans Cloud Storage, et la réplication asynchrone interrégionale pour la reprise après sinistre. L'option permettant de sélectionner le type d'instance et de disques persistants Compute Engine vous permet d'obtenir les performances souhaitées pour vos charges de travail. Même dans une configuration hautes performances, NetApp CVO met en œuvre des solutions de stockage efficaces, telles que la déduplication, le compactage, la compression et la hiérarchisation automatique des données rarement utilisées sur le bucket Cloud Storage ce qui vous permet de stocker des pétaoctets de données tout en réduisant considérablement les coûts de stockage globaux.

DDN EXAScaler Cloud

La plate-forme EXAScaler Cloud de DDN est une solution partage parallèle de fichiers de pointe pour le traitement de données à hautes performances et la gestion des gros volumes de données nécessaires aux charges de travail IA, HPC et analytiques. Dans tous les domaines qui utilisent de grandes quantités de données, des sciences de la vie à l'énergie en passant par les véhicules autonomes et les services financiers, nos clients peuvent exploiter la technologie EXAScaler Cloud pour leurs tâches d'IA et d'analytique sur le cloud afin d'optimiser l'utilisation des ressources Google Cloud et de créer des workflows agiles pour l'utilisation temporaire du cloud et la conservation des données à long terme.

EXAScaler Cloud est un outil idéal pour les applications d'IA (deep learning et inférence), pour les architectures cloud hybrides qui utilisent temporairement le cloud afin de bénéficier sur demande d'une puissance de traitement élevée, et pour les applications de stockage à long terme des actifs (avec un déploiement EXAScaler sur site). L'outil EXAScaler basé sur le cloud est facile à déployer et exploite la puissance du système de fichiers parallèle de DDN qui est utilisé par plus de deux tiers des 100 superordinateurs les plus puissants du monde.

EXAScaler Cloud est conçu pour optimiser les charges de travail cloud utilisant de grandes quantités de données afin de réduire le temps d'analyse en réduisant la contention des E/S et en offrant un accès résilient à l'espace de stockage partagé pour un grand nombre de clients. EXAScaler Cloud optimise l'ensemble de l'environnement pour offrir des performances élevées entre les applications et les appareils de stockage, y compris le réseau et les instances de calcul elles-mêmes.

Pour les configurations flexibles, EXAScaler Cloud est utile pour les charges de travail "scratch" hautes performances, les IOPS plus persistantes ou les applications orientées débit, et même pour les données persistantes à long terme. En imitant les architectures sur site dans le cloud, les clients peuvent migrer leurs charges de travail de manière fluide, ce qui permet de limiter les perturbations de l'application pour l'utilisateur final à mesure que les charges de travail se déplacent.

DDN EXAScaler Cloud gère des charges de travail évolutives et s'appuie sur l'expertise acquise au service des plus grands environnements de données au monde. Grâce aux options d'assistance Premium, les clients bénéficient de la même expérience d'assistance spécialisée sur site que dans le cloud.

Pour en savoir plus, consultez les ressources suivantes :

Stockage de fichiers dans le cloud Nasuni

Nasuni remplace les serveurs de fichiers d'entreprise et les appareils NAS, ainsi que toutes les infrastructures associées, y compris le matériel de sauvegarde et de reprise après sinistre, par une solution cloud plus simple et économique. Nasuni utilise le stockage d'objets Google Cloud pour fournir une solution de stockage SaaS (Software as a Service) plus efficace, capable d'évoluer facilement pour gérer la croissance rapide des données de fichiers non structurées. Nasuni est conçu pour gérer les partages de fichiers et les flux de travail des applications au niveau des services, des projets et de l'organisation tout entière, et ce pour chaque employé, quel que soit l'endroit où il travaille.

Stockage de fichiers dans le cloud Nasuni.

Nasuni propose trois packages, avec des tarifs pour les entreprises et les organisations de toutes tailles afin qu'elles puissent se développer et évoluer selon leurs besoins.

Cette solution présente les avantages suivants :

  • Stockage de fichiers principal basé sur le cloud, jusqu'à 70 % moins cher. L'architecture de Nasuni exploite les règles intégrées de gestion du cycle de vie des objets. Ces règles offrent une flexibilité d'utilisation totale sur les classes Cloud Storage, y compris les classes Standard, Nearline, Coldline et Archive. En utilisant la classe Archive à accès immédiat pour le stockage principal, Nasuni vous permet de réaliser jusqu'à 70 % d'économies.

  • Partages de fichiers dans le cloud à l'échelle des services et de l'organisation. L'architecture cloud de Nasuni offre un espace de noms global unique au sein des régions Google Cloud, sans limitation sur le nombre de fichiers, leur taille ou les instantanés, ce qui vous permet de stocker des fichiers directement depuis votre ordinateur dans Google Cloud, grâce aux protocoles standards de mappage de lecteur NAS (SMB).

  • Fonctionnalités intégrées de sauvegarde et de reprise après sinistre Les opérations "set-it" et "forget-it" de Nasuni facilitent la gestion du stockage global de fichiers. La sauvegarde et la reprise après sinistre sont incluses, et une console de gestion unique vous permet de superviser et de contrôler l'environnement à tout moment, et depuis n'importe où.

  • Remplacement des serveurs de fichiers vieillissants. Nasuni facilite la migration des serveurs de fichiers Microsoft Windows et d'autres systèmes de stockage de fichiers existants vers Google Cloud, ce qui réduit les coûts et la complexité de gestion de ces environnements.

Pour en savoir plus, consultez les ressources suivantes :

Sycomp Storage Fueled by IBM Spectrum Scale

Sycomp Storage Fueled by IBM Spectrum Scale dans Cloud Marketplace vous permet d'exécuter vos charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA), de machine learning (ML) et de big data dans Google Cloud. Avec Sycomp Storage, vous pouvez accéder simultanément aux données de milliers de VM, réduire les coûts en gérant automatiquement les niveaux de stockage, et exécuter votre application sur site ou dans Google Cloud. Sycomp Storage Fueled by IBM Spectrum Scale est disponible dans Cloud Marketplace. Il peut être rapidement déployé et permet d'accéder à vos données via NFS et le client IBM Spectrum Scale.

IBM Spectrum Scale est un système de fichiers parallèle qui permet de gérer en toute sécurité d'importants volumes de données (pétaoctets). Le système de fichiers parallèle IBM Spectrum Scale est bien adapté au HPC, à l'IA, au ML, au big data et aux autres applications nécessitant un système de fichiers partagé compatible avec POSIX. Grâce à ses capacités évolutives de stockage et de scaling des performances, Sycomp Storage est compatible avec les charges de travail HPC, d'IA et de ML, quel que soit le volume.

Après avoir déployé un cluster dans Google Cloud, vous décidez de la façon dont vous souhaitez l'utiliser. Vous pouvez choisir de l'utiliser uniquement dans le cloud ou en mode hybride en vous connectant à un cluster IBM Spectrum Scale sur site existant.

Pour en savoir plus, consultez les ressources suivantes :

Journal des modifications

Cette section récapitule les modifications techniques importantes apportées dans ce guide.

Date Description des modifications
19 décembre 2023
  • Mise à jour du packaging et de l'attribution de noms de Filestore High Scale (désormais Filestore Zonal).
  • Mise à jour de la compatibilité de Filestore Zonal pour le pilote CSI.
  • Ajout de Google Cloud NetApp Volumes en tant que solution de fichiers gérée.
  • Suppression de NetApp Cloud Volumes Service en tant qu'offre Cloud Marketplace.
30 novembre 2023
  • Suppression de Dell PowerScale en tant que solution partenaire sur Cloud Marketplace
  • Suppression de Panzura en tant que solution partenaire de Cloud Marketplace

Contributeurs

Auteur : Sean Derrington | Group Outbound Product Manager, Stockage

Autres contributeurs :