当前位置:网站首页>Guide de construction du lac de données - quelques questions fondamentales

Guide de construction du lac de données - quelques questions fondamentales

2021-09-15 07:41:08 Tarzan d'Ali

Guide de construction du lac de données——Quelques questions fondamentales 

1、Qu'est - ce que Data Lake?

Data Lake est un système technologique,Les actifs de données structurés et non structurés peuvent être analysés en vrac et à bon marché.

C'est très simple.,Le plus grand charme de Data Lake est qu'il peut analyser tous les types de données.

Depuis 2010 Présenté pour la première fois en“Data Lake”Depuis le mot,Le nombre d'organisations qui adoptent l'architecture du lac de données augmente de façon exponentielle. Ils supportent plusieurs fonctions d'analyse,À partir des données de base SQL Analyse en temps réel demandée,Retour à l'apprentissage automatique.

Composition principale:

.Data Lake se compose de quatre composantes principales:Niveau de stockageCouche de formatageNiveau de calculEtCouche de métadonnées.

2、Pourquoi utiliser Data Lake?

L'architecture du lac de données regroupe les actifs de données dans un dépôt centralisé.Ce dépôt servira de base à l'analyse interfonctionnelle des données précédemment isolées.En outre,L'architecture de Data Lake contribue à une mise en oeuvre numérisée.

Toute donnée non structurée à grande échelle provenant de sources telles que les capteurs IOT ou les flux de clics d'applications mobiles peut adopter l'architecture Data Lake,C'est aussi l'une des orientations futures du Big Data.

Data Lake & Data Warehouse

Les lacs de données et les entrepôts de données se ressemblent en ce sens qu'ils supportent tous deux l'analyse de grands ensembles de données.Et pourtant,La façon dont ils atteignent cet objectif varie selon plusieurs aspects clés.

Modularisation:Les entrepôts de données sont généralement exclusifs、 Application unique ,Comme l'utilisationHADOOP,HIVE Et construire un entrepôt de données .Et Data Lake se caractérise par la modularité de ses composants,Se compose principalement de technologies open source et de formats ouverts.

Architecture:L'entrepôt de données exige que les données soient immédiatement conformes à DDL Schéma défini .En comparaison,Data Lake permet le libre stockage des données,La vérification de la structure des données est effectuée au moment de la lecture.

Coût et performance :Les entrepôts de données offrent généralement des performances élevées à des prix plus élevés.Les utilisateurs sont généralement confrontés à un agrégat d'historique avant d'insérer des données dans le tableau, Pour éviter des coûts excessifs .

Data Lake maintient le stockage des données dans un service de stockage rentable,Il n'y aura donc pas de frais de stockage excessifs. Ressources informatiques extensibles ,Répondre au mieux aux exigences de la charge de travail, Aucun coût supplémentaire .

Données structurées et non structurées:L'entrepôt de données est spécialement conçu pour les ensembles de données tabulaires structurées.Et Data Lake peut également être utilisé pour analyser des données dans des formats non structurés ou semi - structurés.

En fait,Data Lake et Data Warehouse peuvent être parallèles,À effectuer en fonction de la situation réelle de l'entreprise.

3、 Comment construire un lac de données ?

Un service de stockage très disponible est la première étape de Data Lake.

Avant de convertir les données dans un format plus approprié pour l'analyse,Les données doivent être stockées dans leur format original.

Et puis..., Se connecter comme Spark Ou Presto Un moteur de calcul comme celui - ci pour effectuer des calculs sur les données.

Quatre au total :

  1. Les données brutes entrent dans le stockage des objets
  2. Optimiser les fichiers de données originaux pour l'analyse par taille et format
  3. Ajouter un outil de métadonnées pour définir le schéma et activer le contrôle de version + Découverte
  4. Intégrer les consommateurs en aval dans des actifs de données optimisés

4、 Route technique du lac de données

À chaque niveau de l'architecture du lac de données,Il existe de nombreuses technologies qui peuvent être combinées pour créer des lacs de données.

Stockage: Principaux fournisseurs de Cloud AWS S3Les services de stockage de Data Lake sont les plus couramment utilisés dans les niveaux de stockage.De nombreux autres fournisseurs d'hébergement et de stockage open source sont également pleinement en mesure de soutenir Data Lake,Y compris::MinIO、HDFS、IBM Stockage en nuage、 Alibaba Object Storage 、Wasabi、Ceph、Oracle Stockage en nuage、SwiftStack ,EtSpaces Object Storage.

Format des données: L'exemple de format le plus simple est CSV Et JSON, Essentiellement supporté .Il existe également des formats plus spécialisés conçus pour les cas d'utilisation de Data Lake,Par exemple: Parquet、Delta、Iceberg、Avro Et Hudi.Ces formats améliorent l'efficacité de l'exploitation du lac,Et rendre possible des fonctions telles que l'atomicité des transactions et le traçage du temps.

Images des médias 、Les formats de données non structurés liés aux fichiers vidéo et audio sont également courants dans les lacs de données.

Calcul:Les grands moteurs informatiques doivent être distribués. Voici quelques exemples: MapReduce Et Hadoop Technologie équivalente、Et Spark 、Presto、Flink Attendez un peu!.

Métadonnées:Très important.,En particulier, elle a une incidence sur la gouvernance future des données.

Clients et bibliothèques :Adoption JDBC/ODBC Et d'autres interfaces de transfert de données , Accès aux données du lac .S3 API,BI Outils et SQL Client.

5、Application

Le Lac de données s'applique à tous les scénarios analysés.

  • Analyse des données locales : Une fois les données mises dans le lac ,Il n'est pas nécessaire de le déplacer ailleurs pour la base SQL Analyse de.Demandez à l'analyste d'exécuter la requête sur les données de Data Lake,Afin d'identifier les tendances et de calculer les indicateurs relatifs aux entreprises.
  • Formation au modèle d'apprentissage des machines :.Les modèles d'apprentissage par machine nécessitent souvent beaucoup de données pour s'entraîner à optimiser leurs paramètres,Et atteindre un niveau élevé de précision.Data Lake permet aux spécialistes des données de créer à plusieurs reprises des ensembles de formation et d'essais pour optimiser les modèles.
  • Archivage et stockage des données historiques :En plus de la valeur commerciale directe fournie par Data Lake,Ils peuvent également être utilisés comme stockage de données historiques archivées.

6、 Défis du lac de données

L'écosystème autour du lac Data est relativement nouveau,.La technologie utilisée dans certains cas est encore à maturité.Donc,,Data Lake est vulnérable à certains problèmes communs.

Petit fichier: Une de ces questions est “ Petit problème de fichier ”, Quand un grand nombre de fichiers (Chaque fichier contient une petite quantité de données)Se produit lorsqu'il apparaît dans le lac de données.Le problème avec les petits fichiers est qu'ils sont inefficaces dans l'exécution des calculs et la tenue à jour des statistiques de métadonnées.

.La solution au problème des petits fichiers est d'exécuter des tâches de maintenance régulières,Compresser les données à une taille idéale pour une analyse efficace.

Partition Et l'efficacité des requêtes :Un concept similaire à l'ajout d'un index à une table d'entrepôt,.Data Lake Assets peut optimiser l'agrégation ou filtrer certains champs en utilisant des partitions. Partition signifie appuyer sur Blob Un champ ou un ensemble de champs spécifiques sur le stockage organise physiquement les données.

Sans le savoir,Les utilisateurs peuvent encourir des coûts importants et des temps d'attente pour exécuter des requêtes qui ne sont pas bien adaptées à la structure de partition de table.

Lecteur partagé :En l'absence de processus de travail et de gouvernance appropriés,Data Lake ressemble facilement à un dossier partagé, Plusieurs personnes y placent des fichiers ,Sans tenir compte des attentes des autres utilisateurs.Un flux de travail approprié est nécessaire,Pour éviter que le lac ne devienne un marais de données.

7、 Comment éviter les marais de données

Le Marais de données est l'état dégradé du lac de données.Les tableaux du lac renvoient des données inexactes,Soit le fichier est corrompu et la requête s'arrête complètement.

Il est important de maintenir une connaissance suffisante de la qualité et des propriétés de toutes les données insérées dans l'ensemble de données de production.

Plus de données sur le partage des technologies et des solutions liées au lac,Bienvenue à l'attention Flux de données massives

版权声明
本文为[Tarzan d'Ali]所创,转载请带上原文链接,感谢
https://chowdera.com/2021/09/20210915073252817C.html

随机推荐