Salut tout le monde, P>
J'ai l'obligation de lire des données de diffusion en continu de Azure Eventhub et de le jeter à BLOB Emplacement. Conformément à l'optimisation des coûts, je ne peux préférer que les analyses de flux ou la diffusion d'étincelles. Je ne peux aller qu'avec un travail de lot d'allumage, que je dois explorer comment lire des données d'Azure EventHub en tant que lot (de préférence les données de la journée précédente) et le jeter à Blob. Mon Azure Eventhub contient 4 jours de données, je dois m'assurer que je devrais éviter les doublons à chaque fois que j'ai lu les données d'Azure Eventhub. p>
Je prévois de lire les données de Azure Event-hub une fois par jour à l'aide d'une étincelle, vous pouvez conserver une certaine séquence chaque fois que je lis les données afin d'éviter les doubles cutanées. p>
Toute aide serait grandement appréciée. P>
3 Réponses :
Les bibliothèques client azur pour les hubs d'événements ont un événement événementiel. Ce processeur traite les événements d'un magasin de points de contrôle qui persiste des informations sur les événements traités. Actuellement, il y a une mise en œuvre d'un magasin de points de contrôle qui persiste les données du point de contrôle sur les blobs de stockage Azure. P>
Voici la documentation API pour les langues que je sais qu'elle est prise en charge. Il existe également des échantillons dans le référentiel GitHub et Navigateur d'échantillons . P>
Dans un bref, j'ai obtenu ceci par Spark Streaming Streaming + Trigger.once.
processedDf .writeStream .trigger(Trigger.Once) .format("parquet") .option("checkpointLocation", "s3-path-to-checkpoint") .start("s3-path-to-parquet-lake")
Si le processus de flux concerne tous les événements de dumping au stockage Azure, vous devriez envisager de pouvoir capturer la capture où le service peut jeter des événements sur votre choix de compte de stockage à mesure que les événements arrivent. https://docs.microsoft.com/ EN-US / AZURE / EVENT-HUBS / EVENIR-HUBS-CAPTURE-Aperçu P>