博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
SparkStreaming
阅读量:4308 次
发布时间:2019-06-06

本文共 985 字,大约阅读时间需要 3 分钟。

1、RDD基础

  RDD.scala源码写到RDD的5个属性。driver生成RDD 分发到个executor,RDD可理解为操作描述,除sc.parallelize()生成的RDD包含数据外,一般RDD不包含具体数据,只存储要读取的文件位置,DAG等。

KafkaUtils.createDirectStream生成KafkaRDD,分区与topics分区数对应。

基于receiver的方式生成blockRDD,默认200ms取一次数据保存在block,由blockmanager管理,分区数与block数有关,与kafka分区数无关,offset由zookeeper管理。

处理逻辑写在foreachRDD中,转变为sparkcore编程,便于发生故障时,做数据校验二次处理。

* Internally, each RDD is characterized by five main properties: *  - A list of partitions *  - A function for computing each split *  - A list of dependencies on other RDDs *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) *  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

 2、receiver

3、优雅地停止

//spark.streaming.stopGracefullyOnShutdown 在yarn cluster模式下不起作用,采取hdfs Markfile的方式,检测到存在Markfile,程序就调用stop(true,true).(https://www.inovex.de/blog/247-spark-streaming-on-yarn-in-production/)

 

转载于:https://www.cnblogs.com/csyusu/p/11062210.html

你可能感兴趣的文章
MongoDB基本语法和操作入门
查看>>
学习笔记_vnpy实战培训day04_作业
查看>>
OCO订单(委托)
查看>>
学习笔记_vnpy实战培训day06
查看>>
回测引擎代码分析流程图
查看>>
Excel 如何制作时间轴
查看>>
股票网格交易策略
查看>>
matplotlib绘图跳过时间段的处理方案
查看>>
vnpy学习_04回测评价指标的缺陷
查看>>
ubuntu终端一次多条命令方法和区别
查看>>
python之偏函数
查看>>
vnpy学习_06回测结果可视化改进
查看>>
读书笔记_量化交易如何建立自己的算法交易01
查看>>
设计模式03_工厂
查看>>
设计模式04_抽象工厂
查看>>
设计模式05_单例
查看>>
设计模式06_原型
查看>>
设计模式07_建造者
查看>>
设计模式08_适配器
查看>>
设计模式09_代理模式
查看>>