在默認(rèn)情況下,Spark Streaming 通過(guò)receiver或者Direct方式以生產(chǎn)者生產(chǎn)數(shù)據(jù)的速率接收數(shù)據(jù)。
當(dāng) batch processing time > batch interval 的時(shí)候,也就是每個(gè)批次數(shù)據(jù)處理的時(shí)間要比 Spark Streaming 批處理間隔時(shí)間長(zhǎng)。
越來(lái)越多的數(shù)據(jù)被接收,但是數(shù)據(jù)的處理速度沒(méi)有跟上,導(dǎo)致系統(tǒng)開(kāi)始出現(xiàn)數(shù)據(jù)堆積,可能進(jìn)一步導(dǎo)致 Executor 端出現(xiàn) OOM 問(wèn)題而出現(xiàn)失敗的情況。