• ନ୍ୟୁଜ୍_ବ୍ୟାନର

ସେବା

ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂ ଡାଟା ସଫା କରିବା ପ୍ରକ୍ରିୟା
(I) DStream ଏବଂ RDD
ଆମେ ଜାଣୁ ଯେ, ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂ ଗଣନା ସ୍ପାର୍କ କୋର ଉପରେ ଆଧାରିତ, ଏବଂ ସ୍ପାର୍କ କୋରର ମୂଳ ହେଉଛି RDD, ତେଣୁ ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂ ମଧ୍ୟ RDD ସହିତ ଜଡିତ ହେବା ଆବଶ୍ୟକ। ତଥାପି, ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂ ବ୍ୟବହାରକାରୀମାନଙ୍କୁ ସିଧାସଳଖ RDD ବ୍ୟବହାର କରିବାକୁ ଦିଏ ନାହିଁ, କିନ୍ତୁ DStream ଧାରଣାର ଏକ ସେଟ୍ ସାରାଂଶିତ କରେ, DStream ଏବଂ RDD ହେଉଛି ଅନ୍ତର୍ଭୁକ୍ତ ସମ୍ପର୍କ, ଆପଣ ଏହାକୁ ଜାଭାରେ ସାଜସଜ୍ଜା ପ୍ୟାଟର୍ନ ଭାବରେ ବୁଝିପାରିବେ, ଅର୍ଥାତ୍, DStream ହେଉଛି RDDର ଏକ ବୃଦ୍ଧି, କିନ୍ତୁ ଆଚରଣ RDD ସହିତ ସମାନ।
DStream ଏବଂ RDD ଉଭୟର ଅନେକ ସର୍ତ୍ତ ଅଛି।
(1) ସମାନ ଟ୍ରାନ୍ସଫର୍ମେଶନ୍ କାର୍ଯ୍ୟ ଅଛି, ଯେପରିକି map, reduceByKey, ଇତ୍ୟାଦି, କିନ୍ତୁ କିଛି ଅନନ୍ୟ ମଧ୍ୟ ଅଛି, ଯେପରିକି Window, mapWithStated, ଇତ୍ୟାଦି।
(2) ସମସ୍ତଙ୍କର କାର୍ଯ୍ୟ କ୍ରିୟା ଅଛି, ଯେପରିକି foreachRDD, count, ଇତ୍ୟାଦି।
ପ୍ରୋଗ୍ରାମିଂ ମଡେଲ୍ ସ୍ଥିର।
(ଖ) ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂରେ DStream ର ପରିଚୟ
DStream ରେ ଅନେକ ଶ୍ରେଣୀ ଅଛି।
(୧) ଡାଟା ସୋର୍ସ କ୍ଲାସଗୁଡ଼ିକ, ଯେପରିକି InputDStream, ନିର୍ଦ୍ଦିଷ୍ଟ ଭାବରେ DirectKafkaInputStream, ଇତ୍ୟାଦି।
(2) ପରିବର୍ତ୍ତନ ଶ୍ରେଣୀ, ସାଧାରଣତଃ MappedDStream, ShuffledDStream
(3) ଆଉଟପୁଟ୍ ଶ୍ରେଣୀଗୁଡ଼ିକ, ସାଧାରଣତଃ ଯେପରିକି ForEachDStream
ଉପରୋକ୍ତ ବିଷୟରୁ, ଆରମ୍ଭ (ଇନପୁଟ) ରୁ ଶେଷ (ଆଉଟପୁଟ) ପର୍ଯ୍ୟନ୍ତ ତଥ୍ୟ DStream ସିଷ୍ଟମ ଦ୍ୱାରା କରାଯାଏ, ଯାହାର ଅର୍ଥ ହେଉଛି ଯେ ବ୍ୟବହାରକାରୀ ସାଧାରଣତଃ ସିଧାସଳଖ RDDs ସୃଷ୍ଟି ଏବଂ ପରିଚାଳନା କରିପାରିବେ ନାହିଁ, ଯାହାର ଅର୍ଥ ହେଉଛି ଯେ DStream ର RDDs ର ଜୀବନଚକ୍ର ପାଇଁ ଦାୟୀ ହେବାର ସୁଯୋଗ ଏବଂ ଦାୟିତ୍ୱ ଅଛି।
ଅନ୍ୟ ଶବ୍ଦରେ, ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂରେ ଏକ ଅଛିସ୍ୱୟଂଚାଳିତ ସଫାକାର୍ଯ୍ୟ।
(iii) ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂରେ RDD ଜେନେରେସନ୍ ପ୍ରକ୍ରିୟା
ସ୍ପାର୍କ ଷ୍ଟ୍ରିମିଂରେ RDD ଗୁଡ଼ିକର ଜୀବନ ପ୍ରବାହ ନିମ୍ନଲିଖିତ ଭାବରେ କଷ୍ଟକର ଅଟେ।
(୧) InputDStream ରେ, ପ୍ରାପ୍ତ ତଥ୍ୟକୁ RDD ରେ ରୂପାନ୍ତରିତ କରାଯାଏ, ଯେପରିକି DirectKafkaInputStream, ଯାହା KafkaRDD ସୃଷ୍ଟି କରେ।
(2) ତା'ପରେ MappedDStream ଏବଂ ଅନ୍ୟାନ୍ୟ ଡାଟା ରୂପାନ୍ତର ମାଧ୍ୟମରେ, ଏହି ସମୟକୁ ସିଧାସଳଖ RDD କୁହାଯାଏ ଯାହା ରୂପାନ୍ତର ପାଇଁ ମାନଚିତ୍ର ପଦ୍ଧତି ସହିତ ସମାନ।
(3) ଆଉଟପୁଟ୍ ଶ୍ରେଣୀ କାର୍ଯ୍ୟରେ, କେବଳ ଯେତେବେଳେ RDD ପ୍ରକାଶିତ ହୁଏ, ଆପଣ ବ୍ୟବହାରକାରୀଙ୍କୁ ଅନୁରୂପ ସଂରକ୍ଷଣ, ଅନ୍ୟାନ୍ୟ ଗଣନା ଏବଂ ଅନ୍ୟାନ୍ୟ କାର୍ଯ୍ୟ କରିବାକୁ ଦେଇପାରିବେ।