Re:在线数据质量

2020-06-21 文章 wangxiangyan
不确定客户的某些组件在什么时候会出故障,线上无法干预调控,如果线上oom,如何保证客户方的应用运行呢?再次启动的话,kafka中堆积很多的数据,应用启动,页面无实时数据,想的是先处理实时数据,让当前应用继续运行,再另起一个任务设置从同一个消费者组的某个时刻启动,两个任务同时运行,这样的逻辑可行吗?


--Original--
From: "Yichao Yang"<1048262...@qq.com;
Date: Mon, Jun 22, 2020 10:59 AM
To: "user-zh"

在线数据质量

2020-06-21 文章 wangxiangyan
hi,大家的在线任务会在晚上重跑一次做校正吗?

对于维表频繁更新,状态越来越大的场景如何保证数据的准确性

2020-06-16 文章 wangxiangyan
hi,大家
维表被频繁更新,数据量1g左右,需要频繁同步,使用什么方案去关联比较好呢?

Re:延迟事件处理

2020-06-09 文章 wangxiangyan
1. 
指标统计展示是mysql,按照事件时间做窗口的统计,如果按照处理时间,需要找到数据所属的窗口实现外部系统的更新,但在前台页面可能获取不到最近几分钟的统计数据,此时事件时间也同样延迟,语义上不如事件事件解释性强一些


2. 白天运行的时候显示实时的数据,晚上去更正一整天的数据,资源消耗很大,不确定这种延迟的频率,应该也不会常出现吧


还是将延迟数据收集起来,另外启动一个流处理任务不断消费延迟数据,通过和mysql交互,将统计出的指标和之前窗口统计出的指标求和然后更新,这个逻辑似乎比较合理
--Original--
From: "1048262223"<1048262...@qq.com;
Date: Tue, Jun 9, 2020 05:40 PM
To: "user-zh"

Re:延迟事件处理

2020-06-09 文章 wangxiangyan
这是一个需要实时展示统计指标的系统,数据来源于检测器,检测器安装在客户那边,可能有下线的状态,或者数据延迟到达,不确定下线的时间,某个检测器下线之后在第二天上线会有一批昨天的数据,会发生延迟的数据处理


--Original--
From: "1048262223"<1048262...@qq.com;
Date: Tue, Jun 9, 2020 05:14 PM
To: "user-zh"

延迟事件处理

2020-06-09 文章 wangxiangyan
hi,有个问题请教大家

在使用中遇到的需求是,按分钟处理数据,数据源是不稳定的,可能会一段时间内下线,比如第二天前一天的数据大量涌入,可能的选择方案有
1.延迟数据处理:将延迟数据采取另外的逻辑处理与外部系统交互,但是允许延迟的状态存储是不是需要调节为一天时间
2.每天晚上定时使用批处理重新计算白天的数据去校正

应该使用哪种方式或者使用更好的方式去处理呢?

延迟事件处理

2020-06-09 文章 wangxiangyan
hi
在使用中遇到的需求是,按分钟处理数据,数据源是不稳定的,可能会一段时间内下线,比如第二天前一天的数据大量涌入,可能的选择方案有
1.延迟数据处理:将延迟数据采取另外的逻辑处理与外部系统交互,但是允许延迟的状态存储是不是需要调节为一天时间
2.每天晚上定时使用批处理重新计算白天的数据去校正

应该使用哪种方式或者使用更好的方式去处理呢?

flink延迟数据处理

2020-06-09 文章 wangxiangyan
hi
在使用中遇到的需求是,按分钟处理数据,数据源是不稳定的,可能会一段时间内下线,比如第二天前一天的数据大量涌入,可能的选择方案有
1.延迟数据处理:将延迟数据采取另外的逻辑处理与外部系统交互,但是允许延迟的状态存储是不是需要调节为一天时间
2.每天晚上定时使用批处理重新计算白天的数据去校正

应该使用哪种方式或者使用更好的方式去处理呢?