date:20191206

?????? flink??50000??????????mysql????????????????????????????????????????????????????????

2019-12-06 文章 sun

----
??:"acoldbear"<1392427...@qq.com;
:2019??12??7??(??) 12:33
??:"user-zh"

?????? flink??50000??????????mysql????????????????????????????????????????????????????????

2019-12-06 文章 sun

??





----
??:"18612537914"<18612537...@163.com;
:2019??12??7??(??) 12:32
??:"user-zh"

Re: flink，50000条数据写入mysql太慢怎么办啊，除了多线程还有其他方法吗，已经是批量写入了

2019-12-06 文章 18612537914

可以写到hive 直接sqoop导入mysql。

发自我的iPhone

> 在 2019年12月7日，下午12:20，sun <1392427...@qq.com> 写道：
> 
> hi请问：
> flink5条数据写入mysql太慢怎么办啊，除了多线程还有其他方法吗，已经是批量写入了，
> 每次写5条的

Re: 如果用flink sql持续查询过去30分钟登录网站的人数？

2019-12-06 文章陈帅

你们这个平台还挺方便快速验证的，是扩展了Flink SQL吗？
虽然没有完全解决我的问题，但还是要谢谢你。

Yuan,Youjun  于2019年12月5日周四 上午10:41写道：

> 可以用30分钟的range over窗口来处理，但是你提到两个0值得输出恐怕做不到，没有数据，没有产出。
> 假设你得输入包含ts和userid两个字段，分别为时间戳和用户id，那么SQL应该这样：
> INSERT INTO mysink
> SELECT
>ts, userid,
>COUNT(userid)
>OVER (PARTITION BY userid ORDER BY rowtime RANGE BETWEEN INTERVAL
> '30' MINUTE PRECEDING AND CURRENT ROW) AS cnt
> FROM mysrc
>
> 以如下输入为例：
> "2019-12-05 12:02:00,user1",
> "2019-12-05 12:13:00,user1",
> "2019-12-05 12:15:00,user1",
> "2019-12-05 12:31:00,user1",
> "2019-12-05 12:40:00,user1",
> "2019-12-05 12:45:00,user1"
> 产出如下结果：
> {"cnt":1,"ts":157554732,"userid":"user1"}
> {"cnt":2,"ts":157554798,"userid":"user1"}
> {"cnt":3,"ts":157554810,"userid":"user1"}
> {"cnt":4,"ts":157554906,"userid":"user1"}
> {"cnt":4,"ts":157554960,"userid":"user1"}
> {"cnt":4,"ts":157554990,"userid":"user1"}
>
> 为了验证上述SQL，你可以将如下作业粘贴到http://creek.baidubce.com/
> 的作业定义输入框中，点击生成可执行文件，运行下载到的可执行文件，就能看到结果：
> {
> "sources": [{
> "schema": {
> "format": "CSV",
> "fields": [{
> "name": "ts",
> "type": "SQL_TIMESTAMP"
> },
> {
> "name": "userid",
> "type": "STRING"
> }]
> },
> "watermark": 0,
> "name": "mysrc",
> "eventTime": "ts",
> "type": "COLLECTION",
> "attr": {
> "input":[
> "2019-12-05 12:02:00,user1",
> "2019-12-05 12:13:00,user1",
> "2019-12-05 12:15:00,user1",
> "2019-12-05 12:31:00,user1",
> "2019-12-05 12:40:00,user1",
> "2019-12-05 12:45:00,user1"
>   ]
>   }
> }],
> "sink": {
> "schema": {
> "format": "JSON"
> },
> "name": "mysink",
> "type": "STDOUT"
> },
> "name": "demojob",
> "timeType": "EVENTTIME",
> "sql": "INSERT INTO mysink SELECT rowtime, userid, COUNT(userid)  OVER
> (PARTITION BY userid ORDER BY rowtime RANGE BETWEEN INTERVAL '30' MINUTE
> PRECEDING AND CURRENT ROW) AS cnt FROM mysrc"
> }
>
>
> 当然上面的例子是以事件时间，用处理时间也是可以的。为了验证，你可以把source.type从COLLECTION改成STDIN,把timeType从EVENTTIME改成PROCESSTIME，重新生成、运行，从命令行下输入数据。
>
> 袁尤军
>
> -邮件原件-
> 发件人: 陈帅 
> 发送时间: Wednesday, December 4, 2019 11:40 PM
> 收件人: user-zh@flink.apache.org
> 主题: 如果用flink sql持续查询过去30分钟登录网站的人数？
>
> 例如，用户在以下时间点登录：无, 12:02, 12:13, 12:15, 12:31, 12:40, 12:45, 无
> 那么我期望在以下时间点（实际查询可能在任意时间点）获取到的结果数为
> 12:01 (0),  12:03:(1),  12:14 (2),  12:16(3), 12:30 (4), 12:35 (4), 12:41
> (5), 12:46 (4), 13:16 (0)
> 即每个元素进来就会设一个30分钟过期时间，窗口状态是维护还当前未过期元素集合。
>
> 如果用sliding window的话，步长需要设置成1秒，那么窗口个数会膨胀很多，而实际上我只需要统计其中一个窗口，多余的窗口浪费了。我也考虑过用
> over window，但是不知道它是否支持处理时间，因为我的场景是需要根据处理时间推移而改变统计值的。我尝试用stream
> api来实现，利用了timerService设置元素过期时间，但我测下来发现元素过期速度赶不上进入元素的速度，导致state大小一直增长.
>
> 所以想问一下：
> 1. 针对这种case有没有标准做法？sql支持吗？
> 2. 要怎么解决timerService的性能问题？timerService底层实现是不是单线程处理priority queue?
>
> 谢谢！
> 陈帅
>

FLINK WEEKLY 2019/48

2019-12-06 文章 tison

FLINK WEEKLY 2019/48 
感谢社区同学 forideal 负责编写本期 FLINK WEEKLY！

用户问题

   - 如何成为flink的contributor
   

用户可以直接在感兴趣的jira下面回复，社区可能会把这个assign给用户
   - why operator not chained?
   

   - Uid and name for Flink sources and sinks
   

用户设置了operatoruid和name，并针对用户自己的情况提了一些问题，邮件列表讨论了这些问题
   - HBase ScannerTimeoutException and double Result processing
   

用户在使用flink读取hbase的数据的时候发生了超时异常，邮件列表从源码层面分析出现这个情况的原因
   - Dynamically creating new Task Managers in YARN
   
用户想按需动态的申请taskmanager，邮件列表讨论了
   Flink on Yarn 的session mode和job mode，并针对问题给出了一些建议
   - Per Operator State Monitoring
   

用户的job被kill了，用户猜测是state导致。邮件列表讨论了某些可能监控的方法，同时讨论了有可能是
   state backend为RocksDB导致
   - Apache Flink - Throttling stream flow
   

邮件列表讨论了flink
   source限流的问题
   - Read multiline JSON/XML
   

用户询问在Flink中是否存在像spark读取多行json/xml的api，邮件列表讨论了一些方法
   - Apache Flink - Troubleshooting exception while starting the job from
   savepoint
   

用户有一个Job，在没有任何修改的前提下，无法使用
   save point重启。经过邮件讨论，用户发现有一个有状态的operator没有被分配name和uid。详细问题排查过程，参考邮件列表。
   - How to recover state from savepoint on embedded mode?
   

在flink
   embedded mode下，用户想从save point中恢复job。邮件列表讨论了可能可行的办法。有兴趣的可以去看看
   - Metrics for Task States
   


开发讨论

   - [PROPOSAL/SURVEY] Enable background cleanup for state with TTL by
   default
   

   - [DISCUSS] Disable conversion between TIMESTAMP and Long in parameters
   and results of UDXs
   

   - [DISCUSS] Support JSON functions in Flink SQL
   

   - [DISCUSS] Releasing Flink 1.8.3
   

Flink
   1.8.3 即将发版了
   - set job level TTL
   


社区发展

   - Apache Flink-shaded 9.0 released
   

   - Flink Forward Asia 2019
   

2019年11月28/29
   Flink Forward Asia 2019 在北京召开
   -

回复: flink1.9.0 standalone模式高可用配置问题

2019-12-06 文章 pengchenglin

我刚给你测了一下，两个节点都启动jobmanager.sh ip port 后，kill掉其中一个，另一个的web界面提示正在进行选举，说明是高可用状态。
 
发件人： pengchenglin
发送时间： 2019-12-06 19:47
收件人： user-zh
主题： flink1.9.0 standalone模式高可用配置问题
各位：
1.9.0版本的flink，两台机器，flink-conf.yaml配置相同（high-availability.zookeeper.path.root和high-availability.cluster-id也相同），
先在机器1运行bin/jobmanager.sh start ip1 port
然后到机器2运行bin/jobmanager.sh start ip2 port
打开ip1:port,ip2:port同时存在，并不像1.7.2一样，跳转到ip1:port
 
请问一下，这是没有配置好，还是1.9.0版本的高可用就是如此。

flink1.9.0 standalone模式高可用配置问题

2019-12-06 文章 pengchenglin

各位：
1.9.0版本的flink，两台机器，flink-conf.yaml配置相同（high-availability.zookeeper.path.root和high-availability.cluster-id也相同），
先在机器1运行bin/jobmanager.sh start ip1 port
然后到机器2运行bin/jobmanager.sh start ip2 port
打开ip1:port,ip2:port同时存在，并不像1.7.2一样，跳转到ip1:port

请问一下，这是没有配置好，还是1.9.0版本的高可用就是如此。

Re: [DISCUSS] Drop Kafka 0.8/0.9

2019-12-06 文章 Benchao Li

+1 for dropping.

Zhenghua Gao  于2019年12月5日周四 下午4:05写道：

> +1 for dropping.
>
> *Best Regards,*
> *Zhenghua Gao*
>
>
> On Thu, Dec 5, 2019 at 11:08 AM Dian Fu  wrote:
>
> > +1 for dropping them.
> >
> > Just FYI: there was a similar discussion few months ago [1].
> >
> > [1]
> >
> http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/DISCUSS-Drop-older-versions-of-Kafka-Connectors-0-9-0-10-for-Flink-1-10-td29916.html#a29997
> >
> > 在 2019年12月5日，上午10:29，vino yang  写道：
> >
> > +1
> >
> > jincheng sun  于2019年12月5日周四 上午10:26写道：
> >
> >> +1  for drop it, and Thanks for bring up this discussion Chesnay!
> >>
> >> Best,
> >> Jincheng
> >>
> >> Jark Wu  于2019年12月5日周四 上午10:19写道：
> >>
> >>> +1 for dropping, also cc'ed user mailing list.
> >>>
> >>>
> >>> Best,
> >>> Jark
> >>>
> >>> On Thu, 5 Dec 2019 at 03:39, Konstantin Knauf <
> konstan...@ververica.com>
> >>> wrote:
> >>>
> >>> > Hi Chesnay,
> >>> >
> >>> > +1 for dropping. I have not heard from any user using 0.8 or 0.9 for
> a
> >>> long
> >>> > while.
> >>> >
> >>> > Cheers,
> >>> >
> >>> > Konstantin
> >>> >
> >>> > On Wed, Dec 4, 2019 at 1:57 PM Chesnay Schepler 
> >>> > wrote:
> >>> >
> >>> > > Hello,
> >>> > >
> >>> > > What's everyone's take on dropping the Kafka 0.8/0.9 connectors
> from
> >>> the
> >>> > > Flink codebase?
> >>> > >
> >>> > > We haven't touched either of them for the 1.10 release, and it
> seems
> >>> > > quite unlikely that we will do so in the future.
> >>> > >
> >>> > > We could finally close a number of test stability tickets that have
> >>> been
> >>> > > lingering for quite a while.
> >>> > >
> >>> > >
> >>> > > Regards,
> >>> > >
> >>> > > Chesnay
> >>> > >
> >>> > >
> >>> >
> >>> > --
> >>> >
> >>> > Konstantin Knauf | Solutions Architect
> >>> >
> >>> > +49 160 91394525
> >>> >
> >>> >
> >>> > Follow us @VervericaData Ververica 
> >>> >
> >>> >
> >>> > --
> >>> >
> >>> > Join Flink Forward  - The Apache Flink
> >>> > Conference
> >>> >
> >>> > Stream Processing | Event Driven | Real Time
> >>> >
> >>> > --
> >>> >
> >>> > Ververica GmbH | Invalidenstrasse 115, 10115 Berlin, Germany
> >>> >
> >>> > --
> >>> > Ververica GmbH
> >>> > Registered at Amtsgericht Charlottenburg: HRB 158244 B
> >>> > Managing Directors: Timothy Alexander Steinert, Yip Park Tung Jason,
> Ji
> >>> > (Tony) Cheng
> >>> >
> >>>
> >>
> >
>


-- 

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn

[flink-sql]????tableEnv.sqlUpdate(ddl);??????????????????rowtime??

2019-12-06 文章 ????

??tableEnv.sqlUpdate(ddl);??


rowtimerowtime??
??flink???


??csvkafka


sql??
CREATE TABLE T_UserBehavior(
   userId BIGINT,
   itemId BIGINT,
   categoryId BIGINT,
   behavior VARCHAR,
   optime BIGINT
) WITH (
  'connector.type' = 'filesystem',   -- required: specify to 
connector type
  'connector.path' = 
'file:///E:\MyGitProject\flink-study\Hot-Item\src\main\resources\UserBehavior-less.csv',
  -- required: path to a file or directory
  'format.type' = 'csv',
  'format.fields.0.name' = 'userId', -- required: define the schema 
either by using type information
  'format.fields.0.type' = 'BIGINT',
  'format.fields.1.name' = 'itemId',
  'format.fields.1.type' = 'BIGINT',
  'format.fields.2.name' = 'categoryId',
  'format.fields.2.type' = 'BIGINT',
  'format.fields.3.name' = 'behavior',
  'format.fields.3.type' = 'VARCHAR',
  'format.fields.4.name' = 'optime',
  'format.fields.4.type' = 'BIGINT'
);

Re: 关于flink和hadoop版本的问题

2019-12-06 文章 jingwen jingwen

没有什么问题的，只是hadoop2.8和hadoop3.0在一些特性上存在不一样，对于你正常使用flink不受影响

下载flink源码打包一直没有编译成功，需要看下问题的原因，可能是一些maven的源的问题

cljb...@163.com  于2019年12月6日周五 下午4:14写道：

> 您好：
>
> 问一个关于flink和hadoop版本的问题。目前我们生产环境是hadoop3.0+的版本，现在官网上flink1.9+没有直接打包好的捆绑的hadoop3.0+的版本。
>  但是我自己下载flink1.9.1版本，然后下载了  可选组件里的 Pre-bundled Hadoop 2.8.3 (asc,
> sha1)  ，并且将这个包放到flink的lib下，也是可以正常操作hadoop的。
> 请问这样有什么影响吗？ 因为自己下载flink源码打包一直没有编译成功。麻烦告知！
>
> 感谢！
> 陈军
>
>
>
> cljb...@163.com
>

关于flink和hadoop版本的问题

2019-12-06 文章 cljb...@163.com

您好：

问一个关于flink和hadoop版本的问题。目前我们生产环境是hadoop3.0+的版本，现在官网上flink1.9+没有直接打包好的捆绑的hadoop3.0+的版本。
 但是我自己下载flink1.9.1版本，然后下载了  可选组件里的 Pre-bundled Hadoop 2.8.3 (asc, sha1)  
，并且将这个包放到flink的lib下，也是可以正常操作hadoop的。
请问这样有什么影响吗？ 因为自己下载flink源码打包一直没有编译成功。麻烦告知！
 
感谢！
陈军



cljb...@163.com

?????? flink??50000??????????mysql????????????????????????????????????????????????????????

?????? flink??50000??????????mysql????????????????????????????????????????????????????????

Re: flink，50000条数据写入mysql太慢怎么办啊，除了多线程还有其他方法吗，已经是批量写入了

Re: 如果用flink sql持续查询过去30分钟登录网站的人数？

FLINK WEEKLY 2019/48

回复: flink1.9.0 standalone模式高可用配置问题

flink1.9.0 standalone模式高可用配置问题

Re: [DISCUSS] Drop Kafka 0.8/0.9

[flink-sql]????tableEnv.sqlUpdate(ddl);??????????????????rowtime??

Re: 关于flink和hadoop版本的问题

关于flink和hadoop版本的问题

11 matches

Site Navigation

Mail list logo

Footer information