gavinchou commented on issue #54868: URL: https://github.com/apache/doris/issues/54868#issuecomment-3190948006
## 行为变更 - 调整 `show frontends` 和 `show backends` 的权限需求,使其与对应的 RESTful API 保持一致,即需要 `information_schema` 库的 `SELECT_PRIV` 权限 (#50140) - 指定 domain 的 admin 和 root 用户不再视为系统用户 (#50904) - 存储:单库默认并发事务数调整为 10000 (#51367, #52380) ## 新特性 ### Lakehouse (无具体内容) ### 异步物化视图 (无具体内容) ### 查询优化器 - 支持 MySQL 的聚合上卷语法 `GROUP BY ... WITH ROLLUP` (#51948) ### 查询执行 - 新增数据函数:`cot`/`sec`/`cosec` (#52872) - `Like` 语句支持 `escape` 语法 (#52540) ### 半结构化数据管理 - 通过设置会话变量 `enable_add_index_for_new_data=true`,支持仅对新增数据构建不分词倒排索引和 ngram bloomfilter 索引 (#52251, #48461) ### 存储 (无新增特性,相关变更见行为变更) ## 改进 ### 导入 - 优化 `SHOW CREATE LOAD` 错误信息提示 (#53694, #53730) ### 主键 - 新增 segment key bounds 截断能力,避免单次大导入失败的问题 (#45287, #51595) ### 存储 - 增强 compaction 和导入数据的可靠性 (#51048, #51852, #51129, #51483) - 优化 balance 速度 (#51733, #52813, #52013, #52309) - 优化建表速度 (#52688, #52918) - 优化 compaction 默认参数及可观测性 (#53244, #53562, #52321, #52605, #53133, #53215, #51649, #52389, #52044, #52297) - 优化查询报错 -230 的问题 (#52440, #54131) - 增加系统表 `backend_tablets` (#52195) - 优化 cloud 模式下从 follower 节点查询 `information_schema.tables` 的性能 (#51240, #51405) ### 存算分离 - 增强 Meta-service recycler 可观测性 (#52882, #53100, #51542, #52430, #53116, #52729, #53351, #53114, #53320, #52714, #50910, #51487, #51409, #51884, #52523, #53117) - 支持导入 compaction 过程进行跨 compute group 增量预热 (#52370, #52514, #53406, #53860, #53861, #52339, #52426, #53525, #53530, #53339, #53523, #52991, #53555, #53666, #51594, #52291, #53752) - 优化 Storage vault 连通性检查 (#51175, #52319, #52541, #52602, #53075, #53227) - 支持通过 MS API 更新存储后端信息 (#51162, #51685) ### Lakehouse - 优化 x86 环境下 ORC zlib 的解压性能并修复潜在问题 (#51775) - 优化外表读取的默认并发线程数 (#51415) - 优化不支持 DDL 操作的 Catalog 的报错信息 (#50696) ### 异步物化视图 - 优化透明改写规划的性能 (#49514) ### 查询优化器 - `group_concat` 函数现在允许参数为非字符串类型 (#52805) - `sum` 和 `avg` 函数允许参数为非数值类型 (#49954) - 扩展 TOP-N 查询延迟物化的支持范围,当查询部分列时也能延迟物化 (#52522) - 创建分区时,list 分区允许包含 `MAX_VALUE` (#46076) - 优化采样收集聚合模型表统计信息的性能 (#49918) - 优化采样收集统计信息时 NDV 值的准确性 (#50574) ### 倒排索引 - 统一 `show create table` 中倒排索引展示的 properties 顺序 (#51467) - 为倒排索引过滤条件新增逐条件的 profile 指标(如命中行数与执行时间),便于性能分析 (#47504) - 增强 profile 中倒排索引相关信息展示 (#48950, #48826, #51495) ### 权限 - Ranger 支持设置 storage vault 和 compute group 的权限 (#47925) ## 缺陷修复 ### 导入 - 修复导入 CSV 文件使用多字符分隔符可能导致的正确性问题 (#53374, #53634) - 修复修改任务属性后显示 `ROUTINE LOAD` 任务结果不正确的问题 (#53038, #53098) - 修复主节点重启或 Leader 切换后一流多表导入计划失效的问题 (#53799, #53829) - 修复 `ROUTINE LOAD` 任务因找不到可用 BE 节点导致所有调度任务阻塞的问题 (#52654, #52791) - 修复 `runningTxnIds` 并发读写冲突问题 (#51615, #51639) ### 主键 - 优化 mow 表在高频并发导入下的导入性能 (#52360, #52439, #47281, #52225) - mow 表 full compaction 释放被删除数据的空间 (#51874, #52256) - 修复 mow 表在极端场景下可能出现的导入失败问题 (#52547, #52848) - 优化 mow 表 compaction 性能 (#52476, #52952) - 修复 mow 表在有并发导入和 sc 时可能的正确性问题 (#52582, #52974) - 修复 mow 空表执行 schema change 可能导致导入卡住或 schema change 失败的问题 (#51780, #52166) - 修复 mow delete bitmap cache 内存泄漏问题 (#52718, #52756, #52931) - 修复 mow 表在 sc 后可能的正确性问题 (#51353, #51531) ### 存储 - 修复 compaction 导致的 clone 过程 missing rowset 问题 (#53984, #54162, #52812, #53497, #53193, #53527) - 修复 autobucket 计算 size 不准确及默认值问题 (#51258, #51682, #52801, #53250) - 修复分桶列可能导致的正确性问题 (#54037, #54024, #54072, #54109) - 修复单列表不能 rename 的问题 (#47275, #52340) - 修复 memtable 可能的内存泄漏问题 (#52902, #52965) - 修复空表事务写对不支持行为的报错不统一问题 (#52133, #52635) ### 存算分离 - File cache 相关修复 (#51197, #51793, #53783, #53915, #51684, #51904, #51776, #52556, #51463, #51603, #51711, #52152) - 修复 schema 过程中 cumulative point 可能回滚的问题 (#53402, #53446) - 修复后台任务影响自动重启的问题 (#51729, #52519) - 修复 azure 环境中数据回收过程未处理的异常问题 (#53042, #53224) - 修复单 rowset 做 compaction 未及时清理 file cache 的问题 (#51674) ### Lakehouse - 修复 Kerberos 环境下 Iceberg 表写入事务提交失败的问题 (#51508) - 修复 kerberos 环境下查询 hudi 的问题 (#51713) - 修复多 Catalog 情况下潜在的死锁问题 (#53626) - 修复某些情况下并发刷新 Catalog 导致元数据不一致的问题 (#51787) - 修复 ORC footer 某些情况下会被多次读取的问题 (#51277) - 修复 Table Valued Function 无法读取压缩格式 json 文件的问题 (#51983) - SQL Server Catalog 支持识别 IDENTITY 列信息 (#51285) - SQL Convertor 支持指定多个 url 以实现高可用 (#52636) ### 异步物化视图 - 修复当查询被优化为空集结果时,可能错误进行分区补偿的问题 (#51700) ### 查询优化器 - 修复 `sql_select_limit` 以外的影响 DML 执行结果的问题 (#53379) - 修复开始 local shuffle 时,物化的 CTE 在极端情况下可能执行报错的问题 (#52870) - 修复 prepare 的 insert 语句无法在非 master 节点执行的问题 (#48689) - 修复 `cast ipv4` 到 string 的结果错误问题 (#51546) ### 权限 - 当一个用户拥有多个角色时,会合并多个角色的权限后再执行鉴权 (#52948) ### 查询执行 - 修复部分 json 函数问题 (#52744, #52915, #53364) - 修复异步线程池满时可能导致 BE Core 的问题 (#52365) - 修复 `hll_to_base64` 结果不正确的问题 (#51831) - 修复 `decimal256` 转换为 float 时结果错误的问题 (#54140) - 修复两处内存泄漏问题 (#51952, #51929, #52542) - 修复 `bitmap_from_base64` 导致的 be core 问题 (#53018) - 修复 `array_map` 函数可能导致的 be core 问题 (#51618) - 修复 `split_by_regexp` 函数可能的错误问题 (#51293) - 修复超大数据量下 `bitmap_union` 函数可能的结果错误问题 (#52033) - 修复 `format round` 函数在部分边界值下可能 core 的问题 (#53855) ### 倒排索引 - 修复倒排索引在异常情况下产生的内存泄漏问题 (#53235) - 修复写入和查询空索引文件时报错的问题 (#51984, #51393) - 捕获倒排索引字符串读取中的 IO 异常,避免因异常导致进程崩溃 (#51844) ### 复杂数据类型 - 修复 Variant Nested 嵌套数据类型冲突时可能导致的类型推断错误 (#52696) - 修复 `map` 函数参数类型推导错误 (#52696) - 修复 jsonpath 中指定 `'$.'` 作为 path 导致数据错误变为 NULL 的问题 (#52211) - 修复 Variant 的子字段包含 `.` 时,序列化格式无法还原的问题 (#51930) ### 其他 - 修复 auditlog 表 IP 字段长度不足的问题 (#52762, #52984) - 修复 SQL 解析错误时,审计日志中记录的 query id 为上一次执行查询的 query id 的问题 (#53107) -- This is an automated message from the Apache Git Service. To respond to the message, please log on to GitHub and use the URL above to go to the specific comment. To unsubscribe, e-mail: [email protected] For queries about this service, please contact Infrastructure at: [email protected] --------------------------------------------------------------------- To unsubscribe, e-mail: [email protected] For additional commands, e-mail: [email protected]
