This is an automated email from the ASF dual-hosted git repository.
luzhijing pushed a commit to branch master
in repository https://gitbox.apache.org/repos/asf/doris-website.git
The following commit(s) were added to refs/heads/master by this push:
new c4a3ebcd512 [doc] Fix several typos and improve wording (#839)
c4a3ebcd512 is described below
commit c4a3ebcd512daba76feea65bf2707139b66f77c9
Author: lishiqi_amy <[email protected]>
AuthorDate: Mon Jul 8 21:09:34 2024 +0800
[doc] Fix several typos and improve wording (#839)
1. Update Velo to VeloDB
2. Improve wording for 2 doc titles
3. Fix an accuracy issue
---
docs/compute-storage-decoupled/creating-cluster.md | 4 ++--
docs/practical-guide/log-storage-analysis.md | 4 ++--
i18n/zh-CN/docusaurus-plugin-content-docs/current.json | 8 ++++----
.../current/compute-storage-decoupled/creating-cluster.md | 6 +++---
.../current/table-design/index/bloomfilter.md | 8 ++++----
.../current/table-design/index/index-overview.md | 8 ++++----
i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json | 8 ++++----
.../version-2.0/table-design/index/bloomfilter.md | 8 ++++----
.../version-2.0/table-design/index/index-overview.md | 8 ++++----
i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json | 8 ++++----
.../version-2.1/table-design/index/bloomfilter.md | 8 ++++----
.../version-2.1/table-design/index/index-overview.md | 8 ++++----
sidebars.json | 4 ++--
.../version-2.0/practical-guide/log-storage-analysis.md | 4 ++--
.../version-2.1/practical-guide/log-storage-analysis.md | 4 ++--
versioned_sidebars/version-2.0-sidebars.json | 4 ++--
versioned_sidebars/version-2.1-sidebars.json | 4 ++--
17 files changed, 53 insertions(+), 53 deletions(-)
diff --git a/docs/compute-storage-decoupled/creating-cluster.md
b/docs/compute-storage-decoupled/creating-cluster.md
index c171c598d0a..9873aab6eea 100644
--- a/docs/compute-storage-decoupled/creating-cluster.md
+++ b/docs/compute-storage-decoupled/creating-cluster.md
@@ -282,13 +282,13 @@ Users can also choose to store their new tables in the
`built-in storage vault`.
Some of the storage vault configurations are modifiable.
-Comming soon
+Coming soon
### Delete storage vault
Only non-default storage vaults that are not referenced by any tables can be
deleted.
-Comming soon
+Coming soon
### Storage vault privilege
diff --git a/docs/practical-guide/log-storage-analysis.md
b/docs/practical-guide/log-storage-analysis.md
index db36bec1b1a..dea89808803 100644
--- a/docs/practical-guide/log-storage-analysis.md
+++ b/docs/practical-guide/log-storage-analysis.md
@@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10;
**Analyze logs visually**
-VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:
+VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:

@@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations:
- Display of top field values in search results for finding anomalies and
further drilling down for analysis
-You can [click to download Velo Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
+You can [click to download VeloDB Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current.json
b/i18n/zh-CN/docusaurus-plugin-content-docs/current.json
index ce2444c762d..bb5fe224c59 100644
--- a/i18n/zh-CN/docusaurus-plugin-content-docs/current.json
+++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current.json
@@ -107,13 +107,13 @@
"message": "视图与物化视图",
"description": "The label for category View and Materialize View in
sidebar docs"
},
- "sidebar.docs.category.Join Queries": {
+ "sidebar.docs.category.Join Optimization": {
"message": "Join 优化",
- "description": "The label for category Join Queries in sidebar docs"
+ "description": "The label for category Join Optimization in sidebar docs"
},
- "sidebar.docs.category.Duplicating Query Results": {
+ "sidebar.docs.category.Distincting Counts": {
"message": "高效去重",
- "description": "The label for category Duplicating Query Results in
sidebar docs"
+ "description": "The label for category Distincting Counts in sidebar docs"
},
"sidebar.docs.category.Analyzing Query": {
"message": "查询分析",
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md
index 03eaaeaeb47..94eb9fa4af3 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md
@@ -151,7 +151,7 @@ curl -s
"127.0.0.1:5000/MetaService/http/create_instance?token=greedisgood9999"
### **名词解释**
- `vault name`:每个存储后端的名称为数仓实例内全局唯一,除 `built-in vault` 外,`vault name`
由用户创建存储后端时指定。
-- `built-in vault`:存算分离模式下,用于存储 Doris 系统表的远程共享存储。须在创建数仓实例时配置。`built-in vault`
的固定名称为 `built_in_storage_vault`。配置 `built-in vault`后,数仓 (FE) 才能启动。
+- `built-in vault`:存算分离模式下,用于存储 Doris 系统表的远程共享存储。须在创建数仓实例时配置。`built-in vault`
的固定名称为 `built_in_storage_vault`。配置 `built-in vault`后,数仓(FE)才能启动。
- `default vault`:数仓实例级别的默认存储后端,用户可以指定某个存储后端为默认存储后端,包括 `built-in vault`
也可作为默认存储后端。由于存算分离模式中,数据必须要存储在某个远程共享存储上,因此如果用户建表时未在 `PROPERTIES` 中指定
`vault_name`,该表数据会存储在 `default vault` 上。`default vault`
可被重新设置,但是已经创建的表所使用的存储后端不会随之改变。
配置 `built-in vault` 后,还可按需创建更多存储后端。FE 启动成功后,可通过 SQL
语句进行存储后端操作,包括创建存储后端,查看存储后端以及指定存储后端进行建表等。
@@ -282,13 +282,13 @@ PROPERTIES (
用于更新 Storage Vault 配置的可修改属性。
-Comming soon
+Coming soon
### 删除存储后端
只有非默认存储后端且没有被任何表引用的存储后端才可被删除。
-Comming soon
+Coming soon
### 存储后端权限
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md
index 232ce995f69..5a77d68f27b 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md
@@ -42,7 +42,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数

-反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
+反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过
Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter
是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。
@@ -55,11 +55,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基
BloomFilter 的使用有下面一些限制:
-- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
+- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
- 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。
-- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
+- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。
@@ -90,7 +90,7 @@ SHOW CREATE TABLE table_name;
### 已有表增加、删除 BloomFilter 索引
-通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
+通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
**为 column_name3 增加 BloomFilter 索引**
```SQL
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md
index ea0626caaed..f6a6fd3c0c6 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md
@@ -34,8 +34,8 @@ under the License.
- 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024
行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。
-
倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少
I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代)
- 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE
条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache
Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。
- - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
- - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在
BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter
里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。
+ - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
+ - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter
里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少
I/O 加速查询。
- NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入
BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的
pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE
条件,可以跳过这部分数据减少 I/O 加速查询。
上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter
索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。
@@ -45,8 +45,8 @@ under the License.
| 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 |
|-----------|-----------|-----------|
-----------|-----------|-----------|-----------|-----------|-----------|
| 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 |
-| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
-| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 |
+| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
+| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A |
| 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 |
支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) |
| 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 |
只支持 LIKE 加速 |
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json
index 0d847df2227..cd5fda2c047 100644
--- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json
+++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json
@@ -99,13 +99,13 @@
"message": "视图与物化视图",
"description": "The label for category View and Materialize View in
sidebar docs"
},
- "sidebar.docs.category.Join Queries": {
+ "sidebar.docs.category.Join Optimization": {
"message": "Join 优化",
- "description": "The label for category Join Queries in sidebar docs"
+ "description": "The label for category Join Optimization in sidebar docs"
},
- "sidebar.docs.category.Duplicating Query Results": {
+ "sidebar.docs.category.Distincting Counts": {
"message": "高效去重",
- "description": "The label for category Duplicate in sidebar docs"
+ "description": "The label for category Distincting Counts in sidebar docs"
},
"sidebar.docs.category.Analyzing Query": {
"message": "查询分析",
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md
index a75604ff6ee..f1abc617947 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md
@@ -42,7 +42,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数

-反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
+反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过
Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter
是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。
@@ -55,11 +55,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基
BloomFilter 的使用有下面一些限制:
-- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
+- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
- 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。
-- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
+- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。
@@ -90,7 +90,7 @@ SHOW CREATE TABLE table_name;
### 已有表增加、删除 BloomFilter 索引
-通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
+通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
**为 column_name3 增加 BloomFilter 索引**
```SQL
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md
index ea0626caaed..f6a6fd3c0c6 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md
@@ -34,8 +34,8 @@ under the License.
- 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024
行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。
-
倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少
I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代)
- 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE
条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache
Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。
- - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
- - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在
BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter
里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。
+ - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
+ - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter
里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少
I/O 加速查询。
- NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入
BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的
pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE
条件,可以跳过这部分数据减少 I/O 加速查询。
上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter
索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。
@@ -45,8 +45,8 @@ under the License.
| 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 |
|-----------|-----------|-----------|
-----------|-----------|-----------|-----------|-----------|-----------|
| 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 |
-| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
-| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 |
+| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
+| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A |
| 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 |
支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) |
| 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 |
只支持 LIKE 加速 |
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json
index ee82fd1bcfe..49c2559ca0d 100644
--- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json
+++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json
@@ -107,13 +107,13 @@
"message": "视图与物化视图",
"description": "The label for category View and Materialize View in
sidebar docs"
},
- "sidebar.docs.category.Join Queries": {
+ "sidebar.docs.category.Join Optimization": {
"message": "Join 优化",
- "description": "The label for category Join Queries in sidebar docs"
+ "description": "The label for category Join Optimization in sidebar docs"
},
- "sidebar.docs.category.Duplicating Query Results": {
+ "sidebar.docs.category.Distincting Counts": {
"message": "高效去重",
- "description": "The label for category Duplicating Query Results in
sidebar docs"
+ "description": "The label for category Distincting Counts in sidebar docs"
},
"sidebar.docs.category.Analyzing Query": {
"message": "查询分析",
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md
index 1e2533f9f0e..73021a4f56f 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md
@@ -43,7 +43,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数

-反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
+反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现
Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。
Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过
Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter
是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。
@@ -56,11 +56,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基
BloomFilter 的使用有下面一些限制:
-- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
+- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等
- 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。
-- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
+- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。
如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。
@@ -91,7 +91,7 @@ SHOW CREATE TABLE table_name;
### 已有表增加、删除 BloomFilter 索引
-通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
+通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。
**为 column_name3 增加 BloomFilter 索引**
```SQL
diff --git
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md
index ea0626caaed..f6a6fd3c0c6 100644
---
a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md
+++
b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md
@@ -34,8 +34,8 @@ under the License.
- 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024
行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。
-
倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少
I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代)
- 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE
条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache
Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。
- - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
- - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在
BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter
里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。
+ - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有
NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL
来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。
+ - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter
里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少
I/O 加速查询。
- NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入
BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的
pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE
条件,可以跳过这部分数据减少 I/O 加速查询。
上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter
索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。
@@ -45,8 +45,8 @@ under the License.
| 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 |
|-----------|-----------|-----------|
-----------|-----------|-----------|-----------|-----------|-----------|
| 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 |
-| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
-| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 |
+| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 |
索引存储空间较大,与原始数据相当 |
+| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A |
| 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 |
支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) |
| 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 |
只支持 LIKE 加速 |
diff --git a/sidebars.json b/sidebars.json
index b9fa62b5485..469c6a56286 100644
--- a/sidebars.json
+++ b/sidebars.json
@@ -220,7 +220,7 @@
},
{
"type": "category",
- "label": "Join Queries",
+ "label": "Join Optimization",
"items": [
"query/join-optimization/doris-join-optimization",
"query/join-optimization/bucket-shuffle-join",
@@ -231,7 +231,7 @@
},
{
"type": "category",
- "label": "Duplicating Query Results",
+ "label": "Distincting Counts",
"items": [
"query/duplicate/orthogonal-bitmap-manual",
"query/duplicate/using-hll"
diff --git a/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md
b/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md
index 36962f2e138..51092ee98c3 100644
--- a/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md
+++ b/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md
@@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10;
**Analyze logs visually**
-VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:
+VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:

@@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations:
- Display of top field values in search results for finding anomalies and
further drilling down for analysis
-You can [click to download Velo Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
+You can [click to download VeloDB Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
diff --git a/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md
b/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md
index 60d6d891737..4e8058798f7 100644
--- a/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md
+++ b/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md
@@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10;
**Analyze logs visually**
-VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:
+VeloDB Enterprise Core, built on Apache Doris, provides a data development
platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana
Discover-like log retrieval and analysis interface for intuitive and easy
exploratory log analysis interaction as shown in the image below:

@@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations:
- Display of top field values in search results for finding anomalies and
further drilling down for analysis
-You can [click to download Velo Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
+You can [click to download VeloDB Enterprise
Core](https://www.velodb.io/download/enterprise) and [install
it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide)
to use WebUI. For more information about the main functions and how to use
WebUI, see
[WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide).
\ No newline at end of file
diff --git a/versioned_sidebars/version-2.0-sidebars.json
b/versioned_sidebars/version-2.0-sidebars.json
index a5d65b43653..1ecafc5befb 100644
--- a/versioned_sidebars/version-2.0-sidebars.json
+++ b/versioned_sidebars/version-2.0-sidebars.json
@@ -199,7 +199,7 @@
},
{
"type": "category",
- "label": "Join Queries",
+ "label": "Join Optimization",
"items": [
"query/join-optimization/doris-join-optimization",
"query/join-optimization/bucket-shuffle-join",
@@ -210,7 +210,7 @@
},
{
"type": "category",
- "label": "Duplicating Query Results",
+ "label": "Distincting Counts",
"items": [
"query/duplicate/orthogonal-bitmap-manual",
"query/duplicate/using-hll"
diff --git a/versioned_sidebars/version-2.1-sidebars.json
b/versioned_sidebars/version-2.1-sidebars.json
index 131008531be..7e160b00670 100644
--- a/versioned_sidebars/version-2.1-sidebars.json
+++ b/versioned_sidebars/version-2.1-sidebars.json
@@ -219,7 +219,7 @@
},
{
"type": "category",
- "label": "Join Queries",
+ "label": "Join Optimization",
"items": [
"query/join-optimization/doris-join-optimization",
"query/join-optimization/bucket-shuffle-join",
@@ -230,7 +230,7 @@
},
{
"type": "category",
- "label": "Duplicating Query Results",
+ "label": "Distincting Counts",
"items": [
"query/duplicate/orthogonal-bitmap-manual",
"query/duplicate/using-hll"
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]