关系型数据库中不确定性数据的Top-k查询研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
W 【l )d I Po rb
环; —5 1 1 步计算出排在第 i 概率最 大的元 组 , [] ] 1 位 Q i[ 存放 了排在 第 i 位概率从大到小 的元组 ;8步 比较 当前找 出的最 可 1 能排在第 i 位的元组 as e[ ] 如果该元 组 的概 率值 和分值 均 nwr i , 小 于 Q[ 一1 [ ] 则返 回 Q[ 一1 [ ] 使其 排在第 i , 替 i ]1 , i ] 1, 位 代
L uj o Y i qa F n ig i e a uJ n i X i a o e gJ n
(colfC m ue adI om t ns ∽eS uh e nvrt,h nqn 0 75, hn ) Sh o o o p tr n n r ai c f o ,o tws U i sy C og ig4 0 1 C ia t ei
O. 3
回 t t 在 P 、 、 和 P 排在第 一位的概率 为 0 4 其 2; l W P P ., 概率值仅仅次 于 t, 2t 5在 p 3和 P 排 在第 二 位 的概率 值为 w
0 34 t 速 度 也 小 于 t, 返 回 t。 .2 , 5的 l故 l
ຫໍສະໝຸດ Baidu
2 3 Pk a k 算法 实现 . .R n s
Ab t a t sr c T p k q e y h s b e d l p l d i r d t n l r lt n a a a e tr g te d tr nsi a b t fr t e d tb s s o — u r a e n wi ey a p i n t i o a e ai a d tb s s s i h ee mi it d t e a i ol on c a, u o h aa a e
据具有一定 的偏差 , 故在表的最后一列增加 Po rb属性来 表示元
计算 一个 元组排在第 i 位时 , 和排在第 i 1 会 一 的元组进行 比 , 较 选择两者 中更好的作为第 i 的查 询结 果 , 位 这样 就更好 地权 衡 了概率值 和分值。
组存在 的概率大小 。由于这 5个位 置的距离 相差足够 远 , 不可 能在 3 0分钟 内不 同的雷达能 够测试 到同一辆 车经过 , 以, 所 t l 是独立 的, f t 2和 3是互斥 的, 揖和 £ 5也是互斥 的 , 记为 也0 £, 3 揖o , t 互斥和独立是关系 C r 5 a 的生成规则。
值 和概率值。 加上一个 概率维即概率字段 表示该 元组存 在 的概 率值 大小 , 当
下 面通过例 子来具 体说 明可能世 界模 型。假 设在 L 、2 1L 、 I 、4 L J L 、5这 5个不 同的位置上 分别安 装 了雷 达来测 试经 过的 3 车辆速度并记 录下来形成表 1 。由于天气 等原 因导致记 录的数
据上。
能性大小 ; 属性级不确定性是指元组的属性具有一个概率值 , 以 概率密度 函数或 者统计参 数来 描述特定属性 的不确定性 。
关 系型数 据库 中存储 存在级 不确定性 数据 时, 给每个元 组
加上一个概率维 , 表示该元组的可信度大 小 , 在进行 Tpk查询 o- 时, 该概率维和数据的分值共同影响查询结果。
L 1 I 2 B1 0 2 9 A 4 5 21
Sed p e
1o o 9 0
概率值 Po rb大于 0 4 , . 1那么 P2 ak 一R ns只返 回一个结果 t。 l
例 : 于表 1的关 系 C rP2 ak 返 回 { ,l , 对 a, 一R n s t t}t 2 2在 P
和 不确定 性。不同数据集上 的实验显 示, 算法是有效 的。 该
关键词
中图 分 类 号
不确定 性 关系型数据库
T 3 1 12 P 1 .3
T — p ok
A
文献标识码
S U o - ER NC R AI Y DA A I E AT ON AT B S T DY ON T p k QU Y OF U E T NT T N R L I AL D A A E
找 出一 个最有可 能成为 T pk的元 组。3 4步表示如 果某个元 o. 、
个 , t 是独 立的 , 而 l 它可 以出现 或不 出现在 任意一 个 可能世
组 已经是返 回结果 中的值 , 那么结 束本 次循 环 ; 9步控 制 扫 7— 描 的深 度 , 如果 当前元组排 在第 n位的概 率值小 于前 一个元组 排 在第 n位的概率 值 , 不再 继续 往下 扫描 元组 , 束本 次循 就 结
12 可能世 界模 型 .
研究者 们针对不 确定 性数据 提出 了不 同的数 据模型 , 但是 可能世界模 型是 最广 泛的应用模 型之一 j也是 所有不确 定性 , 数据模型 的核心思想 , 即把不 确定性关 系转化为 一系列 的世界 实例 , 每个世 界实例根据其组成成员计算 出相应 的概率 , 所有世
t p e . p r n s o i e e td t e sd mo sr t h f c e c e a g rt m. u ls Ex e me t n d f r n a a s t e n tae t e e iin y o t lo h i f f h i
a se[] nw ri 。当 k=1时 , 不需要保存 上一个 步骤的结果 , 也不 需 要和上一个步骤的结果进行 比较 , 只需 要找 出在所有 可能世 界 模 型中排在第 1 位概率最 大的元组 即可 , 则不执行第 1 0和 1 5一
下 面的算法 描述了当 k>1时, 共有 两层循 环 , 一层 循环 第
根据关 系 C r a 的生 成规则 , 以生成 一 系列的可 能世 界空 可 间, 由于 f o f , 2 3 觯① , 5 故在同一个世界空 间 中有且 只能出现
一
mi( , uc.egh 次 , n ks r 1 t) 第二层循 环 suc.eg o e n ore1nt , h次 每次循环
c mbn h m l,h r fr e e n is o o — u r o n et it aa i ei e a d t e q e y ag r h i i lme t d I hs o i e t e wel t e e oe a n w s ma t fT p k q e f ru c r n y d t sd f d, n h u r lo i m s mp e n e . n t i c y a n t n w s ma tc ,h u l tr n 一 1 i o sd r d wh n c mp t g t e tp e a a k i s tb t r b a c s te s o e a d u c r it f e e n is te t p e a a k i s c n ie e e o u i h u l r n , o i et a n e h c r n n e an y o n t e l t
第2 9卷 第 4期
21 0 2年 4月
计算机 应 用与软 件
Co u e mp t rApp ia in nd S fwa e lc t s a ot r o
Vo . 129 No. 4
Ap . 01 r2 2
关 系型 数 据 库 中不 确 定 性 数 据 的 T pk查 询 研 究 o—
李雪娇 余建桥 冯 静
( 西南大学 计算 机与信息科学学 院 重庆 4 0 1 0 75)
摘
要
T pk查询在传统 的存储确定性 数据 的关系型数据库 中得到 了广泛 的应用 , o— 但是对 于存储 不确定 性数据 的数据库 ,o — T pk
查询 必须 结合 元组 的分值和不确定性来处理 。 已有 的 T pk查询没有很好地结合元组 的分值和不确定性 , o - 因此 , 义一种新 的针 对 定 不确定性 数据 的 T pk查询语义 , o— 并且实现 了查询算法 , 在新语义下 , 计算 第 i 位排 名时考虑 了第 i 一1位元组 , 能够更好地权衡分值
1 不确 定性数据模型
1 1 数据 不确 定性 ・
数据不确定性分为存在 级不确定 性和属 性级 不确定 性 。
收稿日 期
:o 1 5一o 。李霄娇 , 2 1 一o 9 硕士生 , 主研 领域 : 关系型数 据
库中 的不确定性,M 数据库。 XL
第 4期
李 雪娇 等 : 系型 数据 库 中不确 定性 数据 的 T pk查 询研 究 关 o—
和 P 中排在第一位 , 概率 为 P( )+P( )= . 2 返 其 P P 04 ,
t 5 【 4
t 3
1 45 5: 1 5 5: 0
1 3 5: 5
L 5 I A
L 3
C30 23 C30 23
A5 21 4
8 0 7 0
6 0
0. 6 0. 4
表 1 含不确定性元组的关 系 C r a
17 8
Pk ak 中加入用户想 要 的概 率 阈值 , —R n s 比如 , 要 返 回结 果 的 想
Po rb
O4 . 0 7 .
Tu l pe
t 1 t 2
T me i
1 3 5: 0 1 2 5: 5
L c t n Pae o ai l tNo o
界实例 的概率 和为 1 。
近年来 , 研究 者们 提 出 了多种针 对 不确 定性 数据 的 T pk o— 查 询算法 以及 查询优化 J每种算 法都定 义了不 同的查询 l ,
语义 , 但是这些算 法在 计算排 名第 i 时 , 位 并没有 考 虑排在 第 i
一
1 的元组 , 位 这就导 致 了查询 出来 的结果 不能 很好 地综合 分 本 文针对关系型数据库 中的不确定 性数据 , 在数 据存储 时
s r gu cr it d t. o— ur aet poesi cn nt nwt eso n ne a t ft l . x t gT pkq e osnt t n net n a T pkq e h v o rcs n oj ci i t cr adu cr i yo u e E ii ur de o o i a y a y u o hh e tn p s sn O y
Ke wo d y rs Un e any Reai n aa a e T p k c ri t t lt a d tb s o — ol
存 在级不确定性 是指元组有一个 概率值 , 表示该 元组存 在 的可
0 引 言
传感器 网络 、 数据集成 、 隐私保护 等各 种现实应用 中会产生 大量 不确定性数据 , 确定性数据广泛存在于军事 、 不 金融和 电信 等领域中。不确定性数据的排名要综合考 虑分值大小和概率值 大小 , T pk 询在语义上具有歧义 , 同的分值 和概 率值 的 其 o-查 不 结合 方式会产生不 同的查 询结果 , 以关 系型数据 库 中传 统 的 所 针对 确定 性 数 据 的 Tpk查 询 不 能 直 接 应 用 在 不 确 定 性 数 o-
界空 间中 , 通过排列组合 , 可以得到如表 2所示 的所 有可能世界 空 间 ,r Po b表示 其 概率 , 如 : 发 生 的概 率为 ( 例 P 1—0 4 . )×
07× . 0 2 2 所有 的可 能世 界空间发生的概率之和为 1 . 0 6= .5 , 。
表 2 关 系 C r的所有可能世 界空间 a
环; —5 1 1 步计算出排在第 i 概率最 大的元 组 , [] ] 1 位 Q i[ 存放 了排在 第 i 位概率从大到小 的元组 ;8步 比较 当前找 出的最 可 1 能排在第 i 位的元组 as e[ ] 如果该元 组 的概 率值 和分值 均 nwr i , 小 于 Q[ 一1 [ ] 则返 回 Q[ 一1 [ ] 使其 排在第 i , 替 i ]1 , i ] 1, 位 代
L uj o Y i qa F n ig i e a uJ n i X i a o e gJ n
(colfC m ue adI om t ns ∽eS uh e nvrt,h nqn 0 75, hn ) Sh o o o p tr n n r ai c f o ,o tws U i sy C og ig4 0 1 C ia t ei
O. 3
回 t t 在 P 、 、 和 P 排在第 一位的概率 为 0 4 其 2; l W P P ., 概率值仅仅次 于 t, 2t 5在 p 3和 P 排 在第 二 位 的概率 值为 w
0 34 t 速 度 也 小 于 t, 返 回 t。 .2 , 5的 l故 l
ຫໍສະໝຸດ Baidu
2 3 Pk a k 算法 实现 . .R n s
Ab t a t sr c T p k q e y h s b e d l p l d i r d t n l r lt n a a a e tr g te d tr nsi a b t fr t e d tb s s o — u r a e n wi ey a p i n t i o a e ai a d tb s s s i h ee mi it d t e a i ol on c a, u o h aa a e
据具有一定 的偏差 , 故在表的最后一列增加 Po rb属性来 表示元
计算 一个 元组排在第 i 位时 , 和排在第 i 1 会 一 的元组进行 比 , 较 选择两者 中更好的作为第 i 的查 询结 果 , 位 这样 就更好 地权 衡 了概率值 和分值。
组存在 的概率大小 。由于这 5个位 置的距离 相差足够 远 , 不可 能在 3 0分钟 内不 同的雷达能 够测试 到同一辆 车经过 , 以, 所 t l 是独立 的, f t 2和 3是互斥 的, 揖和 £ 5也是互斥 的 , 记为 也0 £, 3 揖o , t 互斥和独立是关系 C r 5 a 的生成规则。
值 和概率值。 加上一个 概率维即概率字段 表示该 元组存 在 的概 率值 大小 , 当
下 面通过例 子来具 体说 明可能世 界模 型。假 设在 L 、2 1L 、 I 、4 L J L 、5这 5个不 同的位置上 分别安 装 了雷 达来测 试经 过的 3 车辆速度并记 录下来形成表 1 。由于天气 等原 因导致记 录的数
据上。
能性大小 ; 属性级不确定性是指元组的属性具有一个概率值 , 以 概率密度 函数或 者统计参 数来 描述特定属性 的不确定性 。
关 系型数 据库 中存储 存在级 不确定性 数据 时, 给每个元 组
加上一个概率维 , 表示该元组的可信度大 小 , 在进行 Tpk查询 o- 时, 该概率维和数据的分值共同影响查询结果。
L 1 I 2 B1 0 2 9 A 4 5 21
Sed p e
1o o 9 0
概率值 Po rb大于 0 4 , . 1那么 P2 ak 一R ns只返 回一个结果 t。 l
例 : 于表 1的关 系 C rP2 ak 返 回 { ,l , 对 a, 一R n s t t}t 2 2在 P
和 不确定 性。不同数据集上 的实验显 示, 算法是有效 的。 该
关键词
中图 分 类 号
不确定 性 关系型数据库
T 3 1 12 P 1 .3
T — p ok
A
文献标识码
S U o - ER NC R AI Y DA A I E AT ON AT B S T DY ON T p k QU Y OF U E T NT T N R L I AL D A A E
找 出一 个最有可 能成为 T pk的元 组。3 4步表示如 果某个元 o. 、
个 , t 是独 立的 , 而 l 它可 以出现 或不 出现在 任意一 个 可能世
组 已经是返 回结果 中的值 , 那么结 束本 次循 环 ; 9步控 制 扫 7— 描 的深 度 , 如果 当前元组排 在第 n位的概 率值小 于前 一个元组 排 在第 n位的概率 值 , 不再 继续 往下 扫描 元组 , 束本 次循 就 结
12 可能世 界模 型 .
研究者 们针对不 确定 性数据 提出 了不 同的数 据模型 , 但是 可能世界模 型是 最广 泛的应用模 型之一 j也是 所有不确 定性 , 数据模型 的核心思想 , 即把不 确定性关 系转化为 一系列 的世界 实例 , 每个世 界实例根据其组成成员计算 出相应 的概率 , 所有世
t p e . p r n s o i e e td t e sd mo sr t h f c e c e a g rt m. u ls Ex e me t n d f r n a a s t e n tae t e e iin y o t lo h i f f h i
a se[] nw ri 。当 k=1时 , 不需要保存 上一个 步骤的结果 , 也不 需 要和上一个步骤的结果进行 比较 , 只需 要找 出在所有 可能世 界 模 型中排在第 1 位概率最 大的元组 即可 , 则不执行第 1 0和 1 5一
下 面的算法 描述了当 k>1时, 共有 两层循 环 , 一层 循环 第
根据关 系 C r a 的生 成规则 , 以生成 一 系列的可 能世 界空 可 间, 由于 f o f , 2 3 觯① , 5 故在同一个世界空 间 中有且 只能出现
一
mi( , uc.egh 次 , n ks r 1 t) 第二层循 环 suc.eg o e n ore1nt , h次 每次循环
c mbn h m l,h r fr e e n is o o — u r o n et it aa i ei e a d t e q e y ag r h i i lme t d I hs o i e t e wel t e e oe a n w s ma t fT p k q e f ru c r n y d t sd f d, n h u r lo i m s mp e n e . n t i c y a n t n w s ma tc ,h u l tr n 一 1 i o sd r d wh n c mp t g t e tp e a a k i s tb t r b a c s te s o e a d u c r it f e e n is te t p e a a k i s c n ie e e o u i h u l r n , o i et a n e h c r n n e an y o n t e l t
第2 9卷 第 4期
21 0 2年 4月
计算机 应 用与软 件
Co u e mp t rApp ia in nd S fwa e lc t s a ot r o
Vo . 129 No. 4
Ap . 01 r2 2
关 系型 数 据 库 中不 确 定 性 数 据 的 T pk查 询 研 究 o—
李雪娇 余建桥 冯 静
( 西南大学 计算 机与信息科学学 院 重庆 4 0 1 0 75)
摘
要
T pk查询在传统 的存储确定性 数据 的关系型数据库 中得到 了广泛 的应用 , o— 但是对 于存储 不确定 性数据 的数据库 ,o — T pk
查询 必须 结合 元组 的分值和不确定性来处理 。 已有 的 T pk查询没有很好地结合元组 的分值和不确定性 , o - 因此 , 义一种新 的针 对 定 不确定性 数据 的 T pk查询语义 , o— 并且实现 了查询算法 , 在新语义下 , 计算 第 i 位排 名时考虑 了第 i 一1位元组 , 能够更好地权衡分值
1 不确 定性数据模型
1 1 数据 不确 定性 ・
数据不确定性分为存在 级不确定 性和属 性级 不确定 性 。
收稿日 期
:o 1 5一o 。李霄娇 , 2 1 一o 9 硕士生 , 主研 领域 : 关系型数 据
库中 的不确定性,M 数据库。 XL
第 4期
李 雪娇 等 : 系型 数据 库 中不确 定性 数据 的 T pk查 询研 究 关 o—
和 P 中排在第一位 , 概率 为 P( )+P( )= . 2 返 其 P P 04 ,
t 5 【 4
t 3
1 45 5: 1 5 5: 0
1 3 5: 5
L 5 I A
L 3
C30 23 C30 23
A5 21 4
8 0 7 0
6 0
0. 6 0. 4
表 1 含不确定性元组的关 系 C r a
17 8
Pk ak 中加入用户想 要 的概 率 阈值 , —R n s 比如 , 要 返 回结 果 的 想
Po rb
O4 . 0 7 .
Tu l pe
t 1 t 2
T me i
1 3 5: 0 1 2 5: 5
L c t n Pae o ai l tNo o
界实例 的概率 和为 1 。
近年来 , 研究 者们 提 出 了多种针 对 不确 定性 数据 的 T pk o— 查 询算法 以及 查询优化 J每种算 法都定 义了不 同的查询 l ,
语义 , 但是这些算 法在 计算排 名第 i 时 , 位 并没有 考 虑排在 第 i
一
1 的元组 , 位 这就导 致 了查询 出来 的结果 不能 很好 地综合 分 本 文针对关系型数据库 中的不确定 性数据 , 在数 据存储 时
s r gu cr it d t. o— ur aet poesi cn nt nwt eso n ne a t ft l . x t gT pkq e osnt t n net n a T pkq e h v o rcs n oj ci i t cr adu cr i yo u e E ii ur de o o i a y a y u o hh e tn p s sn O y
Ke wo d y rs Un e any Reai n aa a e T p k c ri t t lt a d tb s o — ol
存 在级不确定性 是指元组有一个 概率值 , 表示该 元组存 在 的可
0 引 言
传感器 网络 、 数据集成 、 隐私保护 等各 种现实应用 中会产生 大量 不确定性数据 , 确定性数据广泛存在于军事 、 不 金融和 电信 等领域中。不确定性数据的排名要综合考 虑分值大小和概率值 大小 , T pk 询在语义上具有歧义 , 同的分值 和概 率值 的 其 o-查 不 结合 方式会产生不 同的查 询结果 , 以关 系型数据 库 中传 统 的 所 针对 确定 性 数 据 的 Tpk查 询 不 能 直 接 应 用 在 不 确 定 性 数 o-
界空 间中 , 通过排列组合 , 可以得到如表 2所示 的所 有可能世界 空 间 ,r Po b表示 其 概率 , 如 : 发 生 的概 率为 ( 例 P 1—0 4 . )×
07× . 0 2 2 所有 的可 能世 界空间发生的概率之和为 1 . 0 6= .5 , 。
表 2 关 系 C r的所有可能世 界空间 a