【CN109670277A】一种基于多模态数据融合与多模型集成的旅行时间预测方法【专利】

【CN109670277A】一种基于多模态数据融合与多模型集成的旅行时间预测方法【专利】
【CN109670277A】一种基于多模态数据融合与多模型集成的旅行时间预测方法【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910123626.4

(22)申请日 2019.02.19

(71)申请人 南京邮电大学

地址 210023 江苏省南京市亚东新城区文

苑路9号

(72)发明人 邹志强 杨浩宇 吴家皋 蔡韬 

王兴源 

(74)专利代理机构 南京瑞弘专利商标事务所

(普通合伙) 32249

代理人 张耀文

(51)Int.Cl.

G06F 17/50(2006.01)

G06Q 10/04(2012.01)

(54)发明名称

一种基于多模态数据融合与多模型集成的

旅行时间预测方法

(57)摘要

本发明公开了一种基于多模态数据融合与

多模型集成的旅行时间预测方法,包括:多模态

数据预处理模块:从出租车GPS轨迹数据中根据

载客状态提取出租车行程数据;多模态数据分

析、特征提取与特征融合模块:从出租车轨迹数

据、天气数据、司机画像数据等领域分别提取相

应的特征子向量,并完成特征拼接;多模型集成

模块:分别建立梯度提升决策树模型和深度神经

网络模型,并使用决策树模型对以上模型的预测

结果进行集成。本发明的旅行时间预测方法融合

了出租车轨迹数据、天气数据、司机画像数据等

多模态数据,充分提取与挖掘对旅行时间有影响

的因素,建立了基于决策树的集成模型,使得本

发明以较小的计算代价获得了较高的行程旅行

时间预测准确率。权利要求书3页 说明书8页 附图3页CN 109670277 A 2019.04.23

C N 109670277

A

权 利 要 求 书1/3页CN 109670277 A

1.一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,包括以下步骤:

a.多模态数据预处理

采用行程提取算法对出租车轨迹数据进行预处理,提取出租车行程数据;

b.多模态数据分析、特征提取与特征融合

通过分析包括出租车行程数据、天气数据、司机画像数据的多模态数据,分别提取相应的特征子向量,将输入特征的离散特征使用独热编码,与其他连续型特征拼接构成特征子向量,完成特征拼接;

c.多模型集成

所述模型建立过程包括子模型建立和模型集成两部分:将描述行程的特征进行特定的处理,分别输入到梯度提升决策树模型和深度神经网络模型这两个子模型中,然后基于子模型的预测结果建立基于决策树的集成模型,最终使用该模型预测得到行程的旅行时间。

2.根据权利要求1所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述行程提取算法具体包括:

输入:一辆出租车轨迹序列T={P1,P2,P3,...,P n}

输出:行程数据集

a1.对轨迹序列进行遍历,设置循环变量i从1到n-1,n表示轨迹点的总数,初始时i=1,行程状态位为0;

a2.当P i的载客状态为1,跳转至a3,否则跳转至a4;

a3.当行程状态位为1时,跳转至a6,否则将P i记录为行程的起始点,行程状态位置1,跳转至a6;

a4.当行程状态位为1时,跳转至a5,否则跳转至a6;

a5.当P i+1载客状态位为1时当前行程记录完毕,将该行程计入行程数据集中,行程状态位置0,否则跳转到a6;

a6.执行i=i+1;

a7.当i

3.根据权利要求2所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述b.多模态数据分析、特征提取与特征融合包括:

b1.分析出租车行程数据,提取行程空间特征:根据半正矢公式计算在地球上两点之间的大圆距离,进而提取曼哈顿距离和方位角,使用k-means方法进行空间聚类,将聚类后得到的类簇编号使用独热方式编码,构成空间特征子向量trip s;

b2.分析出租车行程数据,提取行程时间特征:分别提取行程出发时间的离散型周期性信息以及状态信息,构成时间特征子向量trip t;

b3.分析天气数据,提取天气特征:根据天气状况将天气划分为不同的等级,构成天气特征子向量trip w;

b4.分析司机画像数据,提取司机特征:获取驾驶出租车的司机画像信息,构成司机特征子向量trip d;

b5.将行程空间特征子向量、行程时间特征子向量、天气特征子向量与司机特征子向量进行拼接,并与该行程对应的旅行时间trip traveltime组成描述行程信息的完整特征向量:

2

基于多模态数据融合的视觉目标跟踪算法研究

基于多模态数据融合的视觉目标跟踪算法研究计算机科学技术的高速发展带动了计算机视觉领域的革新,人类对机器学习和人工智能的需求日益增加,这使得视觉目标跟踪成为了当前研究的热门课题。在无人驾驶、安防、人机交互、导航和制导等民事和军事应用领域,视觉目标跟踪扮演着举足轻重的角色。 经过了几十年的发展,当前的目标跟踪算法依然面临着来自外部环境和目标自身的具有挑战性的干扰因素,如背景杂乱、遮挡、低照度、尺度变化、形变、运动模糊和快速运动等,它们严重制约着其发展。本文通过研究不同模态的数据之间的互补特性,结合不同跟踪方法的优缺点分析,提出了一种基于“检测跟踪模型”的多模态数据融合跟踪算法。 该算法采用红外和可见光图像中目标的全局/局部的多种特征,能够应对当前目标跟踪领域所面临的多种复杂干扰。首先,本文算法设计了两个跟踪模块:基于统计模型的跟踪模块(HIST模块)和基于相关滤波的跟踪模块(CFT模块)。 其中,HIST模块采用具有全局统计特性的RGB颜色直方图作为跟踪特征,结合贝叶斯准则设计了一种目标/背景区分算子用于区分目标和干扰物,是一种生成式和判别式的混合跟踪模块。该模块引入了积分图策略,以实现基于检测跟踪模型的改进,得到可与CFT模块的跟踪结果相融合的改进模块。 而CFT模块基于KCF跟踪原理,采用了多种特征(HOG、CN、图像强度)进行跟踪任务,是一种判别式跟踪模型,本文基于检测跟踪模型对该模块进行了改进,并设计了一种去噪融合规则来融合由多种特征得到的响应函数。其次,本文基于KL 距离提出了一种可靠性度量规则来度量上述两个跟踪模块的输出结果的可靠性。 根据度量结果,本文还设计了一种决策级的自适应融合策略来融合上述跟踪

多模态医学图像的融合研究

第22卷 第2期2004年6月 广西师范大学学报(自然科学版)JOU RNAL O F GUAN GX INORM AL UN I V ERS ITY V o l .22 N o.2June 2004收稿日期:2004203218 基金项目:广西教育厅科研基金资助项目 作者简介:王修信(1963—),男,广西桂林人,广西师范大学副教授,硕士. 多模态医学图像的融合研究 王修信1,张大力2 (11广西师范大学物理与信息工程学院,广西桂林541004;21清华大学自动化系,北京100084) 摘 要:图像融合作为一种有效的信息融合的技术,已广泛用于医学图像、军事、遥感、机器视觉等领域.基于 小波变换的图像融合是一种新的多尺度分解像素级融合方法,利用小波变换分别对CT ,M R I 医学图像进行 分解处理,按照融合规则构造融合图像对应的各小波系数,再根据融合图像的各小波系数重构融合图像,重构 后的融合图像完好地显示源图像各自的信息.实验图像使用互信息量化判据来评价融合效果,结果表明小波 变换比传统的像素级加权平均融合算法效果更好. 关键词:医学图像;融合;小波变换 中图分类号:T P 391141 文献标识码:A 文章编号:100126600(2004)022******* 医学影像学为临床提供了超声图像、X 射线、 电子计算机体层扫描(CT )、磁共振成像(M R I )、数字减影成像(D SA )、正电子发射体层扫描(PET )、单光子发射断层成像(SPECT )等多种模态影像信息[1~3].不同的医学影像可以提供人体相关脏器和组织的不同信息,如CT 和M R I 提供解剖结构信息,而PET 和 SPECT 提供功能信息 .在实际临床应用中,单一模态图像往往不能提供医生所需要的足够信息,通常需要将不同模态图像融合在一起,得到更丰富的信息以便了解病变组织或器官的综合信息,从而做出准确的诊断或制订出合适的治疗方案.例如,CT 利用各种组织器官对X 射线吸收系数的不同和计算机断层技术对人体进行成像,它对于骨、软组织和血管的组合成像效果很好,而对软组织则近乎无能为力.M R I 利用水质子信息成像,对软组织和血管的显像灵敏度比CT 高得多,但对骨组织则几乎不显像.由此可见不同成像技术对人体同一解剖结构所得到的形态和功能信息是互为差异、互为补充的,因此对不同影像信息进行适当的集成便成为临床医生诊断和治疗疾病的迫切需要. 小波变换具有多分辨率分析特点,可聚焦到分析对象的任意细节,特别适合图像信号非平稳信源的处理[4].基于小波变换的图像融合是一种新的多尺度分解像素级融合方法,已有的应用研究主要是热图像和可视图像的融合[5,6].本文利用小波变换分别对CT ,M R I 医学图像进行分解处理,按照融合规则构造融合图像对应的各小波系数,再根据融合图像的各小波系数重构融合图像,重构后的融合图像完好地显示源图像各自的信息.实验图像使用互信息量化判据来评价融合效果,结果表明小波变换比传统的像素级加权平均融合算法效果更好. 1 基于小波变换的图像融合原理 小波变换是用一族小波函数系去逼近一信号,而小波函数系是通过一个基本小波函数在不同尺度下经伸缩和平移构成[7]. 7a ,b (x )=1?a ? 7x -b a , a ,b ∈R ,a ≠0其中a 为伸缩因子,b 为平移因子. 对于二维情况,设V 2j (j ∈Z )是空间L 2(R 2)的一个可分离多分辨率分析,对每一个j (j ∈Z )来说,尺度

多模态图像融合算法综述

多模态图像融合算法综述 多模态图像融合能最大限度地提取各模态的图像信息,同时减少冗余信息。文章提出一种新的图像融合算法的分类体系,在分析新体系的基础上,阐述了各体系下的代表性算法,论述图像融合的研究背景及研究进展,最后提出了未来趋势的新目标。 标签:图像融合;像素级;特征级;决策级;图像融合算法 引言 不同模态传感器关于同一场景所采集到的图像数据经过相关技术处理相融合的过程称为多模态图像融合,本文站在新的角度,提出一种新的分类体系,同时阐述各体系下的代表性算法,论述图像融合领域的发展现状。 1 图像融合的体系 根据融合的对象,图像融合一般分为三个等级:像素级、特征级及决策级[1]。像素级的处理对象是像素,最简单直接,特征级建立在抽取输入源图像特征的基础上,决策级是对图像信息更高要求的抽象处理,本文在此基础上提出一种不同的的分类体系,即直接融合和间接融合。 1.1 直接图像融合算法 直接图像融合算法分基于像素点和基于特征向量的融合方法,基于像素点的融合主要针对初始图像数据而进行[2],是对各图像像素点信息的综合处理[3]。 1.2 间接图像融合算法类 间接图像融合算法是指对图像进行变换、分解重构或经神经网络处理后,通过逻辑推理来分析多幅图像的信息。 2 直接图像融合算法类 直接图像融合算法分基于像素点和基于特征向量的图像融合算法。 2.1 基于像素点的直接图像融合算法 设待融合图像X、Y,且X(i,j)、Y(i,j)为图像X、图像Y在位置(i,j)的灰度值,则融合后的图像Z(i,j)=x X(i,j)+y Y(i,j),x、y是加权系数且x+y=1。算法简单、融合速度快,但减弱了图像的对比度[4]。 2.2 基于特征向量的直接图像融合算法

基于多模态融合的情感识别研究

基于多模态融合的情感识别研究 多模态情感识别在情感计算中是一个具有挑战性的课题,因为从多模态数据中提取出具有判别性的特征来识别人类情感中的细微差 距仍有很高的难度。当前的研究中,基于现有的三种多模态融合的策略:特征层融合、决策层融合和模型层融合提出的算法都是偏向浅层的特征融合方案,容易造成联合特征表达的判别性不足。而设计精巧的融合模型或大型神经网络由于复杂的设计和庞大的参数,又使得特征提取的耗时过长。为了解决多模态联合特征判别性不足和特征提取耗时之间的矛盾,本文提出了一种深度模态融合的网络模型来完成多模态数据融合的情感识别任务。该模型首先利用滑动窗口将音视频信号切割成数据片段,获得最小边框标记的人脸关键帧图像和语音信号的三维梅尔倒频谱,对两路输入信号分别使用带残差的深度方向可分离的卷积核进行特征提取和特征融合,最后在联合特征上训练分类器,实现包括喜悦、悲伤、惊喜、厌恶、愤怒、恐惧和正常在内的七种不同情感的分类任务。本文在RML、eNTERFACE05和BAUM-ls音视频情感识别公开数据集上进行了训练和测试,实验结果取得了较好的分类效果。为了能够拓宽情感识别技术在各个领域中的应用,本文设计并实现了一个多模态情感识别分析系统,系统包含了数据采集输入、数据预处理、情感识别算法、数据分析计算、前端可视化和系统管理等六个模块。该系统可以根据数据模态的不同,选择不同的识别算法, 实现对离线图片、音频、视频文件等多种模态数据的情感识别,支持对视频数据进行视频情感成分分析和实时视频情感识别两类任务。本

文对该系统进行了详细的设计和实现,测试了系统各项功能,并将系 统应用于社交媒体中的视频观点分析和医疗康复中的视频识别辅助。

基于多模态融合的情感计算研究

基于多模态融合的情感计算研究 移动终端和智能设备目前与人类生活、学习和工作息息相关,基于智能设备的情感计算技术已成为国内外学者的研究热点。随着人口老龄化趋势加剧,老年人的家庭护理需求日益增多,通过对老年人的情感状态、行为姿态进行研究可以更好的理解和关注老年人的身心健康。利用情感计算可以建立和谐的人机环境,但是目前情感计算仍存在一些急需解决的问题,在行为姿态识别中,虽然选择手机传感器的底层统计特征对人体行为进行识别可取得较好效果,但是这些底层特征忽略了行为的高层语义表达,对训练集中有限样本行为的识别率较差。而在情感识别中,人的情感在表达时由生理、心理、表情和音调等多个模态信息共同组成,使用单模态进行情感识别时,由于情感表示信息不足容易导致一些情绪的识别率较差等问题。针对以上两种分类识别所面临的问题提出两种识别方法,主要工作包括如下两方 面:(1)针对现有日常行为识别中跌倒样本采集困难,跌倒行为样本规模较少导致识别率较差的问题,提出一种基于低层特征与高层语义的人体行为识别方法。该方法引入语义属性特征以便在某些行为样本较少的情况下能够共享行为之间的低层特征信息,通过构建属性-行为矩阵,利用低层特征信息训练语义属性检测器,得到语义属性特征,对属性特征与低层特征分别进行预分类,融合两种特征的预分类结果得到最终判决的人体行为类别。实验结果表明,与过采样算法、欠采样算法和最小二乘支持向量机相比,本文所提方法获得了更好的分类结果。(2)一般多模态特征融合方法仅通过简单的拼接来组合特征,或将

所有模态信息直接利用深度模型进行融合,这样会导致特征冗余和关键特征不足等问题,本文提出多模态深度信念网络对各模态特征分别进行融合,以解决所有模态直接融合后进行特征选择带来的实验成本过高的问题,并提高各情绪识别性能。通过多模深度信念网络优选生理信号和视频信号的初始特征,再利用双模深度信念网络将各模态统一结构化的特征进行融合,得到多模态高层表示特征,利用支持向量 机对该特征进行分类识别。在The BioVid Emo DB数据集上对高兴、难过、生气、恐惧和厌恶这五种情绪的平均识别率是80.89%,实验表明该方法在降低融合成本的同时,对多模态情绪识别性能也有较好的改善。

多模态数据挖掘的应用

多模态数据挖掘的应用 焦隽? (南京大学计算机科学与技术系, 南京 210093) The application of multimodal data mining:A survey Jun Jiao* (Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China) Abstract: Nowadays, m ultimodal data available to us through the Internet and other electronic media are explosively increasing both in number and in variety. Efficiently analyzing these data will save people a large amout of time. However, due to the property of multimodal data, methods used to uni-modal data usually perform ineffectively here. To handle such massive multimodal data for various purposes, new technologies are in need of development.Data Mining helps people find a potentially useful knowledge from Massive Data, and play an important role in many fields. Data mining could only handle simple text data in the past. After several decades of development, data mining can deal with the multimedia data with complex structure now. Multimedia data is a sort of multimodal data. Some fusion and cross-media data mining algorithms can be used to mine multimodal data effectively. Based on the data mining approach to the task of analyzing multimodal data, this paper briefly introduces several methods fitting for multimodal data mining. Key words: multimodal; data mining 摘 要: 目前人们通过网络和其他电子媒体获得的多模态数据在数量和类别上都在飞速的增长。如果能对这些数据进行高效的分析,将为人们节省大量的时间。但是由于多模态数据本身的独特性质,许多传统应用于单模态数据的分析技术将无法有效的对其进行挖掘。因此人们需要新的技术来处理各种场景中大量的多模态数据。数据挖掘作为一种帮助人们从海量数据中发现潜在有用的知识的工具,在很多领域发挥了重要的作用。经过几十年的发展,数据挖掘已经从原来只能处理简单的文本数据,发展到为可以处理结构复杂的多媒体数据。多媒体数据是一种特殊的多模态数据,多媒体数据挖掘中的许多方法都利用到了目前挖掘多模态数据的核心思想。本文从数据挖掘的角度来分析多模态数据,对目前适用的几种多模态数据挖掘技术进行了简要介绍。 关键词: 多模态;数据挖掘 中图法分类号: TP301文献标识码: A 1 引言 近几十年来,计算机运算存储能力不断提高,数据产生和采集的速度也越来越快,因而数据量越来越大;而与此同时,人们面对巨量数据,能够直接获得的信息量却越来越有限。单纯的人力已经很难胜任对这样巨 ?作者简介:焦隽(1986——),男,湖南长沙人,硕士研究生,主要研究领域为数据挖掘,机器学习;

视频多模态融合

帧(Farme):帧是视频数据流中的基本组成单元,每一帧均可看成一个独 立的图像。视频数据流就是由这些连续的图像帧构成的,在PAL视频格式中,视频采样率 为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。 镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步 结构化的基础结构层。 关键帧(KeyFarme):关键帧是可以用来代表镜头内容的图像。在切分出 镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。 在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。 场景(Secne):语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。 组(Gmup :组是介于视频镜头和语义场景之间的结构。例如:一段采访 录像,镜头在主持人与被采访者之间频繁切换,整个采访过程属于一个场景,而那些关于主 持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。 视频镜头边缘检测 视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头内容转移到另外一个镜头内容。 视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法,即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类。 鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参

1.项目名称多模态脑信息融合算法及穿戴式设备的研发与应用

1.项目名称:多模态脑信息融合算法及穿戴式设备的研发与应用 2.候选单位(含排序): 1)北京薏然阳光电子技术有限公司 2)北京即刻叁全视觉科技有限公司 3)北京翼石科技有限公司 4)中央民族大学 3.候选人(含排序): 闫天翼;陈端端;陈嵘;赵仑;程勇;邓晓涛;董小楠;刘田田;王永昊。 4.项目简介(与申报推荐书中“项目简介”一致): 一、项目研究的目的及意义 近年来,脑机制研究发展迅猛,高水平论文层出不穷,但仍缺乏能够真正提升神经系统疾病诊疗效果的研究成果;而在技术层级,脑机融合算法不断创新,但通过技术转化,具有实际应用意义的产品仍然不多。此领域,亟需对脑信息处理机制的应用建模,开发可服务于神经系统功能监测、诊疗的脑机信息融合技术。随着机器学习算法的发展,结合脑电和核磁数据构建模型成为一种可能。并且有望通过迁移学习在多模态数据模型基础上,训练出仅基于脑电数据的、可有效解读大脑信息的模型。 二、主要技术创新 本项目从大脑信息处理的最基本物理量"空间位置映射"入手,基于新型空间映射技术和体素级分析,重建了反应大脑空间映射机制的精细脑图谱,构建了输入(刺激)- 输出(脑区)的位置对应模型,将“输入—脑—输出”模型思想应用到涉及脑电和核磁数据的量化特征计算。基于模型,结合核融合稀疏学习,对时间、空间数据进行了

特征级拟合、模型级融合,实现了脑电数据的输入(刺激)- 输出(特征信号)稳定特征提取算法,为脑机制研究的相关应用提供了可能性。进一步,结合基础研究所提出的空间映射模型和技术研究所建立的特征提取算法,研发了具有自主知识产权的穿戴式脑机信息融合设备和神经反馈设备。应用于医疗、教育、国防安全等领域,取得了重要的社会意义和一定的经济效益。 三、成果产生的价值 基于以上核心技术,项目开发了可用于个体化治疗的自适应神经反馈设备。依托该技术,申请人参加吉林省青年创新创业大赛,获得金奖。相关技术突破和设备研发,获得授权/公开国家发明专利33项,授权实用新型和软件著作权6项。其中,技术转化获CFDA认证(中华人民共和国医疗器械注册证:二类医疗器械资质认证)1项;研发的具有自主知识产权的智能穿戴式脑机融合设备,被国家公安部选为"列装设备"备选项目一项;研发的具有自主知识产权的神经反馈设备通过了国际CE、RoHS认证,并拥有教育部科技查新报告,转化于多家医院和公司,应用于医疗、教育、安防等领域,产生直接经济效益600万,间接经济效益超过5000万元。相关产品受邀参展第二届国际城市科学节,并被央视详细报道。 5.相关证明材料: 5.1知识产权目录(已授权的知识产权证明)

【CN109670277A】一种基于多模态数据融合与多模型集成的旅行时间预测方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910123626.4 (22)申请日 2019.02.19 (71)申请人 南京邮电大学 地址 210023 江苏省南京市亚东新城区文 苑路9号 (72)发明人 邹志强 杨浩宇 吴家皋 蔡韬  王兴源  (74)专利代理机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 张耀文 (51)Int.Cl. G06F 17/50(2006.01) G06Q 10/04(2012.01) (54)发明名称 一种基于多模态数据融合与多模型集成的 旅行时间预测方法 (57)摘要 本发明公开了一种基于多模态数据融合与 多模型集成的旅行时间预测方法,包括:多模态 数据预处理模块:从出租车GPS轨迹数据中根据 载客状态提取出租车行程数据;多模态数据分 析、特征提取与特征融合模块:从出租车轨迹数 据、天气数据、司机画像数据等领域分别提取相 应的特征子向量,并完成特征拼接;多模型集成 模块:分别建立梯度提升决策树模型和深度神经 网络模型,并使用决策树模型对以上模型的预测 结果进行集成。本发明的旅行时间预测方法融合 了出租车轨迹数据、天气数据、司机画像数据等 多模态数据,充分提取与挖掘对旅行时间有影响 的因素,建立了基于决策树的集成模型,使得本 发明以较小的计算代价获得了较高的行程旅行 时间预测准确率。权利要求书3页 说明书8页 附图3页CN 109670277 A 2019.04.23 C N 109670277 A

权 利 要 求 书1/3页CN 109670277 A 1.一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,包括以下步骤: a.多模态数据预处理 采用行程提取算法对出租车轨迹数据进行预处理,提取出租车行程数据; b.多模态数据分析、特征提取与特征融合 通过分析包括出租车行程数据、天气数据、司机画像数据的多模态数据,分别提取相应的特征子向量,将输入特征的离散特征使用独热编码,与其他连续型特征拼接构成特征子向量,完成特征拼接; c.多模型集成 所述模型建立过程包括子模型建立和模型集成两部分:将描述行程的特征进行特定的处理,分别输入到梯度提升决策树模型和深度神经网络模型这两个子模型中,然后基于子模型的预测结果建立基于决策树的集成模型,最终使用该模型预测得到行程的旅行时间。 2.根据权利要求1所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述行程提取算法具体包括: 输入:一辆出租车轨迹序列T={P1,P2,P3,...,P n} 输出:行程数据集 a1.对轨迹序列进行遍历,设置循环变量i从1到n-1,n表示轨迹点的总数,初始时i=1,行程状态位为0; a2.当P i的载客状态为1,跳转至a3,否则跳转至a4; a3.当行程状态位为1时,跳转至a6,否则将P i记录为行程的起始点,行程状态位置1,跳转至a6; a4.当行程状态位为1时,跳转至a5,否则跳转至a6; a5.当P i+1载客状态位为1时当前行程记录完毕,将该行程计入行程数据集中,行程状态位置0,否则跳转到a6; a6.执行i=i+1; a7.当i

多模态深度学习:用深度学习的方式融合各种信息

使用深度学习融合各种来源的信息。 多模态数据 我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问 题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围 的世界方面取得进展,它需要能够同时解释这些多模态的信号。例如,图像通 常与标签和文本解释相关联,文本包含图像,以更清楚地表达文章的中心思想。不同的模态具有非常不同的统计特性。 多模态深度学习 虽然结合不同的模态或信息类型来提高效果从直观上看是一项很有吸引力 的任务,但在实践中,如何结合不同的噪声水平和模态之间的冲突是一个挑战。此外,模型对预测结果有不同的定量影响。在实践中最常见的方法是将不同输 入的高级嵌入连接起来,然后应用softmax。 多模态深度学习的例子,其中使用不同类型的神经网络提取特征 这种方法的问题是,它将给予所有子网络/模式同等的重要性,这在现实情况中是非常不可能的。

所有的模态对预测都有相同的贡献 对网络进行加权组合 我们采用子网络的加权组合,以便每个输入模态可以对输出预测有一个学习贡献(Theta)。我们的优化问题变成- 对每个子网络给出Theta权值后的损失函数。 将权值附加到子网后预测输出。 把所有的都用起来! 准确性和可解释性我们在两个现实多模态数据集上得到了SOTA Multimodal Corpus of Sentiment Intensity(MOSI) 数据集——有417个标注过的视频,每毫秒标注的音频特征。共有2199个标注数据点,其中情绪强度定义为从strongly negative到strongly positive,线性尺度从- 3到+3。模态包括:

多模态海洋环境数据融合采集系统及方法与制作流程

本技术涉及一种多模态海洋环境数据融合采集系统及方法,所述系统包括多个海洋环境数据采集站、无人船和数据统计服务器,所述多个海洋环境采集站分布于各个海洋数据采集点,所述数据统计服务器存储有各个海洋数据采集点的采集位置和所对应的海洋环境采集站的ID 号;所述海洋环境采集站包括摄像头、语音输入设备、文本输入设备、显示屏、采集站控制器和第一数据存储设备,所述摄像头设置于一旋转支架上,所述旋转支架按照预设的旋转速度带动摄像头持续旋转,摄像头采集视频数据,语音输入设备用于采集用户的语音数据,文本输入设备用于采集用户的文本数据。本技术提供了多种模态的数据采集形式,提高数据采集效率,使得采集的数据类型更为丰富。 权利要求书 1.一种多模态海洋环境数据融合采集系统,其特征在于,所述系统包括多个海洋环境数据采集站、无人船和数据统计服务器,所述多个海洋环境采集站分布于各个预设的海洋数据采集点,所述数据统计服务器存储有各个海洋数据采集点的采集位置和所对应的海洋环境采集站的ID号; 所述海洋环境采集站包括摄像头、语音输入设备、文本输入设备、显示屏、采集站控制器和第一数据存储设备,所述摄像头设置于一旋转支架上,所述旋转支架按照预设的旋转速度带动所述摄像头持续旋转,所述摄像头采集视频数据,所述语音输入设备用于采集用户的语音

数据,所述文本输入设备用于采集用户的文本数据; 所述采集站控制器获取到所述语音数据后,将所述语音数据进行文本识别,得到语音转文本数据,从所述语音转文本数据中识别是否存在预设的监测数据类型关键词,如果是,则获取所述语音转文本数据中与监测数据类型关键词所对应的数据,将该数据与所对应的监测数据类型以及监测时间存储于所述第一数据存储设备作为环境数据; 所述采集站控制器获取到所述文本数据后,从所述文本数据中识别是否存在预设的监测数据类型关键词,如果是,则获取所述文本数据中与监测数据类型关键词所对应的数据,将该数据与所对应的监测数据类型以及监测时间存储于所述第一数据存储设备作为环境数据; 所述采集站控制器获取到所述视频数据后,判断所述视频数据中是否存在语音数据,如果存在语音数据,则将所述语音数据进行文本识别,得到语音转文本数据,从所述语音转文本数据中识别是否存在预设的监测数据类型关键词,如果是,则获取所述语音转文本数据中与监测数据类型关键词所对应的数据,将该数据与所对应的监测数据类型以及监测时间存储于所述第一数据存储设备作为环境数据; 所述采集站控制器获取到所述视频数据后,还将所述视频数据分为多帧图像,将各帧图像输入训练好的环境参数检测模型,所述环境参数检测模块的输入为待识别的图像,输出为多个环境参数的参数值,将所述多个环境参数的参数值存储于所述第一数据存储设备作为环境数据; 所述无人船包括第二数据存储设备,所述无人船按照预设的路径依次行进至各个所述海洋环境数据采集站,从所述海洋环境数据采集站的第一数据存储设备获取环境数据; 所述无人船于每个采集周期获取到所有海洋环境数据采集站的环境数据后,行进至所述数据统计服务器处,将该采集周期采集到的环境数据发送至所述数据统计服务器。 2.根据权利要求1所述的多模态海洋环境数据融合采集系统,其特征在于,所述海洋环境数据采集站还包括定位设备,所述采集站控制器每隔预设间隔时间从所述定位设备获取定位数据,将所述定位数据存储于所述第一数据存储设备;

相关文档
最新文档