视频采集方法与相关技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图片简介:
本技术提供了一种视频采集方法。

获取用户的检索词，确定所述检索词的同义词集合；根据所述同义词集合构建检索视频的约束模型，根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合；根据所述同义词集合在所述视频集合中对应内容出现的特征，通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合。

本技术介绍了一种视频的采集方法，主要用于用户采集大量同类视频；通过对视频的同义词进行提取能够最大限度的获取与检索词相关的视频。

技术要求
1.一种视频采集方法，其特征在于，包括：
获取用户的检索词，确定所述检索词的同义词集合；
根据所述同义词集合构建检索视频的约束模型，通过所述约束模型检索并获取与所述同义词集合对应的检索视频集合；
获取所述同义词集合在所述检索视频集合中对应内容的特征，通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合。

2.如权利要求1所述的一种视频采集方法，其特征在于，所述获取用户的检索词，确定所述检索词的同义词集合，包括：
获取检索词；
根据词典获取所述检索词的第一同义词集合A＝{a1,a2……ax}；
根据网页标签获取所述检索词的第二同义词集合B＝{b1,b2……by}；
根据文本关系获取所述检索词的第三同义词集合C＝{c1,c2……cz}；
对所述第一同义词集合A、第二同义词集合B和第三同义词集合C进行相同项分析，得到相同项集合S(A,B,C):
其中，所述ax表示所述第一同义词集合A中的第x项；所述by表示所述第二同义词集合B中的第y项；所述cz表示所述第一同义词集合C中的第z项；所述x＝1,2,3……x；所述y＝1,2,3……y；所述z＝1,2,3,……z；
根据所述相同项集合S(A,B,C)，确定所述同义词集合。

3.如权利要求1所述的一种视频采集方法，其特征在于，所述根据所述同义词集合构建视频的约束模型，包括：
步骤1：确定所述同义词集合与所述检索词的距离D：
D＝(G-si)P-1(G-si)；
其中，所述G表示所述检索词；所述P-1为所述同义词集合的协方差矩阵，所述si表示所述同义词集合的第i个同义词；
步骤2：构建所述同义词集合的线性回归方程；
其中，所述ξ为所述同义词集合内积；所述表示所述同义词集合的均值；
步骤3：根据所述距离D合线性回归方程确定所述视频的约束模型F：
其中，所述kj表示检索视频集合的第j个视频；所述表示检索视频集合的均值；所述β表示所述检索视频集合的误差系数。

4.如权利要求1所述的一种视频采集方法，其特征在于，所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，包括：
根据所述同义词集合在任意视频检索网站获取第一检索视频集合；
确定所述第一检索视频集合的均值；
根据所述均值，将所述检索视频集合中检索的视频的参数导入所述约束模型，得到约束值；
获取所述约束值中的正值和与所述正值对应的视频，确定所述检索视频合集。

5.如权利要求1所述的一种视频采集方法，其特征在于，所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
根据所述同义词集合在任意视频检索网站进行检索视频；
获取所述检索视频的链接地址；
根据所述链接地址，确定所述链接地址对应的视频网页；
当所述链接地址没有对应的视频网页时，删除所述链接地址；
对所述视频网页中的视频进行触发，响应对所述视频网页触发行为，当所述视频网页的触发行为具有响应时，获取所述视频网页的视频，构成所述检索视频集合；
当所述视频网页的触发行为没有有响应时，判断所述视频网页为无效网页。

6.如权利要求5所述的一种视频采集方法，其特征在于，所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取所述检索视频的网络传输协议；
根据所述网络传输协议判断所述检索视频的获取方式；
根据所述检索视频的获取方式，获取对应的视频加载工具；
根据所述加载工具，获取所述检索视频集合。

7.如权利要求6所述的一种视频采集方法，其特征在于，所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取检索视频对应的视频网页；
判断所述视频网页异常弹窗的次数；
根据所述异常弹窗的次数，判断所述视频网页是否为异常网页；
当所述视频网页为异常网页时，删除所述视频网页；
当所述视频网页为正常网页时，获取所述视频网页的视频，构成检索视频集合。

8.如权利要求1所述的一种视频采集方法，其特征在于，所述根据所述同义词集合在所述检索视频集合中对应内容的特征，通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合，包括：
在所述检索视频集合确定后，获取所述同义词集合中每个同义词的语意；
根据所述同义词集合中每个同义词的语意，判断与同义词对应的视频的特征；
根据所述同义词对应视频的特征与预设的特征参数对比，确定最终的目标视频集合。

9.如权利要求1所述的一种视频采集方法，其特征在于，所述预设特征参数通过以下步骤确定：
步骤S1：获取检索视频集合E＝{e1,e2……eg}；所述g表示第g个视频；所述g＝1,2,3……g；
步骤S2：根据所述检索视频集合E，确定所述检索视频集合的特征矩阵R:
其中，所述rgl表示第g个视频的第l个特征；
步骤S3：根据所述检索视频集合的特征矩阵R，计算所述检索视频集合的差值系数η：
其中，所述em为模板视频的特征参数，所述N为检索视频集合的个数；
步骤S4：根据所述差值系数η和模板视频确定所述目标视频的阀值ε＝emη：
当所述检索视频集合中的视频的特征参数大于等于所述目标视频的阀值时，确定所所述检索视频集合中的视频为目标视频；
当所述检索视频集合中的视频eg的特征参数小于所述目标视频的阀值时，删除所述检索视频集合中的视频eg。

10.如权利要求9所述的一种视频采集方法，其特征在于，所述步骤S2中，确定所述检索视频集合的特征矩阵，包括以下步骤：
步骤S10:根据所检索视频集合中视频对应的同义词，获取同义词语义；
步骤S11：根据所述同义词语义，在所述检索视频集合的视频中进行语义标记；
步骤S12:根据所述语义标记，提取所述语义标记的帧图像，并获取所述帧图像的特征；
步骤S13：根据所述帧图像的特征，构建所述检索视频集合的特征矩阵。

技术说明书
一种视频采集方法
技术领域
本技术涉及视频检索技术领域，特别涉及一种视频采集方法。

背景技术
目前，短视频行业兴盛，因为短视频的制作需要大量素材。

然而，各个公司还是通过普通的视频下载和花费资金购买来完成视频数据的检索和收集，这使得成本大量增加。

而且在视频的获取上效率极低很难获取到自己的意向视频。

技术内容
本技术提供一种视频采集方法。

用以解决视频采集困难的的情况。

一种视频采集方法，其特征在于，包括：
获取用户的检索词，确定所述检索词的同义词集合；
根据所述同义词集合构建视频的约束模型，根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合；
获取所述同义词集合中同义词在所述检索视频集合中对应内容的特征，并通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合。

作为本技术的一种实施例：所述获取用户的检索词，确定所述检索词的同义词集合，包括：
获取检索词；
根据词典获取所述检索词的第一同义词集合A＝{a1,a2……ax}；
根据网页标签获取所述检索词的第二同义词集合B＝{b1,b2……by}；
根据文本关系获取所述检索词的第三同义词集合C＝{c1,c2……cz}；
对所述第一同义词集合A、第二同义词集合B和第三同义词集合C进行相同项分析，得到相同项集合S(A,B,C):
其中，所述ax表示所述第一同义词集合A中的第x项；所述by表示所述第二同义词集合B中的第y项；所述cz表示所述第一同义词集合C中的第z项；所述x＝1,2,3……x；所述y＝1,2,3……y；所述z＝1,2,3,……z；
根据所述相同项集合S(A,B,C)，确定所述同义词集合。

作为本技术的一种实施例：所述根据所述同义词集合构建视频的约束模型，包括：
步骤1：通过所述同义词集合与所述检索词的距离D：
D＝(G-si)P-1(G-si)；
其中，所述G表示所述检索词；所述P-1为所述同义词集合的协方差矩阵，所述si表示所述同义词集合的第i个同义词；
步骤2：构建所述同义词集合的线性回归方程；
其中，所述ξ为所述同义词集合内积；所述表示所述同义词集合的均值；
步骤3：根据所述距离D合线性回归方程确定所述视频的约束模型F：
其中，所述kj表示检索视频集合的第j个视频；所述表示检索视频集合的均值；所述β表示所述检索视频集合的误差系数。

作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，包括：
根据所述同义词集合在任意视频检索网站获取第一检索视频集合；
确定所述第一检索视频集合的均值；
根据所述均值，将所述检索视频集合中检索的视频的参数导入所述约束模型，得到约束值；
获取所述约束值中的正值和与所述正值对应的视频，确定所述检索视频合集。

作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
根据所述同义词集合在任意视频检索网站检索视频；
获取所述检索视频的链接地址；
根据所述链接地址，确定所述链接地址对应的视频网页；
当所述链接地址没有对应的视频网页时，删除所述链接地址；
对所述视频网页中的视频进行触发，响应对所述视频网页触发行为，当所述视频网页的触发行为具有响应时，获取所述视频网页的视频，构成所述检索视频集合；
当所述视频网页的触发行为没有有响应时，判断所述视频网页为无效网页。

作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取所述检索视频的网络传输协议；
根据所述网络传输协议判断所述检索视频的获取方式；
根据所述检索视频的获取方式，获取对应的视频加载工具；
根据所述加载工具，获取所述检索视频集合。

作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取检索视频对应的视频网页；
判断所述视频网页异常弹窗的次数；
根据所述异常弹窗的次数，判断所述视频网页是否异常网页；
当所述视频网页为异常网页时，删除所述视频网页；
当所述视频网页为正常网页时，获取所述视频网页的视频，构成检索视频集合。

作为本技术的一种实施例：所述获取所述同义词集合的同义词在所述视频集合中对应内容出现的特征，通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合，包括：
在所述检索视频集合确定后，获取所述同义词集合中每个同义词的语意；
根据所述同义词集合中每个同义词的语意，判断与同义词对应的视频的特征；
根据所述同义词集合对应视频的特征与模板视频参数对比，确定最终的目标视频集合。

作为本技术的一种实施例：所述预设特征参数通过以下步骤确定：
步骤S1：获取检索视频集合E＝{e1,e2……eg}；所述g表示第g个视频；所述g＝1,2,3……g；
步骤S2：根据所述检索视频集合E，确定所述检索视频集合的特征矩阵R:
其中，所述rgl表示第g个视频的第l个特征；
步骤S3：根据所述检索视频集合的特征矩阵R，计算所述检索视频集合的差值系数η：
其中，所述em为模板视频的特征参数，所述N为检索视频集合的个数；
步骤S4：根据所述差值系数η和模板视频确定所述目标视频的阀值ε＝emη：
当所述检索视频集合中的视频的特征参数大于等于所述目标视频的阀值时，确定所述检索所述检索视频集合中的视频为目标视频；
当所述检索视频集合中的视频eg的特征参数小于所述目标视频的阀值时，删除所述检索视频集合中的视频eg。

作为本技术的一种实施例：所述步骤S2中，确定所述检索视频集合的特征矩阵，包括以下步骤：
步骤S10:根据所检索视频集合中视频对应的同义词，获取同义词语义；
步骤S11：根据所述同义词语义，在所述检索视频集合的视频中进行语义标记；
步骤S12:根据所述语义标记，提取所述语义标记的帧图像，并获取所述帧图像的特征；
步骤S13：根据所述帧图像的特征，构建所述检索视频集合的特征矩阵。

本技术的有益效果在于：本技术介绍了一种视频的采集方法，主要用于用户采集大量同类视频；通过对视频的同义词集合进行提取能够最大限度的获取与检索词相关的视频。

通过同义词构建约束模型，可以对视频进一步筛选，把只与检索词相关的视频进行提取出来。

在视频提取时，还可以通过网页异常判断、视频链接地址的有效性判断和获取方式进行判断，使得获取的视频集合中可以删除无效网页的视频和放置木马病毒。

而获取方式的判断可以让视频采集人员根据现有的视频下载工具或者加载工具把无法获取的视频删除掉。

最终得到的视频集合又通过检索词的语意出现的特征，删除检索词的语意出现特征出现不高的视频，得到精确的目标视频合集，从而在短视频制作、视频定向采集等领域能够进行精确的视频获取，防止短视频制作和视频采集需要耗费大量人力，物力和财力。

本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。

本技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本技术的技术方案做进一步的详细描述。

附图说明
附图用来提供对本技术的进一步理解，并且构成说明书的一部分，与本技术的实施例一起用于解释本技术，并不构成对本技术的限制。

在附图中：
图1为本技术实施例中一种视频采集方法的方法流程图；
具体实施方式
以下结合附图对本技术的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本技术，并不用于限定本技术。

实施例1：
如附图1所示，本技术包括一种视频采集方法，包括：
步骤100：获取用户的检索词，确定所述检索词的同义词集合；本技术实施例中，当用户有检索请求时，比如用户想要搜索A类电影，用户可以通过携带有A类电影的检索词，发送视频检索请求，其中，所述视频检索请求为用于唯一标识某类视频的身份信息，比如A类电影的电影名称、电影特征等。

步骤101：根据所述同义词集合构建检索视频的约束模型，根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合；本技术通过同义词构建的约束模型是一种筛选模型，通过以检索词和同义词的线性回归函数为约束的基准，能从内容上对需求视频精确筛选，而筛选过后还需要对视频的下载网页进行异常判断、有效值判断和获取方式进行判断。

步骤102：获取所述同义词集合在所述视频集合中对应内容出现的特征，通过预设的特征参数对所述检索视频集合中的视频进行筛检，得到目标视频集合。

通过特征筛选是对目标视频的二次筛选，因为检索的是视频集合，不可避免的会因为一些视频中会穿插和检索词相关内容，而不是全视频都是相关内容，因此这些视频也需要删除，而通过检索词的意义出现的特征对视频进行筛选，就能够有效的解决检索的视频中检索词密集度太低的问题。

通过同义词集合构建约束模型，可以对视频进一步筛选，把只与检索词相关的视频进行提取出来。

而获取方式的判断可以让视频采集人员根据现有的视频下载工具或者加载工具把无法获取的视频删除掉。

实施例2：
作为本技术的一种实施例：所述获取用户的检索词，确定所述检索词的同义词集合，包括：
获取检索词；
根据词典获取所述检索词的第一同义词集合A＝{a1,a2……ax}；
根据网页标签获取所述检索词的第二同义词集合B＝{b1,b2……by}；
根据文本关系获取所述检索词的第三同义词集合C＝{c1,c2……cz}；
对所述第一同义词集合A、第二同义词集合B和第三同义词集合C进行相同项分析，得到相同项集合S(A,B,C):
其中，所述ax表示所述第一同义词集合A中的第x项；所述by表示所述第二同义词集合B中的第y项；所述cz表示所述第一同义词集合C中的第z项；所述x＝1,2,3……x；所述y＝1,2,3……y；所述z＝1,2,3,……z；
根据所述相同项集合S(A,B,C)，确定所述同义词集合。

本技术的原理在于：本技术在同一次获取的步骤，以词典、网页和文本关系，词典包含新华字典、基于知识图谱的词典、中文词典和中文和外文互译词典等。

网页包括各种网页百科，如百度百科、搜狗百科等等。

而文本关系表示在一些文本中其表述的意思和检索词相同，可以相互替换。

而囊括了所有同义词后，对同义词通过简单的同类筛选，筛选出重复的同义词，进而得到相同项的同义词集合。

本技术的有益效果在于：本技术获取同义词的范围宽泛，能最大限度的获取同义词，但是初步获取的同义词总会有偏差，进而通过重复性的筛选得到了重复的同义词，使得同义词在含义上不会存在偏差，进而能够提高视频集合中视频与检索词的相关度。

实施例3：
作为本技术的一种实施例：所述根据所述同义词集合构建检索视频的约束模型，包括：
步骤1：通过所述同义词集合与所述检索词的距离D：
D＝(G-si)P-1(G-si)；
其中，所述G表示所述检索词；所述P-1为所述同义词集合的协方差矩阵，所述si表示所述同义词集合的第i个同义词；
步骤2：构建所述同义词集合的线性回归方程；
其中，所述ξ为所述同义词集合内积；所述表示所述同义词集合的均值；
步骤3：根据所述距离D合线性回归方程确定所述视频的约束模型F：
其中，所述kj表示检索视频集合的第j个视频；所述表示检索视频集合的均值；所述β表示所述检索视频集合的误差系数。

本技术构建视频的约束模型是，通过同义词和检索词的马氏距离和同义词的线性回归参数来构建。

马氏距离使得获取的视频和检索词都具有相关性，而筛除没有相关性的视频。

通过线性回归函数可以使得获取的视频必定是根据检索词得到的视频。

而检索的视频和视频均值的差，决定了最终确定的视频必定是大于均值标准的参数，其减去误差系数和视频与视频均值的和的乘积必定大于1；误差参数是小于1。

且误差参数乘以马氏距离和视频与视频均值的和的乘积必定小于马氏距离乘以视频与视频均值的差的乘积。

进而最终通过约束函数得到的值也是正值，而能够通过约束模型得到视频集合。

实施例4：
作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，包括：
根据所述同义词集合在任意视频检索网站获取第一检索视频集合；
确定所述第一检索视频集合的均值；
根据所述均值，将所述检索视频集合中检索的视频的参数导入所述约束模型，得到约束值；
获取所述约束值中的正值和与所述正值对应的视频，确定所述检索视频合集。

本技术的原理在于：视频集合确定后，通过均值得到视频集合约束值，进而通过约束值获取检索的视频。

本技术的有益效果在于：本技术通过约束模型得到的检索视频通过约束值得筛选，使得检索的视频都是与检索词相关得检索视频，也最大限度得保证了获取的视频的精确性。

实施例5：
作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
根据所述同义词集合在任意视频检索网站检索视频；
获取所述检索视频的链接地址；链接地址为检索的视频的网页地址。

根据所述链接地址，确定所述链接地址对应的视频网页；
当所述链接地址没有对应的视频网页时，删除所述链接地址；当视频链接地址没有对应的视频网页时，代表视频网页无效，进而可以筛除无效的检索链接。

对所述视频网页中的视频进行触发，响应对所述视频网页触发行为，当所述视频网页的触发行为具有响应时，获取所述视频网页的视频，构成所述检索视频集合；
当有响应时，代表视频链接地址有对应的视频，进而能够得到响应的视频网页对应的视频。

当所述视频网页的触发行为没有有响应时，判断所述视频网页无效网页。

链接地址无法打开时，代表没有网页，而视频链接有效时，还可能会存在虚假视频的网页，只有视频对应的网页而网页没有加载对应视频的功能。

本技术的有益效果在于：能够对视频进行筛选，将无效的链接地址进行删除，从而提高视频获取的效率。

再通过对应的视频响应，当响应时代表视频有效，没有响应时代表视频无效，进一步提高视频的获取效率。

实施例6：
作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取所述检索视频的网络传输协议；
根据所述网络传输协议判断所述检索视频的获取方式；
根据所述检索视频的获取方式，获取对应的视频加载工具；
根据所述加载工具，获取所述检索视频集合。

本技术的原理在于：视频的加载分为三个步骤：加载播放器、加载XML文件、最后加载视频文件；播放器能够播放的视频的格式时不同的视频的格式有MPEG、AVI、nAVI、ASF、MOV、3GP、MP4和RMVB等等，如果视频播放时没有相关格式的播放器，视频是无法播放的。

视频在下载时也需要对视频的下载方式进行确定，如视频文件是需要P2P技术识别文件内容的MagNet下载还是不需要P2P技术的根据文件位置下载，从而用户可以通过可以使用的加载工具判断视频能否下载使用。

本技术的有益效果在于：本技术通过对加载工具的判断，进而可以根据视频能否打开来判断视频能否使用。

当视频不能下载使用时，就删除相关视频的链接地址等信息。

防止了资源的浪费，使得加载连接和下载的视频，能下载但是无法使用。

实施例7：
作为本技术的一种实施例：所述根据所述约束模型检索并获取与所述同义词集合对应的检索视频集合，还包括：
获取检索视频对应的视频网页；。