手机移动设备多天跨信道数据采集方案v2.3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多天跨信道数据采集方案
项目介绍
收集2000人以上三天语音数据,共需要采集6000次(在特定场景下用特定设备录下采集者普通话+方言),每个人每天耗时12分钟左右。
录音场景要求
面积较小、较为安静的室内环境(除录音外无明显人声,无混响,无底噪,信噪比15dB以上,备注:实际场地需要考察确定)。
录音设备(一套)
1.录音设备详情:两部手机(微信)、一部手机(APP)、四部手机(两两互打电话+北瓜电话)、一台手提电脑加MIC录音设备(总共需要7部手机,1手提电脑,6张SIM卡,两个录音MIC(GY ));
录音人员
1.采集人员:1人控制所有的设备,另需1人现场协助(提前分发录音要求,控场)。
2.被采集人员:1套设备一天最多可采集32个人(正常8H工作时间)。
备注:一套采集设备需2人安排采集,先公司可提供两套设备,暂定4人,建议学校提供2
名人力协助采集。
录音要求
1.采集设备:7部手机,1手提电脑,6张SIM卡,两个录音MIC(讯飞+GY );
2.采集规则:
1)普通话自由发挥5min(可读知乎热榜或者通话故事,以朗读痕迹不明显为佳)。语料内容:我叫xxx,来自,编号xxx,年龄,加一段随意文本。
2)方言自由发挥5min(文本可与普通话念的不一样)。
语料内容:我叫xxx,来自,编号xxx,年龄,加一段随意文本.(标红部分用普通话读)。
3.采集次数:每人需录制三次,每次间隔3天以上(包含三天)。
4.数据格式:以上数据格式均为WAV格式。采样率:电话8KHz,其他16KHz
5.
数据命名:按跨信道数据命名字典来,详情见:
跨信道数据命名字
典.xlsx
6.文本内容:由采集负责人筛选,被采集人员照读文本。
采集流程
提前统计采集名单:
1.预先编写录制人员的名单,根据时间需求错开安排,确保没有出现设备空闲的情况。
2.录制第四天开始即可安排第一天被采集人员的录制。
3.采集中9天为一周期,一天一套设备最多可采集32个人(正常8H工作时间),一周
期可采32*3=96人。
采集过程:
1.设备准备:
1)下载GY APP的手机*1、微信互加的手机各一、已添加亲情短号的手机各一、下载北瓜电话的手机*1、接听北瓜电话的手机*1、GY 麦克风*2、装好GY 采集软件和讯飞采集软件的手提电脑*1。
2)数据线若干采集现场须有无线网络且信号正常。
3)采集设备使用,详情见:采集设备使用方法.pdf
2.采集布置:
1)两个麦克风连接电脑,电脑打开采集软件并进入准备采集的界面(第一次需填好采集人员信息,后面可重复使用);
2)手机打开GY APP,设置采样率48K,进入离线模式。
3)微信进入聊天界面,录音的手机打开按键精灵。
4)亲情短号手机拨打亲情号码,开启录音的手机需提前静音。
5)北瓜电话拨打另外一部准备好的手机,北瓜侧静音且录音;e.APP设置好受录人员编号。
3.采集准备:
1)采集人员需同时手持两部电话(亲情号码与北瓜拨打的号码),正常的接电话姿势(即听筒在耳边,话筒在嘴边)。
2)正前方100CM左右的距离摆放GY 麦克风(在一条直线上),需正对麦克风的录音位置。
3)微信的手机与APP的手机一左一右摆放在麦克风两旁,话筒正对受录人员。
4.采集开始:点击电脑两个采集软件上的录音按键(第二次以后为重录按键)、APP点击
录音、微信手机启动脚本精灵、电话点击录音按钮,北瓜点击录音按钮【以上步骤并无先后顺序,但建议微信手机放最后一步,以此控制录音时长。
5.采集结束:录音结束时,除微信外的设备需手动点击按键停止录音。