广东天气短信自动查错模型的建立

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

和一些计算机 函数算法 天气短信 自动查错模型的建立及应用很大程度减轻人工审核工作量.也能将短信
出错概 率 降至 最低 关 键词 : 天 气短信 : 错 漏分 型 : 文本检 查

造成视觉上 的疲劳 . 加上受环境 自2 0 0 1 年l 1 月广东 开展手 机气象短信 服务 以 工作人员的工作量 .
彩 祝 孜 术
广东天气短信 自动查错模 型的建立
罗曼宁 曹 梅
( 广 东省 气 象服 务 中心 , 广东 广州 5 1 0 0 8 0 )
摘要: 通 过 对2 0 1 3 年 广 东天 气短 信错 漏 情 况进行 统 计 和 分析 , 归纳 了错 别 字 、 漏 字 多字 、 内容 问题 、 数 据 错误、 属 地错 误 、 符号错 误 、 超 字共 8 种 错 漏类 型 基 于错 漏类 型特 点 , 设 计天 气短信 自动 查错 模型 , 用计 算机 实现与 现有 的 广 东气象短信 信 息管理 平 台整合起 来 ,模 型 中具体 采 用 了错 词 库文 本检 查 、 N — G r a m查错 方 法
因此 . 在 对常 见 通过各种方式大力开展气象短信业务 .不断扩充发 少 量关 于政 治 和推销类 的敏 感词 组 。
送资源 除了稳抓 日常天气短信 。 近几年气象短信 的错漏 短 信进 行分 型 的基 础上设 计 文 本查错 模 型并 服务在重大天气过程 、 防灾减灾 、 公共事件应急工作 到现有的平台中.实现计算机 自动识别天气短信错
中均发 挥着 积极 作用[ 5  ̄ 6 1 7 ] 作 为天 气 短信 的 主要制 作 团 队 .除 了要最 大程 度 地发 挥 采 编 提 醒 语 的 实用 性 、 趣 味性 [ 8 】 , 也 要从 减
漏 的功能 1 错漏 短信分 型
少短信错漏方面人手l 9 l 短信 出现错漏 的原因繁多 ,
朱平等人[ 1 o 1 [ 1 1 1 对气象短信采编 的常见错 漏进行
但 随着 近年 采 编流 程 的调整 . 采 编人 员 的更 剖析主要原因 : 虽然使用的“ 广东气象短信信息管理 了分 析 。 短信错漏类型也有所变化 。 为设计更适用于现状 平台” 为地市 提供 了录入 和确 认 两次 检查 的 机会 . 但 替 。
来, 经历 了艰难起 步 、 高速发展 到平稳发展3 个 阶段[ 1 1 2 ] 。 等客观因素和主观因素的影响.可能导致无法第一 虽 然近 两 年 的发展 相对 平缓 .客 观原 因是 一方 面 受 时间 审查 出错误
电信运营商的运营策略调整 .偏向发展具有信息承
为解 决 以上 问题 . 一方 面要 加 强采 编 、 审 核人 员
1 . 3 日期 时 间 错 误
炼” 等 。这些对编写和审查人员的语文水平有较高要求 。
采用最新数据 , g  ̄ ' 2 0 1 3 年广东错漏短信 人 手有 限 . 天气 短信 的录入 和确 认往 往 由一人 完 成 , 的查错模型 。
分别 为 错别 字 、 漏字 多字 、 内容 问题 、 数 据 任务 繁 重 . 错 误难 免 : 人 工 审核短 信 的方 法大 大增 加 进 行分 型 ,

6 4一
《 》 影 祝 技 术
错误 、 属地 错误 、 符 号错误 、 超字 错漏 类 型 。
1 . 1 漏字 多字
. . |
青 海 气 象 @
天气短信 的气象预报要 素是天气短信的核心 ,
主要包 括 天 空状 况 、 温度 、 湿度 、 风 向风 速 , 县 区天气
往 往 是 由 于 采 编 员 手 误 多 删 或 多 敲 了字 造 成 短信常出现缺少其 中一项或两项预报要素 。
另一方面可开发 自动查错 的程序 . 植入现有 载量大_ 3 j 、 图文并茂 、 发布迅速等优势的新媒体 。 虽然 的素质 .

部分市场用户选择了微信 、 微博 、 客户端等方式来 的短信信息管理平台 .这样不仅简化 了人工审核流
获取信息 . 但天气短信仍有庞大的消费群体 . 如年纪 程 . 尽 可能在 第 一 时间发 现错 漏 内容 . 减 少错 漏信 息 较大不熟悉新媒体 、 喜爱言简意赅的天气信息 、 懒得 给社 会 带来 的不 良效 应 .也 有利 于维 护 气象 部 门专
主动 搜寻 相关 资讯 等人 群 。 2 0 1 4 年3 月 的最 新数据 显 业 、 严谨 、 负责 的形象。
示, 广东省气象短信仍有约1 0 0 0 万的用户数。因此 ,
现 有 的短信 信息 管 理 系统 只有对 短 信 内容 进行
全省各地气象部门依 旧抓住发展气象短信 的时机 . 敏感 字 自动检 查 .敏感 字 库 中的材 料是 人工 输 人 的
“ 形 似致误 ” , 如 气象 台l 6 早晨发布” ,错误是在 E l 期l 6 后 面漏 了 意 造 成 的 。 主要 有 以 下 错 误 类 型 :
, 如“ 擅长” 和“ 善长” . 二者容易混淆成一个意思 ; 根据运营商 的规定 , 移动 、 联通和电信一条短信 误”
最多 允 许7 O 个字 . 因 此为 避免 超 字 , 要求 编 写员保 留 “ 音、 形 两 近致 误 ” , 如“ 烦躁” 和“ 烦燥” , “ 晨练” 和“ 晨 重要 天气 信 息 。 删去 次要 信息 。
的 。例 如 “ 今 天 白天 到 夜 间 , 晴天 到 多 云 , 早 晚有 轻 1 . 5 错 别 字 雾. 气温 1 0  ̄ . 1 ] 2 0 度, 微 风 。早 晚寒 冷 , 注 意添衣 保 暖 。 “ 日” 字。
1 . 2 超 字
大都 是 由于 使用 电脑输 入 . 不 注意检 查 . 粗 心大 “ 署” 和“ 暑” 、 “ 睛” 和“ 晴” : “ 音 近致 误 ” , 如“ 金 榜 提 名” 和“ 金榜题名 ” . “ 能间度” 和“ 能见 度 ” : “ 义 近致
相关文档
最新文档