ngram-count参数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ngram-count参数
ngram-count是一个命令行工具,用于统计文本中的n-gram,并生成一个n-gram计数文件。
以下是ngram-count的参数列表和说明,其中参数-n和参数-text为必需参数,其他参数为可选参数。
参数-n:
要计算的n-gram的最大n值。
例如,如果参数-n为3,则将计算uni-gram、bi-gram 和tri-gram。
这是必需参数。
要计算n-gram的文本文件的路径。
这是必需参数。
参数-order:
参数-addsmooth:
应用指定的平滑算法,以避免零计数问题。
默认情况下,ngram-count不应用平滑算法。
支持的平滑算法有:laplace(拉普拉斯平滑)、witten-bell(Witten-Bell插值)和katz(Katz插值)。
指定n-gram计数文件的输出路径。
默认情况下,ngram-count将n-gram计数文件写入标准输出中。
指定未知词汇符号。
默认情况下,未知词汇符号为<unk>。
将文本中的词符映射到其他词符,以便在计算n-gram时将它们视为同一词符。
例如,要将文本中的所有数字映射到<DIGIT>词符,可以使用以下命令行选项:
-map-number "<DIGIT>"
使用指定的discount smoothing算法。
默认情况下,ngram-count使用Good-Turing 算法进行平滑。
裁剪小计数n-gram,以减少n-gram计数文件的大小。
使用此选项时,可以指定裁剪计数的最小值和最大值:
-prune-min 2 -prune-max 10
指定裁剪基数的数量,计数文件中的每个n-gram都生成一个裁剪基数:
-prune-count n
参数-cache:
设置n-gram计数缓存的最大大小(以MB为单位)。
默认情况下,n-gram计数缓存为1 GB。