ngram-count参数

合集下载

ngram-count参数
ngram-count是一个命令行工具，用于统计文本中的n-gram，并生成一个n-gram计数文件。

以下是ngram-count的参数列表和说明，其中参数-n和参数-text为必需参数，其他参数为可选参数。

参数-n:
要计算的n-gram的最大n值。

例如，如果参数-n为3，则将计算uni-gram、bi-gram 和tri-gram。

这是必需参数。

要计算n-gram的文本文件的路径。

这是必需参数。

参数-order:
参数-addsmooth:
应用指定的平滑算法，以避免零计数问题。

默认情况下，ngram-count不应用平滑算法。

支持的平滑算法有：laplace（拉普拉斯平滑）、witten-bell（Witten-Bell插值）和katz（Katz插值）。

指定n-gram计数文件的输出路径。

默认情况下，ngram-count将n-gram计数文件写入标准输出中。

指定未知词汇符号。

默认情况下，未知词汇符号为<unk>。

将文本中的词符映射到其他词符，以便在计算n-gram时将它们视为同一词符。

例如，要将文本中的所有数字映射到<DIGIT>词符，可以使用以下命令行选项：
-map-number "<DIGIT>"
使用指定的discount smoothing算法。

默认情况下，ngram-count使用Good-Turing 算法进行平滑。

裁剪小计数n-gram，以减少n-gram计数文件的大小。

使用此选项时，可以指定裁剪计数的最小值和最大值：
-prune-min 2 -prune-max 10
指定裁剪基数的数量，计数文件中的每个n-gram都生成一个裁剪基数：
-prune-count n
参数-cache:
设置n-gram计数缓存的最大大小（以MB为单位）。

默认情况下，n-gram计数缓存为1 GB。