判断字符串是否是中文

合集下载

js判断输入是否中文,数字,身份证等等js函数

用正则表达式限制只能输入全角字符： onkeyup="value=value.replace(/[^\uFF00-\uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\uFF00-\uFFFF]/g,''))"
}else if(c=="-"&&str.length==1){
return false;
}
}else if(c < "0" || c > "9"){
return false;
}
}
return true;
}
/*
英文判断函数，返回true表示是全部英文，返回false表示不全部是英文
return false;
}
}
return true;
}
/*
身份证判断函数，是返回true，不是返回false
15位数字，18位数字或者最后一位为X（大写）
*/
function isSFZ(str){
if(""==str){
return false;
*/
function isXZ(str){
if(""==str){
return false;
}
var reg = /^[1-6](\.5)?$/;
var r = str.match(reg);

Oracle中如何用SQL检测字段是否包括中文字符

Oracle中如何用SQL检测字段是否包括中文字符
今天有一个同事的数据迁移程序有个问题，没有考虑中文编码字符，由于迁移的表有几千万数据，但是有中文的记录集很少，问我能否找出有中文内容的记录数。

首先我想到的是采用检测每个字节ASCII的方式，这样的话需要写一个自定义函数，然后SQL中调用得到结果。

但是感觉这个方法估计很耗时，毕竟每个字符都要比较，所以没有去实现。

突然想到Oracle有一个编码转换的函数叫Convert，如果一个字符串编码转换前后不一样就表示字符串里面含有非ASCII字符，这样就得到结果。

最后写出来测试了一下，确实可行，5500万记录10秒钟就扫描结束。

以下是测试用例：
SQL> select *
2 from (select 'abcd' c1 from dual
3 union all
4 select 'ab测试cd' c1 from dual)
5 where c1 <> CONVERT(c1, 'US7ASCII', 'ZHS16GBK');
C1
--------
ab测试cd
CONVERT函数说明：
CONVERT(inputstring,dest_charset,source_charset)
inputstring：要转换的字符串
dest_charset：目标字符集
source_charset：原字符集
这只是一个小技巧，也许有一天你也有这样的需求，或许能派上用场。

java判断汉字和字符长度的方法

java判断汉字和字符长度的方法全文共四篇示例，供读者参考第一篇示例：在Java编程中，有时候我们需要判断一个字符串中包含的汉字个数以及字符长度。

汉字的特殊性导致了在判断汉字个数和字符长度时需要使用特定的方法。

下面我们将介绍一些常用的方法来判断汉字和字符长度。

我们需要知道汉字在Java中占用的字节数。

在UTF-8编码中，一个汉字占用3个字节，而在GBK编码中，一个汉字占用2个字节。

我们可以通过判断一个字符的字节数来确定其是否为汉字。

下面是一个简单的方法来判断一个字符是否为汉字：```javapublic static boolean isChinese(char c) {Character.UnicodeBlock ub =Character.UnicodeBlock.of(c);return ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION _A|| ub ==Character.UnicodeBlock.GENERAL_PUNCTUATION|| ub ==Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION|| ub ==Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS;}```通过以上代码，我们可以利用UnicodeBlock来判断一个字符是否为汉字。

UnicodeBlock包含了所有Unicode字符的范围，我们只需要检查目标字符是否在汉字的UnicodeBlock中即可。

接下来，我们可以通过如下代码来判断一个字符串中汉字的个数：```javapublic static int countChinese(String str) {int count = 0;for (int i = 0; i < str.length(); i++) {char c = str.charAt(i);if (isChinese(c)) {count++;}}return count;}```在countChinese方法中，我们遍历字符串中的每一个字符，判断其是否为汉字，若是则汉字个数加一。

java 实现中文匹配方法

java 实现中文匹配方法Java是一种高级的面向对象编程语言，它具有广泛的应用领域。

在本篇文章中，我们将重点讨论如何使用Java实现中文匹配方法。

中文匹配是指在一段文本中查找与给定中文字符串相匹配的部分。

在实际应用中，中文匹配常常用于文本搜索、敏感词过滤、自然语言处理等场景。

下面我们将介绍如何使用Java实现中文匹配方法。

我们需要了解Java中的字符串处理方法。

Java提供了String类来处理字符串，它包含了许多有用的方法。

例如，我们可以使用String的indexOf方法来查找一个字符串在另一个字符串中第一次出现的位置。

在中文匹配中，我们可以利用这个方法来判断给定的中文字符串是否在文本中出现。

然而，由于中文字符的特殊性，我们需要注意一些问题。

中文字符通常采用Unicode编码表示，一个中文字符由多个字节组成。

因此，如果我们直接使用indexOf方法查找中文字符串，可能会出现错误的结果。

为了解决这个问题，我们可以使用Java的正则表达式功能。

Java的正则表达式功能通过Pattern类和Matcher类实现。

我们可以使用Pattern类的compile方法编译一个正则表达式，并使用Matcher类的find方法在文本中查找与正则表达式匹配的部分。

在中文匹配中，我们可以使用正则表达式来匹配中文字符。

下面是一个使用Java实现中文匹配的示例代码：```javaimport java.util.regex.Matcher;import java.util.regex.Pattern;public class ChineseMatcher {public static void main(String[] args) {String text = "这是一段包含中文的文本，我们要在其中查找中文字符串。

";String chineseString = "中文";// 编译正则表达式Pattern pattern = pile("[\\u4e00-\\u9fa5]+"); Matcher matcher = pattern.matcher(text);// 查找中文字符串while (matcher.find()) {String match = matcher.group();if (match.equals(chineseString)) {System.out.println("找到了中文字符串：" + match); }}}}```在上面的示例中，我们定义了一个包含中文的文本和一个中文字符串。

常用正则表达式大全!(例如：匹配中文、匹配html)

说明： //u0000-u00ff.包含unicode单字节编码（ 0-255编码）包含基本控制字符和拉丁文字母。采用该否定表达式，粗略判断是否含有中文。
具体的匹配中文及字符方法：/[\u4E00-\u9FA5\uF900-\uFA2D]/
说明： u4e00-u9fbf : unicode CJK(中日韩)统一表意字符。u9fa5后至u9fbf为空
匹配双字节字符(包括汉字在内)：[^x00-xff]
匹配空行的正则表达式：n[s| ]*r
匹配HTML标记的正则表达式：/<(.*)>.*|<(.*) />/
匹配首尾空格的正则表达式：(^s*)|(s*$)
匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
(5)应用：利用正则表达式限制网页表单里的文本框输入内容
用正则表达式限制只能输入中文：onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^u4E00-u9FA5]/g,''))"
用正则表达式限制只能输入数字和英文：onkeyup="value=value.replace(/[W]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^d]/g,''

C判断中文字符的八种方法

} } return false; } 方法二： public bool IsChina(string CString) { bool BoolValue = false; for (int i = 0; i < CString.Length; i++) { if (Convert.ToInt32(Convert.ToChar(CString.Substring(i, 1))) < Convert.ToInt32(Convert.ToChar(128))) { BoolValue = false; } else { return BoolValue = true; } } return BoolValue; } 方法三： /// <summary> /// 判断句子中是否含有中文 /// </summary> /// <param >字符串</param> public bool WordsIScn(string words) { string TmmP; for (int i = 0; i < words.Length; i++) { TmmP = words.Substring(i, 1); byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetByt
byte byte1 = bytes[0]; byte byte2 = bytes[1]; if (byte1 >= 176 && byte1 <= 247 && byte2 >= 160 && by

java判断中文字符串相似度的方法

java判断中文字符串相似度的方法一、编辑距离算法编辑距离算法（Levenshtein Distance）是一种常用的字符串相似度计算方法。

它衡量两个字符串之间的差异程度，即需要多少次操作（插入、删除、替换）才能将一个字符串转换为另一个字符串。

在中文字符串相似度的计算中，我们可以将每个汉字视为一个字符，然后使用编辑距离算法来计算相似度。

二、实现编辑距离算法在Java中，我们可以使用动态规划的思想来实现编辑距离算法。

具体步骤如下：1. 创建一个二维数组dp，其中dp[i][j]表示将字符串s1的前i个字符转换为字符串s2的前j个字符所需要的最少操作次数。

2. 初始化第一行和第一列，即dp[0][j]=j和dp[i][0]=i。

3. 遍历字符串s1和s2，计算dp[i][j]的值：- 如果s1的第i个字符等于s2的第j个字符，则dp[i][j]=dp[i-1][j-1]；- 否则，dp[i][j]等于dp[i-1][j-1]+1（替换操作）、dp[i][j-1]+1（插入操作）和dp[i-1][j]+1（删除操作）中的最小值。

4. 返回dp[s1.length()][s2.length()]，即字符串s1和s2的相似度。

三、使用示例下面是一个使用编辑距离算法判断中文字符串相似度的示例代码：```javapublic class ChineseSimilarity {public static int calculateSimilarity(String s1, String s2) {int[][] dp = new int[s1.length() + 1][s2.length() + 1];for (int i = 0; i <= s1.length(); i++) {dp[i][0] = i;}for (int j = 0; j <= s2.length(); j++) {dp[0][j] = j;}for (int i = 1; i <= s1.length(); i++) {for (int j = 1; j <= s2.length(); j++) {if (s1.charAt(i - 1) == s2.charAt(j - 1)) {dp[i][j] = dp[i - 1][j - 1];} else {dp[i][j] = Math.min(dp[i - 1][j - 1] + 1, Math.min(dp[i][j - 1] + 1, dp[i - 1][j] + 1));}}}return dp[s1.length()][s2.length()];}public static void main(String[] args) {String s1 = "中国人民";String s2 = "中华人民共和国";int similarity = calculateSimilarity(s1, s2);System.out.println("字符串相似度：" + similarity);}}```在上面的示例代码中，我们定义了一个calculateSimilarity方法，该方法接受两个中文字符串作为参数，并返回它们的相似度。

JS判断是否为数字，中文，小写、大写字母

JS判断是否为数字，中⽂，⼩写、⼤写字母/** 取得字符串的字节长度**/代码function strlen(str){var i;var len;len = 0;for (i=0;i<str.length;i++){if (str.charCodeAt(i)>255) len+=2; else len++;}return len;}/* * 判断是否为数字，是则返回true,否则返回false */代码function f_check_number(obj){if (/^\d+$/.test(obj.value)){return true;}else{f_alert(obj,"请输⼊数字");return false;}}/* * 校验数字的最⼩最⼤值 * 返回bool */代码function f_check_interval(obj){var value = parseFloat(obj.value);var dtype = obj.eos_datatype;var pos_dtype = dtype.substring(dtype.indexOf("(")+1,dtype.indexOf(")")).split(",");var minLimit = pos_dtype[0];var maxLimit = pos_dtype[1];var minVal = parseFloat(pos_dtype[0]);var maxVal = parseFloat(pos_dtype[1]);if(isNaN(value)){f_alert(obj, "值必须为数字");return false;}if((isNaN(minVal) && (minLimit != "-")) || (isNaN(maxVal) && (maxLimit != "+"))){f_alert(obj, "边界值必须为数字或-、+");return false;}if(minLimit == "-" && !isNaN(maxVal)){if(value > maxVal){f_alert(obj, "值不能超过" + maxVal);return false;}}if(!isNaN(minVal) && maxLimit == "+"){if(value < minVal){f_alert(obj, "值不能⼩于" + minVal);return false;}}if(!isNaN(minVal) && !isNaN(maxVal)){if(minVal > maxVal){f_alert(obj, "起始值" + minVal + "不能⼤于终⽌值" + maxVal);}else{if(!(value <= maxVal && value >= minVal)){f_alert(obj, "值应该在" + minVal + "和" + maxVal + "之间");return false;}}}return true;}/* ⽤途：检查输⼊字符串是否只由汉字组成如果通过验证返回true,否则返回false */ 代码function f_check_zh(obj){if (/^[\u4e00-\u9fa5]+$/.test(obj.value)) {return true;}f_alert(obj,"请输⼊汉字");return false;}/* * 判断是否为⼩写英⽂字母，是则返回true,否则返回false */代码function f_check_lowercase(obj){if (/^[a-z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊⼩写英⽂字母");return false;}/* * 判断是否为⼤写英⽂字母，是则返回true,否则返回false */代码function f_check_uppercase(obj){if (/^[A-Z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊⼤写英⽂字母");return false;}/* * 判断是否为英⽂字母，是则返回true,否则返回false */代码function f_check_letter(obj){if (/^[A-Za-z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊英⽂字母");return false;/* ⽤途：检查输⼊字符串是否只由汉字、字母、数字组成输⼊： value：字符串返回：如果通过验证返回true,否则返回false */代码function f_check_ZhOrNumOrLett(obj){ //判断是否是汉字、字母、数字组成var regu = "^[0-9a-zA-Z\u4e00-\u9fa5]+$";var re = new RegExp(regu);if (re.test( obj.value )) {return true;}f_alert(obj,"请输⼊汉字、字母或数字");return false;}/* ⽤途：检查输⼊对象的值是否符合⽹址格式输⼊：str 输⼊的字符串返回：如果通过验证返回true,否则返回false */代码function f_check_URL(obj){var myReg = /^((http:[/][/])?\w+([.]\w+|[/]\w*)*)?$/;if(myReg.test( obj.value )) return true;f_alert(obj,"请输⼊合法的⽹页地址");return false;}/* ⽤途：检查输⼊对象的值是否符合E-Mail格式输⼊：str 输⼊的字符串返回：如果通过验证返回true,否则返回false */代码function f_check_email(obj){var myReg = /^([-_A-Za-z0-9\.]+)@([_A-Za-z0-9]+\.)+[A-Za-z0-9]{2,3}$/;if(myReg.test( obj.value )) return true;f_alert(obj,"请输⼊合法的电⼦邮件地址");return false;}/* ⽤户ID，可以为数字、字母、下划线的组合，第⼀个字符不能为数字,且总长度不能超过20。

js 判断中文简体字的方法

js 判断中文简体字的方法全文共四篇示例，供读者参考第一篇示例：随着中文网络内容的不断增加，对中文简体字的判断变得越来越重要。

在多种情况下，我们需要使用JavaScript来判断一个字符是否为中文简体字。

本文将介绍几种常见的方法，供大家参考。

一、Unicode值范围判断Unicode是一种字符编码标准，它为每个字符分配了一个唯一的数字编号。

中文简体字通常位于Unicode编码的范围：0x4E00至0x9FA5之间。

我们可以通过判断一个字符的Unicode值是否在这个范围内来判断该字符是否为中文简体字。

```javascriptfunction isChineseChar(char) {return char >= '\u4e00' && char <= '\u9fa5';}// 使用方法console.log(isChineseChar('中')); // trueconsole.log(isChineseChar('a')); // false```这种方法简单直观，适合只需判断个别字符的情况。

但如果需要判断整个字符串是否全部为中文简体字，则效率较低。

二、正则表达式判断使用正则表达式是一个更加灵活和高效的方法。

我们可以使用正则表达式来匹配中文简体字。

三、第三方库判断除了自己编写判断函数外，也可以使用第三方库来判断中文简体字。

可以使用第三方库pinyin来判断一个字符是否为中文简体字。

```javascriptvar pinyin = require('pinyin');这种方法适合在已有项目中引入第三方库的情况下使用。

常用的中文处理库还有：hanzi和chinese-conv等。

四、结合多种方法判断在实际项目中，为了提高准确性和灵活性，我们可以结合多种方法来判断中文简体字。

结合Unicode值范围判断和正则表达式判断来实现更精准的中文简体字判断。

js中判断数字字母中文的正则表达式 (实例)

for(var i=0;i var c = str.charAt(i); if((c<"a"||c>"z")&&(c<"A"||c>"Z")){ return false; } } return true; } /* 空格判断，当包含有空格返回 false，当不包含一个空格返回 true ""不能被判断 */ function notInSpace(str){ if(""==str){ return false; } var badChar =" "; badChar += " "; for(var i=0;i var c = str.charAt(i);//字符串 str 中的字符 if(badChar.indexOf(c) > -1){ return false; } } return true; } /* **号判断函数，返回 true 表示是**号，返回 false 表示不符合规范 */ function isFPH(str){ if(""==str){ return false; } for(var i=0;i var c = str.charAt(i); if((c < "0" || c > "9") && (c!="-")&&(c!=",")){ return false; } } return true; } /* 电话判断函数，允许“数字” 、 “;” 、 “-” 、 “ (” 、 ”)“， true 表示是电话号码 */ function isTelephone(str){ var trueChar = "()-;1234567890";

java判断汉字和字符长度的方法

java判断汉字和字符长度的方法### Java判断汉字和字符长度的方法在Java编程中，处理中文字符和英文字符的长度可能会遇到一些问题。

这是因为Java中的`String.length()`方法返回的是字符串中的字符数，而对于双字节的字符（如中文字符），这个方法将返回2。

这就导致如果我们需要准确地计算和显示中文字符的长度时，不能直接使用`length()`方法。

以下是一些在Java中判断汉字和字符长度的方法。

#### 使用`String.getBytes()`一种简单的方法是将字符串转换为字节数组，然后计算字节数组的长度。

在UTF-8编码下，一个英文字符占1个字节，一个中文字符占3个字节。

```javapublic class Main {public static void main(String[] args) {String str = "你好Hello";int length = str.getBytes().length;System.out.println("The length of the string is: " + length);}}```但这种方法不能区分不同编码格式下的字符长度。

#### 使用`java.text.BreakIterator`对于更复杂的文本处理，例如计算可视长度，可以使用`BreakIterator`类。

```javaimport java.text.BreakIterator;public class Main {public static void main(String[] args) {String str = "你好Hello";BreakIterator bi = BreakIterator.getCharacterInstance();bi.setText(str);int length = bi.next() - bi.first();System.out.println("The length of the string is: " + length);}}```#### 使用第三方库如使用Apache Commons Lang，可以简化这个过程。

中文+阿拉伯数字校验java正则

中文+阿拉伯数字校验Java正则表达式一、引言随着互联网的蓬勃发展，大量的中文和阿拉伯数字的数据被广泛应用于各种软件系统中。

在程序开发中，经常会遇到需要对输入的中文和阿拉伯数字进行校验的情况。

为了高效地实现对中文和阿拉伯数字的校验，本文将介绍如何使用Java正则表达式来实现这一功能。

二、中文校验1. 中文字符的Unicode编码范围在Java中，中文字符的Unicode编码范围为\u4e00-\u9fa5，对应的正则表达式为[\u4e00-\u9fa5]。

可以使用该正则表达式来判断一个字符串是否包含中文字符。

2. 中文字符的数量限制如果需要限制输入的字符串中包含的中文字符的数量，可以使用如下正则表达式来实现：[\u4e00-\u9fa5]{n,m}其中n和m分别表示最小和最大的中文字符数量。

3. 中文字符串的校验如果需要判断一个字符串是否由中文字符组成，可以使用如下正则表达式：^[\u4e00-\u9fa5]*$该正则表达式表示字符串的开头和结尾都是中文字符，并且中间可以是0个或多个中文字符。

三、阿拉伯数字校验1. 阿拉伯数字的正则表达式在Java中，可以使用\d来表示一个阿拉伯数字，该正则表达式可以用来判断一个字符串中是否包含阿拉伯数字。

2. 阿拉伯数字的数量限制如果需要限制输入的字符串中包含的阿拉伯数字的数量，可以使用如下正则表达式：\d{n,m}其中n和m分别表示最小和最大的阿拉伯数字数量。

3. 阿拉伯数字字符串的校验如果需要判断一个字符串是否由阿拉伯数字组成，可以使用如下正则表达式：^\d*$该正则表达式表示字符串的开头和结尾都是阿拉伯数字，并且中间可以是0个或多个阿拉伯数字。

四、中文+阿拉伯数字的校验如果需要判断一个字符串是否由中文和阿拉伯数字组成，可以使用如下正则表达式：[\u4e00-\u9fa5\d]*可以任意排列。

五、结论通过本文的介绍，读者应该了解到了如何使用Java正则表达式来校验中文和阿拉伯数字。

验证中文的正则表达式_概述说明以及解释

验证中文的正则表达式概述说明以及解释1. 引言1.1 概述在当今数字化时代，中文的数据处理和验证成为一项重要任务。

中文字符具有独特的特点和范围，在进行中文内容的验证和匹配时，需要借助正则表达式作为一种有效工具。

本文旨在探讨验证中文的正则表达式，介绍其概念、结构和目的，并提供相关解释和说明。

1.2 文章结构本文主要分为五个部分：引言、正文、验证中文的正则表达式概述说明、解释中文正则表达式的工具和方法以及结论。

其中，引言部分将对本篇文章进行整体概述，并简要介绍各个部分的主要内容。

1.3 目的本文旨在深入探讨验证中文的正则表达式这一话题，并对其重要性和挑战性进行总结与分析。

通过介绍常见中文字符的匹配模式、中文词组的匹配方式以及解释中文正则表达式所使用的工具和方法等内容，读者可以更好地理解并应用于实际场景。

此外，还将提出未来改进和研究方向的建议，以促进该领域发展与创新。

以上是“1. 引言”部分的内容。

在正文中，我们将进一步探讨验证中文的正则表达式的相关概念和技巧。

2. 正文正文部分将详细介绍验证中文的正则表达式的相关内容。

对于正则表达式的概念和基本语法，读者可以参考其他资料进行学习。

在本文中，我们将主要关注于如何使用正则表达式来验证中文字符。

首先，让我们来了解一下什么是中文字符。

中文字符是指汉字，包括简体字和繁体字，以及其他与汉字有关的符号和标点符号。

根据Unicode编码规范，中文字符的编码范围为0x4E00至0x9FFF。

常见的验证中文字符的正则表达式模式包括：1. 使用Unicode编码范围来匹配中文字符：```[\u4E00-\u9FFF]```这个模式表示匹配任意一个Unicode编码在0x4E00到0x9FFF之间的字符。

2. 使用ASCII扩展范围匹配更多中文字符：```[\u4E00-\u9FA5]```这个模式与前面相似，但还会匹配一些额外的汉字和其他特殊字符。

3. 匹配连续的汉字词组：```[\u4E00-\u9FFF]+```此模式表示将连续出现一个或多个Unicode编码在0x4E00到0x9FFF之间的字符视为一个中文词组。

JAVA统计字符串中中文,英文,数字,空格,特殊字符的个数

JAVA统计字符串中中⽂,英⽂,数字,空格,特殊字符的个数引⾔可以根据各种字符在Unicode字符编码表中的区间来进⾏判断，如数字为'0'~'9'之间，英⽂字母为'a'~'z'或'A'~'Z'等，Java判断⼀个字符串是否有中⽂是利⽤Unicode编码来判断，因为中⽂的编码区间为：0x4e00--0x9fbb，但通⽤区间来判断中⽂也不⾮常精确，因为有些中⽂的标点符号利⽤区间判断会得到错误的结果。

所以通过Character.UnicodeBlock来进⾏判断。

代码如下：package cn.csrc.base.count;public class CountCharacter { public static void main(String[] args) { String str ="我爱你abcd123中国 #!"; CountCharacter countCharacter = new CountCharacter(); countCharacter.count(str); } /**中⽂字符 */ private int chCharacter = 0; /**英⽂字符 */ private int enCharacter = 0; /**空格 */ private int spaceCharacter = 0; /**数字 */ private int numberCharacter = 0; /**其他字符 */ private int otherCharacter = 0; //记录中⽂字符 private StringBuilder sb1=new StringBuilder(); //记录英⽂字符 private StringBuilder sb2=new StringBuilder(); //记录数字 private StringBuilder sb3=new StringBuilder(); //记录特殊字符 private StringBuilder sb4=new StringBuilder(); /*** * 统计字符串中中⽂，英⽂，数字，空格等字符个数 * @param str 需要统计的字符串 */ public void count(String str) { if(str.equals("") || str==null){ System.out.println("字符串为空"); return; } for (int i = 0; i < str.length(); i++) { char tmp = str.charAt(i); if ((tmp >= 'A' && tmp <= 'Z') || (tmp >= 'a' && tmp <= 'z')) { enCharacter ++; sb2.append(tmp+" "); } else if ((tmp >= '0') && (tmp <= '9')) { numberCharacter ++; sb3.append(tmp +" "); } else if (tmp ==' ') { spaceCharacter ++; } else if (isChinese(tmp)) { chCharacter ++; sb1.append(tmp+" "); } else { otherCharacter ++; sb4.append(tmp +" "); } } System.out.println("字符串:" + str + " \r\n"); System.out.println("中⽂字符有:" + chCharacter +"个 ("+sb1.toString()+")"); System.out.println("英⽂字符有:" + enCharacter +"个 ("+sb2.toString()+")"); System.out.println("数字有:" + numberCharacter+"个 ("+sb3.toString()+")"); System.out.println("空格有:" + spaceCharacter+"个"); System.out.println("其他字符有:" + otherCharacter+"个 ("+sb4.toString()+")"); } /*** * 判断字符是否为中⽂ * @param ch 需要判断的字符 * @return 中⽂返回true，⾮中⽂返回false */ private boolean isChinese(char ch) { //获取此字符的UniCodeBlock Character.UnicodeBlock ub = Character.UnicodeBlock.of(ch); // GENERAL_PUNCTUATION 判断中⽂的“号 // CJK_SYMBOLS_AND_PUNCTUATION 判断中⽂的。

input禁止输入中文的正则

input禁止输入中文的正则正则表达式（RegularExpression，简称“正则”）是一种文本模式识别语言，它使用特殊的算法，可以在字符串中搜寻特定的模式。

它的优势在于，能够更高效和简单地检索或替换文本内容，有广泛的应用。

正则表达式用于input禁止输入中文，也是一种比较常见的做法。

那么，input禁止输入中文的正则有哪几种呢？一种是使用^[u4e00-u9fa5]+$，这是通过Unicode编码来判断一个字符是否为中文，如果是，就返回true，否则就返回false，即可达到input禁止输入中文的目的。

另一种是使用[u4e00-u9fa5]{1,}，也就是要求至少出现一个中文，否则就返回false，在满足了至少出现一个中文的前提下，就能够有效地限制其他字符的输入。

还有一种是使用[^u4e00-u9fa5]{1,}，这个正则会判断一个字符既不是中文，也不是英文，也不是特殊字符，如果是，就返回true，否则就返回false，以此禁止输入其他字符。

此外，input禁止输入中文的正则还可以通过Javascript来实现。

在html中，可以设置input的type属性为“text”，增加“onkeyup”函数来实现正则的检验，如果不满足指定的正则，则可以限制其输入，以达到input禁止输入中文的目的。

尽管使用正则表达式来实现input禁止输入中文的目的，但是它也有自身的缺陷。

比如，它只能检测字符，而不能检测句子或文档；如果正则表达式比较复杂，它会消耗大量的CPU时间；正则表达式可能困难令初学者理解，而且学习曲线陡峭。

此外，如果正则表达式使用不当，容易造成安全隐患，比如SQL注入等。

总之，input禁止输入中文的正则表达式虽然有不可避免的缺陷，但是它的使用仍可以简化开发者的操作，从而提高开发效率，毕竟编译器会检查字符串的模式，而不必由我们一个一个字符进行检查。

所以，理解和使用正则表达式对于开发者来说是极其重要的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

{
byte[] bytes = Encoding.GetEncoding("Big5").GetBytes(word.ToString());
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code
{
return false;
{
byte[] bytes = Encoding.GetEncoding("GBK").GetBytes(word.ToString());
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code
{
return false;
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if ( (byte1 >= 129 && byte1 <= 254) && ((byte2 >= 64 && byte2 <= 126) || (byte2 >= 161 && byte2 <= 254)) ) //判断是否是Big5编码
{
return true;
}
else
{
return false;
}
}
}
if (sarr.Length == 2)
{
return true;
}
}
return false;
}
方法四：
for (int i=0; i<s.length; i++)
{
Regex rx = new Regex("^[\u4e00-\u9fa5]$");
if (rx.IsMatch(s[i]))
//是
int chfrom = Convert.ToInt32("4e00", 16); //范围（0x4e00～0x9fff）转换成int（chfrom～chend）
int chend = Convert.ToInt32("9fff", 16);
if (input != "")
{
code = Char.ConvertToUtf32(input, index); //获得字符串input中指定索引index处字符unicode编码
判断字符串是否是中文
Unicode CJK的范围分布在多个区段中，带有CJK的区块名中都拥有汉字。但最常用的范围是U+4E00～U+9FA5，即名为：CJK Unified Ideographs的区块，但U+9FA6～U+9FFF之间的字符还属于空码，暂时还未定义，但不能保证以后不会被定义。
在正则表达式中使用[\u4e00-\u9fa5]这种方式属于写死的代码，并不能根据平台所提供的字符集范围不同而改变，不过对于要求不是很高的话的是可以了。如果对字符集的要求很高，可以采用下面的这种Unicode块的方式：
foreach (char word in words)
{
if ( IsGBCode(word.ToString()) || IsGBKCode(word.ToString()) ) // it is a GB2312 or GBK chinese word
{
continue;
}
else
{
return false;
for( int i = 0; i < unicodebytearray.length; i++ )
{
i++;
//如果是中文字符那么高位不为0
if ( unicodebytearray[i] != 0 )
{
}
……
方法六:
/**//**//**//// <summary>
///给定一个字符串，判断其是否只包含有汉字
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if ( byte1 >= 129 && byte1 <= 254 && byte2 >= 64 && byte2 <= 254) //判断是否是GBK编码
{
return true;
}
else
{
return false;
else
//否
}
正解！
\u4e00-\u9fa5汉字的范围。
^[\u4e00-\u9fa5]$汉字的范围的正则
方法五：
unicodeencoding unicodeencoding = new unicodeencoding();
byte [] unicodebytearray = unicodeencoding.getbytes( inputstring );
{
BoolValue = false;
}
else
{
return BoolValue = true;
}
}
return BoolValue;
}
方法三：
**/**///// <summary>
///判断句子中是否含有中文
/// </summary>
/// <param >字符串</param>
public bool WordsIScn(string words)
{
byte[] bytes = EntBytes(word);
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code or other code
{
return false;
String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";
在当前的JDK版中与[\u4e00-\u9fa5]的意义一致。但这样可以匹配Java平台所支持Unicode块名为CJK Unified Ideogrpahs中已定义的字符，这种方式就属于“活”代码今后的JDK版本升级了，定义到了\u9fa6的字符，同样能够满足匹配。
Matcher m = p.matcher(str);
while (m.find()) {
for (int i = 0; i <= m.groupCount(); i++) {
count = count + 1;
}
}
System.out.println("共有" + count + "个");
}
方法一：
/// </summary>
/// <param name="testStr"></param>
/// <returns></returns>
public bool IsOnlyContainsChinese(string testStr)
{
char[] words = testStr.ToCharArray();
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if (byte1 >= 176 && byte1 <= 247 && byte2 >= 160 && byte2 <= 254) //判断是否是GB2312
{
return true;
}
else
{
return false;
{
string TmmP;
for (int i = 0; i < words.Length; i++)
{
TmmP = words.Substring(i, 1);
byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetBytes(TmmP);
在unicode字符串中，中文的范围是在4E00..9FFF:CJK Unified Ideographs。
通过对字符的unicode编码进行判断来确定字符是否为中文。
protected bool IsChineseLetter(string input,int index)
{
int code = 0;
}
}
return true;
}
/**//**//**//// <summary>
///判断一个word是否为GB2312编码的汉字
/// </summary>
/// <param name="word"></param>
/// <returns></returns>
private bool IsGBCode(string word)
{
bool BoolValue = false;
for (int i = 0; i < CString.Length; i++)
{
if (Convert.ToInt32(Convert.ToChar(CString.Substring(i, 1))) < Convert.ToInt32(Convert.ToChar(128)))