Java正则表达式 匹配中文字符[通俗易懂]

Java正则表达式 匹配中文字符[通俗易懂]若要用JAVA正则表达式匹配中文字符,主要是了解中文字符的编码。

大家好,又见面了,我是你们的朋友全栈君。

若要用JAVA正则表达式匹配中文字符,主要是了解中文字符的编码。

匹配中文字符:半角:[\u4e00-\u9fa5] ,全角:[ufe30-uffa0]

匹配中文符号: 。 ;  , : “ ”( ) 、 ? 《 》的对应编码为:”[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]”

英文字母:[a-zA-Z] 
数字:[0-9] 

下面的例子是要匹配出字符串中含有“《中英字符*》”的例子,并输出匹配内容,其中.表示除了行终止符之外的所有字符。

	public static void main(String[] args) {
		String patternStr = "\u300a.+\u300b";
		Pattern pattern = Pattern.compile(patternStr);
		String input = "《21世纪经济报道》记者";
		Matcher matcher = pattern.matcher(input);
		if (matcher.find()) {
			int start = matcher.start();
			int end = matcher.end();
			System.out.println(input.substring(start, end));
		}else{
			System.out.println("not found");
		}
		//output: 《21世纪经济报道》
	}

上例patternStr得到的匹配结果是最长的string。比如若input=”莫言作品《丰乳肥臀》,《红高粱》“, 那么输出的就是”《丰乳肥臀》,《红高粱》“。

若修改patternStr=”\u300a[^\u300a]+\u300b”; 即《》内的字符不能为《。 输出的结果就是《丰乳肥臀》。

当然若有具体的数据特征,可进一步改进pattern string。

最近要做一个中文数据的处理,查了一下蛮有意思的。

参考文献:

http://www.111cn.net/jsp/Java/46105.htm

http://blog.csdn.net/love_5209/article/details/23353907

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/150561.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月18日 下午11:00
下一篇 2022年6月18日 下午11:16


相关推荐

  • Crontab定时任务配置

    Crontab定时任务配置一、开启crontab1.查看crontab是否启动sudolaunchctllist|grepcron2.检查需要的文件ls-al/etc/crontab3.如果crontab文件不存在则创建sudotouch/etc/crontab上述操作完成之后就可以正常使用crontab啦二、crontab服务开启、关闭1.开启su…

    2025年8月24日
    4
  • MySQL中IF()、IFNULL()、NULLIF()、ISNULL()函数的使用

    MySQL中IF()、IFNULL()、NULLIF()、ISNULL()函数的使用在 MySQL 中可以使用 IF IFNULL NULLIF ISNULL 函数进行流程的控制 1 IF 函数的使用 IF expr1 expr2 expr3 如果 expr1 的值为 true 则返回 expr2 的值 如果 expr1 的值为 false 则返回 expr3 的值 SELECTIF TRUE A B 输出结果 ASELECTIF FALSE

    2026年3月26日
    2
  • JAVA多线程中join()方法的详细分析

    JAVA多线程中join()方法的详细分析虽然关于讨论线程join()方法的博客已经非常极其特别多了,但是前几天我有一个困惑却没有能够得到详细解释,就是当系统中正在运行多个线程时,join()到底是暂停了哪些线程,大部分博客给的例子看起来都像是t.join()方法会使所有线程都暂停并等待t的执行完毕。当然,这也是因为我对多线程中的各种方法和同步的概念都理解的不是很透彻。通过看别人的分析和自己的实践之后终于想明白了,详细解释一下希望能帮助到…

    2022年4月28日
    39
  • c语言必背100代码,初学者代码大全(c语言必背100代码)[通俗易懂]

    c语言必背100代码,初学者代码大全(c语言必背100代码)[通俗易懂]一个完全入门初学者如何学代码,读代码和写代码,,我想学代码不知道方向谁能给我指明一个方向?1、学代码:前提是你的复有一个比较系统的学习.认真完成每一个课程中的案例.2、读代码:分制两步走:前期能读懂自己写的代码.2113后期能读懂他人写的代码和大致的知道底层的某些源码的含义.多去5261看开发文档(开发文档建议使用官方提供的4102英文版、不要使用中文自己害自己)3、写代码1653:前提是你要有…

    2022年5月18日
    89
  • 2021年材料员-岗位技能(材料员)新版试题及材料员-岗位技能(材料员)考试试卷

    2021年材料员-岗位技能(材料员)新版试题及材料员-岗位技能(材料员)考试试卷题库来源:安全生产模拟考试一点通公众号小程序安全生产模拟考试一点通:硝化工艺题库来源:安全生产模拟考试一点通公众号小程序安全生产模拟考试一点通:硝化工艺考试内容是安全生产模拟考试一点通生成的,硝化工艺证模拟考试题库是根据硝化工艺最新版教材汇编出硝化工艺仿真模拟考试。2021年硝化工艺考试内容及硝化工艺考试报名1、【单选题】三不动火是指:没有经批准的动火作业票不动火;监护人不在现场不动火;()。(A)A、安全措施不落实不动火B、分析不合格不动火C、领导不在现场不动火2、【单选题】苯硝化

    2022年5月30日
    43
  • 使用Babel将es6转换es5

    使用Babel将es6转换es5目录Babel是什么?命令行转换babel-cli安装使用配置文件babel-polyfill安装在js中使用将Babel集成到webpack中Babel配置webpack配置1)安装webpack2)添加配置文件webpack.config.js3)修改package.json4)打包 拓展npm中save与save-d…

    2025年11月23日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号