正则表达式判断字符有乱码(正则文法转正则表达式)

#include<QtCore/QCoreApplication>#include<iostream>#include<string>#include<regex>usingnamespacestd;intmain(intargc,char*argv[]){ QCoreApplicationa(argc,argv); boolfoundmatch=false; try{ std::wregexre(L

大家好,又见面了,我是你们的朋友全栈君。

使用std::wregex

#include <QtCore/QCoreApplication>
#include <iostream>
#include <string>
#include <regex>

using namespace std;

int main(int argc, char *argv[])
{ 
   
	QCoreApplication a(argc, argv);
	bool foundmatch = false;
	try { 
   
		std::wregex re(LR"([a-zA-Z]:\\[\.\w-_\u4e00-\u9fa5\\]*)"); //windows文件夹路径
		std::wstring subject = L"D:\\Tools\\软件\\xournalpp-1.0.17-windows";
		foundmatch = std::regex_search(subject, re);
		cout << foundmatch << endl;
	}
	catch (std::regex_error& e) { 
   
		cout << e.what() << endl;
	}
	return a.exec();
}

以上方式存在缺陷,不支持Unicode scrpt。(\p{IsScript} for Unicode scripts)
在这里插入图片描述

使用qt框架下的QJSEngine类:

在c++中运行js脚本执行正则匹配:

#include <QtCore/QCoreApplication>
#include <QJSEngine>
#include <QDebug>
#include <QFile>
#include <QTextStream>

using namespace std;

int main(int argc, char *argv[])
{ 
   
	QCoreApplication a(argc, argv);
	QJSEngine js;
	QJSValue module = js.importModule("D:/tcl_me/math.mjs");
	QJSValue sumFunction = module.property("sum");
	QString str = "38u48djhfod中国,@##@!_)+bia發財";
	QJSValueList args;
	args << str;
	QJSValue result = sumFunction.call(args);
	if (result.isError())
	{ 
   
		qDebug() << result.toString();
		return -1;
	}
	qDebug() << result.toBool();
	return a.exec();
}

使用的js脚本代码(math.mjs):

export function sum(subject) { 
   
	var reg = /[\p{Han}]+/g;
    var ret = subject.match(reg);
    return ret;
}

运行结果:
在这里插入图片描述
匹配成功。

期间测试过PCRE、PCRE2,Boost::regex,POCO::RegularExpression、Googel::RE2效果均不佳,根本原因是c++语言本身对Unicode的支持欠佳,需要使用ICU通用组件库配合Boost::regex,并且Boost::regex默认ICU不参加编译,十分麻烦。
QJSEngine搭载V8引擎,执行js脚本相当快。故采用c++和js脚本混合编程快速解决“c++正则表达式匹配中文”产生的一系列问题。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/128169.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 贴片电阻电容命名及封装[通俗易懂]

    贴片电阻电容命名及封装[通俗易懂]常见的标准零件件主要有以下几种:电阻(R)、排阻(RA或RN)、电感(L)、陶瓷电容(C)、排容(CP)、钽质电容(C)、二极管(D)、晶体管(Q)。一、零件规格:零件规格即零件的外形尺寸,SMT(表面封装技术)发展至今,业界已经形成了一个标准零件系列,各家零件供货商皆是按这一标准制造。标准零件之尺寸规格有英制与公制两种表示方法,参照下面的常见贴片电阻尺寸表(1inch=25.4m…

    2022年8月21日
    7
  • time to countdown_反应物消耗速率

    time to countdown_反应物消耗速率前段时间使用CountDownTimer做了一个团购活动的倒计时功能,前期使用的时候没法先什么问题(测试不到位),最近同事发现了一个问题,页面频繁刷新的时候出现秒数显示速率变快的bug。现象:页面频繁刷新的时候出现秒数显示速率变快。原因初步分析:刷新时创建了多个CountDownTimer实例,并且多个实例同时在运行。验证:检查代码发现newCountDownTimer()创…

    2022年9月15日
    3
  • 三字经 全文解读(三字经全文朗读儿童版解读)

    前言:《三字经》自南宋王应麟(字伯厚)先生所创作以来,已有七百多年历史,内容大都采用韵文,每三字一句,四句一组,像一首诗一样,背诵起来,如唱儿歌,三字经是学习中华传统文化不可多得的的儿童启蒙读物,共一千多字,可谓家喻户晓,脍炙人口。内容包括了中国传统的教育、历史、天文、地理、伦理和道德以及一些民间传说,广泛生动而又言简意赅。用来教育子女琅琅上口十分有趣,又能启迪心智,时人觉得本书内容很好,纷纷翻印

    2022年4月10日
    83
  • stream流带下标foreach循环[通俗易懂]

    stream流带下标foreach循环[通俗易懂]stream流带下标foreach循环

    2022年4月24日
    60
  • 肝通宵写了三万字把SQL数据库的所有命令,函数,运算符讲得明明白白讲解,内容实在丰富,建议收藏+三连好评!

    肝通宵写了三万字把SQL数据库的所有命令,函数,运算符讲得明明白白讲解,内容实在丰富,建议收藏+三连好评!前言在下面所有的讲解中,我将会以基本语法,案例,联系形式讲解,从而加强对每一个语句的使用和认识。我就不用贴图方式返回给大家结果了,实在占空间布局。本篇文章是笔者整理了整整一个通宵才写出,希望大家三连好评,谢谢。当然,拥有本篇文章,你将会完全整我mysql的所有语句使用,不再用去购买或者杂乱学习。MYSQL最重要的命令SELECT从数据库中提取数据UPDATE更新数据库中的数据DELETE从数据库中删除数据INSERTINTO将新数据插入数据库CREATEDATABASE创建

    2022年4月27日
    42
  • vue的$on方法_vue基本指令

    vue的$on方法_vue基本指令v-on监听事件可以用v-on指令监听DOM事件,并在触发时运行一些JavaScript代码。事件代码可以直接放到v-on后面,也可以写成一个函数。示例代码如下:<divid

    2022年8月7日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号