perl正则表达式中文问题

perl正则表达式中文问题
 
在使用perl从地址中提取街道的时候遇到了个很诡异的问题
同样一个地址,连续进行两次匹配出来的结果居然不一样
一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事
看来perl的中文处理能力还是有待加强
后来在进行正则匹配之前尝试用了useencoding”gbk”; 
还算运气不错,居然搞定了
useencoding”gbk”; 
$address=~/^(.*(市|区))?(.*?(街|路|道)).*

大家好,又见面了,我是你们的朋友全栈君。

 

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding “gbk”; 

还算运气不错,居然搞定了

use encoding “gbk”; 

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding “gbk”; 而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138371.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • javac命令无法使用解决办法

    javac命令无法使用解决办法javac命令无法使用,java环境变量配置。

    2022年5月21日
    38
  • es6删除对象的属性_ES6删除对象中的某个元素「建议收藏」

    [原]XAF添加日期筛选下拉选择1.ListView添加日期筛选下拉选择,选择指定,可指定日期范围2.CodeusingDevExpress.Data.Filtering;usingDevExpress.ExpressA…Android照相机应用前言Android在设计架构的时候,采用了mashup(混搭)的设计理念,也就是说一切都是…

    2022年4月11日
    67
  • MySql必知必会内容导图

    MySql必知必会思维导图1.DBMS分类(1)关系数据库系统(2)面向对象的数据库系统(3)对象关系数据库系统对象关系数据库系统是在传统的关系数据模型基础上提供元祖,数据,集合等更为丰富

    2021年12月28日
    44
  • UML之构件图

    UML之构件图构件图的概念构件图用于静态建模,是表示构件类型的组织以及各种构件之间依赖关系的图。构件图通过对构件间依赖关系的描述来估计对系统构件的修改给系统可能带来的影响。 构件图的组成构件图由:构件,接口,实现和依赖四部分组成构件:描述了系统的一个可执行程序,一个库,一个Web程序等.构件是系统中可替换的物理部分,它包装了实现而且遵从并提供一组接口的实现构件的内容(1)规格说明

    2025年6月2日
    0
  • vim 不保存退出_怎么退出vim编辑器

    vim 不保存退出_怎么退出vim编辑器ForMac遇到vim进入文本编辑页后,无法退出的情况(输入:wq不生效)in终端:先control+c 再输入:wq即可保存退出

    2022年8月24日
    4
  • 2020-09-27

    2020-09-27

    2022年2月17日
    43

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号