perl正则表达式中文问题

perl正则表达式中文问题
 
在使用perl从地址中提取街道的时候遇到了个很诡异的问题
同样一个地址,连续进行两次匹配出来的结果居然不一样
一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事
看来perl的中文处理能力还是有待加强
后来在进行正则匹配之前尝试用了useencoding”gbk”; 
还算运气不错,居然搞定了
useencoding”gbk”; 
$address=~/^(.*(市|区))?(.*?(街|路|道)).*

大家好,又见面了,我是你们的朋友全栈君。

 

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding “gbk”; 

还算运气不错,居然搞定了

use encoding “gbk”; 

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding “gbk”; 而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138371.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • hash碰撞解决方法

    hash碰撞解决方法Hash碰撞冲突我们知道,对象Hash的前提是实现equals()和hashCode()两个方法,那么HashCode()的作用就是保证对象返回唯一hash值,但当两个对象计算值一样时,这就发生了碰撞冲突。如下将介绍如何处理冲突,当然其前提是一致性hash。1.开放地址法开放地执法有一个公式:Hi=(H(key)+di)MODmi=1,2,…,k(k<=m-1)其中,m为哈希表的表长。…

    2022年6月17日
    44
  • 学习笔记:03_如何使用Git命令把文件提交到版本库

    学习笔记:03_如何使用Git命令把文件提交到版本库

    2021年7月11日
    99
  • webpack基础打包命令_webpack打包命令

    webpack基础打包命令_webpack打包命令没有配置文件的打包如果我们没有使用配置文件webpack.config.js,那么我们就需要通过命令来打包案例我们首先创建一个webpackTest文件夹,然后在文件夹中再创建2个子文件夹dis

    2022年7月30日
    3
  • python-sort函数[通俗易懂]

    python-sort函数[通俗易懂]sort调用方式:sorted(str)list.sort()sorted()函数函数原型sorted(iterable,cmp=None,key=None,reverse=False

    2022年7月6日
    23
  • python中copy.deepcopy_clone和copy的区别

    python中copy.deepcopy_clone和copy的区别同样是copy,二者有什么不同呢今天我们就一探究竟!!!python——赋值与深浅拷贝  初学编程的小伙伴都会对于深浅拷贝的用法有些疑问,今天我们就结合python变量存储的特性从内存的角度来谈一谈赋值和深浅拷贝~~~预备知识一——python的变量及其存储  在详细的了解python中赋值、copy和deepcopy之前,我们还是要花一点时间来了解一下p…

    2022年10月2日
    0
  • Pycharm断点调试

    Pycharm断点调试使用Pycharm去debug程序

    2022年5月11日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号