perl正则表达式中文问题

perl正则表达式中文问题
 
在使用perl从地址中提取街道的时候遇到了个很诡异的问题
同样一个地址,连续进行两次匹配出来的结果居然不一样
一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事
看来perl的中文处理能力还是有待加强
后来在进行正则匹配之前尝试用了useencoding”gbk”; 
还算运气不错,居然搞定了
useencoding”gbk”; 
$address=~/^(.*(市|区))?(.*?(街|路|道)).*

大家好,又见面了,我是你们的朋友全栈君。

 

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding “gbk”; 

还算运气不错,居然搞定了

use encoding “gbk”; 

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding “gbk”; 而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138371.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 让你的Ubuntu 7.10支持Frame Buffer

    让你的Ubuntu 7.10支持Frame Buffer

    2021年5月1日
    115
  • MyBatis-Plus 分页查询以及自定义sql分页

    MyBatis-Plus 分页查询以及自定义sql分页一、引言分页查询每个人程序猿几乎都使用过,但是有部分同学不懂什么是物理分页和逻辑分页。物理分页:相当于执行了limit分页语句,返回部分数据。物理分页只返回部分数据占用内存小,能够获取数据库最新的状态,实施性比较强,一般适用于数据量比较大,数据更新比较频繁的场景。逻辑分页:一次性把全部的数据取出来,通过程序进行筛选数据。如果数据量大的情况下会消耗大量的内存,由于逻辑分页只需要读取数据库…

    2022年6月26日
    32
  • 私有IP地址_ipv6私有地址

    私有IP地址_ipv6私有地址私有IP地址:在ABC三类网络中,如下三段网络地址为私有IP地址,如何人都可以自行在自己的局域网中使用这些IP地址.A类私有:10.0.0.110.255.255.254B类私有:172.16

    2022年8月5日
    13
  • long转string java_java中long如何转成String????????

    long转string java_java中long如何转成String????????展开全部longl=Long.parseLong(“String”);longl=Long.parseLong(“String”,int);longl=Long.valueOf(“String”).longValue();Long.ValueOf(“String”)与Long.parseLong(“String”)的区别Long.ValueOf(“String”);返回Long包…

    2022年5月14日
    40
  • Windows 10 安装程序_ubuntu20.04安装cuda

    Windows 10 安装程序_ubuntu20.04安装cudaWindows10安装CUDAToolkit10.10.NVCUDA.DLL-NVIDIACUDA10.1.135driver-NVIDIA驱动程序版本NVIDIA控制面板->帮助->系统信息->组件1.CUDAToolkitCUDAToolkithttps://developer.nvidia.com/cuda-toolkitCUDAToolkitDownloadhttps://developer.nvidia.com/

    2025年12月9日
    2
  • gbk和utf8的区别元尊_gb2312和utf8的区别

    gbk和utf8的区别元尊_gb2312和utf8的区别我们这里将以最简单最容易理解的方式来描述GBK和UTF8的区别,以及它们分别是什么。GBK编码:是指中国的中文字符,其它它包含了简体中文与繁体中文字符,另外还有一种字符“gb2312”,这种字符仅能存储简体中文字符。UTF-8编码:它是一种全国家通过的一种编码,如果你的网站涉及到多个国家的语言,那么建议你选择UTF-8编码。GBK和UTF8有什么区别?UTF8编码格式很强大,支持所有国家的语言,正是

    2025年8月14日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号