perl正则表达式中文问题

perl正则表达式中文问题
 
在使用perl从地址中提取街道的时候遇到了个很诡异的问题
同样一个地址,连续进行两次匹配出来的结果居然不一样
一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事
看来perl的中文处理能力还是有待加强
后来在进行正则匹配之前尝试用了useencoding”gbk”; 
还算运气不错,居然搞定了
useencoding”gbk”; 
$address=~/^(.*(市|区))?(.*?(街|路|道)).*

大家好,又见面了,我是你们的朋友全栈君。

 

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding “gbk”; 

还算运气不错,居然搞定了

use encoding “gbk”; 

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding “gbk”; 而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138371.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Origin绘图快速上手指南「建议收藏」

    Origin绘图快速上手指南「建议收藏」1、创建工程打开origin后,点击菜单栏“文件”,选择“项目另存为”,给项目命名,并存到某个工作路径。2、导入数据然后将excel中的数据(只要数据)选中后复制到Book1中,从第5行开始粘贴。可以在侧面打开“项目管理器”,给表格“Book1”重命名为“曲线数据”。还可以在表格的“长单位”处给每列数据加上标签。3、那么这时可以直接使用Origin的自动绘图功能了。选择A、B、C所有列,然后点击菜单栏的“绘图”,选择一个折线图,双击即可绘图。这样呢就是将两条曲线放到同一张图中了。如果想要自定

    2022年5月31日
    58
  • WDA问题混总

    WDA问题混总文章目录unabletoaccessDB:WebDriverAgentLibcodesign失败WebDriverAgentLibcodesignfailure.unabletoaccessDB:多个xcode线程在跑,杀掉xcode,杀掉xcodebuild进程,cleanWebDriverAgentLibcodesign失败环境:mac10.14.5xcode10.3报错:CommandCodesignfailedwithano

    2022年7月12日
    19
  • 静态路由与默认路由的配置_静态路由和默认路由哪个快

    静态路由与默认路由的配置_静态路由和默认路由哪个快原理简述:1。静态路由:是指用户或网络管理员手工配置的路由信息。当网络拓扑结构或链路状态发生改变时,需要网络管理员手工配置静态路由信息。相比较动态路由协议,静态路由无需频繁的交换各自的路由表,配置简单,比较适合小型、简单的网络环境。不适合大型和复杂的网络环境的原因是:当网络拓扑结构和链路状态发生改变时,网络管理员需要做大量的调整,工作量繁重,而且无法感知错误发生,不易排错。2。默认路由…

    2022年9月25日
    3
  • plsql激活码(永久可用)

    plsql激活码(永久可用)12.07版本的:产品编号ProductCode:kfj6yg6rfyhqcha6cbgs6fsw3kyje7a6qr序列号SerialNumber:276182口令Password:xs374ca

    2022年7月24日
    1.2K
  • GoLang入门1-安装-配置

    GoLang入门1-安装-配置Go的三种安装方式Go有多种安装方式,你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式:Go源码安装:这是一种标准的软件安装方式。对于经常使用Unix类系统的用户,尤其对于开发者来说,从源码安装是最方便而熟悉的。Go标准包安装:Go提供了方便的安装包,支持Windows、Linux、Mac等系统。这种方式适合初学者,可根据自己的系统位数下载好相应的安装包,一路next就可以轻松安装了

    2022年6月25日
    32
  • WSAStartup()函数的使用

    WSAStartup()函数的使用intWSAStartup(__inWORDwVersionRequested,__outLPWSADATAlpWSAData);WSAStartup格式:intPASCALFARW

    2022年7月2日
    25

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号