perl正则表达式中文问题

perl正则表达式中文问题
 
在使用perl从地址中提取街道的时候遇到了个很诡异的问题
同样一个地址,连续进行两次匹配出来的结果居然不一样
一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事
看来perl的中文处理能力还是有待加强
后来在进行正则匹配之前尝试用了useencoding”gbk”; 
还算运气不错,居然搞定了
useencoding”gbk”; 
$address=~/^(.*(市|区))?(.*?(街|路|道)).*

大家好,又见面了,我是你们的朋友全栈君。

 

在使用perl从地址中提取街道的时候遇到了个很诡异的问题

同样一个地址,连续进行两次匹配出来的结果居然不一样

一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事

看来perl的中文处理能力还是有待加强

后来在进行正则匹配之前尝试用了use encoding “gbk”; 

还算运气不错,居然搞定了

use encoding “gbk”; 

$address=~/^(.*(市|区))?(.*?(街|路|道)).*?$/s;

no encoding;

后面那个no encoding也别忘记了,否则本来能跑的代码可能就因为加了

一个use encoding “gbk”; 而变的错误满天飞了

补充:后来发现又有问题了:(,看来用这个方法也不行,哎,状态真差

再次补充:解决方法用Encode模块的encode和decode方法进行编码和转码,先将正则表达式和需要匹配的字符串都从gbk转成utf8编码,然后进行匹配,匹配出来的结果再转成gbk返回(此方案来源于perl首席专家,在此向他表示感谢)

来源:http://www.bfor.cn/fish/archive/138523.aspx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138371.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • django request.get_RequestParam

    django request.get_RequestParamDjango在接收到http请求之后,会根据http请求携带的参数以及报文信息创建一个WSGIRequest对象,并且作为视图函数第一个参数传给视图函数。也就是我们经常看到的request参数。在这个

    2022年7月31日
    7
  • Java数据结构与算法(排序)——基数排序(LSD)

    Java数据结构与算法(排序)——基数排序(LSD)一、基本思想先从最低位开始排序,再对次低位排序,直到对最高位排序后得到一个有序序列(位数不同时高位补0)。二、举例分析假设有一串数列:73,22,93,43,55,14,28,65,39,81。排序过程如下:(1)先根据个位进行排序,得到:0——1——812——223——73,93,434——145——55,656——7——8——289——39(2…

    2022年5月6日
    49
  • 规范约束条件

    规范约束条件我们在开发时往往会对泛型指定约束条件,只有类型参数符合条件的才允许用在这个泛型上面。但是有时我们会定义过多或过少的约束条件,过多的约束条件会导致其他开发人员在使用你所编写的方法或类时做很多的工作以满足这些约束,过少的约束又会导致程序在运行的时候必须做很多的检查,并执行更多的强制类型转化操作,有时我们还需要使用反射生成运行期错误,来防止用户误用这个类。要解决这些问题,我们就必须把确实需要的约束写出来…

    2022年10月13日
    5
  • Django 模型_django反向生成model

    Django 模型_django反向生成model前言随着项目越来越大,采用写原生SQL的方式在代码中会出现大量的SQL语句,那么问题就出现了:1.SQL语句重复利用率不高,越复杂的SQL语句条件越多,代码越长。会出现很多相近的SQL语句。2.

    2022年7月30日
    7
  • 创业公司办公网络安全稳定访问机房网络方案1:by×××

    创业公司办公网络安全稳定访问机房网络方案1:by×××

    2021年8月30日
    62
  • Linux文件误删除恢复操作「建议收藏」

    Linux文件误删除恢复操作「建议收藏」本文参考http://write.blog.csdn.net/postedit?ticket=ST-491405-OGjDDusZeyMgVQ7bHW7f-passport.csdn.net前言作为一个多用户、多任务的操作系统,Linux下的文件一旦被删除,是难以恢复的。尽管删除命令只是在文件节点中作删除标记,并不真正清除文件内容,但是其他用户和一些有写盘动作的进程会很快覆盖这些数据。不过……

    2026年1月30日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号