彻底弄懂Qt的编码(汉字乱码问题及相关函数作用)

彻底弄懂Qt的编码(汉字乱码问题及相关函数作用)测试1新建test工程用于测试,main.c文件内容如下:#include<QCoreApplication>#include<QDebug>intmain(intargc,char*argv[]){QCoreApplicationa(argc,argv);QStringstr_hanzi("百度");//汉字QStringstr_ascii(

大家好,又见面了,我是你们的朋友全栈君。

测试1

新建test工程用于测试,main.c文件内容如下:

#include <QCoreApplication>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QString str_hanzi("百度"); // 汉字
    QString str_ascii("baidu.com"); // 字母

    qDebug() << str_hanzi;
    qDebug() << str_ascii;

    return a.exec();
}

运行, 输出结果如下:
这里写图片描述

不出意料的乱码。

下面开始分析。

此时,源代码main.c的编码是UTF-8 BOM。
这里写图片描述

使用Notepad++查看,编码也是UTF-8 BOM。说明的确是UTF-8编码。

查看目标文件main.obj,目标文件路径如下:
这里写图片描述

使用Notepad++打开,搜索”百度”二字,结果如下:
这里写图片描述
同时可以看到此时Notepad++显示文件内容使用的编码是ANSI,即本地编码,可以正确的显示汉字。那就说明,编译生成*.obj目标文件时,编译器将源码中的字符串由UTF-8 BOM转换成了本地编码。

接下来查看test.exe的内容,同样搜索”百度”二字,如下图:
这里写图片描述
和理论一样,因为.exe文件就是.obj文件链接起来生成的。

到此为止,我们可以看到,源码中的汉字字符串在生成可执行文件的过程中被转换成了本地编码。

那么和乱码有什么关系呢?
我们知道,Qt内部是使用Unicode编码的,即QString保存的是Unicode编码的字符串。所有使用QString的函数都认为QString内部是Unicode字符串。
那么,当test.exe执行时,会读取”百度”字符串,并使用QString::fromLatin1将字符串转换为QString,拉丁文即英文,很显然转换中文会乱码。通过修改QTextCodec::setCodecForLocale(codec);可以修改这个默认的转换函数,将目标字符串视为指定编码的字符串,再转换为QString。

那么,那些QTextCodec类以及QString::fromLocal8bit的作用和原理是什么呢?

先说QSring::fromLocal8bit吧,这个比较简单,意思就是从一个本地编码的字符串生成一个QString字符串(Unicode),这样的话,将该字符串传递给其他函数,就不会出现乱码了。实验之,首先修改程序如下:

#include <QCoreApplication>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QString str_hanzi("百度"); // 汉字
    QString str_ascii("baidu.com"); // 字母

    qDebug() << QString::fromLocal8Bit("百度"); // 修改了此处
    qDebug() << str_ascii;

    return a.exec();
}

输出结果:
这里写图片描述
可以看到它实现了汉字的正常的显示,和理论相同。

那么QTextCodec这个类是做什么的呢?
顾名思义,它的中文名应该是”文本编码转换器”(Text coding converter)或者”文本编解码”(Text code decode),下面是网上流传的一段代码:

QTextCodec *codec = QTextCodec::codecForName("GBK");
QTextCodec::setCodecForTr(codec);
QTextCodec::setCodecForLocale(codec);
QTextCodec::setCodecForCStrings(codec);

下面修改程序:

#include <QCoreApplication>

#include <QDebug>
#include <QTextCodec>
#include <QFile>
int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QTextCodec *codec = QTextCodec::codecForName("GBK");
    QTextCodec::setCodecForTr(codec);

    QString str_hanzi("百度"); // 汉字
    QString str_ascii("baidu.com"); // 字母


    qDebug() << QString::fromLocal8Bit("百度");
    qDebug() << str_ascii;
    qDebug() << QObject::tr("百度");

    return a.exec();
}

输出结果:
这里写图片描述

可以看到,这种方法也能实现正确显示汉字。
但是这种方法的原理是什么?
关键在于QObject::tr()函数。它是翻译函数(translate),同时会进行编码转换。它的默认行为是认为传入的参数是Unicode编码,不需要转换。当你在程序中添加了设置tr编码格式的代码(如上面的程序,设置为GBK)时,会导致编码从你指定的编码(GBK)转换成Unicode。如果把上面的程序中的GBK改成UTF-8,则会乱码,因为该字符串的真正编码是本地编码GBK。实验结果如下图:
这里写图片描述

同理,如果将本地编码设置成其他编码,修改代码如下

#include <QCoreApplication>
#include <QDebug>
#include <QTextCodec>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QTextCodec *codec = QTextCodec::codecForName("UTF-8");
    QTextCodec::setCodecForLocale(codec);

    QString str_hanzi("百度"); // 汉字
    QString str_ascii("baidu.com"); // 字母


    qDebug() << QString::fromLocal8Bit("百度");
    qDebug() << str_ascii;
    qDebug() << QObject::tr("百度");

    return a.exec();
}

这样的话,使用QString::fromLocal8bit的转换就会不正确,结果如下图:
这里写图片描述

出乎意料的是,tr的转换也出错了。将UTF-8改回GBK,tr也还是乱码:
这里写图片描述

于是添加一行QTextCodec::setCodecForTr(codec);,则显示正确。它们之间会相互影响,这是我们没有预料到的,不过还好这不是什么大问题,可以通过显式设置来纠正。

结论

说了那么多,总结如下:
1、exe中的字符串编码始终是本地编码,与源代码文件的编码无关。
2、Qt内部需要使用Unicode编码的字符串才能正确处理(显示等操作)。
3、由于二者不同,所以对于汉字来说,必须经过转换,第一是通过QString::fromLocal8bit函数来转换,第二是通过QTextCodec来转换。但是setTextCodecForTr、setTextCodecForLocale在高版本已被移除。

注意:
上述测试使用的是Qt4.8.5 msvc2010的版本。minGW还未测试,如果能直接在生成exe文件时直接生成Unicode字符串,那就不需要转换了。

另外还有一种防止乱码的方法,此种方法也可以解决国际化问题导致的乱码,就是使用翻译文件。在源码中统一使用英文。在翻译文件中实现不同版本的语言。

不得不提最后一种比较高级的方法:QStringLiteral宏。它可以直接生成Unicode字符串保存在可执行文件中的只读区域。这样运行时不会发生任何转换。可以显著提高程序运行效率。
测试代码如下:

#include <QCoreApplication>
#include <QDebug>

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    QString str_ascii("baidu.com"); // 字母

    qDebug() << QStringLiteral("a百度a");
    qDebug() << str_ascii;

    return a.exec();
}

生成的可执行文件再也找不到”百度”二字了。

Qt帮助文档中说,QStringLiteral需要编译器支持,如支持C++11就具有这种特性。Qt高版本一般也支持。具体性能方面的影响请看Qt的帮助文档。


本文原创首发于公众号Qt未来工程师,点此查看原文,转载请注明出处。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145522.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月17日 上午9:40
下一篇 2022年5月17日 上午9:40


相关推荐

  • 两个节点的最近公共祖先_今日排列三21253

    两个节点的最近公共祖先_今日排列三21253原题链接题目描述如题,给定一棵有根多叉树,请求出指定两个点直接最近的公共祖先。输入格式第一行包含三个正整数 N,M,SN,M,S,分别表示树的结点个数、询问的个数和树根结点的序号。接下来 N-1N−1 行每行包含两个正整数 x, yx,y,表示 xx 结点和 yy 结点之间有一条直接连接的边(数据保证可以构成树)。接下来 MM 行每行包含两个正整数 a, ba,b,表示询问 aa 结点和 bb 结点的最近公共祖先。输出格式输出包含 MM 行,每行包含一个正整数,依次为每一个询问的结果。输入

    2022年8月9日
    3
  • Ubuntu下Anaconda和Pycharm的配置

    Ubuntu下Anaconda和Pycharm的配置1 对于 Ubuntu18 04 一开始会有一个系统默认的 python 解释器 是 3 6 版本 位置在 usr bin python3 6 可以通过在 terminal 中输入 python 或者 python3 来查看 2 安装了 Anaconda3 之后 Anaconda 会自带一个 python 解释器 也是 3 6 版本 位置在 home li anaconda3 bin python3 一旦安装了 Anaconda 这个 python 就会变成默认的 在 terminal 里面直接输入 python 显示的位置就是这个

    2026年3月27日
    2
  • 什么是PCM?它和.wav文件是什么关系?[通俗易懂]

    什么是PCM?它和.wav文件是什么关系?[通俗易懂]什么是PCM?它和.wav文件是什么关系?

    2022年4月20日
    54
  • 数列所有公式大全_finish验证失败是什么意思

    数列所有公式大全_finish验证失败是什么意思请写一个程序,要求维护一个数列,支持以下 6 种操作:(请注意,格式栏 中的下划线 _ 表示实际输入文件中的空格)输入格式第 1 行包含两个数 N 和 M,N 表示初始时数列中数的个数,M 表示要进行的操作数目。第 2 行包含 N 个数字,描述初始时的数列。以下 M 行,每行一条命令,格式参见问题描述中的表格。输出格式对于输入数据中的 GET-SUM 和 MAX-SUM 操作,向输出文件依次打印结果,每个答案(数字)占一行。数据范围与约定你可以认为在任何时刻,数列中至少有 1 个数。输入

    2022年8月9日
    9
  • TechWeb微晚报:第一批小红书“养虾人”已被封号,微信正秘密研发AI智能体

    TechWeb微晚报:第一批小红书“养虾人”已被封号,微信正秘密研发AI智能体

    2026年3月12日
    2
  • linux oracle11g安装步骤_oracle11g32位安装

    linux oracle11g安装步骤_oracle11g32位安装目录Oracle11g安装准备工作…1Oracle11g下载地址:…1Oracle11g联机文档:…1Oracle11gR2数据库安装硬件配置要求目录Linux操作系统中Oracle11g数据库安装过程图文详解Oracle11g下载地址:选择需要的oracle安装文件下载Oracle11g联机文档:可以下载其PDF文档参考(其中的有关Linux安装向导是…

    2025年11月29日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号