【浅谈】日文的文本等出现乱码的情况以及解决办法「建议收藏」

【浅谈】日文的文本等出现乱码的情况以及解决办法「建议收藏」参考链接Word里日文文档乱码问题ansi编码字符集和编码的区别.GB2312是一个字符集,那ANSI是编码,但是他俩是什么个意思?日文的文本出现乱码前言遇到了一个txt日文文本,出现大面积乱码。而且不懂日文,乱码的话,连翻译软件也无法使用。【上图为测试文本】以下的解释与解决办法为自己的想法等,并不一定准确。目录1.简单的解释2.如何解决3.附件一、简单的…

大家好,又见面了,我是你们的朋友全栈君。

参考链接

日文的文本出现乱码

在这里插入图片描述

前言

遇到了一个txt日文文本,出现大面积乱码。而且不懂日文,乱码的话,连翻译软件也无法使用。【上图为测试文本】
以下的解释与解决办法等为自己的想法,并不一定准确。

目录

1. 简单的解释
2. 如何解决
3. 附件
4. 总结

一、简单的解释

1. Wins10 文本文件的默认编码是 ANSI 编码【统称】。直接保存就是这个编码,当然可以自行更改 Unicode 码等。

在日文操作系统中,ANSI 编码代表的是 Shift_JIS 编码;在简体中文操作系统中,ANSI 编码代表 GBK 编码。所以我们打开一个日语环境下保存为 ANSI 编码文本时,在中文环境下显示会出现乱码。日文编码对应日文字,中文编码应该对应的中文字【这可以解释为什么打开的文本都是看不懂,但是确实为汉字】;日文原来的编码以中文编码的环境肯定显示有问题,导致的结果就是出现乱码。

2. 如何较为直观的解释这个过程呢【基于 Python 简易代码】

模拟在日文环境下保存,在中文环境下显示的过程:

创建一个 raw 变量,里面是一句日文。

>>>raw = '最初にお読みください'
'最初にお読みください'

这个操作有点像,你在文本中输入看的懂的文字。

将 raw 编码为 ansi 编码,也就是对应日文系统下的 Shift_JIS 编码。

>>> raw_encode = raw.encode('shift-jis')
>>> raw_encode
b'\x8d\xc5\x8f\x89\x82\xc9\x82\xa8\x93\xc7\x82\xdd\x82\xad\x82\xbe\x82\xb3\x82\xa2'

这个操作相当于将文件以二进制形式保存在电脑上。

将 raw_encode 变量以 gbk 的形式解码【解码与编码是相对的】

>>> raw_encode.decode('gbk')
'嵟弶偵偍撉傒偔偩偝偄'

这个操作则对应了用户在中文环境中,打开日文环境下所保存文本时的情景,理所当然的出现了乱码。

还原过程,当然就是反过来操作一遍

>>> raw = '嵟弶偵偍撉傒偔偩偝偄'
>>> raw_encode  = raw.encode('gbk')
>>> raw_encode.decode('shift-jis')
'最初にお読みください'

通过这样的说明,我们就知道了背后大致的原理,那么就可以解决文本出现乱码的情况了。
【当然这个例子是基于原来编码是 shift-jis 编码的,如果是别的编码这样操作就会出现问题】

二、如何解决

  1. 直接用浏览器打开文本文件。
    这个有的时候能成功,有点时候失败,我也不清楚,感觉文字越长越复杂,越容易直接翻译为原文【chrome内核】;IE的话右键改个编码有时候也行的。可以尝试一下。
  2. 文件名解析&批量文件名重命名 v1.3
    确实好用,方便。懒人必备。其它功能可以自行研究。下载方式就放在最后。
    在这里插入图片描述
  3. 可以自己动手写解码程序
>>> a = '''偁偺偹偣偐偄偼偠偮偼偮側偑偭偰偄傞傫偩偭偰 偩偐傜偨偲偊偼側傟偰偟傑偭偰傕傒傫側傂偲傝偠傖側偄 偨偄偣偮側傂偲偲偼偄偮傑偱傕偢偭偲偳偙偐偱偮側偑偭偰偄傞偺偝'''
>>> a.encode('gbk').decode('shift-jis')
'あのねせかいはじつはつながっているんだって\nだからたとえはなれてしまってもみんなひとりじゃない\nたいせつなひととはいつまでもずっとどこかでつながっているのさ'
>>> print(a.encode('gbk').decode('shift-jis'))
あのねせかいはじつはつながっているんだって
だからたとえはなれてしまってもみんなひとりじゃない
たいせつなひととはいつまでもずっとどこかでつながっているのさ

三、附件

附件

提取码:g9fp

四、总结

随便写一写,并记录在博客中。

点我回顶部

 
 
 
 
 
 
 
Fin.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130887.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 更改nginx默认端口_nginx查看端口

    更改nginx默认端口_nginx查看端口1、进入nginx.conf文件2、修改listen后的默认端口号改为想改的端口号(如下图)3、设置防火墙允许通过修改的端口号1、firewall-cmd–zone=public–add-port=90/tcp–permanent2、firewall-cmd–reload3、firewall-cmd–query-port=90/tcp4、在基于CentOS或RHEL的Linux发行版中,您需要安装policycoreutils软件包并添加SELinux对N

    2025年10月7日
    5
  • tomcat 配置pfx证书

    tomcat 配置pfx证书server.xmltomcat根目录创建cert文件夹,把文件xx.pfx文件放进去<Connectorport=”80″protocol=”HTTP/1.1″connectionTimeout=”20000″redirectPort=”443″URIEncoding=”UTF-8″/><C…

    2022年5月4日
    161
  • 你还不知道Java异或运算符的妙用?

    你还不知道Java异或运算符的妙用?异或(XOR)运算符当两个boolean类型的变量,locked^deleted,如果locked与deleted是不同的,返回true。如果两个操作数是相同的,则返回false。因此,当我们需要同时检查两个不成立的条件时,可以使用异或运算符号。假设我们有两个条件,A和B,下面显示了A^B的可能值:A^B操作等于(A&&!B)||(!A&&B)。在Java中使用接下来让我看一下Java中的异或操作,当然我们可以.

    2022年9月1日
    5
  • linux之管道

    1.进程间通信概述进程是一个独立的资源分配单元,不同进程之间的资源是独立的,没有关联,不能在一个进程中直接访问另一个进程的资源。进程不是孤立的,不同的进程需要进行信息的交互和状态的传递等,因此需要

    2021年12月28日
    54
  • xshell连接虚拟机使用的是什么连接模式_虚拟机安装ssh服务

    xshell连接虚拟机使用的是什么连接模式_虚拟机安装ssh服务XShell使用前提:1.对应的需要连接的虚拟机在vm中开机着2.下载并安装好XShell3.虚拟机网络连通(具体可看(5条消息)Hadoop(1)——Hadoop集群构建(4)——Linux系统网络配置_连胜是我偶像的博客-CSDN博客使用教程:1.点击新建,输入名称(该名称为xshell中使用的名称),输入主机(对应虚拟机的ip地址)2.右键新建的会话,点击打开3.输入账号密码进行登录4.成功标志…

    2025年11月19日
    6
  • 常见的IT自动化运维工具有哪些?推荐一款好用的?「建议收藏」

    自动化运维是IT运维工作的升华,其不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。所以作为IT运维人员,一定要知道常见的IT自动化运维工具有哪些?哪款比较好用?常见的IT自动化运维工具有哪些?1、Puppet2、SaltStack3、Ansible4、PSSH5、阿里云OOS6、行云管家【重点推荐】一款好用的自动化运维工具-行云管家!1、自动化运维之预设脚本库脚本是实现自动化运维的基础,运维人员经常通过脚本来替代以往一些需要手工操作的业务,提升工作

    2022年4月14日
    163

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号