俄语输入法键盘_汉字输入法

俄语输入法键盘_汉字输入法隐马尔科夫模型隐马尔可夫模型(HiddenMarkovModel)是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

 隐马尔科夫模型

隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。

俄语输入法键盘_汉字输入法

拼音输入法中可观察的参数就是拼音,隐含的参数就是对应的汉字。

俄语输入法键盘_汉字输入法

那么我们要解决的就是隐马尔可夫的第二个问题:由观察序列求最优的隐藏序列

只需要HMM的三个要素(π,A,B)

参考别人github代码:

https://github.com/LiuRoy/Pinyin_Demo

代码解析如下:

1、模型生成

代码见train/main.py文件,里面的initstarting,initemission,init_transition分别对应于生成隐马尔科夫模型中的初始概率矩阵发射概率矩阵转移概率矩阵,并把生成的结果写入sqlite文件中。

训练用到的数据集是结巴分词里的词库,因为没有训练长句子,最后运行的结果也证明只能适用于短句输入。

 

2、初始概率矩阵(π)

统计初始化概率矩阵,就是找出所有出现在词首的汉字,并统计它们出现在词首的次数,最后根据上述数据算出这些汉字出现在词首的概率,没统计的汉字就认为出现在词首的概率是0,不写入数据库。有一点注意的是为了防止概率计算的时候因为越算越小导致计算机无法比较,所有的概率都进行了自然对数运算。统计的结果如下:

 俄语输入法键盘_汉字输入法

 

3、转移概率矩阵(A)

此处用到的是最简单的一阶隐马尔科夫模型,即认为在一个句子里,每个汉字的出现只和它前面的的一个汉字有关,虽然简单粗暴,但已经可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合,并统计概率。因为这个概率矩阵非常的大,逐条数据写入数据库过慢,后续可以优化为批量写入,提高训练效率。结果如下:

 俄语输入法键盘_汉字输入法

上图展示的一后面出现概率最高的十个字,也挺符合日常习惯。

 

4、发射概率矩阵(B)

通俗点就是统计每个汉字对应的拼音以及在日常情况下的使用概率,已暴举例,它有两个读音:bao和pu,难点就是找bao和pu出现的概率。此处统计用到了pypinyin模块,把字典中的短语转换为拼音后进行概率统计,但是某些地方读音也不完全正确,最后运行的输入法会出现和拼音不匹配的结果。统计结果如下:

俄语输入法键盘_汉字输入法

 

5、viterbi算法实现:

代码建input_method/viterbi.py文件,此处会找到最多十个局部最优解,注意是十个局部最优解而不是十个全局最优解,但是这十个解中最优的那个是全局最优解,代码如下:

 

6、结果展示

运行input_method/viterbi.py文件,简单的展示一下运行结果:

俄语输入法键盘_汉字输入法

 

问题统计:

  1. 统计字典生成转移矩阵写入数据库的速度太慢,运行一次要将近十分钟。
  2. 发射概率矩阵数据不准确,总有一些汉字的拼音不匹配。
  3. 训练集太小,实现的输入法不适用于长句子。

 别人训练好的 hmm 拼音输入法代码:

本博客摘抄如下博客:

https://github.com/THUzhangga/HMM_shurufa

https://github.com/LiuRoy/Pinyin_Demo

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/166790.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • IsoAlgo3d – A PCF 3D Viewer for Desktop, Tablet and Smart phone

    IsoAlgo3d – A PCF 3D Viewer for Desktop, Tablet and Smart phone

    2022年3月8日
    41
  • python操作Windows窗口程序

    python操作Windows窗口程序场景定时获取数据接口数据写入Excel表格,Excel需要被其他程序使用,需要处于开启状态。Pywin32首先,安装一个Pywin32,为python提供访问WindowsAPI的扩展,提供了齐全的windows常量、接口、线程以及COM机制等等。其次,为了方面查找目标窗口的句柄,可以下载一个微软自家的Spy++,这玩意儿满大街都是。有了它,还能很方便的查看窗体的消息。句柄是…

    2022年7月14日
    17
  • sudoers问题[通俗易懂]

    sudoers问题[通俗易懂]由于自己修改sudoers文件失误,导致切换root用户报错公司同事劝我重新装系统,经过我不懈的努力,今天下午终于解决了这个问题1.将/etc/sudoers的owner和组,修改为admin:chownroot:admin/etc/sudoers然后sudo又出现了一个新的问题2.继续su切换到root用户,修改权限suchmod5…

    2022年6月20日
    25
  • 字符串常量池_字符串常量池溢出

    字符串常量池_字符串常量池溢出我们知道字符串的分配和其他对象分配一样,是需要消耗高昂的时间和空间的,而且字符串我们使用的非常多。JVM为了提高性能和减少内存的开销,在实例化字符串的时候进行了一些优化:使用字符串常量池。每当我们创建字符串常量时,JVM会首先检查字符串常量池,如果该字符串已经存在常量池中,那么就直接返回常量池中的实例引用。如果字符串不存在常量池中,就会实例化该字符串并且将其放到常量池中。由于String字符串…

    2022年7月28日
    8
  • LoadRunner 压力测试

    LoadRunner 压力测试一、LoadRunner安装1.复制一下地址,然后打开迅雷,新建,选择一个磁盘大的空间,显示4.02G的ISO文件http://www.genilogix.com/downloads/loadrunner/loadrunner-11.isohttp://h30302.www3.hp.com/prdownloads/Software_HP_LoadRunner_11.00_Sim_Chines

    2022年7月18日
    12
  • OpenSSL密码库算法笔记——第5.4.13章 椭圆曲线点的压缩

    OpenSSL密码库算法笔记——第5.4.13章 椭圆曲线点的压缩首先来看看什么是点的压缩。椭圆曲线上的任一仿射点(x,y)(非无穷远点)都可以压缩成利用其y坐标的最后一比特(记为y*)和x坐标来表示,即(x,y*),这就是点的压缩。反过来,利用(x,y*)恢复y坐标,还原仿射点(x,y)的过程就称为点的解压缩。利用点的压缩可以减少存储和传输时的数据量,但增加了数据处理时间。代码中用参数point_conver…

    2022年7月20日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号