俄语输入法键盘_汉字输入法

俄语输入法键盘_汉字输入法隐马尔科夫模型隐马尔可夫模型(HiddenMarkovModel)是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

 隐马尔科夫模型

隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。

俄语输入法键盘_汉字输入法

拼音输入法中可观察的参数就是拼音,隐含的参数就是对应的汉字。

俄语输入法键盘_汉字输入法

那么我们要解决的就是隐马尔可夫的第二个问题:由观察序列求最优的隐藏序列

只需要HMM的三个要素(π,A,B)

参考别人github代码:

https://github.com/LiuRoy/Pinyin_Demo

代码解析如下:

1、模型生成

代码见train/main.py文件,里面的initstarting,initemission,init_transition分别对应于生成隐马尔科夫模型中的初始概率矩阵发射概率矩阵转移概率矩阵,并把生成的结果写入sqlite文件中。

训练用到的数据集是结巴分词里的词库,因为没有训练长句子,最后运行的结果也证明只能适用于短句输入。

 

2、初始概率矩阵(π)

统计初始化概率矩阵,就是找出所有出现在词首的汉字,并统计它们出现在词首的次数,最后根据上述数据算出这些汉字出现在词首的概率,没统计的汉字就认为出现在词首的概率是0,不写入数据库。有一点注意的是为了防止概率计算的时候因为越算越小导致计算机无法比较,所有的概率都进行了自然对数运算。统计的结果如下:

 俄语输入法键盘_汉字输入法

 

3、转移概率矩阵(A)

此处用到的是最简单的一阶隐马尔科夫模型,即认为在一个句子里,每个汉字的出现只和它前面的的一个汉字有关,虽然简单粗暴,但已经可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合,并统计概率。因为这个概率矩阵非常的大,逐条数据写入数据库过慢,后续可以优化为批量写入,提高训练效率。结果如下:

 俄语输入法键盘_汉字输入法

上图展示的一后面出现概率最高的十个字,也挺符合日常习惯。

 

4、发射概率矩阵(B)

通俗点就是统计每个汉字对应的拼音以及在日常情况下的使用概率,已暴举例,它有两个读音:bao和pu,难点就是找bao和pu出现的概率。此处统计用到了pypinyin模块,把字典中的短语转换为拼音后进行概率统计,但是某些地方读音也不完全正确,最后运行的输入法会出现和拼音不匹配的结果。统计结果如下:

俄语输入法键盘_汉字输入法

 

5、viterbi算法实现:

代码建input_method/viterbi.py文件,此处会找到最多十个局部最优解,注意是十个局部最优解而不是十个全局最优解,但是这十个解中最优的那个是全局最优解,代码如下:

 

6、结果展示

运行input_method/viterbi.py文件,简单的展示一下运行结果:

俄语输入法键盘_汉字输入法

 

问题统计:

  1. 统计字典生成转移矩阵写入数据库的速度太慢,运行一次要将近十分钟。
  2. 发射概率矩阵数据不准确,总有一些汉字的拼音不匹配。
  3. 训练集太小,实现的输入法不适用于长句子。

 别人训练好的 hmm 拼音输入法代码:

本博客摘抄如下博客:

https://github.com/THUzhangga/HMM_shurufa

https://github.com/LiuRoy/Pinyin_Demo

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/166790.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • matlab的三维绘图和四维绘图「建议收藏」

    matlab的三维绘图和四维绘图「建议收藏」一、三维绘图1.曲线图plot3(X1,Y1,Z1,…):以默认线性属性绘制三维点集(X1,Y1,Z1)确定的曲线 plot3(X1,Y1,Z1,LineSpec):以参数LineSpec确定的线性属性绘制三维点集 plot3(X1,Y1,Z1,’PropertyName’,PropertyValue,…):根据指定的属性绘制三维曲线theta=0:0.01*pi:2*…

    2022年10月11日
    3
  • micro hdmi引脚定义义_Unity SRP 1.自定义管线「建议收藏」

    micro hdmi引脚定义义_Unity SRP 1.自定义管线「建议收藏」翻译汇总文章:HipHopBoy:UnitySRP系列翻译汇总​zhuanlan.zhihu.com原文链接:https://catlikecoding.com/unity/tutorials/scriptable-render-pipeline/custom-pipeline/​catlikecoding.com原作者:JasperFlick由于水平有限,可能翻译的会有错误,请大家在评论…

    2025年5月28日
    6
  • 充分条件和必要条件的口诀_充分必要条件的例子100个

    充分条件和必要条件的口诀_充分必要条件的例子100个充分条件:如果条件A是结论B的充分条件:A与其他条件是并连关系,即A、C、D….中任意一个存在都可以使得B成立(就像是个人英雄主义),如下图:<imgsrc="https://p

    2022年8月6日
    7
  • 用于安装python第三方库的工具是_Python第三方库安装

    用于安装python第三方库的工具是_Python第三方库安装Python 有一个全球社区 在这里 我们可以搜索 Python 第三方库的任何话题 PyPI 的全称是 Python 包指数指 Python 包的指数 它是由 PSF Python 软件基金会 和显示全球 Python 计算生态系统 我们需要学会使用 PyPI 的主要网站 搜索和发现我们使用第三方 Python 库和关心 例如 如果您正在开发一个 blockchain related 程序 您需要使用 Python 的计算生态三个步

    2025年7月3日
    4
  • R语言做文本挖掘 Part4文本分类

    R语言做文本挖掘 Part4文本分类

    2022年1月10日
    42
  • Java中CAS详解

    Java中CAS详解在JDK5之前Java语言是靠synchronized关键字保证同步的,这会导致有锁锁机制存在以下问题:(1)在多线程竞争下,加锁、释放锁会导致比较多的上下文切换和调度延时,引起性能问题。(2)一个线程持有锁会导致其它所有需要此锁的线程挂起。(3)如果一个优先级高的线程等待一个优先级低的线程释放锁会导致优先级倒置,引起性能风险。volatile是不错的机制,但是volatile不能保证原子性。因此对于同步最终还是要回到锁机制上来。独占锁是一种悲观锁,synchronized就是一种独占锁,会导

    2022年7月7日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号