06.C2W1.Auto-correct

往期文章请点这里

目录

  • Overview
  • Autocorrect
    • What is autocorrect?
    • How it works
  • Building the model
  • Minimum edit distance
  • Minimum edit distance algorithm
  • Minimum edit distance Part 2
  • Minimum edit distance Part 3

往期文章请点 这里

Overview

本周学习目标:
●What is autocorrect?
●Building the model
●Minimum edit distance
●Minimum edit distance algorithm
在这里插入图片描述

Autocorrect

What is autocorrect?

Autocorrect 是一个自动更正输入错误的功能,通常集成在智能手机、电脑或其他电子设备的输入法中。当用户输入文本时,Autocorrect 会检测到拼写错误或语法错误,并自动更正它们,以提高输入效率和准确性。这个功能通过内置的字典和算法来识别和纠正错误,有时还会根据用户的输入习惯和常用词汇进行个性化调整。然而,Autocorrect 有时也会因为误解用户的意图而更改正确的单词或短语,导致一些有趣的错误或误解。
在这里插入图片描述
中文输入法其实也有,例如sougou的模糊音设置(兰方人表示很赞)
在这里插入图片描述
正确的autocorrect
在这里插入图片描述
错误的autocorrect,改的单词没有问题,但是不符合上下文
在这里插入图片描述

How it works

  1. Identify a misspelled word
  2. Find strings n edit distance away
  3. Filter candidates
  4. Calculate word probabilities

示例:
先找到一个错误单词:deah
找到n个候选编辑距离:
_eah
d_ar
de_r

etc
过滤候选词:
yeah
dear
dean

etc
计算候选词的概率,选最大那个:dear

Building the model

1.Identify a misspelled word
最简单的方法就是通过词库判断,当然这个判断不一定准确:

if word not in vocab:
	misspelled =True

2.Find strings n edit distance away
这里n可以是1,2,3,等等。
这里的编辑是指:an operation performed on a string to change it,主要包括:
Insert (add a letter),例如对于‘to’在不同位置插入不同的单个字母可以得到不同单词‘top’, ‘two’
Delete (remove a letter),例如‘hat’在不同位置删除不同的单个字母可以得到不同结果: ‘ha’, ‘at’, ‘ht’
Switch (swap 2 adjacent letters),例如letters)‘eta’交换任意两个字母的位置可以得到: ‘eat’,‘tea’,这里指的是交换两个字母的位置,类似‘ate’是不符合交换这个概念的。
Replace (change 1 letter to another),例如‘jaw’替换任意一个字母得到:‘jar’,‘paw’,…
这个步骤就是根据给定的字符串,使用以上四种编辑方式,找出所有可能在n个编辑距离的结果,形成候选词列表
3.Filter candidates
对候选词列表进行过滤,这里直接简单粗暴的使用第一步中的方法,将候选词列表中不在词库的单词去掉。
4.Calculate word probabilities
Example: “I am happy because I am learning”
假设语料库就是这个句子,则单词概率可以从下表计算:
在这里插入图片描述
计算公式为:
P ( w ) = C ( w ) V P(w)=\cfrac{C(w)}{V} P(w)=VC(w)
例如单词am的概率为: P ( a m ) = C ( w ) V = 2 7 P(am)=\cfrac{C(w)}{V}=\cfrac{2}{7} P(am)=VC(w)=72
在autocorrect中,我们只需要找到单词概率最高的那个候选词即可。

Minimum edit distance

主要内容:
● How to evaluate similarity between 2 strings?
● Minimum number of edits needed to transform 1 string
into the other
最小编辑距离在以下任务有应用:Spelling correction, document similarity, machine
translation, DNA sequencing, and more
已知的编辑操作有三种:Insert,Delete ,Replace (这里吧Switch给剔除了,估计这个操作复杂度挺高)

计算单词play到stay的编辑次数:
p → s : replace
l → t : replace
一共两次
除了考虑编辑次数,还需要考虑编辑的代价,例如:

编辑操作编辑代价
Insert1
Delete1
Replace2

上面play到stay的编辑代价为:2×2=4
我们需要最小化编辑距离就是要最小化所有所需编辑代价的总和。
例子:
如果要对很长的单词、甚至超长DNA序列找最小编辑距离:
在这里插入图片描述
如果采用枚举的方式将所有操作对字符串序列进行遍历,会使用很长时间。
下面将讲解表格法(动态规划)来加速枚举所有可能的字符串和编辑操作。

Minimum edit distance algorithm

Source: play → Target: stay
将源单词和目标单词按以下方式排列:
在这里插入图片描述
每个单词的起始处加上井号,我们的目标是填充中间的空白矩阵 D D D
在这里插入图片描述
D[2,3] = pl → sta,表示pl到sta的最小距离,这里pl是单词play的前两个字母,sta是目标单词stay的前三个字母,也可以表示为:D[2,3] = source[:2] → target[:3],更通用的形式是
D [ i , j ] = s o u r c e [ : i ] → t a r g e t [ : j ] D[ i , j ] = source[ : i ] → target[ : j] D[i,j]=source[:i]target[:j]
当填充到矩阵的右下角D[m,n]的时候,就得到了整个字符串的最小编辑距离。
D [ m , n ] = s o u r c e → t a r g e t D[ m , n ] = source → target D[m,n]=sourcetarget
在这里插入图片描述
填充顺序是从左上角开始,向下再向右:
在这里插入图片描述
下面来看具体步骤:
#号代表空白字符,从空白到空白字符(# → #)编辑代价为0:
在这里插入图片描述
从p到空白字符编辑操作是delete,编辑代价是1:
在这里插入图片描述
从空白字符到s编辑操作是insert,编辑代价是1:
在这里插入图片描述
从p到s编辑操作可有多种
1.insert+ delete(p → ps → s),编辑代价是2:
2.delete+ insert(p → # → s),编辑代价是2:
3.replace(p → s),编辑代价是2:
其实这些不同编辑操作得到的2是基于前面算出来的结果进行计算得到的,例如第一种操作中的插入s已经算过了就是1,然后是删除p也是1,最后加起来就是2,路径是紫色+一个删除;第二种操作是蓝色+一个插入
对于第三种,我们可以看做是从空白处出发,直接到替换操作,其代价是0+2。
在这里插入图片描述
可以看到,整个填充过程是基于之前的计算结果来进行的,下面我们将把这一过程通用化为一个公式,以便于填充矩阵的剩余部分。

Minimum edit distance Part 2

这里我们来填写第一列的内容:
在这里插入图片描述

使用以下公式:
D [ i , j ] = D [ i − 1 , j ] + d e l _ c o s t D[ i , j ] = D [ i-1, j ] + del\_cost D[i,j]=D[i1,j]+del_cost
在这里插入图片描述
D [ 4 , 0 ] D[4,0] D[4,0]处,得到的是从play到空白字符串的最小编辑距离,相当于删除4个字母的成本。
同样的对于第一行,使用以下公式:
D [ i , j ] = D [ i , j − 1 ] + i n s _ c o s t D[ i , j ] = D [ i , j -1 ] + ins\_cost D[i,j]=D[i,j1]+ins_cost
可以得到:
在这里插入图片描述
进一步给出通用公式:
D [ i , j ] = { D [ i − 1 , j ] + del_cost D [ i , j − 1 ] + ins_cost D [ i − 1 , j − 1 ] + { rep_cost ; if  s r c [ i ] ≠ t a r [ j ] 0 ; if  s r c [ i ] = t a r [ j ] D[i, j] = \begin{cases} D[i-1, j] + \text{del\_cost} \\ D[i, j-1] + \text{ins\_cost} \\ D[i-1, j-1] + \begin{cases}\text{rep\_cost};& \text{if } src[i] \neq tar[j]\\0; & \text{if } src[i] = tar[j]\end{cases} \\ \end{cases} D[i,j]= D[i1,j]+del_costD[i,j1]+ins_costD[i1,j1]+{rep_cost;0;if src[i]=tar[j]if src[i]=tar[j]
例如:
在这里插入图片描述

D [ i − 1 , j ] + 1 = 2 D [ i , j − 1 ] + 1 = 2 D [ i − 1 , j − 1 ] + 2 = 2 } min = 2 \left.\begin{matrix} D[i-1, j] + 1 = 2\\ D[i, j-1] + 1 = 2\\ D[i-1, j-1] + 2 = 2 \end{matrix}\right\}\text{min} = 2 D[i1,j]+1=2D[i,j1]+1=2D[i1,j1]+2=2 min=2
接下来填充剩余部分:
在这里插入图片描述
用热图显示,可以观察到,由于两个单词最后两个字母都是ay,所以对角线的编辑距离代价到4之后就不再变化了。
在这里插入图片描述

Minimum edit distance Part 3

总结需要用到的三个东西:
●Levenshtein distance
●Backtrace
●Dynamic programming

Levenshtein distance(莱温斯坦距离):
莱温斯坦距离是一种度量两个序列(例如两个字符串)差异的方法,通过计算将一个序列转换为另一个序列所需的最少单字符编辑(插入、删除或替换)次数。
在Minimum edit distance问题中,Levenshtein distance提供了一种量化两个字符串之间差异的标准。

Backtrace(回溯):
在动态规划问题中,回溯是一种从最终结果反向工作到初始状态的过程,目的是找到达到该结果的路径或解决方案。
对于Minimum edit distance,回溯可以帮助我们从动态规划表的最终状态开始,逆向追踪出将一个字符串转换为另一个字符串所需的具体编辑操作序列。

Dynamic programming(动态规划):
动态规划是一种算法策略,用于解决具有重叠子问题和最优子结构特性的问题。它通过将问题分解为更小的子问题,并将子问题的解存储起来(通常是在表格中),以避免重复计算,从而提高效率。
在计算Minimum edit distance时,动态规划用于构建一个表格,其中每个单元格代表将两个字符串的前i个字符和前j个字符转换所需的最小编辑次数。通过填充这个表格,我们可以找到将整个字符串转换所需的最小编辑次数。

这三个概念在Minimum edit distance问题中的应用通常遵循以下步骤:

  1. 使用动态规划构建一个表格,其中表格的每个元素D[i, j]代表将源字符串的前i个字符转换为目标字符串的前j个字符所需的最小编辑次数。
  2. 通过比较源字符串和目标字符串的相应字符,根据是否需要插入、删除或替换字符来更新表格中的值。
  3. 一旦表格被完全填充,最终的最小编辑距离就是表格中对应于两个字符串长度的元素D[m, n]的值,其中m和n分别是两个字符串的长度。
  4. 如果需要找到实际的编辑序列,可以通过回溯从D[m, n]开始,逆向追踪到表格的起点,以确定哪些编辑操作被执行了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/781983.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue 使用 @click 绑定点击事件

https://andi.cn/page/621505.html

oracle数据库默认表空间详解

文章目录 oracle数据库默认表空间列表 oracle数据库默认表空间列表 系统表空间(System Tablespace) 系统表空间包含了系统级别的元数据,如数据字典、系统表和存储过程等。例如SYSTEM表空间用于保存数据库的数据字典、PL/SQL程序的源代码和解释…

通信协议_Modbus协议简介

概念介绍 Modbus协议:一种串行通信协议,是Modicon公司(现在的施耐德电气Schneider Electric)于1979年为使用可编程逻辑控制器(PLC)通信而发表。Modbus已经成为工业领域通信协议的业界标准(De f…

04.C1W3.Vector Space Models

往期文章请点这里 目录 Vector Space ModelsWord by Word and Word by DocWord by Document DesignWord by Document DesignVector Space Euclidean DistanceEuclidean distance for n-dimensional vectors Euclidean distance in PythonCosine Similarity: IntuitionCosine S…

验证回文串-string题目

用双指针&#xff0c;left right从两头往中间对比&#xff0c;不是字母的都略过&#xff0c;比的时候化成小写字母 125. 验证回文串 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:bool isPalindrome(string s) {if(s.size() < 1)return true;int left …

vue-org-tree搜索到对应项高亮展开

效果图&#xff1a; 代码&#xff1a; <template><div class"AllTree"><el-form :inline"true" :model"formInline" class"demo-form-inline"><el-form-item><el-input v-model"formInline.user&quo…

Git详细安装和使用教程

文章目录 准备工作-gitee注册认识及安装GitGit配置用户信息本地初始化Git仓库记录每次更新到仓库查看及切换历史版本Git忽略文件和查看文件状态Git分支-查看及切换Git分支-创建分支Git分支-合并及删除分支Git分支-命令补充Git分支-冲突需求: 准备工作-gitee注册 传送门: gite…

zabbix 与 grafana 对接

一.安装 grafana 1.初始化操作 初始化操作 systemctl disable --now firewalld setenforce 0 vim /etc/selinux/config SELINUXdisabled 2.上传数据包并安装 cd /opt grafana-enterprise-9.4.7-1.x86_64.rpm #上传软件包 yum localinstall -y grafana-enterprise-9.4.7-1…

Django QuerySet对象,exclude()方法

模型参考上一章内容&#xff1a; Django QuerySet对象&#xff0c;filter()方法-CSDN博客 exclude()方法&#xff0c;用于排除符合条件的数据。 1&#xff0c;添加视图函数 Test/app11/views.py from django.shortcuts import render from .models import Postdef index(re…

身边的故事(十四):阿文的故事:再买房

短短的一年多时间里&#xff0c;阿文仿佛从人生低谷完全走出来了。各种眼花缭乱的操作和处理事情方式让人觉得不可思议&#xff0c;是不是一个人大手大脚花钱惯了&#xff0c;让他重新回到艰苦朴素的日子是不是比死都难受呢&#xff1f;又或者像我这种靠勤勤恳恳的打工人是无法…

SpringMVC常见的注解

一、Spring MVC Spring Web MVC是基于ServletAPI构建的原始web 框架&#xff0c;一开始就包含在Spring 框架中&#xff0c;通常被称为“Spring MVC”。 1.MVC 是什么&#xff1f; MVC(Model、View、Controller&#xff09;是软件工程中的一种软件架构设计模型。它把软件系统分…

基于深度学习LightWeight的人体姿态之行为识别系统源码

一. LightWeight概述 light weight openpose是openpose的简化版本&#xff0c;使用了openpose的大体流程。 Light weight openpose和openpose的区别是&#xff1a; a 前者使用的是Mobilenet V1&#xff08;到conv5_5&#xff09;&#xff0c;后者使用的是Vgg19&#xff08;前10…

Flink SQL kafka连接器

版本说明 Flink和kafka的版本号有一定的匹配关系&#xff0c;操作成功的版本&#xff1a; Flink1.17.1kafka_2.12-3.3.1 添加kafka连接器依赖 将flink-sql-connector-kafka-1.17.1.jar上传到flink的lib目录下 下载flink-sql-connector-kafka连接器jar包 https://mvnreposi…

python实现接口自动化

代码实现自动化相关理论 代码编写脚本和工具实现脚本区别是啥? 代码&#xff1a; 优点&#xff1a;代码灵活方便缺点&#xff1a;学习成本高 工具&#xff1a; 优点&#xff1a;易上手缺点&#xff1a;灵活度低&#xff0c;有局限性。 总结&#xff1a; 功能脚本&#xff1a;工…

找不到x3daudio1_7.dll怎么修复?一招搞定x3daudio1_7.dll丢失问题

当你的电脑突然弹出提示&#xff0c;“找不到x3daudio1_7.dll”&#xff0c;这时候你就需要警惕了。这往往意味着你的电脑中的程序出现了问题&#xff0c;你可能会发现自己无法打开程序&#xff0c;或者即便打开了程序也无法正常使用。因此&#xff0c;接下来我们要一起学习一下…

07浅谈大语言模型可调节参数tempreture

浅谈temperature 什么是temperature&#xff1f; temperature是大预言模型生成文本时常用的两个重要参数。它的作用体现在控制模型输出的确定性和多样性&#xff1a; 控制确定性&#xff1a; temperature参数可以控制模型生成文本的确定性&#xff0c;大部分模型中temperatur…

1、Java入门(cmd使用)+ jdk的配置

文章目录 前言一、常见的CMD命令1 盘符+冒号:D:---- 切换到D盘根目录下(注意要英文冒号才行)2 查看目录下内容dir --- 查看当前目录下的所有内容(包括文件夹、各种文件、exe程序、隐藏文件等所有都会查看到)dir 目录名(或路径)3 cd 目录(或者路径)--- 进入到指定目录…

探索人工智能在电子商务平台与游戏发行商竞争中几种应用方式

过去 12 年来&#xff0c;电脑和视频游戏的发行策略发生了巨大变化。数字游戏的销量首次超过实体游戏的销量 在20132020 年的封锁进一步加速了这一趋势。例如&#xff0c;在意大利&#xff0c;封锁的第一周导致数字游戏下载量 暴涨174.9%. 展望未来&#xff0c;市场有望继续增…

【若依前后端分离】通过输入用户编号自动带出部门名称(部门树)

一、部门树 使用 <treeselect v-model"form.deptId" :options"deptOptions" :show-count"true" placeholder"请选择归属部门"/> <el-col :span"12"><el-form-item label"归属部门" prop"dept…

QT5.14.2与Mysql8.0.16配置笔记

1、前言 我的QT版本为 qt-opensource-windows-x86-5.14.2。这是QT官方能提供的自带安装包的最近版本&#xff0c;更新的版本需要自己编译源代码&#xff0c;可点击此链接进行下载&#xff1a;Index of /archive/qt/5.14/5.14.2&#xff0c;选择下载 qt-opensource-windows-x86…