我有一个问题,我需要在哈希映射中进行模糊查找,即返回与最接近查询的键对应的值,在我的情况下由 Levenshtein 距离测量。

我目前的方法是使用特殊的查找方法对 dict 进行子类化,该方法计算所有键的 Levenshtein 距离,然后返回分数最低的键的值。基本上是这样的:

import Levenshtein

class FuzzyLookupDict(dict):

    def fuzzy_lookup(self, query):
        levs = [(key, Levenshtein.ratio(query, key)) for key in self.keys()]
        key, score = max(levs, key=lambda lev: lev[1])
        return self.get(key)

这是一个很好的方法还是有我没有想到的更好的解决方案?

最佳答案

这个问题通常用 Levenshtein automata 解决。字符串 w 和数字 n 的 Levenshtein 自动机是一个有限状态自动机,它可以识别与 w 的 Levenshtein 距离至多为 n 的所有字符串的集合。

该算法比使用动态规划为每个字典单词单独计算 Levenshtein 距离要快得多。

Jule Jacob 的博客文章 Levenshtein automata can be simple and fast 是一个很好的起点,Nick Johnsonz 的 Damn Cool Algorithms: Levenshtein Automata 是一个更深入的介绍。

您可以在 Github 上找到一些 Python 实现,例如 https://github.com/antoinewdg/pyffs

关于python - 在 Python 中进行模糊键查找的最佳方法?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48015145/

10-12 01:04