Что такое расстояние Левенштейна и как его вычислить?

Question

Встретил термин расстояние Левенштейна в задаче про исправление опечаток и нечёткий поиск. Что это вообще такое, что оно измеряет и как его посчитать алгоритмически? Можно пример реализации на Python с объяснением.

Лев Степанов · Accepted Answer

Расстояние Левенштейна — это минимальное количество элементарных операций, которыми одну строку можно превратить в другую. Допускаются три операции, каждая «стоит» единицу: - вставка символа, - удаление символа, - замена одного символа на другой. Например, расстояние между kitten и sitting равно 3: 1. kitten → sitten (замена k → s) 2. sitten → sittin (замена e → i) 3. sittin → sitting (вставка g) Где применяется: проверка орфографии, автодополнение, нечёткий поиск, биоинформатика (сравнение ДНК), сравнение версий. Алгоритм — классическое динамическое программирование. Строим таблицу dp, где d…

Оксана Баранова · Answer

Дополню примером на C для тех, кто на .NET — алгоритм тот же самый (динамика по таблице): Полезно помнить свойства: расстояние Левенштейна — это метрика (выполняется неравенство треугольника), оно симметрично, и оно всегда не меньше разницы длин строк и не больше длины большей строки. Эти границы помогают быстро отсекать заведомо далёкие строки в нечётком поиске.

Что такое расстояние Левенштейна и как его вычислить?

2 ответа

Ваш ответ