Алгоритмы: Расстояние Левенштайна

Расстояние Левенштейна — метрика, позволяющая определить «схожесть» двух строк — минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Применение Расстояние Левенштейна и его обобщения активно применяется: для исправления ошибок в слове (в поисковых системах, базах данных, при вводе текста, при автоматическом распознавании отсканированного текста или речи). для сравнения текстовых файлов утилитой diff и ей подобными. Здесь роль «символов» играют строки, а роль «строк» — файлы. в биоинформатике для сравнения генов, хромосом и белков. С точки зрения приложений определение расстояния между словами или текстовыми полями по Левенштейну обладает следующими недостатками: При перестановке местами слов или частей слов получаются сравнительно большие расстояния; Расстояния между совершенно разными короткими словами оказываются небольшими, в то время как ...