Algoritmo de deduplicação de dados para um grande número de contactos

estou a desenvolver uma aplicação que deve ser capaz de encontrar e juntar duplicados em centenas de milhares de inform ... Smith = Smyth (Phonetic sound the same) 123 Main st = 123 Main street (abbrevation) Bob Smith = Robert Smith (synonym)

elasticsearch fuzzy matching max expansions & min similarity

estou a usar a correspondência difusa no meu projecto, principalmente para encontrar erros ortográficos e grafias difer ... an query). Por isso, qualquer um pode explicar-me como exactamente estes parâmetros afectam os resultados da pesquisa.