Algoritmo de deduplicação de dados para um grande número de contactos
estou a desenvolver uma aplicação que deve ser capaz de encontrar e juntar duplicados em centenas de milhares de inform ...
Smith = Smyth (Phonetic sound the same)
123 Main st = 123 Main street (abbrevation)
Bob Smith = Robert Smith (synonym)
elasticsearch fuzzy matching max expansions & min similarity
estou a usar a correspondência difusa no meu projecto, principalmente para encontrar erros ortográficos e grafias difer ... an query).
Por isso, qualquer um pode explicar-me como exactamente estes parâmetros afectam os resultados da pesquisa.