Comparar arquivos PDF
Duas versões do mesmo PDF — qual tem as diferenças?
Veja cada diferença de texto e visual, lado a lado.
Solte o original aqui
Solte a revisão aqui
Os arquivos são idênticos
Baixo — sem diferenças
Ambos os PDFs produziram o mesmo texto e saída visual em cada página comparada. Nenhuma diferença detectada.
{count} diferenças encontradas
Médio — diferenças detectadas
Ambos os PDFs foram comparados página por página. O painel de resumo abaixo lista quais páginas foram alteradas; a vista lado a lado mostra cada alteração em contexto.
Comparação parcial
Alto — diferença no número de páginas
Os dois PDFs têm contagens de páginas diferentes ({a} vs {b}). As páginas sobrepostas foram comparadas normalmente; as páginas não emparelhadas estão listadas no painel de resumo.
Sobre a comparação de PDF
Como a comparação realmente funciona
O algoritmo híbrido escolhe por página. Para cada par de páginas, a ferramenta extrai texto via API getTextContent do pdfjs. Se ambos os lados produzirem 50 ou mais caracteres, a página passa pela comparação de Myers a nível de tokens — um algoritmo clássico O(ND) que encontra o script de edição mínimo entre duas sequências de tokens. Abaixo de 50 caracteres (tipicamente páginas digitalizadas ou layouts apenas com imagens), a ferramenta recorre à comparação de pixels: ambas as páginas renderizam para canvas em escala 1.0, depois as diferenças de pixels por célula acima da tolerância são contadas como regiões alteradas. A classificação (texto-alterado vs imagem-alterada vs idênticas) vive no resultado por página para que o painel de resumo possa mostrar que tipo de alteração ocorreu onde.
Por que lado a lado supera a sobreposição
A comparação por sobreposição (tachado vermelho em texto removido, sublinhado verde em texto adicionado, desenhado em uma única renderização do documento) lê-se naturalmente para diferenças curtas mas perde contexto rapidamente em alterações mais longas. A renderização lado a lado mostra ambas as versões em sua totalidade, sincronizadas para que a mesma região da página permaneça alinhada entre os painéis. O painel de resumo em linha atua como um índice de navegação — salte para a página 7 para ver a alteração sem rolar todo o documento. O padrão funciona igualmente bem para edições de duas linhas e para revisões de quarenta páginas; a sobreposição só funciona para as primeiras.
Diferença no número de páginas — o que acontece
Quando os dois PDFs têm contagens de páginas diferentes, o resultado é classificado como comparação parcial. As primeiras N páginas (onde N é a contagem menor) são comparadas normalmente com diferença de texto ou imagem. As páginas extras no lado mais longo são listadas no painel de resumo como não emparelhadas, para que você veja quais páginas existem apenas em uma versão. O caso mais comum é uma revisão onde o autor adicionou ou removeu páginas entre versões — a comparação ainda funciona para as páginas sobrepostas, e o resumo torna a alteração estrutural explícita. Se as contagens diferirem muito (um documento o dobro do tamanho do outro), PDF para Texto extrai texto puro de ambos para comparação apenas de conteúdo sem a restrição de alinhamento de páginas.
Por que apenas navegador para comparar
Os casos de uso de comparação concentram-se nos documentos onde a privacidade mais importa: rascunhos de contratos enviados pela contraparte, versões redigidas aguardando divulgação, cópias de revisão interna que não devem vazar. Enviar ambas as versões para um servidor de terceiros adiciona risco exatamente quando você não quer. Comparar arquivos PDF executa inteiramente no seu navegador via pdf-lib e pdfjs — ambos os arquivos permanecem no seu dispositivo. Concorrentes baseados em servidor (iLovePDF, PDF24) exigem envio; Adobe Acrobat Compare exige uma assinatura de US$ 14,99/mês. A comparação do pdfmundo entrega grátis, apenas navegador, sem envios.
Quando comparar não é suficiente
Se algum dos PDFs estiver protegido por senha, a comparação não pode ler o conteúdo — remova a senha no seu software de PDF primeiro, depois volte. Se algum dos PDFs estiver corrompido (download truncado, bug de firmware de scanner, dano de arquivamento), o pdfjs não consegue analisá-lo — Reparar PDF pode recuperá-lo; a cadeia de encaminhamento de recuperação é comparar → reparar → comparar novamente. Para arquivos que excedam o limite de 50 páginas, ou quando apenas o conteúdo textual importa, PDF para Texto extrai texto puro de ambos os PDFs para diferença externa. Arquivos onde um lado não é um PDF (texto ou imagem renomeado para .pdf) são detectados no pré-voo via verificação de bytes mágicos %PDF.
Perguntas frequentes
- Que tipos de alterações ele pode encontrar?
- Alterações de texto — adições, remoções e modificações detectadas via extração de texto de PDF + comparação de Myers a nível de tokens. Alterações visuais — modificações de imagem, mudanças de layout, ou qualquer diferença a nível de pixel detectada quando a extração de texto produz muito pouco texto para comparação confiável (abaixo de 50 caracteres por página). O algoritmo híbrido escolhe por página automaticamente: diferença de texto onde existe texto, diferença de pixels onde não. O painel de resumo classifica cada página para que você veja que tipo de alteração ocorreu onde.
- Funciona com PDFs digitalizados?
- Sim, via recurso de diferença de imagem. O algoritmo detecta por página se a extração de texto teve sucesso (50 caracteres ou mais). Para páginas digitalizadas sem texto extraível, recorre automaticamente à comparação de pixels a nível de canvas. O recurso também cobre layouts com muitas imagens onde o texto é renderizado como bitmaps incorporados. A compensação: a diferença de imagem capta cada diferença de pixel (útil para verificação de redações) mas não distingue alterações significativas de ruído como diferenças de renderização de fontes. Use o painel de resumo para focar nas páginas com as contagens de alterações mais altas.
- E se os dois PDFs tiverem contagens de páginas diferentes?
- O resultado é classificado como comparação parcial. As páginas sobrepostas são comparadas normalmente; as extras no lado mais longo aparecem no painel de resumo como não emparelhadas. Este é o caso mais comum para revisão de revisões — o autor adicionou ou removeu páginas entre versões. A comparação ainda funciona para as páginas sobrepostas, e o painel de resumo torna a alteração estrutural explícita. Se a diferença for grande (um documento muito mais longo que o outro), PDF para Texto pode servir melhor para comparação apenas de conteúdo.
- Meus PDFs são enviados para os seus servidores?
- Não. A comparação completa executa no seu navegador via pdf-lib e pdfjs. Ambos os PDFs permanecem no seu dispositivo. Isso importa especificamente para comparar: os casos de uso de revisão frequentemente envolvem conteúdo sensível (contratos, documentos redigidos, demonstrações financeiras) onde enviar para um servidor de terceiros adiciona risco exatamente quando você não quer. Concorrentes baseados em servidor exigem envio; a comparação do pdfmundo executa apenas no navegador sem envios.
- Por que alguns PDFs idênticos em texto são marcados como diferentes?
- A codificação de texto em PDF tem variantes Unicode para caracteres visualmente idênticos. O caso mais comum: ligaduras. As letras 'ff' codificadas como dois pontos de código separados (U+0066 + U+0066) versus o único glifo de ligadura 'ff' (U+FB00). Ambos renderizam de forma idêntica na tela mas comparam diferente como sequências de caracteres. Comparar arquivos PDF aplica normalização Unicode NFKC ao texto extraído antes da comparação, o que detecta o caso de ligaduras automaticamente. Falsos positivos persistentes geralmente indicam subdivisão de fonte diferente entre os dois PDFs — visualmente idênticos mas codificados de forma diferente. O painel de resumo mostra onde estão as diferenças; você pode inspecionar as páginas relevantes para verificar.
- Posso baixar um relatório de diferenças?
- Não na v1. A vista lado a lado visual + painel de resumo em linha cobrem o principal caso de uso de revisão. Um relatório de diferenças baixável (PDF anotado com regiões destacadas) está no roteiro da v1.1. Por enquanto, capturas de tela da vista lado a lado ou do painel de resumo cobrem a maioria das necessidades de documentação.
- Qual o tamanho máximo de arquivo e de páginas?
- 50 MB por arquivo e 50 páginas por arquivo. O limite de páginas existe porque a memória de comparação escala com a contagem de páginas: a diferença de imagem renderiza ambas as páginas para canvas em resolução completa, o que custa cerca de 10 MB por par de páginas. O limite de 50 páginas mantém a memória do navegador delimitada para o pior caso onde todas as páginas caem em diferença de imagem. A maioria dos casos de uso de revisão cabe dentro de ambos os limites; documentos mais longos tipicamente se beneficiam de comparação em fragmentos (comparar intervalos de páginas específicos em execuções separadas).
- E se um dos meus PDFs estiver corrompido?
- A comparação dá erro com um resultado de um-corrompido e um link direto para Reparar PDF. A cadeia de encaminhamento de recuperação é comparar → reparar → comparar novamente: reparar recupera o que pode do PDF danificado, depois você traz o arquivo recuperado de volta para comparar. Se o arquivo reparado ainda não for analisado, PDF para Texto pode extrair qualquer conteúdo de texto puro para comparação externa como último recurso.
Mais ferramentas PDF, em breve
30+ ferramentas no total — juntar, dividir, converter, OCR, assinar, marca d’água e muito mais. Todas grátis para testar.
Voltar à página inicial →