PDF в XML для налоговой: как перевести УПД
PDF показывает документ человеку. XML нужен налоговой системе и ЭДО. При переводе УПД из PDF в XML важна не красота макета, а точные реквизиты.
Почему PDF нельзя просто переименовать
PDF хранит страницу: строки, таблицу, подписи, печатную форму. XML хранит данные в тегах. Запрос pdf в xml для налоговой обычно означает другое действие: извлечь реквизиты из PDF и собрать файл по формату ФНС.
Запросы конвертировать PDF в XML для налоговой и из ПДФ в XML для налоговой решаются одним способом: сначала распознаются реквизиты, затем собирается ON_NSCHFDOPPR.
Конвертер берет текст из PDF, находит номер и дату УПД, продавца, покупателя, ИНН, КПП, позицию, ставку НДС и суммы. Затем формируется ON_NSCHFDOPPR в кодировке windows-1251.
Что проверить перед скачиванием XML
Перед выгрузкой полезно сверить поля в форме. Ошибки чаще появляются в адресе, КПП покупателя, ставке НДС и сумме с налогом. PDF разных поставщиков выглядит похоже, но текст внутри страницы извлекается по-разному.
Если PDF сделан как скан, распознавание текста не сработает без OCR. В таком случае файл сначала переводится в текстовый PDF, затем запускается конвертация.
- Номер документа совпадает с УПД.
- Дата стоит в формате ДД.ММ.ГГГГ.
- ИНН продавца и покупателя содержит нужное число цифр.
- Ставка НДС указана как 0%, 10%, 20% или без НДС.
- Итоги совпадают со строкой товара или услуги.
Как работает связка конвертера и валидатора
Сначала конвертер собирает XML. После скачивания файл загружается в валидатор. Проверка по XSD ФНС подтверждает структуру, а дополнительные правила сверяют реквизиты.
Такой сценарий закрывает частый запрос: как pdf перевести в xml для налоговой и сразу понять, пройдет ли файл базовый контроль.