Принимал участие в следующих направлениях проекта:
- Разработка системы предобработки документов, состоящей из блоков:
a) конвертации кириллического текста из нестандартных кодировок
b) очистки таблиц от пустых строк и столбцов, а также от неинформационных строк
c) оценки качества обработки таблицы
d) распознавания текста с помощью LLM
e) выделения сущностей из данных таблицы
f) формирования json на основе информации таблицы.