Информационная

НackDay в Пензе


С 27 — 29 октября в г. Пенза прошел НackDay. Данное мероприятие проходит не первый год и на одной площадке объединяет активных представителей технологических, предпринимательских и креативных сообществ, которые за 48 часов должны реализовать свою идею в рабочую программу. Наши парни не просто посетили это событие, но и собрали свою команду и сумели разработать и представить проект «Тематический препроцессинг текстов».

В задаче машинного обучения при работе с текстами очень важно подать на вход модели правильно подготовленные, нормализованные данные. Это процесс включает в себя стемминг, лемматизацию, нахождение стоп-слов, синонимов, исправление ошибок, выделение именованных сущностей. К тому-же, в зависимости от тематики текста, одни и те же слова могут иметь не только различные синонимы, но даже различное лексическое значение. Мы решили разработать сервис, который будет производить нормализацию и подготовку текстов для использования их в задачах машинного обучения. Такой сервис сможет не только облегчить работу другим разработчикам, но и за счёт аккумуляции множества тематических корпусов текстовых данных стать «золотым стандартом» в этой области.

 

Нет комментариев.