resumagic : система автоматической обработки резюме
DESCRIPTION
Resumagic : система автоматической обработки резюме. Александр Сафронов. Работа кадрового агентства. В больших агентствах значительная доля резюме поступает по электронной почте непосредственно от соискателей. С учетом спама это могут быть сотни и тысячи писем в день. Этапы обработки писем. - PowerPoint PPT PresentationTRANSCRIPT
Resumagic: система автоматической обработки резюме
Александр Сафронов
Работа кадрового агентства
• В больших агентствах значительная доля резюме поступает по электронной почте непосредственно от соискателей.
• С учетом спама это могут быть сотни и тысячи писем в день.
Этапы обработки писем
1. Просмотр письма, работа с вложенными файлами;2. Принятие решения о том, содержит ли данное письмо в себе
информацию о соискателе (резюме);3. Преобразование резюме к формату, принятому в агентстве;4. Выявление нечетких дубликатов резюме.
«Наивная» автоматизация
1. Требование отсутствия вложений;2. Требования к теме письма;3. Отказ от преобразования резюме в единый формат;.4. Отказ от выявления дубликатов.
Основные возможности Resumagic
• Импорт резюме из внешних источников;• Отделение резюме от прочих документов;• Извлечение фактов из текста резюме;• Классификация резюме;• Нормализация основных полей;• Выявление резюме, принадлежащих одному человеку.
Схема работы
БД
ФайлыРезюме, хранящиеся на компьютере в виде файлов
ПисьмаРезюме, которые приходят по электронной почте
Распознаваемые поля
• Личная информация (ФИО, пол, дата рождения/возраст, семейное положение, гражданство);
• Контактная информация (телефоны, электронная почта, ICQ);• Желаемая должность и пожелания по уровню дохода;• Опыт работы (период работы, название компании, сфера
деятельности компании, должность, отдел, обязанности, стаж);• Образование (год выпуска, название учебного учреждения,
факультет, кафедра, специальность, специализация, квалификация);
• Владение иностранными языками;• Знание программного обеспечения и технологий;• Личные качества, хобби;• Рекомендации (ФИО, должность, название компании, контакты).
Извлечение фактов
• Графематический анализ.• Морфологический анализ. • Выделение лингвистических конструкций вокруг ключевых слов. • Факт = контекст + словосочетание.
Классификация
• Нет общепринятых стандартов классификации резюме.• В Resumagic используется классификатор hh.ru.• Инженерный подход + PrTFIDF.
Классификация резюме: kNN
Классификация резюме: kNN
Классификация резюме: PrTFIDF
Классификация резюме: сравнение kNN и PrTFIDF
Классификация резюме: выбор термов
Классификация резюме: выбор термов
Классификация резюме: учет морфологии
Сортировка
РаспознанныеРезюме, которые были распознаны автоматически
Не резюмеОбъекты, не похожие на резюме (например, спам)
ФайлыРезюме, хранящиеся на компьютере в виде файлов
ПисьмаРезюме, которые приходят по электронной почте
НераспознанныеОбъекты, похожте на резюме, но которые не могут быть распознаны автоматически
Входящие письма
Входящие письма:• Резюме• Спам• Рабочая переписка• Информационные рассылки с
биографическими данными
ResumagicRank
ResumagicRank - числовая характеристика, характеризующая степень похожести текста на резюме.
Защита от дублирования
1. Поиск полных совпадений с помощью хеш-сумм.
2. Поиск по совпадению ФИО, даты рождения или контактной информации.
3. Поиск по частичному совпадению ФИО, даты рождения или контактной информации.
HeadHunter (hh.ru) (hh.ru) – Online Hiring Serviceshttp://hh.ru
Спасибо за внимание!