Поиск похожих
текстов
В BPMSoft модель машинного обучения типа «Похожесть текстов» позволяет анализировать неструктурированные текстовые данные для генерации похожих записей. Это может быть полезно для автоматического подбора статей из базы знаний или ответов на вопросы пользователей.
Один из методов обучения таких моделей — фильтрация на основании содержимого (content-based filtering). Этот метод оценивает сходство объектов по признакам их содержимого — текстовым данным, параметры которых обобщаются и ранжируются, в результате чего формируются списки похожих записей.
По умолчанию в BPMSoft преднастроена модель «Похожесть: Поиск похожих обращений», которая для обращения находит другие обращения, похожие по теме, описанию и предоставленному решению. Для этого модель анализирует текстовые данные объекта «Обращение», сравнивает их с текстовыми данными субъекта «Обращения», после чего формирует список похожих записей. Подробнее с работой модели вы можете ознакомиться в Преднастроенные модели машинного обучения.
Рисунок 1 — Результат прогнозирования похожих обращений

Этапы настройки модели
Для настройки поиска похожих текстов необходимо выполнить следующие этапы:
- Создать новую модель или выбрать преднастроенную, настроить ее параметры. Подробнее: Создание модели.
- Обучить модель машинного обучения на бизнес-данных компании. Подробнее: Обучение модели.
- Настроить запуск прогнозирования: по бизнес-процессу, который позволяет регулировать время запуска и количество прогнозируемых записей.
Создание модели
Чтобы создать модель поиска похожих текстов, выполните следующие шаги:
- Перейдите в раздел «Модели машинного обучения» из дизайнера системы
или рабочего места «Конструктор».
- Нажмите кнопку «Добавить» и выберите модель типа «Похожесть текстов».
Рисунок 2 — Создание модели типа «Предиктивный скоринг»

- В мини-карточке заполните обязательные поля:
- Название — название модели;
- Тип — тип модели машинного обучения, значение устанавливается автоматически согласно выбранному типу;
- Искать похожее среди (Объект) — выберите объект, по записям которого необходимо искать похожие. Например, для каждой проблемы в разделе «Проблемы» нужно настроить поиск похожих по теме и описанию обращений. Для этого укажем объект «Обращение»;
- Искать похожее на (Субъект) — выберите объект, с текстовыми полями которого будет производиться сравнение. Для реализации примера выберем объект «Проблема»;
- Название экземпляра — введите уникальное название текущего экземпляра модели машинного обучения. Рекомендуется использовать латинские буквы и цифры.
Рисунок 3 — Мини-карточка создания модели поиска похожих текстов

- Нажмите кнопку «Далее». Откроется страница настройки и обучения модели. Вы можете закрыть страницу и вернуться к ее настройкам позднее.
- Настройте параметры на странице модели и нажмите кнопку «Сохранить».
Параметры модели
На вкладке «Параметры» содержатся основные параметры для настройки модели.
Рисунок 4 — Страница преднастроенной модели поиска похожих обращений

Параметр «Какие записи должны попасть в обучающую выборку?»
Записи, которые попадут в обучающую выборку. Здесь необходимо настроить фильтрацию для формирования выборки, на которой будет обучаться модель. Если для обучения необходимо использовать все записи, не используйте фильтр.
Например, преднастроенная модель «Похожесть: Поиск похожих обращений» обучается на обращениях, которые зарегистрированы в текущем году и не отменены.
Рисунок 5 — Параметр модели «Какие записи должны попасть в обучающую выборку?»

Параметр «От каких колонок зависит прогнозируемое значение?»
Колонки, которые модель проанализирует для прогнозирования. От значений этих колонок будет зависеть результат прогноза. Для выбора доступны колонки с текстовыми данными объекта, указанного в поле «Искать похожее среди (Объект)» при создании, а также колонки связанных с ним объектов.
Например, для поиска похожих обращений модель анализирует описание, тему и решение обращения.
Рисунок 6 — Параметр модели «От каких колонок зависит прогнозируемое значение?»

Параметр «По данным каких колонок искать похожее значение?»
Укажите колонки, по значениям которых будет выполняться поиск похожих данных. Для выбора доступны колонки с текстовыми данными объекта, указанного в поле «Искать похожее на (Субъект)» при создании, а также колонки связанных с ним объектов.
Рисунок 7 — Параметр модели «По данным каких колонок искать похожее значение?»

Параметр «Настройка сохранения результатов»
В поле «Объект» необходимо указать объект, в котором будут сохраняться результаты прогнозирования модели, т. е. похожие записи. Предварительно объект необходимо создать в разделе «Конфигурация». Подробнее: Разработка конфигурационных элементов
Объект должен содержать следующие поля:
- Похожее для — объект модели машинного обучения (поле с типом «Справочник»). Поле обязательное, заполняется автоматически значением колонки указанного объекта. При необходимости значение можно изменить, выбрав из выпадающего списка другую колонку подходящего типа;
- Похожее на — субъект модели машинного обучения (поле с типом «Справочник»). Поле обязательное, заполняется автоматически значением колонки указанного объекта. При необходимости значение можно изменить, выбрав из выпадающего списка другую колонку подходящего типа;
- Вероятность — значение, используемое для ранжирования записей (поле с типом «Дробное число»). Чем больше значение в этой колонке, тем выше оценка похожести. Поле автоматически заполняется значением колонки указанного объекта. При необходимости значение можно изменить, выбрав из выпадающего списка другую колонку подходящего типа;
- Модель машинного обучения — модель машинного обучения, которая использовалась для прогнозирования (поле с типом «Справочник»). Поле автоматически заполняется значением колонки указанного объекта. При необходимости значение можно изменить, выбрав из выпадающего списка другую колонку подходящего типа;
- Дата прогноза — дата, когда проводилось прогнозирование (поле с типом «Дата/Время»). Поле автоматически заполняется значением колонки указанного объекта. При необходимости значение можно изменить, выбрав из выпадающего списка другую колонку подходящего типа.
Для преднастроенной модели «Похожесть: Поиск похожих обращений» таким объектом является деталь «Похожее обращение».
Рисунок 8 — Параметр модели «Настройка сохранения результатов»

Расширенные настройки модели
На вкладке «Расширенные настройки» вы можете указать дополнительные параметры для настройки модели.
Параметр «Добавить дополнительные колонки расширенными средствами?»
Здесь вы можете сформировать запрос на языке С# с использованием специальных классов для обращения к базе данных на выборку дополнительных колонок, от которых будет зависеть прогнозируемое значение.
Рисунок 9 — Параметр модели «Добавить дополнительные колонки расширенными средствами?»

Параметр «Расширенные параметры модели»
Минимальное и максимальное количество записей, используемых для обучения модели. Значения в полях устанавливаются автоматически, при необходимости вы можете их изменить.
Рисунок 10 — Параметр модели «Расширенные параметры модели»

Запись попадет в спрогнозированную выборку, если она достигнет нижнего порога оценки похожести.
Рекомендуем изучить
Онлайн-курс «Предиктивная аналитика, возможности машинного обучения в BPMSoft»
Модели машинного обучения
Создание бизнес-процесса с использованием модели
Обучение модели