Современные подходы к мультиклассовой классификации интентов на основе предобученных трансформеров (Запись № 666530)
[ простой вид ]
000 -Маркер | |
---|---|
Поле контроля фиксированной длины | 08189nlm1a2200505 4500 |
005 - Идентификатор версии | |
Поле контроля фиксированной длины | 20231030042040.0 |
035 ## - Другие системные номера | |
Идентификатор записи | (RuTPU)RU\TPU\network\37734 |
035 ## - Другие системные номера | |
Идентификатор записи | RU\TPU\network\37704 |
100 ## - Данные общей обработки | |
Данные общей обработки | 20211230a2020 k y0rusy50 ca |
101 0# - Язык ресурса | |
Язык текста, звукозаписи и т.д. | русский |
-- | eng |
102 ## - Страна публикации или производства | |
Страна публикации | Россия |
135 ## - Поле кодированных данных: электронные ресурсы | |
Кодированные данные для электронного ресурса | drcn ---uucaa |
181 #0 - Поле кодированных данных: вид содержания | |
Код вида содержания | i |
182 #0 - Поле кодированных данных: средство доступа | |
Код средства доступа | electronic |
200 1# - Заглавие и сведения об ответственности | |
Основное заглавие | Современные подходы к мультиклассовой классификации интентов на основе предобученных трансформеров |
Параллельное заглавие | Modern approaches to multiclass intent classification based on pre-trained transformers |
Первые сведения об ответственности | А. А. Соломин, Ю. А. Иванова |
203 ## - Вид содержания и средство доступа | |
Вид содержания | Текст |
Средство доступа | электронный |
300 ## - Общие примечания | |
Текст примечания | Заглавие с экрана |
320 ## - Примечания о наличии в ресурсе библиографии/указателя | |
Текст примечания | [Библиогр.: 11 назв.] |
330 ## - Резюме или реферат | |
Текст примечания | Предмет исследования. Рассмотрены современные подходы к решению задачи мультиклассовой классификации намерений. Под намерением пользователя понимаются входящие пользовательские запросы при взаимодействии с голосовыми помощниками и чат-ботами. Алгоритм должен определить, к какому классу относится обращение. Современные технологии, такие как трансферное обучение и трансформеры, значительно улучшают результаты мультиклассовой классификации. Метод. В исследовании использован метод сравнительного анализа моделей. В свою очередь, каждая модель встроена в общий конвейер для подготовки, очистки данных и обучения модели, но с учетом ее конкретных требований. Для сравнения были выбраны современные модели, которые используются в реальных проектах: логистическая регрессия + TF-IDF; логистическая регрессия + FastText; LSTM + FastText; Conv1D + FastText; BERT; XLM. Последовательность моделей соответствует их историческому происхождению, но на практике эти модели используются независимо от времени их появления, а в зависимости от эффективности решаемой проблемы. Основные результаты. Выполнено исследование эффективности моделей мультиклассовой классификации на реальных данных. Представлены результаты сравнения современных практических подходов. В частности, XLM подтверждает превосходство трансформеров над другими подходами. Выдвинуто предположение, по какой причине трансформеры показывают такой отрыв. Описаны преимущества и недостатки современных подходов. Практическая значимость. С практической точки зрения результаты этого исследования могут быть использованы для проектов, которые требуют автоматической классификации намерений, как части сложной системы (голосового помощника, чат-бота или другой системы), а также как самостоятельной системы. Пайплайн, разработанный во время исследования, можно использовать для сравнения и выбора наиболее эффективной модели для конкретных наборов данных как в научных исследованиях, так и в производстве. |
330 ## - Резюме или реферат | |
Текст примечания | Subject of Research. The paper considers modern approaches to the multiclass intention classification problem. The user intention is the incoming user requests when interacting with voice assistants and chatbots. The algorithm is meant for determination what class the call belongs to. Modern technologies such as transfer learning and transformers can improve significantly the multiclass classification results. Method. This study uses a comparative model analysis technique. In turn, each model is inlined into a common pipeline for data preparing and clearing, and the model training but with regard to its specific requirements. The following models applied in real projects have been selected for comparison: Logistic Regression + TF-IDF, Logistic Regression + FastText, LSTM + FastText, Conv1D + FastText, BERT, and XLM. The sequence of models corresponds to their historical origin, but in practice these models are used without regard to the time period of their creation but depending on the effectiveness of the problem being solved. Main Results. The effectiveness of the multiclass classification models on real data is studied. Comparison results of modern practical approaches are described. In particular, XLM confirms the superiority of transformers over other approaches. An assumption is made considering the reason why the transformers show such a gap. The advantages and disadvantages of modern approaches are described. Practical Relevance. From a practical point of view, the results of this study can be used for projects that require automatic classification of intentions, as part of a complex system (voice assistant, chatbot or other system), as well as an independent system. The pipeline designed during the study can be applied for comparison and selection of the most effective model for specific data sets, both in scientific research and production. |
461 ## - Уровень набора | |
Заглавие | Научно-технический вестник информационных технологий, механики и оптики |
463 ## - Уровень физической единицы | |
Заглавие | Т. 20, № 4 |
Обозначение тома | [С. 532-538] |
Дата публикации | 2020 |
510 1# - Параллельное заглавие | |
Параллельное заглавие | Modern approaches to multiclass intent classification based on pre-trained transformers |
Язык заглавия | английский |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | электронный ресурс |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | труды учёных ТПУ |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | обработка |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | естественные языки |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | классификация |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | тексты |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | обучение |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | трансформеры |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | natural language processing |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | text classification |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | transformers |
610 1# - Неконтролируемые предметные термины | |
Предметный термин | transfer learning |
700 #1 - Имя лица – первичная ответственность | |
Начальный элемент ввода | Соломин |
Часть имени, кроме начального элемента ввода | А. А. |
Расширение инициалов личного имени | Артем Алексеевич |
701 #1 - Имя лица – альтернативная ответственность | |
Начальный элемент ввода | Иванова |
Часть имени, кроме начального элемента ввода | Ю. А. |
Дополнения к именам, кроме дат | специалист в области информатики и вычислительной техники |
-- | доцент Томского политехнического университета, кандидат технических наук |
Даты | 1986- |
Расширение инициалов личного имени | Юлия Александровна |
-- | stltpush |
Идентификатор авторитетной/ нормативной записи | (RuTPU)RU\TPU\pers\45858 |
712 02 - Наименование организации – вторичная ответственность | |
Начальный элемент ввода | Национальный исследовательский Томский политехнический университет |
Структурное подразделение | Инженерная школа информационных технологий и робототехники |
-- | Отделение информационных технологий |
-- | 7951 |
-- | stltpush |
Идентификатор авторитетной/ нормативной записи | (RuTPU)RU\TPU\col\23515 |
801 #2 - Источник записи | |
Страна | RU |
Организация | 63413507 |
Дата составления | 20221026 |
Правила каталогизации | RCR |
856 4# - Местонахождение электронных ресурсов и доступ к ним | |
Универсальный идентификатор ресурса | http://earchive.tpu.ru/handle/11683/73250 |
856 4# - Местонахождение электронных ресурсов и доступ к ним | |
Универсальный идентификатор ресурса | https://doi.org/10.17586/2226-1494-2020-20-4-532-538 |
856 4# - Местонахождение электронных ресурсов и доступ к ним | |
Универсальный идентификатор ресурса | https://www.elibrary.ru/item.asp?id=43808115 |
090 ## - System Control Numbers (Koha) | |
Koha biblioitem number (autogenerated) | 666530 |
942 ## - Добавленные элементы ввода (Коха) | |
Тип документа | Computer Files |
Нет доступных единиц.