Алгоритм разработки словаря для создания автоматизированной модели классификации текстов

Жаксыбаев, Д. О.

Алгоритм разработки словаря для создания автоматизированной модели классификации текстов

Files

НиО 2023 №2-3 (71)_200-210.pdf (850.99 KB)

Date

2023

Authors

Жаксыбаев, Д. О.

Publisher

Ғылым, зерттеулер, білім беру: даму үрдістері: ХХІІІ халықаралық ғылыми-практ. конф. материалдары=Science, research, education: development trends: The materials of the XXIII international scientific and practical conf. =Наука, исследования, образование: тенденции развития: мат. ХХІІІ междунар. науч.-практ. конф. (Уральск, 14 апреля 2023 г.) / ЗКАТУ им. Жангир хана // Ғылым және білім=Наука и образование=Science and education. - 2023. - № 2 (71) : прил. к журналу № 3.

Abstract

Автоматизированные модели классификации текстов необходимы в различных областях, включая научные исследования. Алгоритм CountVectorizer является широко используемым подходом для извлечения признаков в моделях классификации текстов. Однако стандартный алгоритм CountVectorizer может оказаться неэффективным при извлечении релевантных признаков для конкретных задач, таких как классификация научных текстов. В данной работе предлагается модифицированный алгоритм CountVectorizer, который фокусируется на глагольных сочетаниях слов в научных текстах на тему экологии на казахском языке. Предложенный алгоритм достиг точности 0,604, что превосходит оригинальный алгоритм CountVectorizer и классификатор TfidfVectorizer. Наш анализ результатов показывает, что предложенный алгоритм может повысить точность моделей автоматической классификации текстов, особенно для научных текстов по экологии. Кроме того, мы предполагаем, что будущие исследования могут быть направлены на улучшение работы предложенного алгоритма для других научных тем и языков. В целом, наше исследование вносит вклад в разработку более эффективных моделей классификации текстов для научных исследований.

Keywords

научный журнал, конференции, отечественное издание, машинное обучение, информатика, автоматизированная классификация текстов, алгоритм составления словаря, Алгоритм CountVectorizer, обработка естественного языка

URI

http://hdl.handle.net/123456789/2629

Collections

Материалы конференции

Full item page

Алгоритм разработки словаря для создания автоматизированной модели классификации текстов

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By