Алгоритм разработки словаря для создания автоматизированной модели классификации текстов

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Ғылым, зерттеулер, білім беру: даму үрдістері: ХХІІІ халықаралық ғылыми-практ. конф. материалдары=Science, research, education: development trends: The materials of the XXIII international scientific and practical conf. =Наука, исследования, образование: тенденции развития: мат. ХХІІІ междунар. науч.-практ. конф. (Уральск, 14 апреля 2023 г.) / ЗКАТУ им. Жангир хана // Ғылым және білім=Наука и образование=Science and education. - 2023. - № 2 (71) : прил. к журналу № 3.

Abstract

Автоматизированные модели классификации текстов необходимы в различных областях, включая научные исследования. Алгоритм CountVectorizer является широко используемым подходом для извлечения признаков в моделях классификации текстов. Однако стандартный алгоритм CountVectorizer может оказаться неэффективным при извлечении релевантных признаков для конкретных задач, таких как классификация научных текстов. В данной работе предлагается модифицированный алгоритм CountVectorizer, который фокусируется на глагольных сочетаниях слов в научных текстах на тему экологии на казахском языке. Предложенный алгоритм достиг точности 0,604, что превосходит оригинальный алгоритм CountVectorizer и классификатор TfidfVectorizer. Наш анализ результатов показывает, что предложенный алгоритм может повысить точность моделей автоматической классификации текстов, особенно для научных текстов по экологии. Кроме того, мы предполагаем, что будущие исследования могут быть направлены на улучшение работы предложенного алгоритма для других научных тем и языков. В целом, наше исследование вносит вклад в разработку более эффективных моделей классификации текстов для научных исследований.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By