Алгоритм разработки словаря для создания автоматизированной модели классификации текстов
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Ғылым, зерттеулер, білім беру: даму үрдістері: ХХІІІ халықаралық ғылыми-практ. конф. материалдары=Science, research, education: development trends: The materials of the XXIII international scientific and practical conf. =Наука, исследования, образование: тенденции развития: мат. ХХІІІ междунар. науч.-практ. конф. (Уральск, 14 апреля 2023 г.) / ЗКАТУ им. Жангир хана // Ғылым және білім=Наука и образование=Science and education. - 2023. - № 2 (71) : прил. к журналу № 3.
Abstract
Автоматизированные модели классификации текстов необходимы в различных областях, включая научные исследования. Алгоритм CountVectorizer является широко используемым подходом для извлечения признаков в моделях классификации текстов. Однако стандартный алгоритм CountVectorizer может оказаться неэффективным при извлечении релевантных признаков для конкретных задач, таких как классификация научных текстов. В данной работе предлагается модифицированный алгоритм CountVectorizer, который фокусируется на глагольных сочетаниях слов в научных текстах на тему экологии на казахском языке. Предложенный алгоритм достиг точности 0,604, что превосходит оригинальный алгоритм CountVectorizer и классификатор TfidfVectorizer. Наш анализ результатов показывает, что предложенный алгоритм может повысить точность моделей автоматической классификации текстов, особенно для научных текстов по экологии. Кроме того, мы предполагаем, что будущие исследования могут быть направлены на улучшение работы предложенного алгоритма для других научных тем и языков. В целом, наше исследование вносит вклад в разработку более эффективных моделей классификации текстов для научных исследований.
