IT博客汇 | scikit-learn文本分类

scikit-learn文本分类

coder4发表于 2023-10-09 04:41:36

import numpy as np import pandas as pd df = pd.read_csv('./smsspamcollection.tsv', sep='\t') df.head() df['label'].value_counts() # split data set from sklearn.model_selection import train_test_split X = df['message'] y = df['label'] df.dropna(inplace=True) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # pipeline from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.svm import LinearSVC text_clf = Pipeline([('tfidf', TfidfVectorizer()), […]