training class added

2024-08-31 08:06:05 +02:00 · 2024-08-31 08:06:05 +02:00 · cbfcad6088
parent 9592ab8140
commit cbfcad6088
1 changed files with 95 additions and 0 deletions
--- a/src/model/train.py
+++ b/src/model/train.py
@ -0,0 +1,95 @@
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from transformers import BertTokenizer, BertForSequenceClassification, AdamW
 from torch.utils.data import DataLoader, TensorDataset
 import torch
 from tqdm import tqdm
 import pyarrow.parquet as pq
 class FakeNewsModelTrainer:
    def __init__(self, model_name='google-bert/bert-base-multilingual-cased', max_length=512):
        self.model_name = model_name
        self.max_length = max_length
        self.tokenizer = BertTokenizer.from_pretrained(model_name)
        self.model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model.to(self.device)
    def prepare_data(self, df):
        texts = df['text'].tolist()
        labels = df['label'].tolist()
        encoded_texts = self.tokenizer(texts, padding=True, truncation=True, max_length=self.max_length, return_tensors='pt')
        input_ids = encoded_texts['input_ids']
        attention_mask = encoded_texts['attention_mask']
        labels = torch.tensor(labels)
        return TensorDataset(input_ids, attention_mask, labels)
    def train(self, train_data, val_data, epochs=3, batch_size=16):
        train_dataloader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
        val_dataloader = DataLoader(val_data, batch_size=batch_size)
        optimizer = AdamW(self.model.parameters(), lr=2e-5)
        for epoch in range(epochs):
            self.model.train()
            total_loss = 0
            for batch in tqdm(train_dataloader, desc=f'Epoch {epoch + 1}/{epochs}'):
                input_ids, attention_mask, labels = [b.to(self.device) for b in batch]
                outputs = self.model(input_ids, attention_mask=attention_mask, labels=labels)
                loss = outputs.loss
                total_loss += loss.item()
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()
            avg_train_loss = total_loss / len(train_dataloader)
            print(f'Average training loss: {avg_train_loss:.4f}')
            val_accuracy = self.evaluate(val_dataloader)
            print(f'Validation accuracy: {val_accuracy:.4f}')
    def evaluate(self, dataloader):
        self.model.eval()
        correct_predictions = 0
        total_predictions = 0
        with torch.no_grad():
            for batch in dataloader:
                input_ids, attention_mask, labels = [b.to(self.device) for b in batch]
                outputs = self.model(input_ids, attention_mask=attention_mask)
                _, preds = torch.max(outputs.logits, dim=1)
                correct_predictions += torch.sum(preds == labels)
                total_predictions += labels.shape[0]
        return correct_predictions.float() / total_predictions
    def save_model(self, path):
        self.model.save_pretrained(path)
        self.tokenizer.save_pretrained(path)
 # Usage example
 if __name__ == '__main__':
    # Load and preprocess the data
    df = pq.read_table('your_dataset.parquet').to_pandas()
    df['text'] = df['title'] + ' ' + df['text']  # Combine title and text
    # Split the data
    train_df, val_df = train_test_split(df, test_size=0.3, random_state=42)
    # Initialize and train the model
    trainer = FakeNewsModelTrainer()
    train_data = trainer.prepare_data(train_df)
    val_data = trainer.prepare_data(val_df)
    trainer.train(train_data, val_data)
    # Save the model
    trainer.save_model('VeriMind')