inference class added

training class added
2024-08-31 08:06:28 +02:00 · 2024-08-31 08:06:05 +02:00
2 changed files with 127 additions and 0 deletions
--- a/src/model/Inference.py
+++ b/src/model/Inference.py
@ -0,0 +1,32 @@
+from transformers import BertTokenizer, BertForSequenceClassification, AdamW
+import pyarrow.parquet as pq
+import torch
+
+
+class FakeNewsInference:
+    def __init__(self, model_path):
+        self.tokenizer = BertTokenizer.from_pretrained(model_path)
+        self.model = BertForSequenceClassification.from_pretrained(model_path)
+        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+        self.model.to(self.device)
+        self.model.eval()
+
+    def predict(self, text):
+        inputs = self.tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=512)
+        inputs = {k: v.to(self.device) for k, v in inputs.items()}
+
+        with torch.no_grad():
+            outputs = self.model(**inputs)
+            probabilities = torch.softmax(outputs.logits, dim=1)
+            prediction = torch.argmax(probabilities, dim=1).item()
+
+        return prediction, probabilities[0][prediction].item()
+
+# Usage example
+if __name__ == '__main__':
+    # Inference example
+    inference = FakeNewsInference('VeriMind')
+    sample_text = "Breaking news: Scientists discover new planet in solar system"
+    prediction, confidence = inference.predict(sample_text)
+    print(f"Prediction: {'Real' if prediction == 1 else 'Fake'}")
+    print(f"Confidence: {confidence:.4f}")
--- a/src/model/train.py
+++ b/src/model/train.py
@ -0,0 +1,95 @@
+import pandas as pd
+import numpy as np
+from sklearn.model_selection import train_test_split
+from transformers import BertTokenizer, BertForSequenceClassification, AdamW
+from torch.utils.data import DataLoader, TensorDataset
+import torch
+from tqdm import tqdm
+import pyarrow.parquet as pq
+
+class FakeNewsModelTrainer:
+    def __init__(self, model_name='google-bert/bert-base-multilingual-cased', max_length=512):
+        self.model_name = model_name
+        self.max_length = max_length
+        self.tokenizer = BertTokenizer.from_pretrained(model_name)
+        self.model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)
+        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+        self.model.to(self.device)
+
+    def prepare_data(self, df):
+        texts = df['text'].tolist()
+        labels = df['label'].tolist()
+
+        encoded_texts = self.tokenizer(texts, padding=True, truncation=True, max_length=self.max_length, return_tensors='pt')
+        input_ids = encoded_texts['input_ids']
+        attention_mask = encoded_texts['attention_mask']
+        labels = torch.tensor(labels)
+
+        return TensorDataset(input_ids, attention_mask, labels)
+
+    def train(self, train_data, val_data, epochs=3, batch_size=16):
+        train_dataloader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
+        val_dataloader = DataLoader(val_data, batch_size=batch_size)
+
+        optimizer = AdamW(self.model.parameters(), lr=2e-5)
+
+        for epoch in range(epochs):
+            self.model.train()
+            total_loss = 0
+
+            for batch in tqdm(train_dataloader, desc=f'Epoch {epoch + 1}/{epochs}'):
+                input_ids, attention_mask, labels = [b.to(self.device) for b in batch]
+
+                outputs = self.model(input_ids, attention_mask=attention_mask, labels=labels)
+                loss = outputs.loss
+                total_loss += loss.item()
+
+                loss.backward()
+                optimizer.step()
+                optimizer.zero_grad()
+
+            avg_train_loss = total_loss / len(train_dataloader)
+            print(f'Average training loss: {avg_train_loss:.4f}')
+
+            val_accuracy = self.evaluate(val_dataloader)
+            print(f'Validation accuracy: {val_accuracy:.4f}')
+
+    def evaluate(self, dataloader):
+        self.model.eval()
+        correct_predictions = 0
+        total_predictions = 0
+
+        with torch.no_grad():
+            for batch in dataloader:
+                input_ids, attention_mask, labels = [b.to(self.device) for b in batch]
+
+                outputs = self.model(input_ids, attention_mask=attention_mask)
+                _, preds = torch.max(outputs.logits, dim=1)
+
+                correct_predictions += torch.sum(preds == labels)
+                total_predictions += labels.shape[0]
+
+        return correct_predictions.float() / total_predictions
+
+    def save_model(self, path):
+        self.model.save_pretrained(path)
+        self.tokenizer.save_pretrained(path)
+
+
+# Usage example
+if __name__ == '__main__':
+    # Load and preprocess the data
+    df = pq.read_table('your_dataset.parquet').to_pandas()
+    df['text'] = df['title'] + ' ' + df['text']  # Combine title and text
+    
+    # Split the data
+    train_df, val_df = train_test_split(df, test_size=0.3, random_state=42)
+
+    # Initialize and train the model
+    trainer = FakeNewsModelTrainer()
+    train_data = trainer.prepare_data(train_df)
+    val_data = trainer.prepare_data(val_df)
+    trainer.train(train_data, val_data)
+
+    # Save the model
+    trainer.save_model('VeriMind')
Author	SHA1	Message	Date
Falko Victor Habel	de0699d6ba	inference class added	2024-08-31 08:06:28 +02:00
Falko Victor Habel	cbfcad6088	training class added	2024-08-31 08:06:05 +02:00