import os
import shutil
import random
import time
from collections import Counter
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import cv2
import copy

import torch
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix
from torchvision import datasets
import torchvision.transforms as transforms
from torchvision import datasets
from torch.utils.data import DataLoader
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
from torchvision.models import resnet18
import torch.nn as nn
import torch.optim as optim
from torchvision import models
from PIL import Image

# Original dataset path
data_path = "data"

# Translation dictionary (Italian → English)
translate = {
    "cane": "dog", "cavallo": "horse", "elefante": "elephant", "farfalla": "butterfly",
    "gallina": "chicken", "gatto": "cat", "mucca": "cow", "pecora": "sheep",
    "scoiattolo": "squirrel", "ragno": "spider"
}

for folder in os.listdir(data_path):
    if folder in translate:
        old_folder = os.path.join(data_path, folder)
        new_folder = os.path.join(data_path, translate[folder])
        os.rename(old_folder, new_folder)

print("Folders renamed successfully!")

Folders renamed successfully!

class_counts = {cls: len(os.listdir(os.path.join(data_path, cls))) for cls in translate.values()}
colors = plt.cm.tab10(range(len(class_counts)))
# Plot class distribution
plt.bar(class_counts.keys(), class_counts.values(), color=colors)
plt.xticks(rotation=45)
plt.title("Class Distribution Before Balancing")
plt.show()

target_count = 200

for cls in translate.values():
    class_path = os.path.join(data_path, cls)
    images = os.listdir(class_path)
    
    # Keep only the first 200 images
    for img in images[target_count:]:
        os.remove(os.path.join(class_path, img))

print("Dataset balanced: Each class now has 200 images.")

Dataset balanced: Each class now has 200 images.

new_class_counts = {cls: len(os.listdir(os.path.join(data_path, cls))) for cls in translate.values()}

colors = plt.cm.tab10(range(len(new_class_counts)))
plt.bar(new_class_counts.keys(), new_class_counts.values(), color=colors)
plt.xticks(rotation=45)
plt.title("Class Distribution After Balancing")
plt.show()

def visualize_random_images(folder, num_images=9):
    """
    Displays a grid of random images from the dataset.
    
    Args:
        folder (str): Path to the dataset folder.
        num_images (int): Number of images to visualize.
    """
    # Get all class names (folders)
    class_names = os.listdir(folder)
    
    # Collect random images with labels
    images = []
    labels = []
    
    for _ in range(num_images):
        selected_class = random.choice(class_names)  # Choose a random class
        class_path = os.path.join(folder, selected_class)
        image_name = random.choice(os.listdir(class_path))  # Choose a random image
        image_path = os.path.join(class_path, image_name)
        
        # Read and store the image
        img = cv2.imread(image_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convert from BGR to RGB
        images.append(img)
        labels.append(selected_class)

    # Determine the grid size dynamically
    grid_size = int(num_images ** 0.5)  # Find the closest square root
    while grid_size * grid_size < num_images:
        grid_size += 1  # Adjust for non-perfect squares

    # Set figure size dynamically
    fig, axes = plt.subplots(grid_size, grid_size, figsize=(grid_size * 2, grid_size * 2))
    fig.suptitle("Random Sample Images", fontsize=14)

    # Flatten axes for easy iteration (handles cases where grid isn't perfect)
    axes = axes.flatten()

    for i in range(grid_size * grid_size):
        if i < num_images:
            axes[i].imshow(images[i])
            axes[i].set_title(labels[i])
        axes[i].axis('off')  # Hide axes

    plt.show()

visualize_random_images("data", num_images=25)

# Define paths
dataset_path = "data"
split_path = "split_data"

# Create train, val, and test directories
for split in ["train", "val", "test"]:
    os.makedirs(os.path.join(split_path, split), exist_ok=True)

split_ratio = {"train": 0.7, "val": 0.15, "test": 0.15}

for cls in os.listdir(dataset_path):
    class_path = os.path.join(dataset_path, cls)
    images = os.listdir(class_path)
    
    # Shuffle and split images
    train_imgs, temp_imgs = train_test_split(images, test_size=(1 - split_ratio["train"]), random_state=42)
    val_imgs, test_imgs = train_test_split(temp_imgs, test_size=split_ratio["test"] / (split_ratio["val"] + split_ratio["test"]), random_state=42)
    
    # Copy images to respective folders
    for split, img_list in zip(["train", "val", "test"], [train_imgs, val_imgs, test_imgs]):
        split_class_path = os.path.join(split_path, split, cls)
        os.makedirs(split_class_path, exist_ok=True)
        
        for img in img_list:
            src_path = os.path.join(class_path, img)
            dst_path = os.path.join(split_class_path, img)
            shutil.copy(src_path, dst_path)

print("Dataset successfully split into Train, Validation, and Test sets!")

Dataset successfully split into Train, Validation, and Test sets!

# Count images in each split
split_counts = {"train": {}, "val": {}, "test": {}}

for split in ["train", "val", "test"]:
    for cls in os.listdir(os.path.join(split_path, split)):
        split_counts[split][cls] = len(os.listdir(os.path.join(split_path, split, cls)))

# Define colors for each split
colors = {"train": "blue", "val": "green", "test": "red"}

# Plot class distribution per split
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
splits = ["train", "val", "test"]

for i, split in enumerate(splits):
    axes[i].bar(split_counts[split].keys(), split_counts[split].values(), color=colors[split])
    axes[i].set_title(f"{split.capitalize()} Set Distribution")
    axes[i].set_xticks(range(len(split_counts[split].keys())))
    axes[i].set_xticklabels(split_counts[split].keys(), rotation=45)

plt.show()

IMAGE_SIZE = (224, 224)

# Augmentation + Normalization (For CNN, RF, XGBoost)
standardized_train_transforms = transforms.Compose([
    transforms.Resize(IMAGE_SIZE),
    transforms.RandomHorizontalFlip(p=0.5),  # Flip image with 50% chance
    transforms.RandomRotation(15),  # Rotate randomly by 15 degrees
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2),  # Adjust colors
    transforms.RandomResizedCrop(IMAGE_SIZE, scale=(0.8, 1.0)),  # Random zoom
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])  # Normalization
])

# Only Normalization (Validation & Test - No Augmentation)
standardized_test_transforms = transforms.Compose([
    transforms.Resize(IMAGE_SIZE),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])  # Normalization
])

#  Only Resize (For Transfer Learning Models)
transfer_learning_transforms = transforms.Compose([
    transforms.Resize(IMAGE_SIZE),
    transforms.ToTensor()  # No normalization, as pre-trained models handle it
])

# Paths to datasets
train_path = "split_data/train"
val_path = "split_data/val"
test_path = "split_data/test"

# Load datasets with respective transformations
standardized_train_dataset = datasets.ImageFolder(root=train_path, transform=standardized_train_transforms)
standardized_val_dataset = datasets.ImageFolder(root=val_path, transform=standardized_test_transforms)
standardized_test_dataset = datasets.ImageFolder(root=test_path, transform=standardized_test_transforms)

transfer_train_dataset = datasets.ImageFolder(root=train_path, transform=transfer_learning_transforms)
transfer_val_dataset = datasets.ImageFolder(root=val_path, transform=transfer_learning_transforms)
transfer_test_dataset = datasets.ImageFolder(root=test_path, transform=transfer_learning_transforms)

print("Datasets successfully loaded with augmentation and transformations!")

Datasets successfully loaded with augmentation and transformations!

BATCH_SIZE = 32

# Standardized dataset loaders (For CNN, RF, XGBoost)
standardized_train_loader = DataLoader(standardized_train_dataset, batch_size=BATCH_SIZE, shuffle=True)
standardized_val_loader = DataLoader(standardized_val_dataset, batch_size=BATCH_SIZE, shuffle=False)
standardized_test_loader = DataLoader(standardized_test_dataset, batch_size=BATCH_SIZE, shuffle=False)

# Transfer Learning dataset loaders
transfer_train_loader = DataLoader(transfer_train_dataset, batch_size=BATCH_SIZE, shuffle=True)
transfer_val_loader = DataLoader(transfer_val_dataset, batch_size=BATCH_SIZE, shuffle=False)
transfer_test_loader = DataLoader(transfer_test_dataset, batch_size=BATCH_SIZE, shuffle=False)

print("DataLoaders created successfully!")

DataLoaders created successfully!

def show_original_images(folder, num_images=5):
    """ Display original images from dataset """
    class_names = os.listdir(folder)
    fig, axes = plt.subplots(1, num_images, figsize=(15, 5))
    
    for i in range(num_images):
        selected_class = random.choice(class_names)
        class_path = os.path.join(folder, selected_class)
        img_name = random.choice(os.listdir(class_path))
        img_path = os.path.join(class_path, img_name)
        
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convert to RGB
        
        axes[i].imshow(img)
        axes[i].set_title(selected_class)
        axes[i].axis("off")

    plt.show()

def show_augmented_images(dataloader, title):
    images, labels = next(iter(dataloader))
    fig, axes = plt.subplots(1, 5, figsize=(15, 5))
    
    for i in range(5):
        img = images[i].permute(1, 2, 0).numpy()  # Convert tensor to image format
        img = (img * 0.5) + 0.5  # Unnormalize for visualization
        axes[i].imshow(img)
        axes[i].set_title(f"Class: {labels[i].item()}")
        axes[i].axis("off")

    plt.suptitle(title)
    plt.show()

show_original_images("split_data/train", num_images=5)

show_augmented_images(standardized_train_loader, "Augmented & Normalized Images")

def evaluate_model(model, dataloader, dataset, device):
    """
    Evaluates the model and returns accuracy, precision, recall, F1-score, and confusion matrix.
    
    Args:
        model: Trained model to evaluate.
        dataloader: DataLoader for test/validation dataset.
        dataset: Corresponding dataset to map class indices to labels.
        device: Device (CPU/GPU) for evaluation.
        
    Returns:
        metrics_dict: Dictionary with all evaluation metrics.
        conf_matrix: Confusion matrix (optional for visualization).
    """
    model.eval()  # Set model to evaluation mode
    all_preds, all_labels = [], []

    with torch.no_grad():  # No gradients needed during evaluation
        for images, labels in dataloader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, preds = torch.max(outputs, 1)  # Get predicted class indices
            
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())

    # Convert lists to numpy arrays
    all_preds = np.array(all_preds)
    all_labels = np.array(all_labels)

    # Calculate Accuracy
    accuracy = accuracy_score(all_labels, all_preds)

    # Calculate Precision, Recall, and F1-score (macro-averaged)
    precision, recall, f1, _ = precision_recall_fscore_support(all_labels, all_preds, average="macro", zero_division=0)

    # Compute Confusion Matrix
    conf_matrix = confusion_matrix(all_labels, all_preds)

    # Store metrics in a dictionary
    metrics_dict = {
        "Accuracy": accuracy,
        "Precision": precision,
        "Recall": recall,
        "F1-Score": f1
    }

    return metrics_dict, conf_matrix

def plot_confusion_matrix(conf_matrix, dataset):
    """Plots the confusion matrix."""
    plt.figure(figsize=(10, 8))
    sns.heatmap(conf_matrix, annot=True, fmt="d", cmap="Blues", xticklabels=dataset.classes, yticklabels=dataset.classes)
    plt.xlabel("Predicted Label")
    plt.ylabel("True Label")
    plt.title("Confusion Matrix")
    plt.show()

def extract_features(dataloader, model, device):
    """
    Extracts image features using a pre-trained CNN (ResNet-18).
    
    Args:
        dataloader: DataLoader containing images.
        model: Pre-trained CNN model.
        device: CPU or GPU.
    
    Returns:
        features: Extracted feature vectors.
        labels: Corresponding labels.
    """
    model.eval()  # Set to evaluation mode
    all_features, all_labels = [], []

    with torch.no_grad():
        for images, labels in dataloader:
            images = images.to(device)
            features = model(images)  # Extract features
            all_features.append(features.cpu().numpy())
            all_labels.extend(labels.numpy())

    return np.vstack(all_features), np.array(all_labels)

# Load Pre-trained ResNet18 (Removing Fully Connected Layer)
feature_extractor = resnet18(pretrained=True)
feature_extractor = torch.nn.Sequential(*list(feature_extractor.children())[:-1])  # Remove last FC layer
feature_extractor.to("cuda" if torch.cuda.is_available() else "cpu")

# Extract Features
train_features, train_labels = extract_features(standardized_train_loader, feature_extractor, "cuda")
test_features, test_labels = extract_features(standardized_test_loader, feature_extractor, "cuda")

# Train RF and measure time
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
start_time = time.time()
rf_model.fit(train_features.reshape(train_features.shape[0], -1), train_labels)
training_time = time.time() - start_time

print(f"Random Forest Training Time: {training_time:.2f} seconds")

Random Forest Training Time: 1.70 seconds

# Make Predictions
rf_preds = rf_model.predict(test_features.reshape(test_features.shape[0], -1))

# Compute Metrics
accuracy = accuracy_score(test_labels, rf_preds)
precision, recall, f1, _ = precision_recall_fscore_support(test_labels, rf_preds, average="macro", zero_division=0)
conf_matrix = confusion_matrix(test_labels, rf_preds)

# Store Results
rf_metrics = {
    "Accuracy": accuracy,
    "Precision": precision,
    "Recall": recall,
    "F1-Score": f1,
    "Training Time (s)": training_time
}

print("Random Forest Evaluation Metrics:")
print(rf_metrics)

Random Forest Evaluation Metrics:
{'Accuracy': 0.9354838709677419, 'Precision': 0.9381661349403284, 'Recall': 0.9354838709677418, 'F1-Score': 0.9349129843719057, 'Training Time (s)': 1.6964747905731201}

plot_confusion_matrix(conf_matrix, standardized_test_dataset)

# Define XGBoost model
xgb_model = xgb.XGBClassifier(n_estimators=100, eval_metric="mlogloss", random_state=42)

# Train and measure time
start_time = time.time()
xgb_model.fit(train_features.reshape(train_features.shape[0], -1), train_labels)
training_time = time.time() - start_time

print(f"XGBoost Training Time: {training_time:.2f} seconds")

XGBoost Training Time: 4.67 seconds

# Make Predictions
xgb_preds = xgb_model.predict(test_features.reshape(test_features.shape[0], -1))

# Compute Metrics
accuracy = accuracy_score(test_labels, xgb_preds)
precision, recall, f1, _ = precision_recall_fscore_support(test_labels, xgb_preds, average="macro", zero_division=0)
conf_matrix = confusion_matrix(test_labels, xgb_preds)

# Store Results
xgb_metrics = {
    "Accuracy": accuracy,
    "Precision": precision,
    "Recall": recall,
    "F1-Score": f1,
    "Training Time (s)": training_time
}

print("XGBoost Evaluation Metrics:")
print(xgb_metrics)

XGBoost Evaluation Metrics:
{'Accuracy': 0.9193548387096774, 'Precision': 0.9234516887450702, 'Recall': 0.9193548387096774, 'F1-Score': 0.9198869715122658, 'Training Time (s)': 4.672809839248657}

# Simple CNN Model
class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.fc1 = nn.Linear(64 * 56 * 56, 512) 
        self.fc2 = nn.Linear(512, num_classes)

    def forward(self, x):
        x = self.pool(nn.ReLU()(self.conv1(x)))
        x = self.pool(nn.ReLU()(self.conv2(x)))
        x = x.view(x.size(0), -1)  
        x = nn.ReLU()(self.fc1(x))
        x = self.fc2(x)
        return x
    
# Initialize model
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
cnn_model = SimpleCNN(num_classes=10).to(device)

# Loss function and optimizer
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(cnn_model.parameters(), lr=0.001)

# Learning rate scheduler
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=4, factor=0.1, min_lr=1e-7)

# Training parameters
num_epochs = 100
train_losses, val_losses, train_accs, val_accs = [], [], [], []

# Early stopping settings
best_val_loss = float("inf")
best_model_wts = copy.deepcopy(cnn_model.state_dict())
early_stop_counter = 0
patience = 5  # Stop if val loss doesn't improve for 5 epochs

start_time = time.time()

for epoch in range(num_epochs):
    cnn_model.train()
    running_loss, correct, total = 0, 0, 0

    for inputs, labels in standardized_train_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        optimizer.zero_grad()
        outputs = cnn_model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item() * inputs.size(0)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

    train_loss = running_loss / len(standardized_train_dataset)
    train_acc = correct / total
    train_losses.append(train_loss)
    train_accs.append(train_acc)

    # Validation phase
    cnn_model.eval()
    val_running_loss, val_correct, val_total = 0, 0, 0

    with torch.no_grad():
        for inputs, labels in standardized_val_loader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = cnn_model(inputs)
            loss = criterion(outputs, labels)

            val_running_loss += loss.item() * inputs.size(0)
            _, predicted = torch.max(outputs.data, 1)
            val_total += labels.size(0)
            val_correct += (predicted == labels).sum().item()

    val_loss = val_running_loss / len(standardized_val_dataset)
    val_acc = val_correct / val_total
    val_losses.append(val_loss)
    val_accs.append(val_acc)

    # Learning rate scheduling
    scheduler.step(val_loss)

    # Early stopping check
    if val_loss < best_val_loss:
        best_val_loss = val_loss
        best_model_wts = copy.deepcopy(cnn_model.state_dict())
        early_stop_counter = 0
    else:
        early_stop_counter += 1

    if early_stop_counter >= patience:
        print(f"Early stopping triggered at epoch {epoch+1}")
        break

    print(f'Epoch {epoch+1}/{num_epochs}')
    print(f'Train Loss: {train_loss:.4f} | Acc: {train_acc:.4f}')
    print(f'Val Loss: {val_loss:.4f} | Acc: {val_acc:.4f}')
    print('-' * 50)

# Load the best model
cnn_model.load_state_dict(best_model_wts)

# Training time
training_time = time.time() - start_time
print(f"Training completed in {training_time:.2f} seconds")

Epoch 1/100
Train Loss: 2.9343 | Acc: 0.1281
Val Loss: 2.2268 | Acc: 0.1967
--------------------------------------------------
Epoch 2/100
Train Loss: 2.1060 | Acc: 0.2482
Val Loss: 2.1139 | Acc: 0.2267
--------------------------------------------------
Epoch 3/100
Train Loss: 1.9559 | Acc: 0.3058
Val Loss: 1.9254 | Acc: 0.3067
--------------------------------------------------
Epoch 4/100
Train Loss: 1.8210 | Acc: 0.3662
Val Loss: 1.9267 | Acc: 0.2900
--------------------------------------------------
Epoch 5/100
Train Loss: 1.7703 | Acc: 0.3576
Val Loss: 1.8200 | Acc: 0.3567
--------------------------------------------------
Epoch 6/100
Train Loss: 1.6989 | Acc: 0.4165
Val Loss: 1.9632 | Acc: 0.3700
--------------------------------------------------
Epoch 7/100
Train Loss: 1.6404 | Acc: 0.4317
Val Loss: 1.8308 | Acc: 0.3667
--------------------------------------------------
Epoch 8/100
Train Loss: 1.5553 | Acc: 0.4525
Val Loss: 1.7867 | Acc: 0.3867
--------------------------------------------------
Epoch 9/100
Train Loss: 1.5927 | Acc: 0.4590
Val Loss: 1.7773 | Acc: 0.4100
--------------------------------------------------
Epoch 10/100
Train Loss: 1.5108 | Acc: 0.4849
Val Loss: 1.7864 | Acc: 0.4233
--------------------------------------------------
Epoch 11/100
Train Loss: 1.4260 | Acc: 0.5065
Val Loss: 1.8128 | Acc: 0.4033
--------------------------------------------------
Epoch 12/100
Train Loss: 1.3386 | Acc: 0.5482
Val Loss: 1.8696 | Acc: 0.3833
--------------------------------------------------
Epoch 13/100
Train Loss: 1.3221 | Acc: 0.5561
Val Loss: 1.9388 | Acc: 0.3967
--------------------------------------------------
Early stopping triggered at epoch 14
Training completed in 449.06 seconds

def plot_training_curves(train_losses, val_losses, train_accs, val_accs):
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))

    # Loss Curve
    axes[0].plot(train_losses, label="Train Loss")
    axes[0].plot(val_losses, label="Val Loss")
    axes[0].set_title("Loss Curve")
    axes[0].set_xlabel("Epochs")
    axes[0].set_ylabel("Loss")
    axes[0].legend()

    # Accuracy Curve
    axes[1].plot(train_accs, label="Train Acc")
    axes[1].plot(val_accs, label="Val Acc")
    axes[1].set_title("Accuracy Curve")
    axes[1].set_xlabel("Epochs")
    axes[1].set_ylabel("Accuracy")
    axes[1].legend()

    plt.show()

plot_training_curves(train_losses, val_losses, train_accs, val_accs)

# Evaluate the trained Simple CNN model
simple_cnn_metrics, simple_cnn_conf_matrix = evaluate_model(cnn_model, standardized_test_loader, standardized_test_dataset, device)

# Add training time
simple_cnn_metrics["Training Time (s)"] = training_time

# Print formatted evaluation results
print("Simple CNN Model Evaluation Metrics:")
print(simple_cnn_metrics)

Simple CNN Model Evaluation Metrics:
{'Accuracy': 0.3225806451612903, 'Precision': 0.3394414938174116, 'Recall': 0.3225806451612903, 'F1-Score': 0.3110693701907908, 'Training Time (s)': 449.0628399848938}

# Data transformations with augmentation for training
train_transform = transforms.Compose([
    transforms.RandomResizedCrop(150),  # Random crop and resize to 150x150
    transforms.RandomHorizontalFlip(),  # Random horizontal flip for augmentation
    transforms.ToTensor(),  # Convert image to tensor
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])  # Normalize (ImageNet stats)
])

# Transformations for validation and test (no augmentation)
val_test_transform = transforms.Compose([
    transforms.Resize(150),  # Resize to 150x150
    transforms.CenterCrop(150),  # Center crop to match training size
    transforms.ToTensor(),  # Convert image to tensor
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])  # Normalize (ImageNet stats)
])

# Dataset directories
split_path = "split_data"
train_dir, val_dir, test_dir = [os.path.join(split_path, x) for x in ['train', 'val', 'test']]

# Create datasets
train_dataset = datasets.ImageFolder(train_dir, transform=train_transform)
val_dataset = datasets.ImageFolder(val_dir, transform=val_test_transform)
test_dataset = datasets.ImageFolder(test_dir, transform=val_test_transform)

# Data loaders
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# Updated CNN Model definition
class ComplexCNN(nn.Module):
    def __init__(self, num_classes=10):
        super(ComplexCNN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 16, kernel_size=3, padding=1),
            nn.BatchNorm2d(16),
            nn.ReLU(),
            nn.Conv2d(16, 32, kernel_size=3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),

            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),

            nn.Conv2d(128, 256, kernel_size=3, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),

            nn.AdaptiveAvgPool2d((1, 1)) 
        )
        
        self.classifier = nn.Sequential(
            nn.Linear(256, 1024),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(1024, 512),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(512, num_classes)
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

# Initialize model, loss function, optimizer
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
complexcnn_model = ComplexCNN(num_classes=10).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(complexcnn_model.parameters(), lr=0.001)

print(complexcnn_model)

ComplexCNN(
  (features): Sequential(
    (0): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (5): ReLU()
    (6): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (7): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (9): ReLU()
    (10): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (12): ReLU()
    (13): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (14): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (16): ReLU()
    (17): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (18): AdaptiveAvgPool2d(output_size=(1, 1))
  )
  (classifier): Sequential(
    (0): Linear(in_features=256, out_features=1024, bias=True)
    (1): ReLU()
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=1024, out_features=512, bias=True)
    (4): ReLU()
    (5): Dropout(p=0.5, inplace=False)
    (6): Linear(in_features=512, out_features=10, bias=True)
  )
)

# Training parameters
num_epochs = 100
train_losses = []
val_losses = []
train_accuracies = []
val_accuracies = []


# Initialize training time tracking
start_time = time.time()

# Training loop
for epoch in range(num_epochs):
    # Training phase
    complexcnn_model.train()
    running_loss = 0.0
    correct = 0
    total = 0
    
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = complexcnn_model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item() * inputs.size(0)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
    
    epoch_loss = running_loss / len(train_dataset)
    epoch_acc = correct / total
    train_losses.append(epoch_loss)
    train_accuracies.append(epoch_acc)
    
    # Validation phase
    complexcnn_model.eval()
    val_running_loss = 0.0
    val_correct = 0
    val_total = 0
    
    with torch.no_grad():
        for inputs, labels in val_loader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = complexcnn_model(inputs)
            loss = criterion(outputs, labels)
            
            val_running_loss += loss.item() * inputs.size(0)
            _, predicted = torch.max(outputs.data, 1)
            val_total += labels.size(0)
            val_correct += (predicted == labels).sum().item()
    
    val_epoch_loss = val_running_loss / len(val_dataset)
    val_epoch_acc = val_correct / val_total
    val_losses.append(val_epoch_loss)
    val_accuracies.append(val_epoch_acc)
    
    # Print epoch statistics
    print(f'Epoch {epoch+1}/{num_epochs}')
    print(f'Train Loss: {epoch_loss:.4f} | Acc: {epoch_acc:.4f}')
    print(f'Val Loss: {val_epoch_loss:.4f} | Acc: {val_epoch_acc:.4f}')
    print('-' * 50)

# Calculate total training time
training_time = time.time() - start_time
print(f"✅ Training completed in {training_time:.2f} seconds")

plot_training_curves(train_losses, val_losses, train_accuracies, val_accuracies)

# Evaluate the trained Simple CNN model
complex_cnn_metrics, complex_cnn_conf_matrix = evaluate_model(complexcnn_model, test_loader, test_dataset, device)

# Add training time
complex_cnn_metrics["Training Time (s)"] = training_time

# Print formatted evaluation results
print("Complex CNN Model Evaluation Metrics:")
print(complex_cnn_metrics)

Complex CNN Model Evaluation Metrics:
{'Accuracy': 0.632258064516129, 'Precision': 0.6426096184448588, 'Recall': 0.6322580645161291, 'F1-Score': 0.6319930702454176, 'Training Time (s)': 639.4477109909058}

device = "cuda" if torch.cuda.is_available() else "cpu"

# Load EfficientNet-B2 Pretrained Model
efficientnet_b2 = models.efficientnet_b2(pretrained=True)

# Modify the final classification layer
num_classes = len(transfer_train_dataset.classes)
efficientnet_b2.classifier[1] = nn.Linear(efficientnet_b2.classifier[1].in_features, num_classes)

# Move model to GPU if available
efficientnet_b2 = efficientnet_b2.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(efficientnet_b2.parameters(), lr=0.0001)

def train_transfer_model(model, train_loader, val_loader, criterion, optimizer, epochs=10):
    model.train()
    train_losses, val_losses, train_accs, val_accs = [], [], [], []
    start_time = time.time()

    for epoch in range(epochs):
        total_loss, correct_train, total_train = 0, 0, 0
        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)

            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            total_loss += loss.item()
            _, preds = torch.max(outputs, 1)
            correct_train += (preds == labels).sum().item()
            total_train += labels.size(0)

        train_loss = total_loss / len(train_loader)
        train_acc = correct_train / total_train
        train_losses.append(train_loss)
        train_accs.append(train_acc)

        # Validate model
        model.eval()
        with torch.no_grad():
            total_val_loss, correct_val, total_val = 0, 0, 0
            for images, labels in val_loader:
                images, labels = images.to(device), labels.to(device)

                outputs = model(images)
                val_loss = criterion(outputs, labels)

                total_val_loss += val_loss.item()
                _, preds = torch.max(outputs, 1)
                correct_val += (preds == labels).sum().item()
                total_val += labels.size(0)

        val_loss = total_val_loss / len(val_loader)
        val_acc = correct_val / total_val
        val_losses.append(val_loss)
        val_accs.append(val_acc)

        print(f"Epoch [{epoch+1}/{epochs}] - Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.4f} | Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.4f}")

        model.train()

    training_time = time.time() - start_time
    return training_time, train_losses, val_losses, train_accs, val_accs

# Train EfficientNet-B2
training_time, train_losses, val_losses, train_accs, val_accs = train_transfer_model(efficientnet_b2, transfer_train_loader, transfer_val_loader, criterion, optimizer, epochs=10)

Epoch [1/10] - Train Loss: 1.7012, Train Acc: 0.6194 | Val Loss: 0.8963, Val Acc: 0.9233
Epoch [2/10] - Train Loss: 0.5561, Train Acc: 0.9482 | Val Loss: 0.2976, Val Acc: 0.9667
Epoch [3/10] - Train Loss: 0.2159, Train Acc: 0.9647 | Val Loss: 0.1843, Val Acc: 0.9767
Epoch [4/10] - Train Loss: 0.0956, Train Acc: 0.9906 | Val Loss: 0.1566, Val Acc: 0.9667
Epoch [5/10] - Train Loss: 0.0577, Train Acc: 0.9935 | Val Loss: 0.1441, Val Acc: 0.9700
Epoch [6/10] - Train Loss: 0.0609, Train Acc: 0.9935 | Val Loss: 0.1191, Val Acc: 0.9767
Epoch [7/10] - Train Loss: 0.0321, Train Acc: 0.9957 | Val Loss: 0.1341, Val Acc: 0.9633
Epoch [8/10] - Train Loss: 0.0253, Train Acc: 0.9971 | Val Loss: 0.1327, Val Acc: 0.9633
Epoch [9/10] - Train Loss: 0.0190, Train Acc: 0.9986 | Val Loss: 0.1152, Val Acc: 0.9733
Epoch [10/10] - Train Loss: 0.0212, Train Acc: 0.9971 | Val Loss: 0.1208, Val Acc: 0.9700

plot_training_curves(train_losses, val_losses, train_accs, val_accs)

effnet_metrics, effnet_conf_matrix = evaluate_model(efficientnet_b2, transfer_test_loader, transfer_test_dataset, device)

# Add training time
effnet_metrics["Training Time (s)"] = training_time

print("EfficientNet-B2 Evaluation Metrics:")
print(effnet_metrics)

EfficientNet-B2 Evaluation Metrics:
{'Accuracy': 0.9741935483870968, 'Precision': 0.9741451149425288, 'Recall': 0.9741935483870968, 'F1-Score': 0.9739708561020036, 'Training Time (s)': 105.8400604724884}

plot_confusion_matrix(effnet_conf_matrix, transfer_test_dataset)

device = "cuda" if torch.cuda.is_available() else "cpu"

# Load ResNet-50 Pretrained Model
resnet50 = models.resnet50(pretrained=True)

# Unfreeze the last few layers for fine-tuning
for param in list(resnet50.parameters())[:-10]:  # Freeze all layers except the last 10
    param.requires_grad = False

# Modify the final classification layer
num_classes = len(transfer_train_dataset.classes)
resnet50.fc = nn.Linear(resnet50.fc.in_features, num_classes)

# Move model to GPU if available
resnet50 = resnet50.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(resnet50.parameters(), lr=0.0001)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.5, verbose=True)

def train_transfer_model(model, train_loader, val_loader, criterion, optimizer, scheduler, epochs=20, patience=5):
    model.train()
    train_losses, val_losses, train_accs, val_accs = [], [], [], []
    start_time = time.time()
    
    best_val_loss = float("inf")
    best_model_wts = copy.deepcopy(model.state_dict())
    early_stop_counter = 0

    for epoch in range(epochs):
        total_loss, correct_train, total_train = 0, 0, 0

        # Training phase
        model.train()
        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)

            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            total_loss += loss.item()
            _, preds = torch.max(outputs, 1)
            correct_train += (preds == labels).sum().item()
            total_train += labels.size(0)

        train_loss = total_loss / len(train_loader)
        train_acc = correct_train / total_train
        train_losses.append(train_loss)
        train_accs.append(train_acc)

        # Validation phase
        model.eval()
        with torch.no_grad():
            total_val_loss, correct_val, total_val = 0, 0, 0
            for images, labels in val_loader:
                images, labels = images.to(device), labels.to(device)

                outputs = model(images)
                val_loss = criterion(outputs, labels)

                total_val_loss += val_loss.item()
                _, preds = torch.max(outputs, 1)
                correct_val += (preds == labels).sum().item()
                total_val += labels.size(0)

        val_loss = total_val_loss / len(val_loader)
        val_acc = correct_val / total_val
        val_losses.append(val_loss)
        val_accs.append(val_acc)

        # Learning Rate Scheduler Update
        scheduler.step(val_loss)

        print(f"Epoch [{epoch+1}/{epochs}] - Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.4f} | Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.4f}")

        # Check for best model
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_model_wts = copy.deepcopy(model.state_dict())
            early_stop_counter = 0
            print("🔥 New Best Model Saved!")
        else:
            early_stop_counter += 1
            print(f"⏳ Early Stop Counter: {early_stop_counter}/{patience}")

        # Early Stopping
        if early_stop_counter >= patience:
            print("⏹ Early stopping triggered! Restoring best model.")
            model.load_state_dict(best_model_wts)
            break

    training_time = time.time() - start_time
    return training_time, train_losses, val_losses, train_accs, val_accs, best_model_wts

# Train ResNet-50 
training_time, train_losses, val_losses, train_accs, val_accs, best_model_wts = train_transfer_model(
    resnet50, transfer_train_loader, transfer_val_loader, criterion, optimizer, scheduler, epochs=20, patience=5
)

# Load best model weights
resnet50.load_state_dict(best_model_wts)

Epoch [1/20] - Train Loss: 1.0279, Train Acc: 0.8151 | Val Loss: 0.2806, Val Acc: 0.9667
🔥 New Best Model Saved!
Epoch [2/20] - Train Loss: 0.2037, Train Acc: 0.9712 | Val Loss: 0.1850, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [3/20] - Train Loss: 0.1057, Train Acc: 0.9928 | Val Loss: 0.1454, Val Acc: 0.9733
🔥 New Best Model Saved!
Epoch [4/20] - Train Loss: 0.0634, Train Acc: 0.9964 | Val Loss: 0.1363, Val Acc: 0.9667
🔥 New Best Model Saved!
Epoch [5/20] - Train Loss: 0.0457, Train Acc: 0.9957 | Val Loss: 0.1301, Val Acc: 0.9733
🔥 New Best Model Saved!
Epoch [6/20] - Train Loss: 0.0436, Train Acc: 0.9964 | Val Loss: 0.1202, Val Acc: 0.9667
🔥 New Best Model Saved!
Epoch [7/20] - Train Loss: 0.0290, Train Acc: 0.9986 | Val Loss: 0.1176, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [8/20] - Train Loss: 0.0248, Train Acc: 0.9993 | Val Loss: 0.1138, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [9/20] - Train Loss: 0.0189, Train Acc: 1.0000 | Val Loss: 0.1091, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [10/20] - Train Loss: 0.0174, Train Acc: 0.9993 | Val Loss: 0.1193, Val Acc: 0.9733
⏳ Early Stop Counter: 1/5
Epoch [11/20] - Train Loss: 0.0188, Train Acc: 0.9978 | Val Loss: 0.1207, Val Acc: 0.9700
⏳ Early Stop Counter: 2/5
Epoch [12/20] - Train Loss: 0.0151, Train Acc: 0.9986 | Val Loss: 0.1037, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [13/20] - Train Loss: 0.0111, Train Acc: 1.0000 | Val Loss: 0.1091, Val Acc: 0.9700
⏳ Early Stop Counter: 1/5
Epoch [14/20] - Train Loss: 0.0105, Train Acc: 0.9993 | Val Loss: 0.1032, Val Acc: 0.9700
🔥 New Best Model Saved!
Epoch [15/20] - Train Loss: 0.0082, Train Acc: 1.0000 | Val Loss: 0.1095, Val Acc: 0.9700
⏳ Early Stop Counter: 1/5
Epoch [16/20] - Train Loss: 0.0075, Train Acc: 1.0000 | Val Loss: 0.1083, Val Acc: 0.9667
⏳ Early Stop Counter: 2/5
Epoch [17/20] - Train Loss: 0.0076, Train Acc: 1.0000 | Val Loss: 0.1114, Val Acc: 0.9667
⏳ Early Stop Counter: 3/5
Epoch [18/20] - Train Loss: 0.0077, Train Acc: 0.9993 | Val Loss: 0.1041, Val Acc: 0.9700
⏳ Early Stop Counter: 4/5
Epoch [19/20] - Train Loss: 0.0062, Train Acc: 1.0000 | Val Loss: 0.1037, Val Acc: 0.9700
⏳ Early Stop Counter: 5/5
⏹ Early stopping triggered! Restoring best model.

<All keys matched successfully>

plot_training_curves(train_losses, val_losses, train_accs, val_accs)

resnet_metrics, resnet_conf_matrix = evaluate_model(resnet50, transfer_test_loader, transfer_test_dataset, device)

# Add training time
resnet_metrics["Training Time (s)"] = training_time

print("ResNet-50 Evaluation Metrics:")
print(resnet_metrics)

ResNet-50 Evaluation Metrics:
{'Accuracy': 0.9709677419354839, 'Precision': 0.9713257575757577, 'Recall': 0.970967741935484, 'F1-Score': 0.9709032656778558, 'Training Time (s)': 136.02926087379456}

plot_confusion_matrix(resnet_conf_matrix, transfer_test_dataset)

device = "cuda" if torch.cuda.is_available() else "cpu"

# Load MobileNetV3-Small Pretrained Model
mobilenet_v3 = models.mobilenet_v3_small(pretrained=True)

# Unfreeze last few layers for fine-tuning
for param in list(mobilenet_v3.parameters())[:-5]:  # Keep first layers frozen
    param.requires_grad = False

# Modify the final classification layer
num_classes = len(transfer_train_dataset.classes)
mobilenet_v3.classifier[3] = nn.Linear(mobilenet_v3.classifier[3].in_features, num_classes)

# Move model to GPU if available
mobilenet_v3 = mobilenet_v3.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(mobilenet_v3.parameters(), lr=0.0001)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.5, verbose=True)

def train_transfer_model(model, train_loader, val_loader, criterion, optimizer, scheduler, epochs=20, patience=5):
    model.train()
    train_losses, val_losses, train_accs, val_accs = [], [], [], []
    start_time = time.time()
    
    best_val_loss = float("inf")
    best_model_wts = copy.deepcopy(model.state_dict())
    early_stop_counter = 0

    for epoch in range(epochs):
        total_loss, correct_train, total_train = 0, 0, 0

        # Training phase
        model.train()
        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)

            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            total_loss += loss.item()
            _, preds = torch.max(outputs, 1)
            correct_train += (preds == labels).sum().item()
            total_train += labels.size(0)

        train_loss = total_loss / len(train_loader)
        train_acc = correct_train / total_train
        train_losses.append(train_loss)
        train_accs.append(train_acc)

        # Validation phase
        model.eval()
        with torch.no_grad():
            total_val_loss, correct_val, total_val = 0, 0, 0
            for images, labels in val_loader:
                images, labels = images.to(device), labels.to(device)

                outputs = model(images)
                val_loss = criterion(outputs, labels)

                total_val_loss += val_loss.item()
                _, preds = torch.max(outputs, 1)
                correct_val += (preds == labels).sum().item()
                total_val += labels.size(0)

        val_loss = total_val_loss / len(val_loader)
        val_acc = correct_val / total_val
        val_losses.append(val_loss)
        val_accs.append(val_acc)

        # Learning Rate Scheduler Update
        scheduler.step(val_loss)

        print(f"Epoch [{epoch+1}/{epochs}] - Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.4f} | Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.4f}")

        # Check for best model
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_model_wts = copy.deepcopy(model.state_dict())
            early_stop_counter = 0
            print("🔥 New Best Model Saved!")
        else:
            early_stop_counter += 1
            print(f"⏳ Early Stop Counter: {early_stop_counter}/{patience}")

        # Early Stopping
        if early_stop_counter >= patience:
            print("⏹ Early stopping triggered! Restoring best model.")
            model.load_state_dict(best_model_wts)
            break

    training_time = time.time() - start_time
    return training_time, train_losses, val_losses, train_accs, val_accs, best_model_wts

# Train MobileNetV3-Small with Early Stopping
training_time, train_losses, val_losses, train_accs, val_accs, best_model_wts = train_transfer_model(
    mobilenet_v3, transfer_train_loader, transfer_val_loader, criterion, optimizer, scheduler, epochs=20, patience=3
)

# Load best model weights
mobilenet_v3.load_state_dict(best_model_wts)

Epoch [1/20] - Train Loss: 1.8422, Train Acc: 0.4827 | Val Loss: 1.4235, Val Acc: 0.6900
🔥 New Best Model Saved!
Epoch [2/20] - Train Loss: 1.2387, Train Acc: 0.7669 | Val Loss: 0.9999, Val Acc: 0.8167
🔥 New Best Model Saved!
Epoch [3/20] - Train Loss: 0.8664, Train Acc: 0.8482 | Val Loss: 0.8011, Val Acc: 0.8500
🔥 New Best Model Saved!
Epoch [4/20] - Train Loss: 0.6658, Train Acc: 0.8727 | Val Loss: 0.6836, Val Acc: 0.8500
🔥 New Best Model Saved!
Epoch [5/20] - Train Loss: 0.5501, Train Acc: 0.8856 | Val Loss: 0.5913, Val Acc: 0.8567
🔥 New Best Model Saved!
Epoch [6/20] - Train Loss: 0.4547, Train Acc: 0.9036 | Val Loss: 0.5113, Val Acc: 0.8933
🔥 New Best Model Saved!
Epoch [7/20] - Train Loss: 0.4187, Train Acc: 0.9036 | Val Loss: 0.4474, Val Acc: 0.9033
🔥 New Best Model Saved!
Epoch [8/20] - Train Loss: 0.3596, Train Acc: 0.9216 | Val Loss: 0.4069, Val Acc: 0.9067
🔥 New Best Model Saved!
Epoch [9/20] - Train Loss: 0.3375, Train Acc: 0.9137 | Val Loss: 0.3767, Val Acc: 0.8933
🔥 New Best Model Saved!
Epoch [10/20] - Train Loss: 0.3110, Train Acc: 0.9216 | Val Loss: 0.3566, Val Acc: 0.8967
🔥 New Best Model Saved!
Epoch [11/20] - Train Loss: 0.2732, Train Acc: 0.9374 | Val Loss: 0.3486, Val Acc: 0.8967
🔥 New Best Model Saved!
Epoch [12/20] - Train Loss: 0.2655, Train Acc: 0.9338 | Val Loss: 0.3346, Val Acc: 0.8933
🔥 New Best Model Saved!
Epoch [13/20] - Train Loss: 0.2498, Train Acc: 0.9410 | Val Loss: 0.3347, Val Acc: 0.8867
⏳ Early Stop Counter: 1/3
Epoch [14/20] - Train Loss: 0.2414, Train Acc: 0.9403 | Val Loss: 0.3329, Val Acc: 0.8933
🔥 New Best Model Saved!
Epoch [15/20] - Train Loss: 0.2296, Train Acc: 0.9410 | Val Loss: 0.3143, Val Acc: 0.8833
🔥 New Best Model Saved!
Epoch [16/20] - Train Loss: 0.2051, Train Acc: 0.9540 | Val Loss: 0.3147, Val Acc: 0.8900
⏳ Early Stop Counter: 1/3
Epoch [17/20] - Train Loss: 0.1974, Train Acc: 0.9554 | Val Loss: 0.3102, Val Acc: 0.8967
🔥 New Best Model Saved!
Epoch [18/20] - Train Loss: 0.1849, Train Acc: 0.9518 | Val Loss: 0.3115, Val Acc: 0.8900
⏳ Early Stop Counter: 1/3
Epoch [19/20] - Train Loss: 0.1798, Train Acc: 0.9576 | Val Loss: 0.3110, Val Acc: 0.9000
⏳ Early Stop Counter: 2/3
Epoch [20/20] - Train Loss: 0.1623, Train Acc: 0.9612 | Val Loss: 0.3093, Val Acc: 0.8967
🔥 New Best Model Saved!

<All keys matched successfully>

plot_training_curves(train_losses, val_losses, train_accs, val_accs)

mobilenet_metrics, mobilenet_conf_matrix = evaluate_model(mobilenet_v3, transfer_test_loader, transfer_test_dataset, device)

# Add training time
mobilenet_metrics["Training Time (s)"] = training_time

print("MobileNetV3-Small Evaluation Metrics:")
print(mobilenet_metrics)

MobileNetV3-Small Evaluation Metrics:
{'Accuracy': 0.9129032258064517, 'Precision': 0.9175651917658559, 'Recall': 0.9129032258064516, 'F1-Score': 0.9136413690288328, 'Training Time (s)': 119.07905864715576}

# Store all metrics
models = {
    "Random Forest": rf_metrics,
    "XGBoost": xgb_metrics,
    "Simple CNN": simple_cnn_metrics,
    "Complex CNN": complex_cnn_metrics,
    "EfficientNet": effnet_metrics,
    "ResNet": resnet_metrics,
    "MobileNet": mobilenet_metrics,
}

metrics_keys = ["Accuracy", "Precision", "Recall", "F1-Score", "Training Time (s)"]

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
fig.suptitle("Comparison of Model Metrics", fontsize=16)

# Hide the sixth subplot
axes[1, 2].axis('off')

for idx, metric in enumerate(metrics_keys):
    row = idx // 3
    col = idx % 3
    ax = axes[row, col]

    # Extract values for the current metric and sort
    sorted_models = sorted(models.items(), key=lambda x: x[1][metric], reverse=True)
    model_names = [m[0] for m in sorted_models]
    values = [m[1][metric] for m in sorted_models]

    # Plot bar chart
    ax.barh(model_names, values, color=plt.cm.Paired(np.linspace(0, 1, len(models))))
    ax.set_xlabel(metric)
    ax.set_title(f"{metric} Comparison")
    ax.invert_yaxis()

plt.tight_layout(rect=[0, 0, 1, 0.96])

# Adjust positions of the second row's subplots to center them
ax3 = axes[1, 0]
ax4 = axes[1, 1]

# Get current positions
pos3 = ax3.get_position()
pos4 = ax4.get_position()

# Calculate new x positions to center both plots
total_width = pos4.x1 - pos3.x0
new_x0 = (1 - total_width) / 2

# Set new positions
ax3.set_position([new_x0, pos3.y0, pos3.width, pos3.height])
ax4.set_position([new_x0 + (pos3.x1 - pos3.x0) + (pos4.x0 - pos3.x1), 
                  pos4.y0, pos4.width, pos4.height])

plt.show()

def get_misclassified_images(model, dataloader, dataset, device, num_images=8):
    model.eval()
    misclassified = []

    with torch.no_grad():
        for images, labels in dataloader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            probs = torch.nn.functional.softmax(outputs, dim=1) 
            confidences, preds = torch.max(probs, 1)

            for i in range(len(labels)):
                if preds[i] != labels[i]:  # If misclassified
                    misclassified.append((images[i].cpu(), labels[i].cpu(), preds[i].cpu(), confidences[i].cpu().item()))
                if len(misclassified) >= num_images:
                    return misclassified
    return misclassified

# Get 8 misclassified images
misclassified_samples = get_misclassified_images(efficientnet_b2, transfer_test_loader, transfer_test_dataset, device, num_images=8)

def plot_misclassified_images(misclassified_samples, class_names):
    fig, axes = plt.subplots(2, 4, figsize=(14, 7))
    plt.subplots_adjust(top=0.85)  # Adjust top margin for titles

    for i, (image, true_label, pred_label, confidence) in enumerate(misclassified_samples):
        ax = axes[i // 4, i % 4]
        image = image.permute(1, 2, 0).numpy()
        image = (image - image.min()) / (image.max() - image.min())
        
        ax.imshow(image)
        ax.axis("off")

        true_class = class_names[true_label]
        predicted_class = class_names[pred_label]

        # Add titles with custom positioning and colors
        ax.text(0.5, 1.1, f"True: {true_class}", 
                color='green', fontsize=12, ha='center', va='bottom', 
                transform=ax.transAxes)
        
        ax.text(0.5, 1.02, f"Pred: {predicted_class} ({confidence:.2%})", 
                color='red', fontsize=12, ha='center', va='bottom', 
                transform=ax.transAxes)

    plt.tight_layout()
    plt.show()

# Get class names
class_names = transfer_test_dataset.classes

# Plot misclassified images with correct title formatting
plot_misclassified_images(misclassified_samples, class_names)

class GradCAM:
    def __init__(self, model, target_layer):
        self.model = model
        self.target_layer = target_layer
        self.gradients = None
        self.activations = None
        
        # Register hooks
        self.forward_hook = target_layer.register_forward_hook(self.save_activations)
        self.backward_hook = target_layer.register_backward_hook(self.save_gradients)

    def save_activations(self, module, input, output):
        self.activations = output.detach()

    def save_gradients(self, module, grad_input, grad_output):
        self.gradients = grad_output[0].detach()

    def generate_heatmap(self, image, class_idx):
        # Forward pass through full model
        output = self.model(image.unsqueeze(0))
        self.model.zero_grad()
        
        # Backward pass for target class
        output[0, class_idx].backward()
        
        # Use registered activations and gradients
        gradients = self.gradients.cpu().numpy()
        activations = self.activations.cpu().numpy()
        
        # Pool gradients and weight activations
        weights = np.mean(gradients, axis=(2, 3))
        heatmap = np.zeros(activations.shape[2:], dtype=np.float32)
        
        for i, w in enumerate(weights[0]):
            heatmap += w * activations[0, i]
            
        heatmap = np.maximum(heatmap, 0)
        heatmap /= np.max(heatmap)  # Normalize
        return heatmap

    def __del__(self):
        self.forward_hook.remove()
        self.backward_hook.remove()

def apply_heatmap(image, heatmap):
    heatmap = cv2.resize(heatmap, (image.shape[1], image.shape[0]))  # Resize heatmap to match image size
    heatmap = np.uint8(255 * heatmap)  
    heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET) 

    # Ensure image is uint8 before blending
    image = (image * 255).astype(np.uint8)  

    # Blend original image with heatmap
    superimposed = cv2.addWeighted(image, 0.6, heatmap, 0.4, 0)
    return superimposed

def visualize_gradcam_grid(model, misclassified_samples, target_layer, class_names):
    num_images = len(misclassified_samples[:8])  # We visualize 8 images (each with its Grad-CAM)
    
    fig, axes = plt.subplots(4, 4, figsize=(14, 14))
    plt.subplots_adjust(hspace=0.5)  # Add spacing between rows

    axes = axes.flatten()  # Flatten the 2D array of axes to 1D

    for idx, (image, true_label, pred_label, confidence) in enumerate(misclassified_samples[:8]):  
        # Process image for Grad-CAM
        image_tensor = image.to(device)
        grad_cam = GradCAM(model, target_layer)
        heatmap = grad_cam.generate_heatmap(image_tensor, pred_label)

        # Convert images to numpy
        image_np = image.cpu().permute(1, 2, 0).numpy()
        image_np = (image_np - image_np.min()) / (image_np.max() - image_np.min())  # Normalize
        heatmap_img = apply_heatmap(image_np, heatmap)

        # Flattened indexing for 4x4 grid
        ax_pred = axes[idx * 2]  # First: Prediction Image
        ax_cam = axes[idx * 2 + 1]  # Second: Grad-CAM

        # Plot Prediction Image
        ax_pred.imshow(image_np)
        ax_pred.axis("off")
        
        # Add title with colors for True (Green) and Pred (Red)
        ax_pred.text(0.5, 1.1, f"True: {class_names[true_label]}", 
                     color='green', fontsize=12, ha='center', va='bottom', 
                     transform=ax_pred.transAxes)

        ax_pred.text(0.5, 1.02, f"Pred: {class_names[pred_label]} ({confidence:.2%})", 
                     color='red', fontsize=12, ha='center', va='bottom', 
                     transform=ax_pred.transAxes)

        # Plot Grad-CAM Heatmap
        ax_cam.imshow(heatmap_img)
        ax_cam.axis("off")
        ax_cam.set_title("Grad-CAM", fontsize=12)

    plt.tight_layout()
    plt.show()

# ✅ Correct Target Layer Selection for EfficientNet-B2
target_layer = efficientnet_b2.features[-2]  # Last convolutional layer

# Run Grad-CAM on misclassified images in grid format
visualize_gradcam_grid(efficientnet_b2, misclassified_samples, target_layer, class_names)

def predict_image_with_gradcam(model, path, class_names, target_layer):
    model.eval()

    # Define transformation (same as training)
    transform = transforms.Compose([
        transforms.Resize((256, 256)),
        transforms.ToTensor()
    ])

    # Select image: from folder or direct file
    if os.path.isdir(path):  
        image_files = []
        for root, _, files in os.walk(path):
            for file in files:
                if file.endswith(('.jpg', '.png', '.jpeg')):  
                    image_files.append(os.path.join(root, file))

        if len(image_files) == 0:
            print("No images found in folder.")
            return
        
        image_path = random.choice(image_files)
    else:  # If path is a direct file
        if not os.path.isfile(path):
            print("File not found.")
            return
        image_path = path

    # Load and preprocess image
    image = Image.open(image_path).convert("RGB")
    image_tensor = transform(image).unsqueeze(0).to(device)

    # Make prediction
    with torch.no_grad():
        outputs = model(image_tensor)
        probs = torch.nn.functional.softmax(outputs, dim=1)
        confidence, pred_idx = torch.max(probs, 1)

    predicted_label = class_names[pred_idx.item()]

    # Convert image for Grad-CAM processing
    image_np = np.array(image)
    image_np = (image_np - image_np.min()) / (image_np.max() - image_np.min())  

    # Apply Grad-CAM
    grad_cam = GradCAM(model, target_layer)
    heatmap = grad_cam.generate_heatmap(image_tensor.squeeze(0), pred_idx.item())
    heatmap_img = apply_heatmap(image_np, heatmap)

    # Plot prediction & Grad-CAM side by side
    fig, axes = plt.subplots(1, 2, figsize=(10, 5))

    # Original Image
    axes[0].imshow(image)
    axes[0].axis("off")
    axes[0].set_title(f"Predicted: {predicted_label} ({confidence.item():.2%})", color="red")

    # Grad-CAM Visualization
    axes[1].imshow(heatmap_img)
    axes[1].axis("off")
    axes[1].set_title("Grad-CAM")

    plt.show()

# Correct Target Layer Selection for EfficientNet-B2
target_layer = efficientnet_b2.features[-2] 

# Predict a random image from a folder and visualize Grad-CAM
predict_image_with_gradcam(efficientnet_b2, "data", class_names, target_layer)

# Define model save path
model_save_path = "best_efficientnet_b2.pth"

# Save the model
torch.save({
    'model_state_dict': efficientnet_b2.state_dict(),
    'class_names': class_names 
}, model_save_path)

print(f"Model saved successfully at {model_save_path}")

Model saved successfully at best_efficientnet_b2.pth

# Reload model
def load_model(model_path, model_architecture, device):
    checkpoint = torch.load(model_path, map_location=device)

    # Load model architecture
    model = model_architecture.to(device)
    model.load_state_dict(checkpoint['model_state_dict'])
    model.eval()  # Set to evaluation mode

    # Load class names
    loaded_class_names = checkpoint.get('class_names', None)

    print("Model loaded successfully!")
    return model, loaded_class_names

# Example usage:
loaded_model, loaded_class_names = load_model(model_save_path, efficientnet_b2, device)

Model loaded successfully!

# Define target layer for Grad-CAM 
target_layer = loaded_model.features[-2]

# Example usage: Predict a random image from the test folder
predict_image_with_gradcam(loaded_model, "test_images", loaded_class_names, target_layer)

# Predict a specific image
predict_image_with_gradcam(loaded_model, "test_images/cat.jpg", loaded_class_names, target_layer)

Animal Image Classification¶

1. Introduction¶

2. Data Preparation & Exploration¶

2.1 Dataset overview¶

2.2 Load and Preprocess Dataset¶

2.3 Detailed Dataset Exploration¶

2.4 Train-Validation-Test Split¶

2.5 Image Preprocessing¶

2.5.1 Define Image Transformations¶

2.5.2 Load the Dataset¶

2.5.3 Create Data Loaders¶

2.5.4 Verify Preprocessing (Visualization at Each Step)¶

3. Model Building¶

3.1 Model Evaluation Function¶

3.2 Random Forest Model¶

3.3 XGBoost Model¶

3.4 Simple CNN Model¶

3.5 Complex CNN Model¶

3.6 Transfer Learning models¶

3.6.1 EfficientNetB2 Model¶

3.6.2 ResNet-50 Model¶

3.6.3 MobileNetV3-Small¶

4. Models Evaluation & Interpretation¶

4.1 Comparing Model Performance¶

4.2 Analyzing Misclassifications¶

4.3 Grad-CAM: Model Interpretation¶

5. Model Deployment & Inference¶

5.1 Save and Load the Best Model¶

5.2 Predicting on New Images¶

6. Conclusion¶