import pandas as pd
import numpy as np


from bop_scripts import preprocessing

lab_dictionnary = pd.read_csv("./config/lab_items.csv").set_index("item_id")["3"].to_dict()
get_drugs, get_diseases = True, True

X = preprocessing.generate_features_dataset(
    database="./data/mimic-iv.sqlite",
    get_drugs=get_drugs,
    get_diseases=get_diseases
)

y = preprocessing.generate_labels_dataset(
    database="./data/mimic-iv.sqlite",
    lab_dictionnary=lab_dictionnary,
)

# Par conception, last_7 et last_30 doivent valoir 0 lorsque manquant
X["last_7"] = X["last_7"].fillna(0)
X["last_30"] = X["last_30"].fillna(0)

assert((X["stay_id"] != y["stay_id"]).sum() == 0) # Sanity check


# Train - test split
# Nous gardons 10 000 lignes pour l'évaluation

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=10000, random_state=42
)


import seaborn as sns
from matplotlib import pyplot as plt


import importlib
from bop_scripts import visualisation
importlib.reload(visualisation)

from bop_scripts.visualisation import plot_all_scatter, plot_missing_outcome, plot_missing_bar, plot_correlation, plot_labels_frequencies_and_correlation, plot_box_variable_label_distribution, plot_odd_word_wc
from bop_scripts.preprocessing import remove_outliers


variables = ["temperature", "heartrate", "resprate", "o2sat", "sbp", "dbp", "pain"]
plot_all_scatter(X_train, variables, ncols=2)


variables_ranges = {
    "temperature":[60,130],
    "heartrate":[20, 300],
    "resprate":[5, 50],
    "o2sat":[20, 100],
    "sbp":[40, 250],
    "dbp":[20, 200],
    "pain":[0,10]
}

X_train_clean, outliers = remove_outliers(X_train, variables_ranges)
outliers.round(2)


plot_all_scatter(X_train_clean, variables, ncols=2)


categorical_features = ['gender', "last_7", "last_30"]
continuous_features = ['age', 'temperature', 'heartrate', 'resprate', 'o2sat', 'sbp', 'dbp', 'pain']
features = categorical_features+continuous_features
labels = y_train.columns.values[1:].tolist()

plot_missing_outcome(X_train_clean, y_train, features, labels)


plot_missing_bar(X, features)


features_for_corr = ['temperature', 'heartrate','resprate','o2sat', 'sbp','dbp']
plot_correlation(X_train_clean, features_for_corr)


plot_odd_word_wc(X, y, "chiefcomplaint", labels, min_occurrence=3, ncols=5)


labels = y_train.columns.values[1:].tolist()
plot_labels_frequencies_and_correlation(y, labels)


features = ["age", "temperature", "sbp", "dbp", "heartrate", "resprate", "o2sat", "pain"]
labels = ["NFS", "IonoC", "Cardiaque", "Hepato-Biliaire"]
plot_box_variable_label_distribution(X_train_clean, y_train, features, labels)


# Analyser des ATCD
# Analyse des traitements


from bop_scripts.models import generate_model, get_features_selection
from bop_scripts.visualisation import vizualize_features_selection
from sklearn.linear_model import LogisticRegression

_, X_train_clean_subset, _, y_train_subset = train_test_split(
    X_train_clean, y_train, test_size=500, random_state=42


qualitatives_variables = ["gender", "last_7", "last_30"]
quantitatives_variables = ['age', 'temperature', 'heartrate', 'resprate', 'o2sat', 'sbp', 'dbp', 'pain']
text_variables = ["chiefcomplaint"]

scores = get_features_selection(X_train_clean_subset, y_train_subset.iloc[:,1:], 
                                LogisticRegression(class_weight="balanced", C=1, solver="liblinear", max_iter=50),
                                qualitatives_variables, quantitatives_variables, text_variables[0], min_features=8)
vizualize_features_selection(scores, "roc_auc", n_score_max=5)


from bop_scripts.models import generate_model, fit_all_classifiers
from bop_scripts.visualisation import display_model_performances

qualitatives_variables = ["gender", "last_7", "last_30"]
quantitatives_variables = ['age', 'temperature', 'heartrate', 'resprate', 'o2sat', 'sbp', 'dbp', 'pain']
text_variables = ["chiefcomplaint"]
labels = y_train.columns[1:]


from sklearn.linear_model import LogisticRegression

def lr_classifier_fn ():
    lr_classifier = generate_model(
        LogisticRegression(class_weight="balanced", solver="saga"),
        qualitatives_variables,
        quantitatives_variables,
        text_variables[0],
        remove_outliers=True,
        outliers_variables_ranges=variables_ranges,
        CountVectorizer_kwargs={"ngram_range":(1,1), "max_features":600}
    )

    return lr_classifier

lr_classifiers = fit_all_classifiers(
    lr_classifier_fn,
    X_train,
    y_train.iloc[:,1:],
    hide_warnings=True
)


display_model_performances(lr_classifiers, X_test, y_test[labels], threshold=0.5, algorithm_name="régression logistique", ncols=2)


from bop_scripts.nn_models import torchMLPClassifier_sklearn, torchMLP
import torch

device = "cuda:0" if torch.cuda.is_available() else "cpu"
def torch_classifier_fn ():

    torch_classifier = torchMLPClassifier_sklearn(
        torchMLP,
        early_stop_validations_size=10000,
        early_stop=True,
        early_stop_metric="f1",
        early_stop_tol=1,
        n_epochs=50,
        device_train= device,
        device_predict="cpu",
        class_weight="balanced",
        learning_rate=1e-4,
        verbose=False
    )

    torch_sklearn_classifier = generate_model(
            torch_classifier,
            qualitatives_variables,
            quantitatives_variables,
            text_variables[0],
            remove_outliers=True,
            outliers_variables_ranges=variables_ranges,
            CountVectorizer_kwargs={"ngram_range":(1,1), "max_features":600}
    )

    return torch_sklearn_classifier

torch_sklearn_classifiers = fit_all_classifiers(
    torch_classifier_fn,
    X_train,
    y_train.iloc[:,1:],
    verbose=False
)


display_model_performances(torch_sklearn_classifiers, X_test, y_test.iloc[:,1:], threshold=0.5, algorithm_name="MLP", ncols=2)


display_model_performances(torch_sklearn_classifiers, X_test, y_test.iloc[:,1:], threshold=0.5, algorithm_name="MLP", ncols=2)


exams = ["NFS", "IonoC", "Gazometrie"]
exams_classifiers = dict([(x,y) for x, y in torch_sklearn_classifiers.items() if x in exams])
display_model_performances(exams_classifiers, X_test, y_test[exams], threshold=0.7, algorithm_name="MLP", ncols=2)

Données d'entrée	Algorithme	Données de sortie
		Vecteur {0,1}^d d'examens de biologie associée à sa réalisation (1) ou non (0)
Age	MLP NLP (Embeddings, Word2Vec ...) Autres	Ionogramme Complet - {0,1}
Sexe		Bilan hépato-biliaire - {0,1}
Motif de consultation		Numération sanguine (NFS) - {0,1}
Paramètres vitaux (FC, SpO2, PA, T°, FR, EVA)		Glycémie - {0,1}
Ordonnance d'entrée du patient		Hémostase - {0,1}
		...

	n	total	pourcentage
temperature	515	414671	0.12
heartrate	30	421179	0.01
resprate	78	417837	0.02
o2sat	137	417552	0.03
sbp	269	419888	0.06
dbp	626	419060	0.15
pain	11614	409525	2.84

Biology Order Prescription¶

Plan du document¶

I. Introduction¶

I.1 Contexte¶

I.2 Objectifs¶

I.3 Définition des métriques¶

II. Téléchargement des données et transformation¶

II.1 Téléchargement des données¶

II.2 Transformation des données au format tabulaire¶

III. Exploration et visualisation les données¶

III.1. Identification et suppression des outliers¶

III.2. Analyse des valeurs manquantes¶

III.3. Visualisation des corrélations¶

III. 4. Analyse du texte¶

III. 5. Exploration des labels¶

III. 6. Association entre les features et labels¶

IV. Sélection des variables d'interêts¶

V. Définition et entrainement d'une solution d'apprentissage statistique¶

V. 1. Régression logistique¶

V. 2. Réseau de neurone (MLP)¶