Outils d'analyse des données de thèses
Ali 3d83b04014 Adding parametrization of table column name | 1 year ago | |
---|---|---|
.ipynb_checkpoints | 3 years ago | |
docs | 3 years ago | |
tests | 3 years ago | |
thesis_analysis | 1 year ago | |
.gitignore | 3 years ago | |
AUTHORS.rst | 3 years ago | |
CONTRIBUTING.rst | 3 years ago | |
HISTORY.rst | 3 years ago | |
MANIFEST.in | 3 years ago | |
Makefile | 3 years ago | |
README.md | 3 years ago | |
README.rst | 3 years ago | |
requirement.txt | 3 years ago | |
requirements_dev.txt | 3 years ago | |
setup.cfg | 3 years ago | |
setup.py | 3 years ago | |
tox.ini | 3 years ago |
Main repository : https://gogs.alibellamine.me/alibell/py_thesis_toolbox/
Outils d'analyse des données de thèses. Applique une description des données suivi d'une série de tests univariés.
git clone https://gogs.alibellamine.me/alibell/py_thesis_toolbox.git
cd py_thesis_toolbox
pip install -r requirements.txt
pip install .
L'analyse d'un jeu de données procède aux traitements suivant :
@TODO : Implémenter la création d'un modèle multivariés
from thesis_analysis import analyseStatistiques
analyses = analyseStatistiques(df)
analyses.analyse_univarie(
variable_interet,
variables_explicatives
)
La variable variable d'intérêt comprend un dictionnaire décrivant une liste de variables qualitatives ou quantitative. Le dictionnaire doit être de la forme :
{
nom_de_variable:type_de_variable["qualitative","quantitative"]
...
}
Liste de variables explicatives. L'ensemble des variables doit être de type qualitatif. Il s'agit d'une liste :
[
nom_de_variable
...
]
from thesis_analysis.test import testQualitatif, testQuantitatif
test = testQualitatif(df, y, x)
test.best_test()
Applique pour un jeu x et y le meilleur test possible. Paramètres :
La fonction best_test détermine le meilleur test applicable aux données.
Il est possible d'executer une série de test manuellement. La liste des test peut être obtenue en éxecutant :
dir(test)
from thesis_analysis import analyseStatistiques
from thesis_analysis import genererTableau
# Analyse du jeu de données
analyses = analyseStatistiques(df)
resultat = analyses.analyse_univarie(
variable_interet,
variables_explicatives
)
# Ecriture du tableau
tableau = genererTableau(resultat)
tableau.tableau_descriptif("tableau.xlsx", variables, axes, format_sortie = "xlsx") # Tableau descriptif, souvent table 1
tableau.tableau_detail_variable("tableau.xlsx", variable, axes, format_sortie = "xlsx") # Tableau détaillé : analyse d'une variable
Il existe 2 types de tableau :
genererTableau(data, precision = 2, quantitative_string_format = "{mean:.2f} +/- {std:.2f} ({n})", qualitative_string_format = "{n} ({p:.2%})")
tableau.tableau_descriptif(chemin = "tableau.xlsx", variables, axes, format_sortie = "xlsx")
tableau.tableau_detail_variable(chemin = "tableau.xlsx", variable, axes, format_sortie = "xlsx")