TECHNIQUE BASEE HITS/SVM POUR LA REDUCTION ET LA PONDERATION DES CARACTERISTIQUES DES PAGES WEB

MEADI, MOHAMED NADJIB (2017) TECHNIQUE BASEE HITS/SVM POUR LA REDUCTION ET LA PONDERATION DES CARACTERISTIQUES DES PAGES WEB. Doctoral thesis, Université Mohamed Khider - Biskra.

Preview

Text
thèse_55_2017.pdf
Download (1MB) | Preview

Abstract

Le nombre de pages Web publiées sur le World Wide Web est estimé des centaines de millions. La fouille de ces pages demande un effort intellectuel incroyable qui dépasse les capacités humaines. Pour ce problème, il est conseillé d'utiliser de classificateurs automatiques qui permettent d'organiser et d'obtenir des informations de ces importantes ressources. En général, les classificateurs automatique de pages Web doivent gérer des millions de pages web, des dizaines de milliers de caractéristiques (généralement des termes) et des centaines de catégories. La plupart des classificateurs utilisent le modèle vectoriel pour représenter l'ensemble des pages Web. Ce modèle produit des vecteurs des caractéristiques de taille importante, ce qui va ralentir le temps de traitement et augmenter les demandes de ressources. Par conséquent, il y a une demande croissante pour atténuer ces problèmes en réduisant la dimension des données d'entrée sans dégrader les performances des classificateurs. La littérature compte plusieurs travaux de réduction de dimensions, mais le problème est que ces propositions importent des techniques qui consomment beaucoup de temps qui peuvent influencer sur le temps de l'apprentissage des classificateurs. Dans cette thèse, nous proposons une approche novatrice qui améliore les classificateurs de la page Web en réduisant la dimension des données d'entrée c-à-d sélection de caractéristiques, en sélectionnant les plus importantes. Nous avons présenté l'importance d'une caractéristiques par une valeur qui s'appelle " valeur d'autorité " Cette dernière est l'une de deux sorties de l'algorithme HITS (Hypertext Induced Topic Search). Cet algorithme est très connu dans le domaine de l'analyse des liens où il est utilisé pour classer les pages Web selon leur importance dans le corpus d'entrée. Pour valider notre approche, nous l'avons comparée avec deux algorithmes de sélection des caractéristiques, qui sont chi-square et information gain, et nous sommes arrivé à des résultats très encourageants qui confirment la possibilité d'utiliser notre proposition comme un sélecteur des caractéristiques. Nous proposons aussi d'utiliser le vecteur des autorités pour calculer les poids des caractéristiques restantes. Nous avons évalué la précision de notre approche en la comparant au classificateur TFIDF en tant qu'un modèle de pondération et nous sommes arrivés à des résultats très compétitifs. Ces résultats confirment que notre approche peut être utilisée comme un schéma de pondération. D'après les expérimentations que nous avons effectué sur plusieurs ensembles des pages Web, nous avons remarqué que notre approche réduit considérablement le temps nécessaire pour la classification.

Item Type:	Thesis (Doctoral)
Uncontrolled Keywords:	Web mining, Classification des pages Web, Sélection des caractéristiques, Analyse des liens, HITS, SVM
Subjects:	Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions:	Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie > Département d'informatique
Depositing User:	Bouthaina Assami
Date Deposited:	14 Jun 2017 10:39
Last Modified:	14 Jun 2017 10:39
URI:	http://thesis.univ-biskra.dz/id/eprint/2918

Actions (login required)

View Item