Détection de plagiat du texte arabe à base d’incorporation de mots

dc.contributor.authorMEREBBAH, Mira
dc.contributor.authorDINE, Salima
dc.date.accessioned2022-10-10T08:57:50Z
dc.date.available2022-10-10T08:57:50Z
dc.date.issued2022
dc.description.abstractDe nos jours, l’explosion de données due au développement technologique, d’une part, et la facilité d’accès à cet énorme quantité de données, d’autre part, ont rendu le phénomène de plagiat plus grave. Par ailleurs la langue arabe compte parmi les langues les plus utilisées dans le monde et sa présence dans le Web croit d’une manière exponentielle. D’où la nécessité de développement d’outils efficaces pour la détection du plagiat du texte Arabe. Nous commençons par l’étude de plusieurs techniques de détection de plagiat du texte Arabe tout en se focalisant sur celles se basant sur l’aspect sémantique, notamment l’incorporation de mots (word embedding). Dans l’optique de cette étude bibliographique, nous proposons un système de détection de plagiat du texte Arabe se reposant sur l’utilisation de la nouvelle technologie des transformateurs (AraBERT) dans un réseau neuronal siamois. Dans le but d’évaluer notre système, nous utilisons le corpus ExAra. Malgré que les résultats sont encore prématurés, nous conjecturons que notre système peut être amélioré en considérant l’utilisation d’autres datasets plus larges et le réglage (fine-tuning) de notre transformateur AraBERT...في الوقت الحاضر، أدى انفجار البيانات بسبب التطور التكنولوجي، من ناحية، وسهولة الوصول إلى هذا الكم الهائل من البيانات، من ناحية أخرى، إلى جعل ظاهرة النتحال أكثر خطورة. علاوة على ذلك، تعد اللغة يد العربية واحدة من أكثر اللغات استخدا ً ما في العالم ويتزا حضورها على الويب بشكل كبير. ومن هنا تأتي الحاجة إلى تطوير أدوات فعالة لكشف السرقات الأدبية للنص العربي. ندرس عدة تقنيات للكشف عن النتحال في النص العربي مع التركيز على الجانب الدللي، ول سيما تضمين الكلمات. في منظور هذه الدراسة الببليوغرافية، نقترح نظا ً ما للكشف عن سرقة النص العربي يعتمد على استخدام تقنية المحولت الجديدة ) (AraBERTفي شبكة عصبية سيامية. من أجل تقييم نظامنا، نستخدم مجموعة .ExAraعلى الرغم من أن النتائج ل تزال سابقة لأوانها، فإننا نعتقد أنه يمكن تحسين نظامنا من خلال التفكير في استخدام مجموعات لمحول البيانات الأكبر الأخرى والضبط الدقيق AraBERTالخاص بناEN_en
dc.identifier.urihttps://dspace.univ-ghardaia.edu.dz/xmlui/handle/123456789/1507
dc.publisheruniversité GhardaiaEN_en
dc.subjectDétection du plagiat de texte arabe, Incorporation de mots, Transformateur, AraBERT, Réseau neuronal siamois.EN_en
dc.subjectكشف السرقة الأدبية، تضمين الكلمات، محول، ، AraBERTشبكة عصبية سياميةEN_en
dc.titleDétection de plagiat du texte arabe à base d’incorporation de motsEN_en
dc.typeThesisEN_en

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
word_embedding_based_arabic_plagiarism_detection.pdf
Size:
2.53 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: