GitHub - cpati/team-hvac

Dataset: Politifact/Liar-Liar dataset (https://www.politifact.com)

Description of the train TSV file format:

Political Affiliation: How much any political news is inclined towards a respective party
Sentiment Analysis: Sentiments of people can result in biasing the news
Sensationalism: Extreme sensationalism is an indication of fakeness. This derieved on the basis of Setiments
Stance detection: Many versions of the same news are published in several traditional and new media. The language of these articles vary from supporting or denying a claim
Spam Detection: Spam or Ham are untrue articles/texts made viral in order to deceive masses
Spelling Error: More spelling errors mean news from unreliable sources

Fakeness = 0.9 * (Sensationalism) + 0.85 * (Political Affiliation) + 0.65 * (Spam Detection) + 0.75 * (Stance Detection) + 0.8 * (Spelling Error)

Names	Contributions
Vidhi Sharma	Sentiment Analysis, Sensationalism
Himangini Agrawal	Spam Detection, Stance Detection (Complex feature - distilling with domain ranking)
Chidananda Pati	Spelling Error, Political Affiliation

Techniques and algorithms used:

Data Enrichment:
- SMS Spam Collection Dataset from Kaggle
- fnc-1 dataset from fakenewschallenge.org
- UCI-News-Aggregator from Kaggle
Techniques: Topic Modelling, Spam Detection, Stance Detection
Algorithms: Bag of Words, TF-IDF, LDA, SVM, Doc2Vec, Cosine Similarity

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
distillation		distillation
liar-liar_dataset		liar-liar_dataset
README.md		README.md

Provide feedback