🔍 Information Retrieval: Positional Index, TF-IDF, and Inverted Index

📜 Overview

This project focuses on key Information Retrieval (IR) tasks, including:

Positional Indexing – Phrase query searching using a positional index.
TF-IDF Weighting & Cosine Similarity – Calculating term weights and identifying relevant documents.
Inverted Index Construction – Indexing TED Talk descriptions for efficient retrieval.

📌 Datasets Used:

Positional Index Sample Data (Manually provided).
Document-Term Matrix (For TF-IDF calculations).
TED Talks Dataset (ted_main.csv) – Extracting and processing text descriptions.

📌 Programming Language: Python 3
📌 Libraries Used: NLTK, NumPy, pandas, math, csv

Queries Evaluated:
- "fools rush in"
- "fools rush in" AND "angels fear to tread"
Task: Identify matching documents and positions from a given positional index.
Issue Identified: The index may have inconsistencies affecting search accuracy.

Task: Compute TF-IDF weights.
Cosine Similarity: Determine the most relevant document: cos(θ) = (A • B) / (||A|| ||B||)
Goal: Rank document similarity based on weighted term importance.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Inverted Index.ipynb		Inverted Index.ipynb
Position Indices.txt		Position Indices.txt
README.md		README.md
TED_doc_index.xls		TED_doc_index.xls
TED_inverted_index.xls		TED_inverted_index.xls
TED_term_index.xls		TED_term_index.xls