AI-Powered Content Generation and RAG

A full-stack TypeScript application demonstrating modern AI techniques including RAG (Retrieval Augmented Generation), fine-tuning, agents, and LLM observability with automated web scraping capabilities.

Features

Multi-Agent System: 2 specialized agents for different content types:
- LinkedIn Agent: Uses a fine-tuned GPT-4 model for professional content to post on LinkedIn
- RAG Agent: Leverages Pinecone vector database for RAG-based content analysis
Web Scraping:
- Extraction of articles from multiple sources
- Bias detection and content structuring
- Direct vectorization and storage in Pinecone database
Training Pipeline:
- Scripts for fine-tuning data preparation
- Cost estimation tools
- Training job management
Observability:
- Integration with Helicone for LLM monitoring
- Performance tracking
- Usage analytics

Tech Stack

Frontend: Next.js, TypeScript, TailwindCSS
Backend: Next.js API Routes
AI/ML: OpenAI API, Pinecone Vector Database
Web Scraping: Puppeteer
Monitoring: Helicone
Package Manager: Yarn

Learning Objectives

This repository serves as a practical guide for you to learn:

RAG Implementation
- Vector database integration with Pinecone
- Semantic search capabilities
- Automated web scraping
- Context-aware responses using retrieved content
Fine-tuning
- Data preparation
- Model training
- Cost optimization
Agent Architecture
- Specialized agent design
- Response handling
- Agent response format
Web Scraping & Data Pipeline
- Intelligent content extraction
- Automated bias detection
- Content vectorization and storage
LLM Observability
- Performance monitoring
- Usage tracking
- Cost management
News Article Scraping & Vectorization
- The application uses Puppeteer to automatically scrape news articles from configured sources
- Articles are processed to extract content
- Scraped content is automatically vectorized using OpenAI embeddings and stored in Pinecone
Manual Article Upload
- Navigate to /scrape-content to manually scrape urls
- Content is automatically vectorized and added to the Pinecone database

Project Structure

mini-rag/
├── app/
│   ├── api/              # API routes
│   ├── libs/             # Shared utilities
│   ├── scripts/          # Training and data scripts
│   └── page.tsx          # Main application

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
.cursorrules		.cursorrules
.husky		.husky
.vscode		.vscode
app		app
public		public
.gitignore		.gitignore
.nvmrc		.nvmrc
README.md		README.md
embeddings-cache.json		embeddings-cache.json
eslint.config.mjs		eslint.config.mjs
jest.config.js		jest.config.js
next.config.ts		next.config.ts
package.json		package.json
postcss.config.js		postcss.config.js
postcss.config.mjs		postcss.config.mjs
tailwind.config.ts		tailwind.config.ts
tsconfig.json		tsconfig.json
yarn.lock		yarn.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AI-Powered Content Generation and RAG

Features

Tech Stack

Learning Objectives

Project Structure

Resources

About

Uh oh!

Releases

Packages

Languages

projectshft/mini-rag

Folders and files

Latest commit

History

Repository files navigation

AI-Powered Content Generation and RAG

Features

Tech Stack

Learning Objectives

Project Structure

Resources

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages