Artifact-4 - Archana Sundaramoorthy

Data Challenges- AI/ML

Reflection:

-Expertise in data challenges-availability, quality, labeling, privacy, and scalability and handling noisy data to improve model reliability.

-Advocate of data-centric AI, focusing on iterative data refinement to minimize bias and ensure fairness.

-Proficient in handling imbalanced and multi-source datasets through robust integration and versioning strategies.

-Expertise in real-time data processing and designing scalable solutions using distributed systems and cloud platforms.

-Implement continuous monitoring to detect data drift and enable timely model retraining.

Values

Integrity in Data Handling – Upholding transparency, fairness, and ethical considerations throughout data collection, processing, and modeling.
Commitment to Quality – Striving for high standards in data quality management to ensure robust and trustworthy outcomes.
Continuous Learning and Adaptation – Embracing evolving AI paradigms, new tools, and innovative methodologies to stay ahead in the rapidly changing landscape of machine learning.
Collaboration and Knowledge Sharing – Engaging with teams, stakeholders, and communities to collectively enhance AI solutions and contribute to responsible technology advancement.
Scalability and Efficiency – Designing solutions that are not only effective but also sustainable, scalable, and adaptable to dynamic data environments.

References

Brekelmans, R., & van der Ploeg, M. (2021). Data-centric AI: How improving data improves AI models. AI Journal, 12(3), 45–57. https://doi.org/10.1016/j.aij.2021.03.004

García, V., Mollineda, R. A., & Sánchez, J. S. (2012). On the effectiveness of preprocessing methods when dealing with different levels of class imbalance. Knowledge-Based Systems, 25(1), 13–21. https://doi.org/10.1016/j.knosys.2011.06.013

Data Challenges -Chatbot Scenarios

Chatbot link for real time scenario based questions: https://student.schoolai.com/s...

Scenario 1: Handling Missing Data in House Price Prediction

Key Strategies Implemented:

Assessment of Missingness: Classified data as MCAR, MAR, or MNAR to decide handling strategies. Used Mean/median/mode imputation.
Model Consideration: Leveraged algorithms like XGBoost that handle missing data internally.

Outcome: Preserved data integrity and predictive power while minimizing bias.

Scenario 2 : Addressing Noisy Data in Image Classification
Key Strategies Implemented:

Data Cleaning: Removal of irrelevant images, filtering low-quality samples, and correcting mislabeled data.

Noise-Robust Techniques: Regularization, robust loss functions (label smoothing, focal loss), and Noisy Student Training.

Data Augmentation: Used controlled augmentations to increase robustness.

Advanced Labeling Approaches: Model-assisted relabeling, crowdsourcing with quality control, consensus labeling, and active learning.

Outcome: Improved model resilience and accuracy by combining cleaning, robust training, and validation strategies.

Scenario 3: Fraud Detection with Imbalanced Financial Data
Key Strategies Implemented:

Data-Level Techniques: SMOTE, ADASYN, hybrid sampling, and cluster-based under sampling.

Algorithmic Techniques: Class weight adjustments, anomaly detection models (Isolation Forest, One-Class SVM).

Evaluation Metrics: Precision, Recall, F1-score, ROC-AUC, PR-AUC.

Practical Implementation:

-Built automated pipelines with stratified sampling, threshold tuning, and ensemble models.

-Monitored post-deployment performance with live data and feedback loops.

Outcome: Balanced detection accuracy while controlling false positives.