<div dir="ltr">Sharing Szymon's insights as they have a broader appeal I think.<div><br></div><div>Also, the paper confirms our much earlier observation that AI benchmarks do not measure up to the models they are supposed to assess.</div><div>That's why we have invested time and effort to develop benchmarking *frameworks* that would let us dynamically generate new benchmarks</div><div>that would hopefully be able to stay ahead of the capabilities of the AI technology as it continues to evolve. </div><div>Basically, putting the horses in front of the carriage again. Big thanks to TimeSeriesGym and TimeSeriesExamAgent teams </div><div>for spearheading these efforts here at the Auton Lab! </div><div><br></div><div>Cheers,</div><div>Artur</div><div><br></div><div>PS It is hard to blame an AI model for accomplishing their tasks with whatever we give them.</div><div>It was always the case in ML that we should be careful about how we (or our AI agents these days) test the models properly, </div><div>to make sure they are doing their things in the ways we expect them to do.</div><div><br><div class="gmail_quote gmail_quote_container"><div dir="ltr" class="gmail_attr">---------- Forwarded message ---------<br>From: <strong class="gmail_sendername" dir="auto">Szymon Rusiecki</strong> <span dir="auto"><<a href="mailto:srusieck@andrew.cmu.edu">srusieck@andrew.cmu.edu</a>></span><br>Date: Fri, Apr 3, 2026 at 9:57 AM<br>Subject: Re: If you do multimodal or vision AI you should check this out<br>To: Artur Dubrawski <<a href="mailto:awd@cs.cmu.edu">awd@cs.cmu.edu</a>><br></div><br><br><div dir="auto">After reproducing methodology presented in their paper, the mirage issue occurs only for “big”</div><div dir="auto">models. The “small” ones often don’t have this issue. </div><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Apr 3, 2026 at 15:41 Szymon Rusiecki <<a href="mailto:srusieck@andrew.cmu.edu" target="_blank">srusieck@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;padding-left:1ex;border-left-color:rgb(204,204,204)"><div dir="auto">I am actually surprised as I recently broke my collarbone so I decided to test on Gemini 3 flash with OOD sample (I think Google doesn’t have an image from my iPhone and even if, the photo doesn’t have any description) with prompt “what do you see on this image?” and it responded with the same answer as my doctor. </div><div dir="auto"><br></div><div dir="auto">SR</div><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Apr 3, 2026 at 12:48 Artur Dubrawski <<a href="mailto:awd@cs.cmu.edu" target="_blank">awd@cs.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;padding-left:1ex;border-left-color:rgb(204,204,204)"><div dir="auto"><a href="https://x.com/heygurisingh/status/2039012548260082082?s=20" target="_blank">https://x.com/heygurisingh/status/2039012548260082082?s=20</a> </div>
</blockquote></div></div>
</blockquote></div></div>
</div></div></div>