<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div dir="ltr"></div><div dir="ltr">While I don’t find Tom’s very broad definition of understanding to be useful (eg since it must attribute understanding to a broken clock twice a day), I do think that his second paragraph gets to the heart of the matter. If a <span style="font-family: Calibri, sans-serif; font-size: 11pt;">“system can correctly handle many questions/contexts, [yet] fails on very similar questions/contexts”, I find it hard to attribute deep understanding. This is the situation with LLMs. </span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;"><br></span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;">(I sometimes describe this kind of thing as “pointillistic”; success around some specific cloud of observed points, without the kind of uniform abstraction we might hope for).</span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;"><br></span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;">I also concur that causal models (quite possibly of a form not yet invented) might be immensely helpful in this regard. </span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;"><br></span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;">But I don’t think we should expect to find the causal models by “interpreting” LLMs. Behaviorally, they are inherently stochastic, unreliable and heavily data-bound. Their persistent challenges around distribution shift suggest that they are not deriving reliable abstractions at the a sufficiently deep grain level.</span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;"><br></span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;">Hence, in my view, the need for a new paradigm.</span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;"><br></span></div><div dir="ltr"><span style="font-family: Calibri, sans-serif; font-size: 11pt;">Gary</span></div><div dir="ltr"><br><blockquote type="cite">On Mar 21, 2023, at 07:21, Dietterich, Thomas <tgd@oregonstate.edu> wrote:<br><br></blockquote></div><blockquote type="cite"><div dir="ltr">

<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style>@font-face { font-family: Helvetica; }
@font-face { font-family: "Cambria Math"; }
@font-face { font-family: Calibri; }
@font-face { font-family: "Lucida Console"; }
p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif; }
a:link, span.MsoHyperlink { color: blue; text-decoration: underline; }
a:visited, span.MsoHyperlinkFollowed { color: purple; text-decoration: underline; }
p.msonormal0, li.msonormal0, div.msonormal0 { margin-right: 0in; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; }
span.EmailStyle20 { font-family: Calibri, sans-serif; color: windowtext; }
.MsoChpDefault { font-size: 10pt; }
@page WordSection1 { size: 8.5in 11in; margin: 1in; }
div.WordSection1 { page: WordSection1; }</style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->


<div class="WordSection1">
<p class="MsoNormal">As I have written elsewhere (<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__medium.com_-40tdietterich_what-2Ddoes-2Dit-2Dmean-2Dfor-2Da-2Dmachine-2Dto-2Dunderstand-2D555485f3ad40&d=DwMFAg&c=slrrB7dE8n7gBJbeO0g-IQ&r=wQR1NePCSj6dOGDD0r6B5Kn1fcNaTMg7tARe7TdEDqQ&m=B7gLyIjAKjLD3LN3bJmdbPcymAxGU5_PGUk0V4Gd5vobXskEY4wrRz4LAFfBB0wm&s=531_lXl0RVBkAWlO6_xaM47oQ0NEHI8gUD-g36-BUnY&e=">https://medium.com/@tdietterich/what-does-it-mean-for-a-machine-to-understand-555485f3ad40</a>), I advocate
 a purely functional definition of “understanding”. Namely, that a system “understands” something if it “does the right thing” in response. It understands a hammer if it uses the hammer in appropriate contexts; it understands a question if it provides an appropriate
 answer. <o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">However, a shortcoming of my Medium post is that it only discusses what we might call “point-wise understanding”---providing appropriate responses to individual queries. It doesn’t discuss “systematic understanding”, where the AI system
 is capable of providing appropriate responses across an entire range of queries or situations. When people complain that an AI system doesn’t “truly” understand, I think they are often saying that while the system can correctly handle many questions/contexts,
 it fails on very similar questions/contexts. Such a system can’t be trusted to produce the right behavior, in general. An attractive aspect of causal models is that they (usually) provide this kind of systematic understanding.
<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">As many readers of this list have pointed out, it is difficult to establish the extent to which a system exhibits systematic understanding. Obviously any one failure to behave correctly demonstrates a lack of systematic understanding, but
 without access to the causal structure of the system’s internal processing, it is hard to establish the range over which the system will behave systematically. Even with access to the weights of these large language models, this is challenging. I’m excited
 to see advances in experimental strategies for understanding the behavior of these nets. Here are a couple of recent papers that I like:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations,
<o:p></o:p></p>
<p class="MsoNormal">Atticus Geiger, Zhengxuan Wu, Christopher Potts, Thomas Icard, Noah D. Goodman. arxiv 2303.02536<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals.
<o:p></o:p></p>
<p class="MsoNormal">Yanai Elazar, Shauli Ravfogel, Alon Jacovi, Yoav Goldberg<o:p></o:p></p>
<p class="MsoNormal"><a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__aclanthology.org_2021.tacl-2D1.10_&d=DwQFAg&c=slrrB7dE8n7gBJbeO0g-IQ&r=wQR1NePCSj6dOGDD0r6B5Kn1fcNaTMg7tARe7TdEDqQ&m=B7gLyIjAKjLD3LN3bJmdbPcymAxGU5_PGUk0V4Gd5vobXskEY4wrRz4LAFfBB0wm&s=pu6svB0DwmOB8bozxiZMzbHov_mov6bPa_KhuJqWAVE&e=">https://aclanthology.org/2021.tacl-1.10/</a><o:p></o:p></p>
<p class="MsoNormal"><o:p></o:p></p>
<p class="MsoNormal">--Tom<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">Thomas G. Dietterich, Distinguished Professor Voice: 541-737-5559<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">School of Electrical Engineering              FAX: 541-737-1300<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">  and Computer Science                        URL: eecs.oregonstate.edu/~tgd<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">US Mail: 1148 Kelley Engineering Center
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">Office: 2067 Kelley Engineering Center<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Lucida Console"">Oregon State Univ., Corvallis, OR 97331-5501<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b>From:</b> Connectionists <connectionists-bounces@mailman.srv.cs.cmu.edu>
<b>On Behalf Of </b>Anand Ramamoorthy<br>
<b>Sent:</b> Monday, March 20, 2023 02:42<br>
<b>To:</b> connectionists@mailman.srv.cs.cmu.edu<br>
<b>Subject:</b> Re: Connectionists: Chomsky's apple<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p><span style="color:#D73F09">[This email originated from outside of OSU. Use caution with links and attachments.]</span><o:p></o:p></p>
<div>
<p><span style="color:#D73F09">[This email originated from outside of OSU. Use caution with links and attachments.]</span><o:p></o:p></p>
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Hi All,<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">                   This is an interesting/entertaining discussion. "Understanding" has always been a somewhat nebulous concept. In the late 90s, Roger Penrose held (and continues
 to hold, if I am not mistaken), that at least in terms of mathematical "understanding", such a phenomenon couldn't possibly be captured by an effective procedure. I was sympathetic to this view in my early academic life but currently believe my old self was
 likely wrong :)<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"> With advanced generative models mucking about now, "understanding" is a more contentious (and less purely academic) topic now than it may have been decades ago.
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Some things I have been thinking about recently:<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">1. We all understand things to varying degrees, and know of ways to improve said understanding. It is possible for us to understand something more precisely or deeply with
 experience or due diligence (zooming out, this reflects humanity's intellectual trajectory as a species...unless people believe there was a magical time when the ancients knew it all etc). In so far that human understanding (individual, collective and from
 a historical perspective), is a phenomenon that is marked by change, incremental as well as more dramatic  (perhaps someone has modelled this as an SOC instance a la Bak & Sneppen's model of evolution or the original BTW?), is it not reasonable to expect attempts
 to capture aspects of human intelligence in machines to have a similar characteristic? In other words, ChatGPT's "understanding" may be rudimentary as opposed to nonexistent?
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Looking at the counterexamples, I am struck by how we could do the same with humans on a range of topics/issues and demonstrate/claim understanding or the lack thereof.
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Our (mis)understandings define our brief lives.
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">2. Unless one embraces some sort of irreducibility argument I do not see why what humans can do cannot be captured by an artificial learning system.
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">3. Would it help to speak of "understanding" as not just having useful internal representations but a capacity for "representational parsimony"? This of course is intimately
 connected to generation of "insights" and getting at the causal structure of the world. <o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">4. Given 1-3 above, how do we a) define understanding ? (yeah, very original, I know!), b) diagnose it/disambiguate it from behaviours that resemble it?
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Live Long and Prosper<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">P.S: Regardless of what you make of my understanding or lack thereof, the contents of this email were generated by a human (moi) typing on a keyboard that is slightly worse
 for the wear :)<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif">Anand Ramamoorthy
<o:p></o:p></span></p>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
</div>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:12.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
</div>
<div id="ydp7d3a228byahoo_quoted_9964112995">
<div>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A">On Saturday, 18 March 2023 at 17:17:37 GMT, Kagan Tumer <<a href="mailto:kagan.tumer@oregonstate.edu">kagan.tumer@oregonstate.edu</a>> wrote:
<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><o:p> </o:p></span></p>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><br>
I'm very reluctant to use the word "understand" beyond perhaps ChatGPT <br>
understanding the structure of language (statistically). Here's an <br>
example of a ChatGPT response to a simple arithmetic operation where:<br>
<br>
1- chatGPT was wrong;<br>
2- worked out an example that showed it was wrong, but it didn't <br>
register that and double down on its wrong conclusion;<br>
3- gave a high level explanation (also wrong) of why it was right even <br>
though it was wrong.<br>
<br>
you can forgive 1, but 2 and 3 clearly show ChatGPT does not actually <br>
understand what it is saying.<br>
<br>
Kagan<br>
<br>
<br>
<br>
On 3/14/23 9:54 AM, Natsuki Oka wrote:<br>
> [This email originated from outside of OSU. Use caution with links and <br>
> attachments.]<br>
> <br>
> Judging from the responses below, ChatGPT understands counting and <br>
> sorting to the extent that it can write a correct Python program but <br>
> does not have the understanding to bring the proper execution results.<br>
> count_and_sort.png <o:p></o:p></span></p>
<div id="ydp7d3a228byqtfd72313">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><br>
> Here's the program that ChatGPT created:<br>
> ---<br>
> sentences = [<br>
>      "The quick brown fox jumps over the lazy dog",<br>
>      "Python is a popular programming language",<br>
>      "I like to eat pizza for dinner",<br>
>      "The capital of France is Paris",<br>
>      "The cat in the hat wears a red and white striped hat",<br>
>      "My favorite color is blue",<br>
>      "The United States has fifty states",<br>
>      "There are seven days in a week",<br>
>      "I enjoy listening to music while I work",<br>
>      "Mount Everest is the highest mountain in the world"<br>
> ]<br>
> <br>
> # sort the sentences by number of words<br>
> sentences.sort(key=lambda x: len(x.split()))<br>
> <br>
> # print the sorted sentences with the number of words in parentheses<br>
> for sentence in sentences:<br>
>      num_words = len(sentence.split())<br>
>      print(f"{sentence} ({num_words})")<br>
> ---<br>
> <br>
> The execution of this program yields the following correct results:<br>
> ---<br>
> My favorite color is blue (5)<br>
> Python is a popular programming language (6)<br>
> The capital of France is Paris (6)<br>
> The United States has fifty states (6)<br>
> I like to eat pizza for dinner (7)<br>
> There are seven days in a week (7)<br>
> I enjoy listening to music while I work (8)<br>
> The quick brown fox jumps over the lazy dog (9)<br>
> Mount Everest is the highest mountain in the world (9)<br>
> The cat in the hat wears a red and white striped hat (12)<br>
> ---<br>
> <br>
> Oka Natsuki<br>
> Miyazaki Sangyo-keiei University<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><br>
> <br>
<br>
<br>
-- <br>
Kagan Tumer<br>
Director, Collaborative Robotics and Intelligent Systems Institute<br>
Professor, School of MIME<br>
Oregon State University<br>
<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__nam04.safelinks.protection.outlook.com_-3Furl-3Dhttp-253A-252F-252Fengr.oregonstate.edu-252F-7Ektumer-26data-3D05-257C01-257Ctgd-2540oregonstate.edu-257C1fb6744b896148228bfd08db29330d6a-257Cce6d05e13c5e4d6287a84c4a2713c113-257C0-257C0-257C638149071462198508-257CUnknown-257CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0-253D-257C3000-257C-257C-257C-26sdata-3DW3W687w0DP9om-252F3ey4jDv-252F67sSrZ1mwQeESFGN9ajJM-253D-26reserved-3D0&d=DwMFAg&c=slrrB7dE8n7gBJbeO0g-IQ&r=wQR1NePCSj6dOGDD0r6B5Kn1fcNaTMg7tARe7TdEDqQ&m=B7gLyIjAKjLD3LN3bJmdbPcymAxGU5_PGUk0V4Gd5vobXskEY4wrRz4LAFfBB0wm&s=ln1yfMP_wJ1glGZOkPKQEKx_hWrNmQ4eZA380dJpCZ8&e=" target="_blank">http://engr.oregonstate.edu/~ktumer</a><br>
<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__nam04.safelinks.protection.outlook.com_-3Furl-3Dhttps-253A-252F-252Fkagantumer.com-252F-26data-3D05-257C01-257Ctgd-2540oregonstate.edu-257C1fb6744b896148228bfd08db29330d6a-257Cce6d05e13c5e4d6287a84c4a2713c113-257C0-257C0-257C638149071462354750-257CUnknown-257CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0-253D-257C3000-257C-257C-257C-26sdata-3D5wlMHKExXzlOmW2LrczLwdZWFyy7tM-252F-252BxjflVj-252FxqYQ-253D-26reserved-3D0&d=DwMFAg&c=slrrB7dE8n7gBJbeO0g-IQ&r=wQR1NePCSj6dOGDD0r6B5Kn1fcNaTMg7tARe7TdEDqQ&m=B7gLyIjAKjLD3LN3bJmdbPcymAxGU5_PGUk0V4Gd5vobXskEY4wrRz4LAFfBB0wm&s=dJXsxzsMu1lvNnoPmGy0FhfNmTqtmPKbr43-CW7taKA&e=" target="_blank">https://kagantumer.com</a>
<o:p></o:p></span></p>
<div id="ydp7d3a228byqtfd58820">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif;color:#26282A"><o:p> </o:p></span></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>


</div></blockquote></body></html>