SMILES
| SMILES | |
|---|---|
| นามสกุลไฟล์ |
.smi |
| ชนิดสื่ออินเทอร์เน็ต | chemical/x-daylight-smiles |
| ประเภทของรูปแบบ | chemical file format |

ระบบการป้อนข้อมูลโมเลกุลแบบง่าย (Simplified Molecular Input Line Entry System; SMILES) เป็นข้อกำหนดในรูปแบบ สัญกรณ์บรรทัด (line notation) สำหรับอธิบายโครงสร้างของชนิดสารเคมีโดยใช้สายอักขระ ASCII สั้น ๆ โดยโปรแกรมแก้ไขโมเลกุลส่วนใหญ่สามารถนำเข้าสายอักขระ SMILES ส่วนใหญ่เพื่อแปลงกลับเป็นภาพวาดสองมิติ หรือแบบจำลองสามมิติของโมเลกุลได้
ข้อกำหนด SMILES ดั้งเดิมเริ่มต้นขึ้นในช่วงทศวรรษ 1980 และได้รับการปรับปรุงและขยายเพิ่มเติมเรื่อยมา ในปี 2007 ได้มีการพัฒนามาตรฐานเปิดที่เรียกว่า OpenSMILES ในชุมชนเคมีโอเพนซอร์ส เพื่อปรับรูปแบบของสัญกรณ์ที่มีความแตกต่างกัน (Dialects) ให้มีความเป็นเอกภาพและเป็นมาตรฐานเดียวกัน[1]
ประวัติศาสตร์
[แก้ไขต้นฉบับ]จุดเริ่มต้นของ SMILES ดั้งเดิมริเริ่มโดย David Weininger ณ ห้องปฏิบัติการแผนกนิเวศวิทยาภาคกลางของ USEPA ในเมืองดุลูท ช่วงทศวรรษ 1980[2][3][4][5] โดยมีผู้มีส่วนร่วมในการพัฒนายุคแรกที่ได้รับการยกย่อง ได้แก่ "Gilman Veith และ Rose Russo (USEPA) และ Albert Leo และ Corwin Hansch (Pomona College) ในฐานะผู้สนับสนุนงานวิจัย และ Arthur Weininger (Pomona; Daylight CIS) และ Jeremy Scofield (Cedar River Software, Renton, WA) สำหรับความช่วยเหลือในการเขียนโปรแกรมระบบ"[6] สำนักงานคุ้มครองสิ่งแวดล้อมสหรัฐให้ทุนสนับสนุนโครงการเริ่มต้นในการพัฒนา SMILES [7] [8]
ต่อมา SMILES ได้รับการพัฒนาต่อยอดโดยองค์กรอื่น ๆ โดยเฉพาะอย่างยิ่งโดย Daylight Chemical Information Systems ในปี 2007 ชุมชนเคมีโอเพนซอร์ส Blue Obelisk ได้พัฒนามาตรฐาน "OpenSMILES" ขึ้นมา นอกจากนี้ยังมีสัญกรณ์เชิงเส้นอื่นๆ ได้แก่ Wiswesser Line Notation (WLN), ROSDAL และ SLN (Tripos Inc)
ในเดือนกรกฎาคม 2006 IUPAC ได้เปิดตัว InChI มาใช้เป็นมาตรฐานสำหรับการแสดงสูตรทางเคมี โดย SMILES มีข้อดีคืออ่านด้วยตาเปล่าง่ายกว่า InChI อีกทั้งยังได้รับการสนับสนุนจากซอฟต์แวร์อย่างกว้างขวางและมีพื้นฐานทางทฤษฎีที่ครอบคลุม (เช่น ทฤษฎีกราฟ)
คำจำกัดความตามกราฟ
[แก้ไขต้นฉบับ]ในแง่ของกระบวนการคำนวณแบบกราฟ SMILES คือสายอักขระที่ได้จากการพิมพ์ปมสัญลักษณ์ (symbol nodes) ที่พบในการแวะผ่านต้นไม้ในแนวลึกของกราฟเคมี กราฟเคมีจะถูกตัดแต่งก่อนเพื่อกำจัดอะตอมไฮโดรเจนและทำลายวงจรเพื่อเปลี่ยนให้เป็นต้นไม้แบบทอดข้าม (spanning tree) จุดที่วงจรถูกทำลายจะมีการเพิ่มป้ายกำกับตัวเลขต่อท้ายเพื่อระบุปมที่เชื่อมต่อกัน วงเล็บใช้เพื่อระบุจุดแตกแขนงบนต้นไม้
ผล SMILES ที่ได้จะขึ้นอยู่กับตัวเลือกต่าง ๆ ดังนี้:
- พันธะที่ถูกเลือกเพื่อตัดวงจร
- อะตอมเริ่มต้นที่ใช้สำหรับการสำรวจแบบค้นหาเชิงลึก และ
- ลำดับที่สาขาต่าง ๆ ถูกระบุไว้เมื่อพบเจอ
นิยามของ SMILES คือสตริงของภาษาไม่พึ่งบริบท
[แก้ไขต้นฉบับ]จากมุมมองของทฤษฎีภาษาเชิงรูปธรรม SMILES เป็นคำ คำ SMILES สามารถแยกวิเคราะห์ได้ด้วยตัวแยกวิเคราะห์แบบไม่พึ่งบริบท การใช้การแสดงแทนนี้ถูกนำมาใช้ในการทำนายคุณสมบัติทางชีวเคมี (รวมถึงความเป็นพิษและการย่อยสลายได้ทางชีวภาพ) โดยอาศัยหลักการสำคัญของเคมีสารสนเทศที่ว่าโมเลกุลที่คล้ายกันจะมีคุณสมบัติที่คล้ายกัน แบบจำลองการทำนายใช้แนวทางการจดจำรูปแบบทางไวยากรณ์ (ซึ่งเกี่ยวข้องกับการกำหนดระยะห่างของโมเลกุล)[9] เช่นเดียวกับแผนการที่แข็งแกร่งกว่าโดยอาศัยการจดจำรูปแบบทางสถิติ[10]
คำอธิบาย
[แก้ไขต้นฉบับ]อะตอม
[แก้ไขต้นฉบับ]อะตอมจะถูกแทนด้วยตัวย่อมาตรฐานของธาตุเคมีในวงเล็บเหลี่ยม เช่น [Au] สำหรับทองคำ โดยอาจละวงเล็บเหลี่ยมได้ในกรณีที่อะตอมนั้นเข้าเงื่อนไขครบทุกข้อ ดังนี้:
- อยู่ใน "กลุ่มย่อยอินทรีย์" ได้แก่ B, C, N, O, P, S, F, Cl, Br หรือ I และ
- ไม่มีประจุตามสูตร (formal charge) และ
- มีจำนวนไฮโดรเจนที่เชื่อมต่อตามที่แบบจำลองวาเลนซ์ SMILES ระบุ (โดยทั่วไปจะเป็นวาเลนซ์ปกติ แต่สำหรับ N และ P จะเป็น 3 หรือ 5 และสำหรับ S จะเป็น 2, 4 หรือ 6) และ
- เป็นไอโซโทปปกติ และ
- ไม่ใช่ศูนย์กลางไครัล (chiral centers)
ธาตุอื่น ๆ ที่อยู่นอกเหนือจากเงื่อนไขนี้ต้องเขียนไว้ในวงเล็บเหลี่ยมเสมอ พร้อมทั้งระบุประจุและจำนวนไฮโดรเจนให้ชัดเจน ตัวอย่างเช่น SMILES สำหรับโมเลกุลน้ำสามารถเขียนได้ทั้ง O และ [OH2] นอกจากนี้ ไฮโดรเจนเขียนเป็นอะตอมแยกต่างหากก็ได้ เช่น [H]O[H]
เมื่อใช้วงเล็บ ให้เติม H ถ้าอะตอมนั้นมีไฮโดรเจนสร้างพันธะอยู่ด้วย และตามด้วยจำนวนไฮโดรเจนหากมีมากกว่า 1 อะตอม ตามด้วย + สำหรับประจุบวก หรือ - สำหรับประจุลบ ตัวอย่างเช่น [NH4+] คือแอมโมเนียม (NH+
4) หากมีประจุมากกว่าหนึ่งให้ใช้ตัวเลขระบุจำนวนประจุ หรือเขียนเครื่องหมายซ้ำตามจำนวนประจุของไอออนนั้นก็ได้ เช่น ไทเทเนียม(IV) Ti4+ เขียนได้ทั้ง [Ti+4] และ [Ti++++] ดังนั้น ไอออนไฮดรอกไซด์ (OH-) คือ [OH-], แคตไอออนไฮโดรเนียม (H3O+) คือ [OH3+] และแคตไอออนโคบอลต์(III) (Co3+) เป็น [Co+3] หรือ [Co+++]
พันธะ
[แก้ไขต้นฉบับ]สัญลักษณ์ของพันธะในระบบ SMILES ได้แก่ . - = # $ : / \
พันธะระหว่างอะตอมอะลิฟาติก จะถือว่าเป็นพันธะเดี่ยวโดยปริยาย เว้นแต่จะระบุไว้เป็นอย่างอื่น และจะบ่งบอกโดยนัยจากความติดกันในสายอักขระ SMILES แม้ว่าจะสามารถใช้สัญลักษณ์ - แทนพันธะเดี่ยวได้ แต่โดยทั่วไปมักจะละไว้ ตัวอย่างเช่น เอทานอล เขียนได้ทั้ง CCO, CC-O หรือ C-CO แต่โดยทั่วไปจะเขียนเป็น CCO
พันธะคู่ พันธะสาม และพันธะสี่ จะถูกแทนด้วยสัญลักษณ์ =, # และ $ ตามลำดับ ดังตัวอย่าง O=C=O (คาร์บอนไดออกไซด์ CO2), C#N (ไฮโดรเจนไซยาไนด์ HCN) และ [Ga+]$[As-] (แกลเลียมอาร์เซไนด์)
ถ้า "ไม่มีพันธะ" (non-bond) จะใช้ . เพื่อแสดงว่าส่วนประกอบสองส่วนนั้นไม่ได้สร้างพันธะต่อกัน ตัวอย่างเช่น สารละลายโซเดียมคลอไรด์ อาจเขียนได้เป็น [Na+].[Cl-] เพื่อแสดงการแยกกันของไอออน
พันธะอะโรมาติก "หนึ่งครึ่ง" ระบุด้วย : ; ดู § ความเป็นอะโรมาติก ตามด้านล่าง
พันธะเดี่ยวที่อยู่ติดกับพันธะคู่สามารถใช้ / หรือ \ เพื่อระบุโครงสร้างเชิงสเตอริโอเคมีได้ ดู § สเตอริโอเคมี
วงแหวน
[แก้ไขต้นฉบับ]โครงสร้างวงแหวนเขียนโดยการตัดแบ่งวงแหวน ณ จุดใดจุดหนึ่ง (ซึ่งการเลือกจุดตัดต่างกันจะส่งผลต่อความง่ายในการอ่าน) เพื่อสร้างโครงสร้างที่ไม่มีวงแหวน จากนั้นจึงเพิ่มตัวเลขกำกับจุดปิดวงแหวน เพื่อแสดงการเชื่อมต่อระหว่างอะตอมที่ไม่ได้อยู่ติดกันในสายอักขระ
ตัวอย่างเช่น ไซโคลเฮกเซน (cyclohexane) และ (<i id="mw4w">p-</i>)ไดออกเซน ((p-)dioxane) อาจเขียนได้เป็น C1CCCCC1 และ O1CCOCC1 ตามลำดับ หากมีวงแหวนที่สอง ให้ใช้ตัวเลข 2 เช่น เดคาลิน (decalin; เดคาไฮโดรแนฟทาลีน) อาจเขียนได้เป็น C1CCCC2C1CCCC2
ระบบ SMILES ไม่บังคับลำดับของตัวเลข และอนุญาตให้เริ่มจากเลข 0 ได้ (ไม่นิยม) นอกจากนี้ยังอนุญาตให้ใช้ตัวเลขซ้ำได้เมื่อวงแหวนก่อนหน้าปิดสมบูรณ์แล้ว แม้จะทำให้สัญกรณ์อ่านยากขึ้นก็ตาม เช่น เช่น ไบไซโคลเฮกซิล (bicyclohexyl) นิยมเขียนเป็น C1CCCCC1C2CCCCC2 แต่ก็เขียนเป็น C0CCCCC0C0CCCCC0 ได้เช่นกัน
ตัวเลขหลายหลักหลังอะตอมหมายถึงอะตอมนั้นเป็นจุดเชื่อมต่อของหลายวงแหวน เช่น เดคาลินสามารถเขียนอีกแบบได้ว่า C1CCCC2CCCCC12 ซึ่งคาร์บอนตัวสุดท้ายทำหน้าที่ปิดทั้งวงแหวนที่ 1 และ 2 ในกรณีที่วงแหวนมีจำนวนมากจนต้องใช้เลขสองหลัก ให้ ใช้ % นำหน้า เช่น C%12 หมายถึงจุดปิดของวงแหวนลำดับที่ 12
สามารถระบุประเภทพันธะไว้หน้าตัวเลขปิดวงแหวนได้ ตัวอย่างเช่น ไซโคลโพรพีน มักเขียนว่า C1=CC1 แตแต่ถ้าเลือกจุดตัดที่พันธะคู่ จะเขียนเป็น C=1CC1, C1CC=1 หรือ C=1CC=1 ก็ได้ (นิยมรูปแบบแรก) แต่ C=1CC-1 ไม่ถูกต้อง เนื่องจากประเภทพันธะขัดแย้งกัน
พันธะปิดวงแหวนไม่สามารถใช้แทนพันธะหลายพันธะ เช่น C1C1 ไม่สามารถใช้แทน C=C (เอทิลีน) ได้ แต่ใช้กับที่ไม่มีพันธะได้ เช่น C1.C2.C12 เป็นวิธีการเขียนโพรเพนแบบที่ถูกต้องตามหลักการแต่ไม่นิยม ปกติเขียนว่า CCC
การเลือกจุดแตกวงแหวนที่อยู่ติดกับหมู่ที่เชื่อมต่ออยู่ จะทำให้ได้รูปแบบ SMILES ที่เรียบง่ายกว่า โดยหลีกเลี่ยงการแตกแขนง ตัวอย่างเช่น ไซโคลเฮกเซน-1,2-ไดออล (cyclohexane-1,2-diol) เขียนได้ง่ายที่สุดในรูป OC1CCCCC1O หากเลือกจุดตัดอื่นอาจทำให้ต้องเขียนกิ่งก้านซับซ้อนขึ้น
ความเป็นอะโรมาติก
[แก้ไขต้นฉบับ]วงแหวนอะโรมาติก เช่น เบนซีน สามารถเขียนได้ใน 3 รูปแบบดังนี้:
- รูปแบบเคคูเล่ (Kekulé form) มีพันธะเดี่ยวและพันธะคู่สลับกัน เช่น
C1=CC=CC=C1 - โดยใช้สัญลักษณ์พันธะอะโรมาติก
:เช่นC1:C:C:C:C:C1หรือ - ที่พบบ่อยที่สุดคือ เขียนอะตอมที่เป็นส่วนประกอบ ได้แก่ B, C, N, O, P และ S ด้วยตัวพิมพ์เล็ก คือ
b,c,n,o,pและsตามลำดับ
ในกรณีตัวพิมพ์เล็ก พันธะระหว่างอะตอมอะโรมาติกสองอะตอมจะถือว่าเป็นพันธะอะโรมาติก (หากไม่ได้แสดงไว้อย่างชัดเจน) ดังนั้น เบนซีน (benzene) ไพริดีน (pyridine) และ ฟิวแรน (furan) เขียนด้วย SMILES ดังนี้: c1ccccc1, n1ccccc1 และ o1cccc1
ไนโตรเจนอะโรมาติกที่สร้างพันธะกับไฮโดรเจน ดังที่พบในไพร์โรล (pyrrole) จะต้องแสดงเป็น [nH] ดังนั้น อิมิดาโซล จึงเขียนในสัญกรณ์ SMILES เป็น n1c[nH]cc1
เมื่ออะตอมอะโรมาติกเชื่อมต่อกันด้วยพันธะเดี่ยว เช่นใน ไบฟีนิล (biphenyl) ต้องระบุพันธะเดี่ยวให้ชัดเจน: c1ccccc1-c2ccccc2 นี่เป็นหนึ่งในไม่กี่กรณีที่ต้องใช้สัญลักษณ์พันธะเดี่ยว - (อันที่จริง ซอฟต์แวร์ SMILES ส่วนใหญ่สามารถอนุมานได้ว่าพันธะระหว่างวงแหวนทั้งสองไมเป็นอะโรมาติก จึงยอมรับรูปแบบที่ไม่เป็นมาตรฐานอย่าง c1ccccc1c2ccccc2 ได้)
อัลกอริทึม Daylight และ OpenEye ที่ใช้ในการสร้าง SMILES แบบบัญญัติ (Canonical SMILES) มีวิธีการคำนวณและนิยามความเป็นอะโรมาติกที่แตกต่างกันเล็กน้อยในรายละเอียดเชิงเทคนิค

COc(c1)cccc1C#Nการแตกกิ่ง
[แก้ไขต้นฉบับ]กิ่งจะถูกอธิบายด้วยวงเล็บ เช่น CCC(=O)O คือกรดโพรพิโอนิก (propionic acid) และ FC(F)F คือฟลูออโรฟอร์ม (fluoroform) อะตอมแรกในวงเล็บและอะตอมแรกหลังปิดวงเล็บจะเชื่อมต่อกับอะตอมจุดแตกกิ่งตัวเดียวกัน สัญลักษณ์พันธะต้องอยู่ในวงเล็บ เช่น CCC(=O)O ถูกต้อง ส่วน CCC=(O)O ไม่ถูกต้อง
วงแหวนที่มีการแทนที่ เขียนโดยใช้จุดแตกแขนงในวงแหวน ซึ่งช่วยให้มนุษย์อ่านโครงสร้างได้ง่ายขึ้น เช่น COc(c1)cccc1C#N (ดูภาพประกอบ) และ COc(cc1)ccc1C#N (ดูภาพประกอบ) ซึ่งแทนไอโซเมอร์ของ 3 และ 4-cyanoanisole
กิ่งสามารถเขียนเรียงลำดับอย่างไรก็ได้ เช่น โบรโมคลอโรไดฟลูออโรมีเทน (bromochlorodifluoromethane) เขียนได้หลายแบบ เช่น FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Br โดยทั่วไปแล้ว รูปแบบ SMILES จะอ่านง่ายที่สุดหากกิ่งที่เรียบง่ายกว่าอยู่ก่อน และส่วนสุดท้ายที่ไม่อยู่ในวงเล็บจะเป็นส่วนที่ซับซ้อนที่สุด ข้อควรระวังเพียงอย่างเดียวสำหรับการจัดเรียงใหม่ดังกล่าวคือ:
- หากมีการนำหมายเลขแหวนกลับมาใช้ใหม่ จะต้องจับคู่ตามลำดับการปรากฏในชุดหมายเลขแหวน SMILES อาจต้องมีการปรับเปลี่ยนบางอย่างเพื่อให้การจับคู่ยังคงถูกต้อง
- หากมีการระบุสเตอริโอเคมี จะต้องทำการปรับเปลี่ยน ดู § สเตอริโอเคมี อยู่ด้านล่าง
รูปแบบหนึ่งของกิ่งที่ไม่ต้องใช้วงเล็บคือพันธะปิดวงแหวน เช่น: C1N ีค่าเท่ากับ C(1)N ซึ่งทั้งคู่หมายถึงมีพันธะระหว่าง C และ N การเลือกพันธะปิดวงแหวนที่อยู่ติดกับจุดแตกกิ่งสามารถลดจำนวนวงเล็บได้ ตัวอย่างเช่น โทลูอีนนิยมเขียนเป็น Cc1ccccc1 หรือ c1ccccc1C ซึ่งหลีกเลี่ยงวงเล็บแบบใน c1cc(C)ccc1 หรือ c1cc(ccc1)C
สเตอริโอเคมี
[แก้ไขต้นฉบับ]
SMILES อนุญาตใหไอโซเมอร์โครงสร้างสามมิติ (stereoisomers)ได้ แต่ไม่บังคับ
การจัดเรียงตัวรอบพันธะคู่ ใช้เครื่องหมาย / และ \ เพื่อแสดงพันธะเดี่ยวที่มีทิศทางอยู่ติดกับพันธะคู่ (ตัวอย่าง 1,2-difluoroethylene)
- แบบทรานส์ (trans):
F/C=C/F(ดูภาพประกอบ) อะตอมฟลูออรีนอยู่ฝั่งตรงข้ามกัน - แบบซิส (cis):
F/C=C\F(ดูภาพประกอบ) อะตอมฟลูออรีนอยู่ฝั่งเดียวกัน
สัญลักษณ์แสดงทิศทางพันธะมักมาเป็นกลุ่มอย่างน้อยสองสัญลักษณ์ โดยอันแรกจะเป็นตัวกำหนดทิศทางอ้างอิง เช่น F\C=C\F มีค่าเท่ากับ F/C=C/F เมื่อมีพันธะเดี่ยวสลับกับพันธะคู่ กลุ่มสัญลักษณ์จะมีขนาดใหญ่กว่าสองสัญลักษณ์ โดยสัญลักษณ์แสดงทิศทางตรงกลางจะอยู่ติดกับพันธะคู่สองพันธะ ตัวอย่างเช่น รูปแบบทั่วไปของ (2,4)-เฮกซาไดอีน เขียนว่า C/C=C/C=C/C

ตัวอย่างที่ซับซ้อนกว่านั้นคือ บีตา-แคโรทีน มีโครงสร้างหลักที่ยาวมากซึ่งประกอบด้วยพันธะเดี่ยวและพันธะคู่สลับกัน ซึ่งสามารถเขียน CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
การจัดเรียงตัวรอบอะตอมคาร์บอนทรงสี่หน้า (tetrahedral carbon) จะระบุด้วย
@(ทวนเข็มนาฬิกา): หากมองจากพันธะแรกเข้าไปหาอะตอมกลาง แล้วหมู่ที่เหลือเรียงกันแบบทวนเข็มนาฬิกา (เนื่องจากสัญลักษณ์@เวียนทวนเข็มนาฬิกา)@@(ตามเข็มนาฬิกา): หากหมู่ที่เหลือเรียงกันแบบตามเข็มนาฬิกา

ตัวอย่างเช่น กรดอะมิโนอะลานีน SMILES รูปแบบหนึ่งของมันคือ NC(C)C(=O)O ซึ่งเขียนแบบเต็มได้ว่า N[CH](C)C(=O)O
- แอล-อะลานีน (L-Alanine):
N[C@@H](C)C(=O)O(ดูภาพประกอบ) เมื่อมองจากNไปCจะเห็นหมู่ไฮโดรเจน (H) หมู่เมทิล (C) และหมู่คาร์บอกซิเลต (C(=O)O) เรียงตามเข็มนาฬิกา - ดี-อะลานีน (D-Alanine):
N[C@H](C)C(=O)O(ดูภาพประกอบ)
โดยปกติแล้วลำดับการระบุกิ่งใน SMILES จะไม่สำคัญ แต่ในกรณีนี้สำคัญ เพราะการสลับกลุ่มใดๆ สองกลุ่มจำเป็นต้องกลับตัวบ่งชี้ไคแรลลิตี หากกิ่งถูกกลับด้าน เช่น อะลานีนเขียนเป็น NC(C(=O)O)C การจัดเรียงตัวก็จะกลับด้านด้วย กล่าวคือ แอล-อะลานีนเขียนเป็น N[C@H](C(=O)O)C (ดูภาพประกอบ) วิธีการเขียนอื่นๆ ได้แก่ C[C@H](N)C(=O)O, OC(=O)[C@@H](N)C และ OC(=O)[C@H](C)N
โดยปกติ พันธะแรกจากสี่พันธะจะปรากฏอยู่ทางซ้ายของอะตอมคาร์บอน แต่ถ้าเขียน SMILES โดยเริ่มจากคาร์บอนไครัล เช่น C(C)(N)C(=O)O พันธะทั้งสี่จะอยู่ทางขวา แต่พันธะแรกที่ปรากฏ (พันธะ [CH] ในกรณีนี้) จะถูกใช้เป็นตัวอ้างอิงเพื่อเรียงลำดับพันธะสามพันธะถัดไป: L -alanine อาจเขียนได้อีกแบบ [C@@H](C)(N)C(=O)O
ข้อกำหนด SMILES มีรายละเอียดเพิ่มเติมเกี่ยวกับสัญลักษณ์ @ เพื่อระบุสเตอริโอเคมีในรูปทรงที่ซับซ้อนกว่า เช่น เรขาคณิตโมเลกุลพีระมิดคู่ฐานสามเหลี่ยม
ไอโซโทป
[แก้ไขต้นฉบับ]ไอโซโทประบุด้วยตัวเลขมวลไว้หน้าสัญลักษณ์อะตอม เช่น เบนซีนที่มีคาร์บอน-14 หนึ่งอะตอมจะเขียนเป็น [14cH]1ccccc1 และ ดิวเทอโรคลอโรฟอร์ม (deuterochloroform) จะเขียนว่า [2H]C(Cl)(Cl)Cl
ตัวอย่าง
[แก้ไขต้นฉบับ]| โมเลกุล | โครงสร้าง | สูตร SMILES |
|---|---|---|
| ไดไนโตรเจน | N≡N | N#N |
| เมธิล ไอโซไซยาเนต (MIC) | CN=C=O | |
| จุนสี | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-] |
| วานิลลิน | O=Cc1ccc(O)c(OC)c1COc1cc(C=O)ccc1O | |
| เมลาโทนิน (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2CC(=O)NCCc1c[nH]c2ccc(OC)cc12 | |
| ฟลาโวเพเรอิริน Flavopereirin (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1 | |
| นิโคติน (C10H14N2) | CN1CCC[C@H]1c2cccnc2 | |
| โอเอนันโทท็อกซินOenanthotoxin (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\COCCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO | |
| ไพรีธริน II Pyrethrin II (C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C | |
| อะฟลาทอกซิน B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
| กลูโคส (β-D-glucopyranose) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1 | |
| เบอร์เกนิน Bergenin (cuscutin, ยางไม้) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
| ฟีโรโมนของแมลงเกล็ด (scale insect) แคลิฟอร์เนีย | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
| (2S,5R)-Chalcogran: ฟีโรโมนของ ด้วงเจาะเปลือกไม้สน Pityogenes chalcographus[11] | CC[C@H](O1)CC[C@@]12CCCO2 | |
| แอลฟา-ธูโจน α-Thujone (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
| ไทอามีน (วิตามิน B1, C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N |
อ้างอิง
[แก้ไขต้นฉบับ]- ↑ "OpenSMILES specification version 1.0". opensmiles.org (ภาษาอังกฤษ). 2016-05-15.
- ↑ Weininger D (February 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Computer Sciences. 28 (1): 31–6. doi:10.1021/ci00057a005.
- ↑ Weininger D, Weininger A, Weininger JL (May 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling. 29 (2): 97–101. doi:10.1021/ci00062a008.
- ↑ Weininger D (August 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling. 30 (3): 237–43. doi:10.1021/ci00067a005.
- ↑ Swanson RP (2004). "The Entrance of Informatics into Combinatorial Chemistry" (PDF). ใน Rayward WB, Bowden ME (บ.ก.). The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation. Medford, NJ: Information Today. p. 205. ISBN 978-1-57387-229-4.
- ↑ "Acknowledgements on Daylight Tutorial smiles-etc page". 1998. สืบค้นเมื่อ 24 June 2013.
- ↑ Anderson E, Veith GD, Weininger D (1987). SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.
- ↑ "SMILES Tutorial: What is SMILES?". U.S. EPA. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 28 March 2008. สืบค้นเมื่อ 2012-09-23.
- ↑ Sidorova J, Anisimova M (August 2014). "NLP-inspired structural pattern recognition in chemical application". Pattern Recognition Letters. 45: 11–16. Bibcode:2014PaReL..45...11S. doi:10.1016/j.patrec.2014.02.012.
- ↑ Sidorova J, Garcia J (November 2015). "Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences". Pattern Recognition. 48 (11): 3749–3756. Bibcode:2015PatRe..48.3749S. doi:10.1016/j.patcog.2015.05.001.
{{cite journal}}:|hdl-access=ต้องการ|hdl=(help) - ↑ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay". Journal of Chemical Ecology. 16 (3): 861–876. Bibcode:1990JCEco..16..861B. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
